什么是可抓取性?

技术教程 2025年11月28日

3.03 0 19

在搜索引擎中排名需要具有完美的技术 SEO 和出色的相关内容的网站.幸运的是，Yoast SEO 插件会处理(几乎)您 WordPress 网站上的所有内容.尽管如此，如果您真的想充分利用您的网站并在竞争中保持领先地位，那么一些基本的 SEO 技术知识是必须的.在这篇博文中，我们将解释技术 SEO 中最重要的概念之一:可抓取性.

又是什么爬虫?

像 Google 这样的搜索引擎由爬虫、索引和算法组成.爬虫跟踪链接.当 Google 的抓取工具(也称为 Googlebot)找到您的网站时，它会呈现、读取它并将内容保存在索引中.

爬虫跟踪网络上的链接.爬虫也称为机器人、机器人或蜘蛛.它 24/7 全天候在互联网上运行.一旦涉及到一个网站，它就会将 HTML 版本保存在一个称为索引的巨大数据库中.每次爬网程序访问您的网站并找到它的新版本或修订版本时，都会更新此索引.根据 Google 对您网站的重视程度以及您对网站所做更改的数量，抓取工具或多或少地出现.

什么是可抓取性?

可抓取性与 Google 抓取您网站的可能性有关.您可以阻止您网站上的爬虫.有几种方法可以阻止您网站上的爬虫.如果您的网站或网站上的某个页面被屏蔽，您就是在对 Google 的抓取工具说:"不要来这里."在大多数情况下，您的网站或相应页面不会出现在搜索结果中.

有几件事情可能会阻止 Google 抓取(或编入索引)您的网站:

如果您的 robots.txt 文件阻止了抓取工具，Google 将不会访问您的网站或特定网页.

在抓取您的网站之前，抓取工具会查看您网页的 HTTP 标头.此 HTTP 标头包含状态代码.如果此状态代码表示某个页面不存在，Google 将不会抓取您的网站.在我们的 SEO 技术培训的关于 HTTP 标头的模块中，我们将告诉您所有相关信息.

如果机器人元标记开启特定页面阻止搜索引擎将该页面编入索引，Google 将抓取该页面，但不会将其添加到其索引中.

此流程图可能会帮助您了解机器人在尝试为页面编制索引时遵循的流程:

想全面了解可抓取性吗?

尽管可抓取性只是技术 SEO 的基础知识(它与使 Google 能够为您的网站编制索引的所有事情有关)，但对于大多数人来说，它已经是非常高级的东西.尽管如此，如果您正在阻止 – 甚至可能不知道！ – 来自您网站的爬虫，您在 Google 中的排名永远不会很高.因此，如果您认真对待 SEO，这对您来说应该很重要.

seo(43)抓取(2)爬虫(1)