什么是robots.txt文件?

创建网站时,您将很有可能希望它位于谷歌或其他搜索引擎上。幸运的是,他们有自己的机器人或"爬行"这将互联网冲刷到索引网站。这些机器人可以通过文本文件与您的网站交互。这将是 robots.txt 文件。此文件包含要遵循您网站访问网站的规则。这通常可以是一件好事,但如果设置错误,也可能是您的评分糟糕的事情。

robots.txt文件是什么样的?

以下是此文件对您所示的一些不同示例。

允许所有机器人完全访问

用户代理:*禁止:

阻止所有访问机器人

用户代理:*禁止:/

将爬行延迟设置为10秒

用户代理:*爬网延迟:10

通过设置10秒的爬网延迟,您将限制这些搜索引擎来索引您的网站。如果您有一个具有限量资源的VPS,并且您的页面未得到优化以处理Web流量的突然尖峰,则可以考虑升级云VPS服务器以具有更多资源并添加爬网延迟

那些只是robots.txt文件的一对非常一般的模板。您可以使用它来阻止访问单个文件夹,甚至可以仅为一个文件如果需要。robots.txt文件中的每个条目都将有一个用户代理字段,其中包含它旁边的东西。星号表示通配符,它将适用于所有人。如果要为特定机器人设置它,则会将其放在此字段中。在指定新的一个用户代理之前,任何行将适用于该用户代理。例如,在下面的文件中,对于Google,它将阻止站点上的/ TMP文件夹,但对于所有其他机器人,将允许所有文件夹(包括/ TMP文件夹)。

用户代理:GoogleBot禁止:/ TMP /用户 - 代理:*禁止:

如您所见,您可以使用它来防止索引私有文件或甚至不必要的目录中的机器人。虽然记住互联网上存在的机器人,但各种资源都可以找到那些。

robots.txt有很多东西可以影响网站的爬虫,但防止访问是最常见的。其他选项包括爬网延迟选项。您可以使用此选项来在网站上爬网之间进行机器人延迟。

如果您有任何疑问或希望帮助,请通过实时聊天或提交与我们的技术支持团队提交机票联系我们。

4

发表回复