什么是robots.txt文件？

技术教程 2025年6月1日

1674 0 4

创建网站时，您将很有可能希望它位于谷歌或其他搜索引擎上。幸运的是，他们有自己的机器人或"爬行"这将互联网冲刷到索引网站。这些机器人可以通过文本文件与您的网站交互。这将是 robots.txt 文件。此文件包含要遵循您网站访问网站的规则。这通常可以是一件好事，但如果设置错误，也可能是您的评分糟糕的事情。

robots.txt文件是什么样的？

以下是此文件对您所示的一些不同示例。

允许所有机器人完全访问

用户代理：*禁止：

阻止所有访问机器人

用户代理：*禁止：/

将爬行延迟设置为10秒

用户代理：*爬网延迟：10

通过设置10秒的爬网延迟，您将限制这些搜索引擎来索引您的网站。如果您有一个具有限量资源的VPS，并且您的页面未得到优化以处理Web流量的突然尖峰，则可以考虑升级云VPS服务器以具有更多资源并添加爬网延迟

那些只是robots.txt文件的一对非常一般的模板。您可以使用它来阻止访问单个文件夹，甚至可以仅为一个文件如果需要。robots.txt文件中的每个条目都将有一个用户代理字段，其中包含它旁边的东西。星号表示通配符，它将适用于所有人。如果要为特定机器人设置它，则会将其放在此字段中。在指定新的一个用户代理之前，任何行将适用于该用户代理。例如，在下面的文件中，对于Google，它将阻止站点上的/ TMP文件夹，但对于所有其他机器人，将允许所有文件夹（包括/ TMP文件夹）。

用户代理：GoogleBot禁止：/ TMP /用户 - 代理：*禁止：

如您所见，您可以使用它来防止索引私有文件或甚至不必要的目录中的机器人。虽然记住互联网上存在的机器人，但各种资源都可以找到那些。

robots.txt有很多东西可以影响网站的爬虫，但防止访问是最常见的。其他选项包括爬网延迟选项。您可以使用此选项来在网站上爬网之间进行机器人延迟。

如果您有任何疑问或希望帮助，请通过实时聊天或提交与我们的技术支持团队提交机票联系我们。

优化(16)