网络爬虫排除协议

网络爬虫排除协议, 英文为:Robots Exclusion Protocol

robots.txt 文件是网站用来与网络爬虫(如搜索引擎爬虫)通信的标准文件,用于指示哪些页面或目录可以被抓取,哪些不可以。 它的规范由 Robots Exclusion Protocol(REP)定义,最初由 Martijn Koster 在 1994 年提出,并逐渐成为互联网标准。

以下是 robots.txt 文件的规范及其标准来源的详细介绍:


1. robots.txt 文件的基本规范

robots.txt 文件是一个纯文本文件,通常放置在网站的根目录下(例如:https://example.com/robots.txt)。它的语法规则如下:

1.1 User-agent

1.2 Disallow

1.3 Allow

1.4 Sitemap

1.5 注释


2. robots.txt 文件的示例

以下是一个典型的 robots.txt 文件示例: ``` # Block all crawlers from /private/ and /admin/ User-agent: * Disallow: /private/ Disallow: /admin/

# Allow Googlebot to access /public/
User-agent: Googlebot
Allow: /public/

# Block DotBot from all pages
User-agent: DotBot
Disallow: /

# Specify the sitemap location
Sitemap: https://example.com/sitemap.xml
```

3. robots.txt 文件的注意事项


4. 标准来源

robots.txt 文件的规范最初由 Martijn Koster 在 1994 年提出,并逐渐被广泛采用。以下是其标准来源:

4.1 原始提案

4.2 互联网草案

4.3 Google 的扩展

4.4 正式标准化


5. 总结

如果你需要创建或修改 robots.txt 文件,建议参考 RFC 9309Google 的文档 以确保兼容性。