robots.txt 文件分析结果的含义是什么
针对 robots.txt 文件测试某个网址时,将显示以下的几种结果之一:
- 允许— Googlebot 将会抓取该网址。
- 被拦截— Googlebot 将不会抓取该网址。
- 不在域中— 此网址与 robots.txt 文件不在同一个域中,因此,您无法拦截它。
- 语法有误— Googlebot 未将此网址识别为有效。
另外,您还可能看到以下信息:
- 检测为目录;具体文件可能有不同限制— 尽管此目录可以被拦截或允许,但文件中可能还有其他更具体的规则,会拦截或允许目录中的网址。因此,您最好再确认一下这些内容。
如果 Googlebot 难以理解您 robots.txt 文件的某些部分,则可能会显示以下解析结果之一,您最好针对相关内容进行改正:
- 可以接受,但应为 Disallow— “Disallow”一词拼写不正确。
- 可以接受,但应为 user-agent— “user-agent”一词拼写不正确。
- 可以接受,不过正确的书写格式应包含冒号(规则: 路径)— “Allow”或”Disallow”和路径之间未添加冒号。
- Googlebot 忽略的规则— – Googlebot 无法遵循此规则(例如,”Crawl-delay”)。
- 未指定 user-agent— 某些规则未与 user-agent 关联。
- 语法有误— Googlebot 无法识别此行。
- robots.txt 文件可能无效— Googlebot 无法识别此文件的任何部分,因此,未将其识别为有效的 robots.txt 文件。
已更新 6/10/2009
转载:http://www.google.com/support/webmasters/bin/answer.py?answer=35239&hl=zh-CN
最近评论