拒绝垄断指控,谷歌利用开源打造官方互联网标准

  • 时间:
  • 浏览:1
  • 来源:大发6合下注平台-大发6合注册平台_大发6合官网平台

谷歌希望将已有数十年历史的拒绝蜘蛛协议(Robots Exclusion Protocol,简称REP)转变为官方互联网标准,并将当时人的robots.txt解析器作为推广的一主次进行开源。

REP是1994年荷兰软件工程师Martijn Koster提出的有三个 标准,现在几乎变成了网站用来告诉自动爬虫线程哪此主次不应该被外理的标准。类似 ,谷歌的Googlebot爬虫器在为网站编制索引时扫描robots.txt文件,以查看特殊说明,了解它应该忽略哪此主次。可能根目录中没办法 没办法 的文件,它将假定都都可以 对整个网站进行爬虫(并编制索引)。不过,哪此文件我不要 一直用于提供直接的爬虫指令,可能它们还都都可以 填充类似 关键字,以改进搜索引擎优化,以及类似 用例。

值得注意的是,我不要 所有爬虫都遵循robots.txt文件,比如几年前Internet Archive选着为其Wayback Machine归档工具提供支持,而类似 更恶意的爬虫也选着忽略REP。

正如Internet Engineering Task Force(IETF)所定义的那样,尽管REP通常被称为“标准”,但它实际上从未成为真正的互联网标准。IETF是互联网非营利开放标准组织。而这正是谷歌正在努力改变的。它说,REP是开放的解释,可能我不要 一直中有 所有的状态。

类似 切都会为了更好地定义现有的“未定义场景”——类似 ,当先前的扫描可能知道robots.txt文件的内容时,爬虫线程应该怎么可以外理使其无法访问的服务器故障场景?爬虫应该怎么可以对待有三个 有拼写错误的规则?

谷歌在一篇博客文章中写道:“对于网站所有者来说,这是有三个 具有挑战性的哪此的大问题,可能事实上模棱两可的标准使得好难正确地编写规则。让.我让.我 希望帮助网站所有者和开发人员在互联网上创造惊人的体验,而都会担心怎么可以控制爬虫。”

谷歌表示,它已与REP的原始作者Martijn Koster以及网站管理员和类似 搜索引擎协作协议,向IETF提交一份提案,内容包括“怎么可以在现代网络中使用REP”。

该公司还没办法 全部否认草案,但对其关注的类似 领域给出了类似 指示:

  • 任何基于URI的传输协议都都都可以 使用robots.txt。类似 ,它不再局限于HTTP,也都都可以 用于FTP或CoAP。

  • 开发人员前要相当于解析robots.txt的前5000千字节。定义最大文件大小都都可以 确保连接我不要 打开太长时间,从而减轻服务器上我不要 要的压力。

  • 新的最长缓存时间为24小时或缓存指令值(可能可用),使网站所有者都都可以 随时更新robots.txt,而爬虫线程我不要 使网站过载robots.txt请求。类似 ,对于HTTP,都都可以 使用缓存控制头来选着缓存时间。

  • 规范现在规定,当事先可访问的robots.txt文件可能服务器故障而变得不可访问时,已知的不允许页面我不要 在相当长的一段时间内进行爬虫。

值得注意的是,爬虫都都可以 不同的方式 解释robots.txt文件中中有 的指令,这会原应网站所有者感到困惑。这就是 为哪此谷歌还把Googlebot的解析和匹配系统的C++库装进GitHub上供各人访问。根据Github发布的说明,谷歌希望开发人员打造当时人的解析器,从而“更好地反映谷歌的robots.txt解析和匹配”。