Robot.txt协议

协议目的

用来和善意爬虫达成爬取内容的约定

善意爬虫访问站点时会首先检查该站点根目录下是否存在robots.txt,如果存在,善意爬虫按照文件内容确定访问范围,如果不存在,爬虫会将所有能访问的页面一并爬走。

如果访问控制做得好,就不需要这个命令

协议内容

在网站根目录下存放一个ASCII编码的文本文件,用来告诉网络搜索引擎(网络爬虫)信息,此网站中的哪些内容是不应该被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。

协议约束

约定俗成

posted @ 2022-06-02 15:38  srid  阅读(316)  评论(0)    收藏  举报