Robot.txt协议

用来和善意爬虫达成爬取内容的约定

善意爬虫访问站点时会首先检查该站点根目录下是否存在robots.txt，如果存在，善意爬虫按照文件内容确定访问范围，如果不存在，爬虫会将所有能访问的页面一并爬走。

如果访问控制做得好，就不需要这个命令

在网站根目录下存放一个ASCII编码的文本文件，用来告诉网络搜索引擎（网络爬虫）信息，此网站中的哪些内容是不应该被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。

约定俗成

posted @ 2022-06-02 15:38 srid 阅读(363) 评论(0) 收藏举报

刷新页面返回顶部