Robot.txt协议
协议目的
用来和善意爬虫达成爬取内容的约定
善意爬虫访问站点时会首先检查该站点根目录下是否存在robots.txt,如果存在,善意爬虫按照文件内容确定访问范围,如果不存在,爬虫会将所有能访问的页面一并爬走。
如果访问控制做得好,就不需要这个命令
协议内容
在网站根目录下存放一个ASCII编码的文本文件,用来告诉网络搜索引擎(网络爬虫)信息,此网站中的哪些内容是不应该被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
协议约束
约定俗成
用来和善意爬虫达成爬取内容的约定
善意爬虫访问站点时会首先检查该站点根目录下是否存在robots.txt,如果存在,善意爬虫按照文件内容确定访问范围,如果不存在,爬虫会将所有能访问的页面一并爬走。
如果访问控制做得好,就不需要这个命令
在网站根目录下存放一个ASCII编码的文本文件,用来告诉网络搜索引擎(网络爬虫)信息,此网站中的哪些内容是不应该被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。
约定俗成