robots协议

robots协议也就是robots.txt,网站使用robots.txt告诉搜索引擎,哪些网页可以被抓取,哪些 网页不能被抓取。

如果将网站视为酒店里的一个房间,而robots.txt就是房间的主人在房门上挂着“请勿打扰”或“欢迎打扫”,这样的提示牌。
robots.txt是搜索引擎访问站点看的第一个文件;如果存在,爬虫会按照robots.txt内容确定访问范围;如果不存在该文件,爬虫可对该站点的所有
没被保护的网页进行访问。
posted @ 2012-10-17 23:47  陀螺-  阅读(147)  评论(0编辑  收藏  举报