会员
T恤
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
t-h
博客园
首页
新随笔
联系
管理
订阅
robots协议
robots协议也就是robots.txt,网站使用robots.txt告诉搜索引擎,哪些网页可以被抓取,哪些 网页不能被抓取。
如果将网站视为酒店里的一个房间,而robots.txt就是房间的主人在房门上挂着“请勿打扰”或“欢迎打扫”,这样的提示牌。
robots.txt是搜索引擎访问站点看的第一个文件;如果存在,爬虫会按照robots.txt内容确定访问范围;如果不存在该文件,爬虫可对该站点的所有
没被保护的网页进行访问。
posted @
2012-10-17 23:47
陀螺-
阅读(
147
) 评论(
0
)
编辑
收藏
举报
会员力量,点亮园子希望
刷新页面
返回顶部
公告