会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
srid
博客园
首页
新随笔
联系
订阅
管理
2022年6月2日
Robot.txt协议
摘要: 协议目的 用来和善意爬虫达成爬取内容的约定 善意爬虫访问站点时会首先检查该站点根目录下是否存在robots.txt,如果存在,善意爬虫按照文件内容确定访问范围,如果不存在,爬虫会将所有能访问的页面一并爬走。 如果访问控制做得好,就不需要这个命令 协议内容 在网站根目录下存放一个ASCII编码的文本文
阅读全文
posted @ 2022-06-02 15:38 srid
阅读(316)
评论(0)
推荐(0)
公告