博客园首页新随笔联系 Github 管理订阅

暂未分类

Python爬虫二 Robots协议

网站限制爬虫的两个办法：

审查来源
robots告知

robots协议存放在网站根目录，并不是所有的网站都有robots协议的

基本语法：
User-agent：* 爬虫来源，*代表所有
Disallow：/ 不允许爬取的资源目录，/代表根目录

爬虫怎么遵守robots协议？
自动或人工识别robots协议，再进行内容爬取

posted @ 2020-03-08 20:27 扶-9 阅读(154) 评论(0) 收藏举报

刷新页面返回顶部