Python爬虫二 Robots协议

网站限制爬虫的两个办法:

  • 审查来源
  • robots告知

robots协议存放在网站根目录,并不是所有的网站都有robots协议的

基本语法:
User-agent:* 爬虫来源,*代表所有
Disallow:/ 不允许爬取的资源目录,/代表根目录

爬虫怎么遵守robots协议?
自动或人工识别robots协议,再进行内容爬取

posted @ 2020-03-08 20:27  扶-9  阅读(149)  评论(0)    收藏  举报