爬虫效率_反扒

提升scrapy爬取数据的效率

  • 增加并发        CONCURRENT_REQUESTS = 32
  • 降低日志等级  LOG_LEVEL = 'INFO'
  • 禁止cookie     COOKIES_ENABLED = False
  • 延迟下载秒数  DOWNLOAD_DELAY = 10
  • 禁止重试    RETRY_ENABLED=False

 

 

反扒机制

  • robots.txt
  • UA检测
  • 验证码
  • 数据加密
  • cookie
  • 禁止IP

 

案例总结

 

posted @ 2019-04-03 08:41  慕沁  阅读(110)  评论(0)    收藏  举报