scrapy爬虫之防止被Ban

防止被网站反爬虫有很多方法,换IP,使用user-agent池等,此处先介绍一个简答的方法使用user-agent

第一步:在settings中,将ROBOTSTXT_OBEY 的值改为false,默认值是true, 既遵守爬虫规则,此处我们不遵守这个规则,要不然很多东西没办法爬取

第二步:在浏览器中找到response-header

 

 将图中的信息已字典的格式复制在 DEFAULT_REQUEST_HEADERA和USER_AGENT处,之后,启动爬虫时,这些更改能够伪装你的爬虫防止被

 

 

 

 

posted @ 2016-11-09 10:36  进击的大乐  阅读(841)  评论(0编辑  收藏  举报