2018年1月31日

Scrapy 爬虫日志中出现Forbidden by robots.txt

摘要: 爬取汽车之家数据的时候,日志中一直没有任何报错,开始一直不知道什么原因导致的,后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”,Scrapy 设置文件中如果把ROBOTSTXT_OBEY设置为True的时候,会遵循robots.txt 规则进行爬虫; 这个时候我们只 阅读全文

posted @ 2018-01-31 16:19 梦雨情殇 阅读(947) 评论(0) 推荐(0)

Scrapy 设置请求头

摘要: 爬虫的过程有些网站设置反盗链,需要我们在请求头中添加下,修改settings.py文件中添加 具体的信息可以根据自己需求修改,注意这个设置是全局请求都要走这个配置; 阅读全文

posted @ 2018-01-31 16:08 梦雨情殇 阅读(1215) 评论(0) 推荐(0)

导航