2017 年 5月 3 日随笔档案 - zhangjpn

2017年5月3日

Scrapy笔记：使用scrapy shell url时出现403错误的解决办法

摘要：参考： http://www.th7.cn/Program/Python/201704/1154208.shtml 原因是网站的防爬虫配置起到了作用 (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy默认配置中的user-a 阅读全文

posted @ 2017-05-03 16:55 zhangjpn 阅读(1562) 评论(0) 推荐(0)

Scrapy笔记：日志的使用

摘要： scrapy的日志记录有两种方式： spider.logger.xx()和python标准库中的logger = logging.get_Logger('log information') 向日志对象写入信息就可以记录日志。默认的日志是输出到控制台的，为了进一步处理这些日志，需要有统一的处理程序进阅读全文

posted @ 2017-05-03 16:45 zhangjpn 阅读(958) 评论(0) 推荐(0)

Scrapy笔记：CrawSpider中rules中的使用

摘要： scrapy.spiders.crawl.CrawlSpider类的使用这个类比较适用于对网站爬取批量网页，相比于Spider类，CrawlSpider主要使用规则(rules)来提取链接 rules = ( Rule(LinkExtractor(allow=(r'https://movie.do 阅读全文

posted @ 2017-05-03 16:34 zhangjpn 阅读(9879) 评论(1) 推荐(0)

门前大树下，路过一群鸭