摘要: 参考 : http://www.th7.cn/Program/Python/201704/1154208.shtml 原因是网站的防爬虫配置起到了作用 (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy默认配置中的user-a 阅读全文
posted @ 2017-05-03 16:55 zhangjpn 阅读(1529) 评论(0) 推荐(0) 编辑
摘要: scrapy的日志记录有两种方式: spider.logger.xx()和python标准库中的logger = logging.get_Logger('log information') 向日志对象写入信息就可以记录日志。 默认的日志是输出到控制台的,为了进一步处理这些日志,需要有统一的处理程序进 阅读全文
posted @ 2017-05-03 16:45 zhangjpn 阅读(898) 评论(0) 推荐(0) 编辑
摘要: scrapy.spiders.crawl.CrawlSpider类的使用 这个类比较适用于对网站爬取批量网页,相比于Spider类,CrawlSpider主要使用规则(rules)来提取链接 rules = ( Rule(LinkExtractor(allow=(r'https://movie.do 阅读全文
posted @ 2017-05-03 16:34 zhangjpn 阅读(9786) 评论(1) 推荐(0) 编辑