Scrapy - 随笔分类 - zhangjpn

Scrapy笔记：持久化，Feed exports的使用

摘要：首先要明确的是，其实所有的FeedExporter都是类，里面封装了一般进行io操作的方法。因此，要怎么输出呢？其实从技术实现来说，在生成item的每一步调用其进行储存都是可以的，只不过为了更加符合scrapy的架构，一般都是在Pipeline中使用FeedExporter的。每一个Exporte 阅读全文

posted @ 2017-05-10 22:01 zhangjpn 阅读(1377) 评论(0) 推荐(1)

Scrapy笔记：使用代理ip

摘要：scrapy框架使用代理ip的基本思路是修改请求对象中的meta['proxy']的值，将代理ip赋值给这个属性。遵循这个思路，只要是生成Request对象的地方都可以设置Request的值。 downloader中间件 spider中间件 spider内部对象定义的内部parse函数和parse_ 阅读全文

posted @ 2017-05-10 21:45 zhangjpn 阅读(464) 评论(0) 推荐(0)

Scrapy笔记：使用scrapy shell url时出现403错误的解决办法

摘要：参考： http://www.th7.cn/Program/Python/201704/1154208.shtml 原因是网站的防爬虫配置起到了作用 (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy默认配置中的user-a 阅读全文

posted @ 2017-05-03 16:55 zhangjpn 阅读(1570) 评论(0) 推荐(0)

Scrapy笔记：日志的使用

摘要：scrapy的日志记录有两种方式： spider.logger.xx()和python标准库中的logger = logging.get_Logger('log information') 向日志对象写入信息就可以记录日志。默认的日志是输出到控制台的，为了进一步处理这些日志，需要有统一的处理程序进阅读全文

posted @ 2017-05-03 16:45 zhangjpn 阅读(966) 评论(0) 推荐(0)

Scrapy笔记：CrawSpider中rules中的使用

摘要：scrapy.spiders.crawl.CrawlSpider类的使用这个类比较适用于对网站爬取批量网页，相比于Spider类，CrawlSpider主要使用规则(rules)来提取链接 rules = ( Rule(LinkExtractor(allow=(r'https://movie.do 阅读全文

posted @ 2017-05-03 16:34 zhangjpn 阅读(9905) 评论(1) 推荐(0)

门前大树下，路过一群鸭

随笔分类 - Scrapy