摘要: 框架Scrapy中去重源码 源码存储位置 去重源码解析 自定义去重规则 a.编写类【dupefilters.py】 b.settings.py文件中修改默认去重规则 c.爬虫类中对去重规则的控制 scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重,相关配置 阅读全文
posted @ 2018-07-03 19:28 争-渡 阅读(1989) 评论(0) 推荐(0)
摘要: 框架Scrapy中做持久化(items/pipelines)【以文件保存】 步骤: a. 先写pipeline类 b. 写Item类 c. 配置(settings.py) d. 爬虫,yield每执行一次,process_item就调用一次。 阅读全文
posted @ 2018-07-03 17:21 争-渡 阅读(194) 评论(0) 推荐(0)