摘要:
框架Scrapy中去重源码 源码存储位置 去重源码解析 自定义去重规则 a.编写类【dupefilters.py】 b.settings.py文件中修改默认去重规则 c.爬虫类中对去重规则的控制 scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重,相关配置 阅读全文
posted @ 2018-07-03 19:28
争-渡
阅读(1989)
评论(0)
推荐(0)
摘要:
框架Scrapy中做持久化(items/pipelines)【以文件保存】 步骤: a. 先写pipeline类 b. 写Item类 c. 配置(settings.py) d. 爬虫,yield每执行一次,process_item就调用一次。 阅读全文
posted @ 2018-07-03 17:21
争-渡
阅读(194)
评论(0)
推荐(0)

浙公网安备 33010602011771号