摘要: 在做新闻或者其它文章采集到时候,只想采集最新发布的信息,之前采集过得就不要再采集了,从而达到增量采集到需求 scrapy-deltafetch,是一个用于解决爬虫去重问题的第三方插件。 scrapy-deltafetch通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重 阅读全文
posted @ 2019-07-16 10:27 kakaok 阅读(474) 评论(0) 推荐(0)