scrapy 增量采集

在做新闻或者其它文章采集到时候，只想采集最新发布的信息，之前采集过得就不要再采集了，从而达到增量采集到需求

scrapy-deltafetch，是一个用于解决爬虫去重问题的第三方插件。

scrapy-deltafetch通过Berkeley DB来记录爬虫每次爬取收集的request和item，当重复执行爬虫时只爬取新的item，从而实现爬虫的增量爬取。

安装 scrapy-deltafetch需要安装Berkeley DB ，scrapy-deltafetch 会对每个采集源单独建立一个数据库文件来记录已采集过的记录，如下图,会在爬虫项目下建立一个.scrapy的文件夹

安装 Berkeley DB

# cd /opt

# wget http://download.oracle.com/berkeley-db/db-4.7.25.NC.tar.gz

# tar zxvf db-4.7.25.NC.tar.gz # cd build_unix

# ../dist/configure

# make&&make install

安装 pip install bsddb3 用来连接 Berkeley DB

`pip install scrapy-deltafetch`

运行爬虫后如果已经采集过的数据会提示，如下图

posted @ 2019-07-16 10:27 kakaok 阅读(477) 评论(0) 收藏举报

刷新页面返回顶部