scrapy 增量采集

在做新闻或者其它文章采集到时候,只想采集最新发布的信息,之前采集过得就不要再采集了,从而达到增量采集到需求

scrapy-deltafetch,是一个用于解决爬虫去重问题的第三方插件。

scrapy-deltafetch通过Berkeley DB来记录爬虫每次爬取收集的request和item,当重复执行爬虫时只爬取新的item,从而实现爬虫的增量爬取。

 

安装 scrapy-deltafetch需要安装Berkeley DB ,scrapy-deltafetch 会对每个采集源单独建立一个数据库文件来记录已采集过的记录,如下图,会在爬虫项目下建立一个.scrapy的文件夹

安装 Berkeley DB

# cd /opt

# wget http://download.oracle.com/berkeley-db/db-4.7.25.NC.tar.gz

# tar zxvf db-4.7.25.NC.tar.gz # cd build_unix

# ../dist/configure

# make&&make install

安装 pip install bsddb3 用来连接 Berkeley DB

pip install scrapy-deltafetch

 

运行爬虫后如果已经采集过的数据会提示,如下图

 

 

 



posted @ 2019-07-16 10:27  kakaok  阅读(452)  评论(0编辑  收藏  举报