scrapy 断点续爬

第一步:安装berkeleydb数据库

第二部:pip install bsddb3

第三部:pip install scrapy-deltafetch

第四部:

settings.py设置

    SPIDER_MIDDLEWARES = {  ‘scrapy_deltafetch.DeltaFetch’: 100  }  

    DELTAFETCH_ENABLED = True

 

DELTAFETCH_ENABLED = True  #是否启用该中间件 ,我们在settings.py文件中进行配置

DELTAFETCH_DIR = '路径地址'  #存储URL的路径

DELTAFETCH_RESET = 1 #是否清空数据库 或者使用 scrapy crawl example -a deltafetch_reset = 1

重复爬取须重置缓存

命令:scrapy crawl meishi -a deltafetch_reset=1

posted @ 2019-02-14 11:21  破晓e  阅读(364)  评论(0编辑  收藏  举报