scrapy 断点续爬

第一步：安装berkeleydb数据库

第二部：pip install bsddb3

第三部：pip install scrapy-deltafetch

第四部：

settings.py设置

SPIDER_MIDDLEWARES = { ‘scrapy_deltafetch.DeltaFetch’: 100 }

DELTAFETCH_ENABLED = True

DELTAFETCH_ENABLED = True #是否启用该中间件，我们在settings.py文件中进行配置

DELTAFETCH_DIR = '路径地址' #存储URL的路径

DELTAFETCH_RESET = 1 #是否清空数据库或者使用 scrapy crawl example -a deltafetch_reset = 1

重复爬取须重置缓存

命令：scrapy crawl meishi -a deltafetch_reset=1

posted @ 2019-02-14 11:21 破晓e 阅读(364) 评论(0) 编辑收藏举报

刷新页面返回顶部

破晓