scrapy-redis功能简介

connection:连接redis最基本文件

default:默认值设置文件

       dupefiler_key 保存指纹

dupefilter:替换scrapy默认的url去重器

piklecompat:序列化

pipelines:将item保存到redis中,实现item分布式保存

queue:实现3中队列,队列,栈,优先级队列,替换scrapy中队列

scheduler:替换scrapy的调度器

spider:通过redis读取start_url

utils:python3兼容性

分布式爬虫逻辑?

       把scheduler放到redis中,items序列化,放到redis中,把中间状态放到redis中

posted @ 2017-08-16 09:30  梦_鱼  阅读(156)  评论(0)    收藏  举报