摘要: 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) scrapy-redis组件 使用scrapy-redis的去重+调度实现分布式爬取 持久化 从Redis中获取起始URL # 完全复制粘贴过来的博客 阅读全文
posted @ 2018-01-26 19:59 一石数字欠我15w!!! 阅读(416) 评论(0) 推荐(0)