会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
俺配不起
博客园
首页
新随笔
联系
订阅
管理
2017年12月23日
ken桑带你读源码 之 scrapy_redis
摘要: 首先更大家说下 正式部署上线的爬虫会有分布式爬虫的需求 而且原本scrapy 的seen (判断重复url的池 不知道用啥词 已抓url吧 ) 保存在磁盘 url 队列 也是保存在磁盘 (保存在磁盘 对爬虫效率会极大影响) 如果是断点重爬 声明 jobdir 百分百是保存在磁盘 不申明jobdir
阅读全文
posted @ 2017-12-23 07:06 ken桑带你飞
阅读(348)
评论(0)
推荐(0)
公告