会员
众包
新闻
博问
AI培训
云市场
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
JavaNerd
博客园
首页
新随笔
联系
订阅
管理
01 2016 档案
爬虫框架设计
摘要:最近的一个项目是写一个爬虫框架,这个框架主要采用Master-Slave的结构,Master负责管理要爬取的Url和已经爬取过的Url,Slave可以有多个,主要负责爬取网页内容,以及对爬取下来的网页内容进行持久化的工作。整个项目用Thrift作为RPC通信框架。1. 爬虫流程如果是一个单机版的爬虫...
阅读全文
posted @
2016-01-12 09:12
JavaNerd
阅读(4296)
评论(3)
推荐(5)
编辑
公告