01 2016 档案

摘要:最近的一个项目是写一个爬虫框架,这个框架主要采用Master-Slave的结构,Master负责管理要爬取的Url和已经爬取过的Url,Slave可以有多个,主要负责爬取网页内容,以及对爬取下来的网页内容进行持久化的工作。整个项目用Thrift作为RPC通信框架。1. 爬虫流程如果是一个单机版的爬虫... 阅读全文
posted @ 2016-01-12 09:12 JavaNerd 阅读(4296) 评论(3) 推荐(5) 编辑