摘要:
对于商业搜索引擎来说,分布式爬虫架构是必须采用的技术。面对海量待抓取网页,只有采取分布式架构,才有可能在较短时间内完成一轮抓取工作。 分布式爬虫可以分为若千个分布式层级。不同的应用可能由其中部分层级构成,下图是一个大型分布式爬虫的3个层级:分布式数据中心、分布式抓取服务器及分布式爬虫程序。整个爬虫... 阅读全文
posted @ 2015-05-16 00:02
刺猬的温驯
阅读(879)
评论(0)
推荐(0)