摘要:Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的资源进行归档,建立网络数字图书馆。在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种:宽带爬虫:能够以更高的带宽去站点爬。 主题爬虫:集中于被选择的问题。 持续爬虫:不仅仅爬更当前的网页还负责爬日后更新的网页。 实验爬虫:对爬虫技术进行实验,以决定该爬什么,以及对不同协议的爬虫 爬...
阅读全文
摘要:分布式计算开源框架Hadoop介绍――分布式计算开源框架Hadoop入门实践(一) http://www.infoq.com/cn/articles/hadoop-intro Hadoop中的集群配置和使用技巧――分布式计算开源框架Hadoop入门实践(二) http://www.infoq.com/cn/articles/hadoop-config...
阅读全文
摘要:分布式计算开源框架Hadoop介绍作者 岑文初 发布于 2008年8月4日 上午2时15分 ── 分布式计算开源框架Hadoop入门实践(一)在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《Tiger Concurrent Practice --日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还...
阅读全文