Spiga

随笔档案 - 2006年9月25日

Nutch代码分析之1(Hadoop和creative commons)

2006-09-25 17:38 by cppguy, 595 visits, 网摘, 收藏, 编辑
摘要:Hadoop 是 Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式,让程序可以自动在普通机器组成的集群中以并行方式分布执行。 就如同java程序员可以不考虑内存泄露一样,MapReduce程序员也不许要关心海量数据如何被分配到多台机器上,不需要考虑机器失效的处理,不需要考虑这些机器间如何协作共同完成工作... 阅读全文