摘要:
在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议。
接下来,数据被会被送往一个个Map节点中去,这也无异议。
下面问题来了:数据在被Map节点处理完后,再何去何从呢? 阅读全文
摘要:
从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情。
那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易" 地实现分布式运行? 阅读全文
摘要:
在计算机领域,排序的重要性不用多说。而排序的算法,效率分析等也一直是研究的热点。
本文将给出使用Hadoop分布式方案进行排序的例子,这能极大提高排序的速度,是需要重点掌握的一个案例。 阅读全文
摘要:
去除掉海量文件中的存在着的重复数据,并将结果输出到单个文件中。
比如有文件1中有以下数据...... 阅读全文