上一页 1 2 3 4 5 6 7 8 9 10 ··· 40 下一页
摘要: 在MapReduce程序中,待处理的数据最开始是放在HDFS上的,这点无异议。 接下来,数据被会被送往一个个Map节点中去,这也无异议。 下面问题来了:数据在被Map节点处理完后,再何去何从呢? 阅读全文
posted @ 2017-05-20 10:47 穆晨 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 从运行我们的 Map/Reduce 程序,到结果的提交,Hadoop 平台其实做了很多事情。 那么 Hadoop 平台到底做了什么事情,让 Map/Reduce 程序可以如此 "轻易" 地实现分布式运行? 阅读全文
posted @ 2017-05-20 10:42 穆晨 阅读(1299) 评论(0) 推荐(0) 编辑
摘要: 在计算机领域,排序的重要性不用多说。而排序的算法,效率分析等也一直是研究的热点。 本文将给出使用Hadoop分布式方案进行排序的例子,这能极大提高排序的速度,是需要重点掌握的一个案例。 阅读全文
posted @ 2017-05-20 10:39 穆晨 阅读(943) 评论(0) 推荐(0) 编辑
摘要: 去除掉海量文件中的存在着的重复数据,并将结果输出到单个文件中。 比如有文件1中有以下数据...... 阅读全文
posted @ 2017-05-20 09:04 穆晨 阅读(1229) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 40 下一页