摘要:
当我们需要把数据存储在分布式文件系统HDFS,由MapReduce计算移动到存储有部分数据的各台机器上,下面我们看看具体过程。 首先上一点干货: MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息。Hadoop将作业分布称若干小任务(task)来执行,其中包括两类任务:map任务(计算)和reduce(聚合)任务; 有两类节点控制着作业... 阅读全文
posted @ 2013-08-16 22:32
潜伏的蛟龙
阅读(1123)
评论(0)
推荐(0)
摘要:
Hadoop 的版本0.20包含一个新的java MapReduce API,我们也称他为上下文对象(context object)。新的API在类型虽然不兼容先前的API,但是更容易扩展。 新增的API和旧的API之间的不同点: 1、 新的API倾向于使用抽象类,而不是接口,是为了更容易扩展。 例如:可以不需要修改类的实现而在抽象类中添加一个方法。在新的API中,mapper和reducer现在... 阅读全文
posted @ 2013-08-16 18:29
潜伏的蛟龙
阅读(1921)
评论(0)
推荐(0)

浙公网安备 33010602011771号