随笔分类 -  hadoop原理

ChainMapper/ChainReducer 的实现原理
摘要:ChainMapper/ChainReducer 主要为了解决线性链式Mapper 而提出的。也就是说,在Map 或者Reduce 阶段存在多个Mapper,这些Mapper 像Linux 管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper 的输入,形成一个流水线,形式类似于[MA... 阅读全文
posted @ 2014-08-15 11:21 netskill 阅读(415) 评论(0) 推荐(0)
Map/Reduce中分区和分组的问题
摘要:全篇结论【分在同一组的一定同属一个分区。在一个分区的可重载"job.setGroupingComparatorClass(a.class);"中的a类的compare方法重新定义分组规则,同一组的value做为reduce的输入。】一、为什么写分区和分组在排序中的作用是不一样的,今天早上看书,又有点... 阅读全文
posted @ 2014-08-14 16:55 netskill 阅读(431) 评论(0) 推荐(0)
mapreduce原理【分区,分组】
摘要:分析这个原理,的原因是: 1、更好的理解MAPREDUCE的过程。 2、在二次排序时会用到这个原理,二次排序要重写分区方法,重写分组方法;如果原理没搞明白,就无法写二次排序的代码。Key默认分区默认分组自定义分区自定义分组Abc1231、使用系统默认分区方式,是按KEY进行分区。2、KEY相... 阅读全文
posted @ 2014-08-14 16:09 netskill 阅读(793) 评论(0) 推荐(0)