随笔分类 -  MapReduce

MapReduce设计模式之In-mapper Combining
摘要:背景 在Hadoop的整个框架中,设计了Combine-Partition结构。其目的是减少数据通信同步的开销。 但实际上,Hadoop的Combiner和Partitioner在Shuffle和Sort之后执行。且C/P何时被调用,调用几次都是不确定的。 这就给编写高效率的Hadoop程序提出了挑战。有没有解决办法呢?答案是肯定的。 分析算法 Hadoop提供一系列机制来保存Mappe... 阅读全文

posted @ 2012-12-16 01:45 DingaGa 阅读(715) 评论(0) 推荐(0)