partition,shuffle(hadoop权威指南)

如果有多个reduer,map任务会对其输出进行分区,为每个reduce任务创建一个分区(partition)。每个分区包含许多键(及其关联的值),但每个键的记录都在同一个分区中。分区可以通过用户定义的partitioner 来控制,但通常是用默认的分区工具,它使用的是hash函数来形成“木桶”键/值,这种方法效率很高。 

map和reduce 任务之间的数据流为什么要成为“shuffle"(洗牌),因为每个reduce任务的输入都由许多map任务来提供。

 

 

 

 

posted @ 2013-01-05 17:16  肉馅饺子  阅读(212)  评论(0)    收藏  举报