partition,shuffle(hadoop权威指南)
如果有多个reduer,map任务会对其输出进行分区,为每个reduce任务创建一个分区(partition)。每个分区包含许多键(及其关联的值),但每个键的记录都在同一个分区中。分区可以通过用户定义的partitioner 来控制,但通常是用默认的分区工具,它使用的是hash函数来形成“木桶”键/值,这种方法效率很高。
map和reduce 任务之间的数据流为什么要成为“shuffle"(洗牌),因为每个reduce任务的输入都由许多map任务来提供。
浙公网安备 33010602011771号