partition,shuffle(hadoop权威指南)

如果有多个reduer,map任务会对其输出进行分区，为每个reduce任务创建一个分区（partition）。每个分区包含许多键（及其关联的值），但每个键的记录都在同一个分区中。分区可以通过用户定义的partitioner 来控制，但通常是用默认的分区工具，它使用的是hash函数来形成“木桶”键/值，这种方法效率很高。

map和reduce 任务之间的数据流为什么要成为“shuffle"(洗牌），因为每个reduce任务的输入都由许多map任务来提供。