Shuffle

Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上去，这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输，因此shuffle性能的高低直接影响到了整个程序的运行效率。

下面这幅图清晰地描述了MapReduce算法的整个流程，其中shuffle phase是介于Map phase和Reduce phase之间。

以wordcount为例，map后形成(word, 1)的key-value对，在对这些key-value对进行reduce之前，需要把同样key的对放在一起，这个过程就是shuffle.

Spark中的shuffle流程：

首先每一个Mapper会根据Reducer的数量创建出相应的bucket，bucket的数量是
其次Mapper产生的结果会根据设置的partition算法填充到每个bucket中去。这里的partition算法是可以自定义的，当然默认的算法是根据key哈希到不同的bucket中去。
当Reducer启动时，它会根据自己task的id和所依赖的Mapper的id从远端或是本地的block manager中取得相应的bucket作为Reducer的输入进行处理。

这里的bucket是一个抽象概念，在实现中每个bucket可以对应一个文件，可以对应文件的一部分或是其他等。

posted @ 2016-03-16 17:41 木石头阅读(279) 评论(0) 收藏举报

刷新页面返回顶部

代码浮生

Shuffle

公告