代码改变世界

随笔档案-2013年5月6日

关于mapreduce 的 shuffle ,partition,combiner

2013-05-06 10:45 by java20130722, 238 阅读, 收藏,
摘要: 之前在学习mapreduce 的过程中一直不能够完全准确的理解shuffle,partition,combiner的作用,其实简单来说:shuffle: 是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分map task和reduce task是在不同的node上执行,主要的开销是网络开销和磁盘IO开销,因此shuffle的主要作用相当于是 1.完整的从map task端传输到reduce task端。 2.跨节点传输数据时,尽可能减少对带宽的消耗.(注意是reduce执行的时候去拉取map端的结果) 3.减少磁盘IO开销对task的影... 阅读全文