随笔档案「2013年5月6日」：关于mapreduce 的 shuffle ，partition，co... - java20130722

随笔档案-2013年5月6日

关于mapreduce 的 shuffle ，partition，combiner

2013-05-06 10:45 by java20130722, 238 阅读, 收藏,

摘要：之前在学习mapreduce 的过程中一直不能够完全准确的理解shuffle，partition，combiner的作用，其实简单来说：shuffle：是描述着数据从map端传输到reduce端的过程，而且我们知道的是hadoop的集群环境中，大部分map task和reduce task是在不同的node上执行，主要的开销是网络开销和磁盘IO开销，因此shuffle的主要作用相当于是 1.完整的从map task端传输到reduce task端。 2.跨节点传输数据时，尽可能减少对带宽的消耗.（注意是reduce执行的时候去拉取map端的结果） 3.减少磁盘IO开销对task的影... 阅读全文

0 Comment

java20130722

随笔档案-2013年5月6日

关于mapreduce 的 shuffle ，partition，combiner

About