MapReduce:Job性能调优总结
摘要:是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰 Benchmark: 对1G数据做wordcount部分内容:*********************************硬件级别提高磁盘IO的性能noatime 我为两台slaves...
阅读全文
posted @
2014-11-19 11:23
船长
阅读(237)
推荐(0)
MapReduce:详解Shuffle过程
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed...
阅读全文
posted @
2014-11-19 11:17
船长
阅读(113)
推荐(0)
换个角度理解云计算之MapReduce[2]
摘要:3.Combiner操作前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的map方法去处理,经过上面操作,最终输出了5个中间结果。对于这5个中间结果的每一个来说,都有很多行,每一行是ke...
阅读全文
posted @
2014-11-18 10:27
船长
阅读(228)
推荐(0)
换个角度理解云计算之MapReduce[1]
摘要:上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起。 其实这位大哥和这群小弟不仅能存...
阅读全文
posted @
2014-11-18 10:20
船长
阅读(446)
推荐(0)
换个角度理解云计算之HDFS
摘要:学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS。 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食、农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等用的...
阅读全文
posted @
2014-11-18 10:13
船长
阅读(270)
推荐(0)