文章分类 -  云计算

MapReduce:Job性能调优总结
摘要:是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰 Benchmark: 对1G数据做wordcount部分内容:*********************************硬件级别提高磁盘IO的性能noatime 我为两台slaves... 阅读全文
posted @ 2014-11-19 11:23 船长 阅读(237) 评论(0) 推荐(0)
MapReduce:详解Shuffle过程
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed... 阅读全文
posted @ 2014-11-19 11:17 船长 阅读(113) 评论(0) 推荐(0)
换个角度理解云计算之MapReduce[2]
摘要:3.Combiner操作前面讲完Map操作,总结一下就是:一个大文件,分成split1~5,对应于Map1~5,每一个Map处理一个split,每一个split的每一行,会用每一个Map的map方法去处理,经过上面操作,最终输出了5个中间结果。对于这5个中间结果的每一个来说,都有很多行,每一行是ke... 阅读全文
posted @ 2014-11-18 10:27 船长 阅读(228) 评论(0) 推荐(0)
换个角度理解云计算之MapReduce[1]
摘要:上一篇简单讲了一下HDFS,简单来说就是一个叫做“NameNode”的大哥,带着一群叫做“DataNode”的小弟,完成了一坨坨数据的存储,其中大哥负责保存数据的目录,小弟们负责数据的真正存储,而大哥和小弟其实就是一台台的电脑,他们之间通过交换机,互相联系到了一起。 其实这位大哥和这群小弟不仅能存... 阅读全文
posted @ 2014-11-18 10:20 船长 阅读(446) 评论(0) 推荐(0)
换个角度理解云计算之HDFS
摘要:学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS。 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食、农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等用的... 阅读全文
posted @ 2014-11-18 10:13 船长 阅读(270) 评论(0) 推荐(0)