云计算 - 文章分类 - 船长

MapReduce:Job性能调优总结

摘要：是时候把去年早期MapReduce调优工作的结果放出来了，丢在Google Doc里太长时间，都落了一身的灰 Benchmark: 对1G数据做wordcount部分内容:*********************************硬件级别提高磁盘IO的性能noatime 我为两台slaves... 阅读全文

posted @ 2014-11-19 11:23 船长阅读(237) 评论(0) 推荐(0)

MapReduce:详解Shuffle过程

摘要：Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapRed... 阅读全文

posted @ 2014-11-19 11:17 船长阅读(113) 评论(0) 推荐(0)

换个角度理解云计算之MapReduce[2]

摘要：3.Combiner操作前面讲完Map操作，总结一下就是：一个大文件，分成split1~5，对应于Map1~5，每一个Map处理一个split，每一个split的每一行，会用每一个Map的map方法去处理，经过上面操作，最终输出了5个中间结果。对于这5个中间结果的每一个来说，都有很多行，每一行是ke... 阅读全文

posted @ 2014-11-18 10:27 船长阅读(228) 评论(0) 推荐(0)

换个角度理解云计算之MapReduce[1]

摘要：上一篇简单讲了一下HDFS，简单来说就是一个叫做“NameNode”的大哥，带着一群叫做“DataNode”的小弟，完成了一坨坨数据的存储，其中大哥负责保存数据的目录，小弟们负责数据的真正存储，而大哥和小弟其实就是一台台的电脑，他们之间通过交换机，互相联系到了一起。其实这位大哥和这群小弟不仅能存... 阅读全文

posted @ 2014-11-18 10:20 船长阅读(446) 评论(0) 推荐(0)

换个角度理解云计算之HDFS

摘要：学习云计算，必然得了解Hadoop，而Hadoop中的HDFS（分布式文件系统）是一个基础，接下来就写一下我所理解的HDFS。有一个很有特别的村庄，村庄里面有一个很牛逼的人，叫做“大哥”，村民们都信得过他，于是会把自己家的粮食、农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着，等用的... 阅读全文

posted @ 2014-11-18 10:13 船长阅读(270) 评论(0) 推荐(0)

文章分类 - 云计算