2012年9月19日

摘要: Overview of HadoopThis appendix gives a brief overview of Hadoop, focusing on elements that are of interest to Pig users. For a thorough discussion of Hadoop see [Tom WhiteHadoop, The Definitive GuideO'Reilly,http://oreilly.com/catalog/9781449389734/]. Hadoop's two main components are MapRed 阅读全文
posted @ 2012-09-19 10:24 xiaoshier 阅读(316) 评论(0) 推荐(0)
摘要: 宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。Hadoop处理流程中的两个子阶段严重降低了其性能。第一个是map阶段产生的中间结果要写到磁盘上,这样做的主要目的是提高系统的可靠性,但代价是降低了系统的性能,实际上,Hadoop的改进版–MapReduce Onli 阅读全文
posted @ 2012-09-19 10:12 xiaoshier 阅读(134) 评论(0) 推荐(0)
摘要: 转自:http://langyu.iteye.com/blog/992916Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽最大的可能试着把Shuffle说清楚,让每一位想了解它原理的朋友都能有所收获。如果你对这篇文章有任何疑问或建议请留言到后 阅读全文
posted @ 2012-09-19 10:10 xiaoshier 阅读(144) 评论(0) 推荐(0)

导航