随笔分类 -  m_hadoop/mapreduce

摘要:首先要推荐一下:http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程,强烈推荐先读一下。不过,上文没有写明一些实现的细节,比如:spill的过程,mapper生成文件的 partiti... 阅读全文
posted @ 2014-07-29 11:01 弹着钢琴设计
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解 MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed... 阅读全文
posted @ 2014-07-29 10:43 弹着钢琴设计
摘要:使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到hadoop集群,操作系统,任务调度策略这些方面的问题。hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行:1.hadoop配置2.程序代码程序代码包括... 阅读全文
posted @ 2014-07-24 16:57 弹着钢琴设计
摘要:《大 数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是 MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O;第6章分析了 MapReduce的工... 阅读全文
posted @ 2014-07-24 11:14 弹着钢琴设计
摘要:转自:http://www.open-open.com/lib/view/open1370958898835.htmlMapReduce采用Master/Slave的架构,其架构图如下:它主要有以下4个部分组成:1)Client2)JobTrackerJobTracke负责资源监控和作业调度。Job... 阅读全文
posted @ 2014-07-24 11:01 弹着钢琴设计
摘要:谁在用 Hadoop这是个问题。在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是 Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,... 阅读全文
posted @ 2014-07-24 09:32 弹着钢琴设计
摘要:淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置,而且由于电子商务领域独特的应用场景,淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先,因此积累了很多的实践的经验和产品。TimeTunnel基于Hbase打造的消息中间件,具有高可靠、消息顺序、事务等传统特性,还能按时间维度... 阅读全文
posted @ 2014-07-24 09:22 弹着钢琴设计
摘要:1.JobTracker能否决定给当前的TaskTracker节点分配一个Job的具体的哪一个任务?2.什么是map本地任务?3.nonRunningMapCache的作用是什么?4.从TaskTracker节点上分配挂载的本地任务时,如果以前发生过该TaskTracker节点执行某一Map任务失败... 阅读全文
posted @ 2014-07-23 16:54 弹着钢琴设计
摘要:Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)Hadoop中默认的调度器FIFO,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列中排队,新... 阅读全文
posted @ 2014-07-23 16:53 弹着钢琴设计
摘要:阅读本文思考:1.对磁盘IO了解多少2.为什么是磁盘IO是瓶颈,有没有自己的答案想了解磁盘io可以查看此帖:集群瓶颈:磁盘IO必读(磁盘IO:磁盘输出输出)集群的瓶颈提出多种看法,其中网络和磁盘io的争议比较大。这里需要说明的是网络是一种稀缺资源,而不是瓶颈。对于磁盘IO:当我们面临集群作战的时候,... 阅读全文
posted @ 2014-07-23 16:52 弹着钢琴设计
摘要:转自:http://www.cnblogs.com/sharpxiajun/p/3151395.html开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs 时候,就感觉到hdfs和mapreduce关系的紧密。这... 阅读全文
posted @ 2014-07-23 16:49 弹着钢琴设计
摘要:转自:http://blog.csdn.net/iamdll/article/details/20998035 分类: 分布式 2014-03-11 10:31 156人阅读 评论(0) 收藏 举报 目录(?)[+] Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解... 阅读全文
posted @ 2014-07-23 16:46 弹着钢琴设计
摘要:目录(?)[+]Author :岑文初Email: wenchu.cenwc@alibaba-inc.commsn:cenwenchu_79@hotmail.comblog:http://blog.csdn.net/cenwenchu79/引What is HadoopWhy is hadoopHo... 阅读全文
posted @ 2014-07-23 16:45 弹着钢琴设计