摘要: 使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到hadoop集群,操作系统,任务调度策略这些方面的问题。hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行:1.hadoop配置2.程序代码程序代码包括... 阅读全文
posted @ 2014-07-24 16:57 弹着钢琴设计 阅读(500) 评论(0) 推荐(0) 编辑
摘要: 《大 数据技术丛书:Hadoop应用开发技术详解》共12章。第1~2章详细地介绍了Hadoop的生态系统、关键技术以及安装和配置;第3章是 MapReduce的使用入门,让读者了解整个开发过程;第4~5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O;第6章分析了 MapReduce的工... 阅读全文
posted @ 2014-07-24 11:14 弹着钢琴设计 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 转自:http://www.open-open.com/lib/view/open1370958898835.htmlMapReduce采用Master/Slave的架构,其架构图如下:它主要有以下4个部分组成:1)Client2)JobTrackerJobTracke负责资源监控和作业调度。Job... 阅读全文
posted @ 2014-07-24 11:01 弹着钢琴设计 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 谁在用 Hadoop这是个问题。在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是 Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,... 阅读全文
posted @ 2014-07-24 09:32 弹着钢琴设计 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置,而且由于电子商务领域独特的应用场景,淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先,因此积累了很多的实践的经验和产品。TimeTunnel基于Hbase打造的消息中间件,具有高可靠、消息顺序、事务等传统特性,还能按时间维度... 阅读全文
posted @ 2014-07-24 09:22 弹着钢琴设计 阅读(404) 评论(0) 推荐(0) 编辑