随笔分类 -  Hadoop

摘要:http://kazman.shidler.hawaii.edu/ArchDoc.htmlhttp://kazman.shidler.hawaii.edu/ArchDocDecomposition.html 阅读全文
posted @ 2012-10-09 16:13 vivianC 阅读(164) 评论(0) 推荐(0)
摘要:一、BSP模型概念BSP(Bulk Synchronous Parallel,整体同步并行计算模型)是英国计算机科学家Viliant在上世纪80年代提出的一种并行计算模型。Google发布的一往篇论文(《Pregel: A System for Large-Scale Graph Processing》)使得这一概念被更多人所认识,据说在Google 80%的程序运行在MapReduce上,20%的程序运行在Pregel上。和MapReduce一样,Google并没有开源Pregel,Apache按Pregel的思想提供了类似框架Hama。关于BSP,一般是下边这张图:光看这个图理解起来还是蛮 阅读全文
posted @ 2012-09-07 08:40 vivianC 阅读(1885) 评论(0) 推荐(0)
摘要:Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针对这个问题, Apache 同样提出了相应的解决方案,那就是 chukwa。概述chukwa 的官方网站是这样描述自己的: chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和鲁棒性。Chukwa 还包含了一个强大和灵活的工具 阅读全文
posted @ 2012-04-24 10:22 vivianC 阅读(3219) 评论(0) 推荐(0)
摘要:记录UMLhttp://cloud.ozyegin.edu.tr/Hadoop-UML-Diagrams/Documentation/html/d2/d77/namespaceorg_1_1apache_1_1hadoop_1_1hdfs.htmljava code: TestUtilhttp://grepcode.com/file/repository.cloudera.com/content/repositories/releases/org.apache.hadoop/hadoop-test/0.20.2-cdh3u1/org/apache/hadoop/hdfs/DFSTestUtil 阅读全文
posted @ 2012-04-08 10:29 vivianC 阅读(475) 评论(0) 推荐(0)
摘要:在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后,总结如下。1数据倾斜的原因1.1操作:关键词情形后果Join其中一个表较小,但是key集 阅读全文
posted @ 2012-03-23 23:18 vivianC 阅读(924) 评论(0) 推荐(0)
摘要:本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。有关预分区,详情参见:Table Cre 阅读全文
posted @ 2012-03-23 23:15 vivianC 阅读(2129) 评论(0) 推荐(0)
摘要:引最近关注Hadoop,因此也顺便关注了一下Hadoop相关的项目。HBASE就是基于Hadoop的一个开源项目,也是对Google的BigTable的一种实现。 BigTable是什么?Google的Paper对其作了充分的说明。字面上看就是一张大表,其实和我们想象的传统数据库的表还是有些差别的。松散数据可以说是介于Map Entry(key & value)和DB Row之间的一种数据。在我使用Memcache的时候,有时候的需求是需要存储的不仅仅是简单的一个key对应一个value,可能我需要类似于数据库表结构中多属性的存储,但是又不会有传统数据库表结构中那么多关联关系的需求,其 阅读全文
posted @ 2012-03-05 20:32 vivianC 阅读(325) 评论(0) 推荐(0)
摘要:在新文章“MapReduce模式、算法和用例”中,Ilya Katsov提供了一个系统化的综述,阐述了能够应用MapReduce框架解决的问题。文章开始描述了一个非常简单的、作为通用的并行计算框架的MapReduce应用,这个框架适用于很多要求大量节点进行的计算和数据密集型计算,包括物理和工程仿真,数值分析,性能测试等等。接下来是一组算法,通常用于日志分析、ETL和数据查询,包括计数及求和,数据整理(基于特定函数),过滤,解析,验证和排序。第二大部分是关于MapReduce模式,Katsov讨论了包括多关系形MapReduce模式,通常用于数据仓库应用程序。这些模式在Hive和Pig实现中广泛 阅读全文
posted @ 2012-03-05 17:38 vivianC 阅读(488) 评论(0) 推荐(0)
摘要:一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的,默认的block大小为64MB,对于不足64MB的文件,其会占用一个block,但实际上不用占用实际硬盘上的64MB,这可以说是HDFS是在文件系统之上架设的一个中间层。之所以将默认的bl 阅读全文
posted @ 2012-03-05 17:35 vivianC 阅读(367) 评论(0) 推荐(0)
摘要:一、环境配置1、Eclipse 版本 3.3.X2、Hadoop版本 0.20.2二、配置流程1、将/hadoop-0.20.2/hadoop-0.20.2/contrib/eclipse-plugin/下的hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse-SDK-3.3.2-win32/eclipse/plugins/下。2、启动eclipse,点击Window->Show View->Other,点击MapReudce Tools->Map/Reduce Locations,如图(我已创建一个):3、点击蓝色的大象,出现下图,配置:Ho 阅读全文
posted @ 2012-03-05 17:28 vivianC 阅读(374) 评论(0) 推荐(0)
摘要:一、 Hadoop节点热拔插在Hadoop集群中经常会进行增添节点操作,即实现节点的热拔插。在这些操作中不希望对集群进行重启。2.在集群中添加节点:a. 把新节点IP或者主机名字加入到主节点的slaves文件。b. 登录到新节点,执行:cd $HADOOP_HOME && bin/hadoop-daemon.sh start datanode && bin/hadoop-daemon.sh start tasktracker3. 从集群中移走节点,且对移走节点的数据进行备份:a. 在主节点的hdfs-site.xml配置文件中添加<property> 阅读全文
posted @ 2012-03-05 17:26 vivianC 阅读(291) 评论(0) 推荐(0)
摘要:本文不是面向 HDFS 或 MapReduce 的配置使用,而是面向 Hadoop 本身的开发。进行开发的前提是配置好开发环境,即获取源代码并首先能够顺畅编译,本文即记录了在 Linux(Ubuntu 10.10)上配置 eclipse 编译 Hadoop 源代码的过程。开发 Hadoop 应该基于哪个版本的源代码呢?一种选择是通过 SVN 同步跟踪最新源代码,另一种选择是选择某个较新的稳定的 release 版本。如果是改进 Hadoop 本身,通常选择前者(比如对 SVN 源有写权限的 Hadoop 核心开发人员);如果是基于 Hadoop 开发其他产品,则通常选择后者,且只需在 Hado 阅读全文
posted @ 2012-03-05 17:06 vivianC 阅读(1248) 评论(1) 推荐(0)
该文被密码保护。
posted @ 2011-05-20 21:24 vivianC 阅读(2) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2011-05-19 16:57 vivianC 阅读(52) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。
posted @ 2011-05-19 16:56 vivianC 阅读(10) 评论(0) 推荐(0)
摘要:hadoop-0.20.1-examples.jar wordcount 例子运行出现的问题记录 阅读全文
posted @ 2011-04-25 16:28 vivianC 阅读(5127) 评论(2) 推荐(0)