Hadoop - 随笔分类 - vivianC

摘要：http://kazman.shidler.hawaii.edu/ArchDoc.htmlhttp://kazman.shidler.hawaii.edu/ArchDocDecomposition.html 阅读全文

posted @ 2012-10-09 16:13 vivianC 阅读(164) 评论(0) 推荐(0)

摘要：一、BSP模型概念BSP(Bulk Synchronous Parallel，整体同步并行计算模型)是英国计算机科学家Viliant在上世纪80年代提出的一种并行计算模型。Google发布的一往篇论文(《Pregel: A System for Large-Scale Graph Processing》)使得这一概念被更多人所认识，据说在Google 80%的程序运行在MapReduce上，20%的程序运行在Pregel上。和MapReduce一样，Google并没有开源Pregel，Apache按Pregel的思想提供了类似框架Hama。关于BSP，一般是下边这张图:光看这个图理解起来还是蛮阅读全文

posted @ 2012-09-07 08:40 vivianC 阅读(1925) 评论(0) 推荐(0)

chukwa 介绍

摘要：Apache 的开源项目 hadoop，作为一个分布式存储和计算系统，已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时，集群自身的相关信息如何收集和分析呢？针对这个问题， Apache 同样提出了相应的解决方案，那就是 chukwa。概述chukwa 的官方网站是这样描述自己的： chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的，继承了 hadoop 的可伸缩性和鲁棒性。Chukwa 还包含了一个强大和灵活的工具阅读全文

posted @ 2012-04-24 10:22 vivianC 阅读(3232) 评论(0) 推荐(0)

hadoop 源码在线查看页面

摘要：记录UMLhttp://cloud.ozyegin.edu.tr/Hadoop-UML-Diagrams/Documentation/html/d2/d77/namespaceorg_1_1apache_1_1hadoop_1_1hdfs.htmljava code: TestUtilhttp://grepcode.com/file/repository.cloudera.com/content/repositories/releases/org.apache.hadoop/hadoop-test/0.20.2-cdh3u1/org/apache/hadoop/hdfs/DFSTestUtil 阅读全文

posted @ 2012-04-08 10:29 vivianC 阅读(478) 评论(0) 推荐(0)

Shuffle阶段数据倾斜总结

摘要：在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后，总结如下。1数据倾斜的原因1.1操作：关键词情形后果Join其中一个表较小，但是key集阅读全文

posted @ 2012-03-23 23:18 vivianC 阅读(936) 评论(0) 推荐(0)

HBase性能优化方法总结

摘要：本文主要是从HBase应用程序设计与开发的角度，总结几种常用的性能优化方法。有关HBase系统配置级别的优化，这里涉及的不多，这部分可以参考：淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。有关预分区，详情参见：Table Cre 阅读全文

posted @ 2012-03-23 23:15 vivianC 阅读(2148) 评论(0) 推荐(0)

HBASE松散数据存储设计初识

摘要：引最近关注Hadoop，因此也顺便关注了一下Hadoop相关的项目。HBASE就是基于Hadoop的一个开源项目，也是对Google的BigTable的一种实现。 BigTable是什么？Google的Paper对其作了充分的说明。字面上看就是一张大表，其实和我们想象的传统数据库的表还是有些差别的。松散数据可以说是介于Map Entry（key & value）和DB Row之间的一种数据。在我使用Memcache的时候，有时候的需求是需要存储的不仅仅是简单的一个key对应一个value，可能我需要类似于数据库表结构中多属性的存储，但是又不会有传统数据库表结构中那么多关联关系的需求，其阅读全文

posted @ 2012-03-05 20:32 vivianC 阅读(331) 评论(0) 推荐(0)

MapReduce 模式、算法和用例（MapReduce Patterns, Algorithms, and Use Cases)

摘要：在新文章“MapReduce模式、算法和用例”中，Ilya Katsov提供了一个系统化的综述，阐述了能够应用MapReduce框架解决的问题。文章开始描述了一个非常简单的、作为通用的并行计算框架的MapReduce应用，这个框架适用于很多要求大量节点进行的计算和数据密集型计算，包括物理和工程仿真，数值分析，性能测试等等。接下来是一组算法，通常用于日志分析、ETL和数据查询，包括计数及求和，数据整理（基于特定函数），过滤，解析，验证和排序。第二大部分是关于MapReduce模式，Katsov讨论了包括多关系形MapReduce模式，通常用于数据仓库应用程序。这些模式在Hive和Pig实现中广泛阅读全文

posted @ 2012-03-05 17:38 vivianC 阅读(494) 评论(0) 推荐(0)

HDFS写入和读取流程

摘要：一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的，默认的block大小为64MB，对于不足64MB的文件，其会占用一个block，但实际上不用占用实际硬盘上的64MB，这可以说是HDFS是在文件系统之上架设的一个中间层。之所以将默认的bl 阅读全文

posted @ 2012-03-05 17:35 vivianC 阅读(370) 评论(0) 推荐(0)

Eclipse下配置使用Hadoop插件

摘要：一、环境配置1、Eclipse 版本 3.3.X2、Hadoop版本 0.20.2二、配置流程1、将/hadoop-0.20.2/hadoop-0.20.2/contrib/eclipse-plugin/下的hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse-SDK-3.3.2-win32/eclipse/plugins/下。2、启动eclipse，点击Window->Show View->Other，点击MapReudce Tools->Map/Reduce Locations，如图（我已创建一个）：3、点击蓝色的大象，出现下图，配置：Ho 阅读全文

posted @ 2012-03-05 17:28 vivianC 阅读(378) 评论(0) 推荐(0)

Hadoop节点热拔插

摘要：一、 Hadoop节点热拔插在Hadoop集群中经常会进行增添节点操作，即实现节点的热拔插。在这些操作中不希望对集群进行重启。2.在集群中添加节点：a. 把新节点IP或者主机名字加入到主节点的slaves文件。b. 登录到新节点，执行：cd $HADOOP_HOME && bin/hadoop-daemon.sh start datanode && bin/hadoop-daemon.sh start tasktracker3. 从集群中移走节点，且对移走节点的数据进行备份：a. 在主节点的hdfs-site.xml配置文件中添加<property> 阅读全文

posted @ 2012-03-05 17:26 vivianC 阅读(303) 评论(0) 推荐(0)

配置 eclipse 编译、开发 Hadoop（MapReduce）源代码

摘要：本文不是面向 HDFS 或 MapReduce 的配置使用，而是面向 Hadoop 本身的开发。进行开发的前提是配置好开发环境，即获取源代码并首先能够顺畅编译，本文即记录了在 Linux（Ubuntu 10.10）上配置 eclipse 编译 Hadoop 源代码的过程。开发 Hadoop 应该基于哪个版本的源代码呢？一种选择是通过 SVN 同步跟踪最新源代码，另一种选择是选择某个较新的稳定的 release 版本。如果是改进 Hadoop 本身，通常选择前者（比如对 SVN 源有写权限的 Hadoop 核心开发人员）；如果是基于 Hadoop 开发其他产品，则通常选择后者，且只需在 Hado 阅读全文

posted @ 2012-03-05 17:06 vivianC 阅读(1269) 评论(1) 推荐(0)

hadoop---如何实现对象序列化的

该文被密码保护。

posted @ 2011-05-20 21:24 vivianC 阅读(2) 评论(0) 推荐(0)

Hadoop剖析---SequenceFile 类分析

只有注册用户登录后才能阅读该文。

posted @ 2011-05-19 16:57 vivianC 阅读(52) 评论(0) 推荐(0)

Hadoop剖析---io包内的Comparator与Comparable分析

只有注册用户登录后才能阅读该文。

posted @ 2011-05-19 16:56 vivianC 阅读(10) 评论(0) 推荐(0)

hadoop-0.20.1-examples.jar wordcount 例子运行出现的问题记录

摘要：hadoop-0.20.1-examples.jar wordcount 例子运行出现的问题记录阅读全文

posted @ 2011-04-25 16:28 vivianC 阅读(5159) 评论(2) 推荐(0)

vivianC

随笔分类 - Hadoop

公告