Hadoop - 随笔分类 - 九天高远

hadoop 多表join：Map side join及Reduce side join范例

摘要：最近在准备抽取数据的工作。有一个id集合200多M，要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集。id数据集合中每一个行就是一个id的字符串（Reduce side join要在每行的行尾加“,”号，而Map side join不必，如果加了也可以处理掉），类似，500GB的数据阅读全文

posted @ 2013-09-15 22:22 九天高远阅读(3930) 评论(0) 推荐(0)

MapReduce:详解Shuffle过程

摘要：Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapRedu 阅读全文

posted @ 2013-08-14 08:53 九天高远阅读(333) 评论(0) 推荐(0)

Cloudera CDH 、Impala本地通过Parcel安装配置详解

摘要：一、Parcel本地源与Package本地源的区别本地通过Parcel安装过程与本地通过Package安装过程完全一致，不同的是两者的本地源的配置。区别如下： Package本地源：软件包是.rpm格式的，数量通常较多，下载的时候比较麻烦。通过"createrepo ."的命令创建源，并要放到存阅读全文

posted @ 2013-06-19 21:23 九天高远阅读(6686) 评论(5) 推荐(1)

Hive学习笔记

摘要：一、前言 Hive是Hadoop上的数据仓库框架，其设计目的是让精通SQL技能（但Java编程技能相对较弱）的分析师能够在存放到HDFS大规模数据集上运行查询。提出Hive的主要原因是SQL并不是所有的“大数据”的理想工具。 Hive在工作站上运行，它把SQL转换为一系列在Hadoop集群上运行的M 阅读全文

posted @ 2013-06-19 20:22 九天高远阅读(2693) 评论(0) 推荐(0)

创建本地yum软件源，为本地Package安装Cloudera Manager、Cloudera Hadoop及Impala做准备

摘要：一、包管理工具及CentOS的yum 1、包管理工具如何发现可以用的包包管理工具依赖一系列软件源，工具下载源的信息存储在配置文件中，其位置随某包管理工具不同而变化使用yum的RedHat/CentOS存储在：/etc/yum.repos.d 使用apt-get的Debian/Ubuntu在：/e 阅读全文

posted @ 2013-06-18 18:01 九天高远阅读(9151) 评论(2) 推荐(1)

使用Parcles安装后卸载Cloudera Manager Free Edition

摘要：如果有必要，可以使用下面的命令卸载Couldera Manager Server 和Agents 安装失败，例如虚拟机超时中断，若要继续安装，步骤如下： 1、删除文件和目录 2、重新执行安装命令：一、卸载Cloudera Manager Server 和Agents 注意：卸载Cloudera M 阅读全文

posted @ 2013-06-12 22:52 九天高远阅读(3385) 评论(0) 推荐(0)

在Cloudera Hadoop CDH上安装R及RHadoop（rhdfs、rmr2、rhbase、RHive）

摘要：RHadoop是由Revolution Analytics发起的一个开源项目，它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages，分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。一、系统阅读全文

posted @ 2013-06-08 14:01 九天高远阅读(6142) 评论(1) 推荐(0)

Cloudera Manager and CDH安装及配置

摘要：Cloudera Manager需求：磁盘空间，最小满足：系统/var分区下有5GB 系统/usr分区有500MB 系统/opt下面最好多配置点多数情况下RAM 4GB是比较合适的，如果装了Oracle数据库，就是必须的了。没有Oracle数据库且节点在100个以下的，也是足够的。通常说来，阅读全文

posted @ 2013-06-06 16:37 九天高远阅读(10363) 评论(7) 推荐(1)

Hadoop MapReduce 任务执行流程源代码详细解析（转载）

摘要：目录 1 引言 1.1 目的 1.2 读者范围 2 综述 3 代码详细分析 3.1 启动Hadoop集群 3.2 JobTracker启动以及Job的初始化 3.3 TaskTracker启动以及发送Heartbeat 3.4 JobTracker接收Heartbeat并向TaskTracker分配阅读全文

posted @ 2013-06-03 21:02 九天高远阅读(1216) 评论(0) 推荐(0)

MapReduce 过程详解

摘要：1：最简单的过程： Map - Reduce 2：定制了partitioner以将map的结果写到相应的分区，以供对应的reducer下载： Map - Partition - Reduce 3：增加了在本地先进性一次reduce（本地优化），减少后期网络的传输量 Map - Combine(本地r 阅读全文

posted @ 2013-06-02 23:04 九天高远阅读(602) 评论(0) 推荐(0)

MapReduce Job详解

摘要：Job job = new Job(conf, "MaxTemperature"); job.setJarByClass(MaxTemperature.class); job.setMapperClass(MaxTemperatureMapper.class); Combiner类：通常，每个Ma 阅读全文

posted @ 2013-06-02 19:12 九天高远阅读(1304) 评论(0) 推荐(0)

Unsupported major.minor version 51.0解决办法 ——运行MapReduce程序找不到相关类——MapReduce中的Reduce无效

摘要：最近重新研究MapReduce，中间出现了不少问题，看样子长时间不弄还是很容易忘记的，特此记录。问题一：Unsupported major.minor version 51.0解决办法我使用的是Eclipse-jee + JDK 1.6.0_24环境，结果运行MapReduce程序的时候使用时出阅读全文

posted @ 2013-06-02 14:20 九天高远阅读(1545) 评论(2) 推荐(0)

九天高远

鹤知九天高远，深谙境界之美！

随笔分类 - Hadoop

公告