随笔分类 -  Hadoop

摘要:最近在准备抽取数据的工作。有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集。id数据集合中每一个行就是一个id的字符串(Reduce side join要在每行的行尾加“,”号,而Map side join不必,如果加了也可以处理掉),类似,500GB的数据 阅读全文
posted @ 2013-09-15 22:22 九天高远 阅读(3930) 评论(0) 推荐(0)
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRedu 阅读全文
posted @ 2013-08-14 08:53 九天高远 阅读(333) 评论(0) 推荐(0)
摘要:一、Parcel本地源与Package本地源的区别 本地通过Parcel安装过程与本地通过Package安装过程完全一致,不同的是两者的本地源的配置。 区别如下: Package本地源:软件包是.rpm格式的,数量通常较多,下载的时候比较麻烦。通过"createrepo ."的命令创建源,并要放到存 阅读全文
posted @ 2013-06-19 21:23 九天高远 阅读(6686) 评论(5) 推荐(1)
摘要:一、前言 Hive是Hadoop上的数据仓库框架,其设计目的是让精通SQL技能(但Java编程技能相对较弱)的分析师能够在存放到HDFS大规模数据集上运行查询。提出Hive的主要原因是SQL并不是所有的“大数据”的理想工具。 Hive在工作站上运行,它把SQL转换为一系列在Hadoop集群上运行的M 阅读全文
posted @ 2013-06-19 20:22 九天高远 阅读(2693) 评论(0) 推荐(0)
摘要:一、包管理工具及CentOS的yum 1、包管理工具如何发现可以用的包 包管理工具依赖一系列软件源,工具下载源的信息存储在配置文件中,其位置随某包管理工具不同而变化 使用yum的RedHat/CentOS存储在:/etc/yum.repos.d 使用apt-get的Debian/Ubuntu在:/e 阅读全文
posted @ 2013-06-18 18:01 九天高远 阅读(9151) 评论(2) 推荐(1)
摘要:如果有必要,可以使用下面的命令卸载Couldera Manager Server 和Agents 安装失败,例如虚拟机超时中断,若要继续安装,步骤如下: 1、删除文件和目录 2、重新执行安装命令: 一、卸载Cloudera Manager Server 和Agents 注意:卸载Cloudera M 阅读全文
posted @ 2013-06-12 22:52 九天高远 阅读(3385) 评论(0) 推荐(0)
摘要:RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。 一、系统 阅读全文
posted @ 2013-06-08 14:01 九天高远 阅读(6142) 评论(1) 推荐(0)
摘要:Cloudera Manager需求: 磁盘空间,最小满足: 系统/var分区下有5GB 系统/usr分区有500MB 系统/opt下面最好多配置点 多数情况下RAM 4GB是比较合适的,如果装了Oracle数据库,就是必须的了。没有Oracle数据库且节点在100个以下的,也是足够的。 通常说来, 阅读全文
posted @ 2013-06-06 16:37 九天高远 阅读(10363) 评论(7) 推荐(1)
摘要:目录 1 引言 1.1 目的 1.2 读者范围 2 综述 3 代码详细分析 3.1 启动Hadoop集群 3.2 JobTracker启动以及Job的初始化 3.3 TaskTracker启动以及发送Heartbeat 3.4 JobTracker接收Heartbeat并向TaskTracker分配 阅读全文
posted @ 2013-06-03 21:02 九天高远 阅读(1216) 评论(0) 推荐(0)
摘要:1:最简单的过程: Map - Reduce 2:定制了partitioner以将map的结果写到相应的分区,以供对应的reducer下载: Map - Partition - Reduce 3:增加了在本地先进性一次reduce(本地优化),减少后期网络的传输量 Map - Combine(本地r 阅读全文
posted @ 2013-06-02 23:04 九天高远 阅读(602) 评论(0) 推荐(0)
摘要:Job job = new Job(conf, "MaxTemperature"); job.setJarByClass(MaxTemperature.class); job.setMapperClass(MaxTemperatureMapper.class); Combiner类: 通常,每个Ma 阅读全文
posted @ 2013-06-02 19:12 九天高远 阅读(1304) 评论(0) 推荐(0)
摘要:最近重新研究MapReduce,中间出现了不少问题,看样子长时间不弄还是很容易忘记的,特此记录。 问题一:Unsupported major.minor version 51.0解决办法 我使用的是Eclipse-jee + JDK 1.6.0_24环境,结果运行MapReduce程序的时候使用时出 阅读全文
posted @ 2013-06-02 14:20 九天高远 阅读(1545) 评论(2) 推荐(0)