随笔分类 - Hadoop
摘要:最近在准备抽取数据的工作。有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集。id数据集合中每一个行就是一个id的字符串(Reduce side join要在每行的行尾加“,”号,而Map side join不必,如果加了也可以处理掉),类似,500GB的数据
阅读全文
摘要:Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRedu
阅读全文
摘要:一、Parcel本地源与Package本地源的区别 本地通过Parcel安装过程与本地通过Package安装过程完全一致,不同的是两者的本地源的配置。 区别如下: Package本地源:软件包是.rpm格式的,数量通常较多,下载的时候比较麻烦。通过"createrepo ."的命令创建源,并要放到存
阅读全文
摘要:一、前言 Hive是Hadoop上的数据仓库框架,其设计目的是让精通SQL技能(但Java编程技能相对较弱)的分析师能够在存放到HDFS大规模数据集上运行查询。提出Hive的主要原因是SQL并不是所有的“大数据”的理想工具。 Hive在工作站上运行,它把SQL转换为一系列在Hadoop集群上运行的M
阅读全文
摘要:一、包管理工具及CentOS的yum 1、包管理工具如何发现可以用的包 包管理工具依赖一系列软件源,工具下载源的信息存储在配置文件中,其位置随某包管理工具不同而变化 使用yum的RedHat/CentOS存储在:/etc/yum.repos.d 使用apt-get的Debian/Ubuntu在:/e
阅读全文
摘要:如果有必要,可以使用下面的命令卸载Couldera Manager Server 和Agents 安装失败,例如虚拟机超时中断,若要继续安装,步骤如下: 1、删除文件和目录 2、重新执行安装命令: 一、卸载Cloudera Manager Server 和Agents 注意:卸载Cloudera M
阅读全文
摘要:RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。 一、系统
阅读全文
摘要:Cloudera Manager需求: 磁盘空间,最小满足: 系统/var分区下有5GB 系统/usr分区有500MB 系统/opt下面最好多配置点 多数情况下RAM 4GB是比较合适的,如果装了Oracle数据库,就是必须的了。没有Oracle数据库且节点在100个以下的,也是足够的。 通常说来,
阅读全文
摘要:目录 1 引言 1.1 目的 1.2 读者范围 2 综述 3 代码详细分析 3.1 启动Hadoop集群 3.2 JobTracker启动以及Job的初始化 3.3 TaskTracker启动以及发送Heartbeat 3.4 JobTracker接收Heartbeat并向TaskTracker分配
阅读全文
摘要:1:最简单的过程: Map - Reduce 2:定制了partitioner以将map的结果写到相应的分区,以供对应的reducer下载: Map - Partition - Reduce 3:增加了在本地先进性一次reduce(本地优化),减少后期网络的传输量 Map - Combine(本地r
阅读全文
摘要:Job job = new Job(conf, "MaxTemperature"); job.setJarByClass(MaxTemperature.class); job.setMapperClass(MaxTemperatureMapper.class); Combiner类: 通常,每个Ma
阅读全文
摘要:最近重新研究MapReduce,中间出现了不少问题,看样子长时间不弄还是很容易忘记的,特此记录。 问题一:Unsupported major.minor version 51.0解决办法 我使用的是Eclipse-jee + JDK 1.6.0_24环境,结果运行MapReduce程序的时候使用时出
阅读全文

浙公网安备 33010602011771号