随笔分类 -  Hadoop学习之路

摘要:hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较 阅读全文
posted @ 2015-03-26 14:54 林六天 阅读(390) 评论(0) 推荐(0)
摘要:今天在写一个MR的时候,用到了combiner。在使用过程中,遇到了一些问题,特此记录一下。Combiner分为两种,一种是可插拔的,一种是不可插拔的。可插拔的:Combiner和Reduce的处理逻辑是一样的,可以直接使用Reduce类进行处理。如果去掉Combiner,不影响结果。不可插拔:Co... 阅读全文
posted @ 2015-02-10 18:08 林六天 阅读(567) 评论(0) 推荐(0)
摘要:控制map个数的核心源码 1 long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); 2 3 //getFormatMinSplitSize 默认返回1,getMinSplitSize 为用户设置的最小分片数... 阅读全文
posted @ 2015-01-22 10:51 林六天 阅读(2343) 评论(0) 推荐(0)
摘要:今天由于所以要安装spark做一些实验。我已有的环境是:操作系统:CentOS6.5hadoop:hadoop2.4.1JDK:1.7集群环境:四个节点闲话不说,以下是我的安装步骤:说明:下边的这些安装都是先在master节点上安装。安装完成后将scala和spark传到其他节点。Spark采用的是... 阅读全文
posted @ 2014-11-20 12:23 林六天 阅读(373) 评论(0) 推荐(0)
摘要:ambari是什么呢?这里我简单说一下ambari的目的,他的目的就是简化hadoop集群的安装和管理。对于安装简化到什么地步呢?只需要几个命令,在页面上配置几个参数,几百几千个节点的集群就能安装成功。第一次安装可以参考官方的指导,很简单。https://cwiki.apache.org/confl... 阅读全文
posted @ 2014-11-14 15:33 林六天 阅读(4686) 评论(0) 推荐(0)
摘要:以下是自定义的一个数据类型,有两个属性,一个是名称,一个是开始点(可以理解为单词和单词的位置)MR程序就不写了,请看WordCount程序。package cn.genekang.hadoop.mr.RealignerTargetCreator;import java.io.DataInput;im... 阅读全文
posted @ 2014-10-31 18:17 林六天 阅读(335) 评论(0) 推荐(0)
摘要:MapReduce程序就是根据其特性对数据进行一个简单的逻辑处理,其中最为重要的一个特性就是根据key值将value值进行合并,其次就是在shuffle阶段有排序。遇到一个MR程序就是要巧妙利用合并、排序的特性。单表关联就是根据利用了合并的原理。先上测试数据child parentTom Luc... 阅读全文
posted @ 2014-10-30 11:01 林六天 阅读(401) 评论(0) 推荐(0)
摘要:实战数据:预期结果:测试数据:002|2014-09-10 00-09|东油大学002|2014-09-10 09-17|学苑小区001|2014-09-12 00-09|东油大学001|2014-09-12 09-17|新玛特002|2014-09-13 00-09|东油大学002|2014-09... 阅读全文
posted @ 2014-07-20 11:08 林六天 阅读(360) 评论(0) 推荐(0)
摘要:map/reduce实现单词计数 阅读全文
posted @ 2014-07-07 10:31 林六天 阅读(1076) 评论(0) 推荐(0)
摘要:mao/reduce实现求平均值 阅读全文
posted @ 2014-07-07 10:30 林六天 阅读(534) 评论(0) 推荐(0)
摘要:map/reduce实现数据去重 阅读全文
posted @ 2014-07-07 10:29 林六天 阅读(413) 评论(0) 推荐(0)
摘要:map/reduce实现多表链接 阅读全文
posted @ 2014-07-07 10:27 林六天 阅读(388) 评论(0) 推荐(0)