Hadoop学习之路 - 随笔分类 - 林六天

摘要：hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较阅读全文

posted @ 2015-03-26 14:54 林六天阅读(390) 评论(0) 推荐(0)

摘要：今天在写一个MR的时候，用到了combiner。在使用过程中，遇到了一些问题，特此记录一下。Combiner分为两种，一种是可插拔的，一种是不可插拔的。可插拔的：Combiner和Reduce的处理逻辑是一样的，可以直接使用Reduce类进行处理。如果去掉Combiner，不影响结果。不可插拔：Co... 阅读全文

posted @ 2015-02-10 18:08 林六天阅读(567) 评论(0) 推荐(0)

Hadoop框架下MapReduce中的map个数如何控制

摘要：控制map个数的核心源码 1 long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); 2 3 //getFormatMinSplitSize 默认返回1，getMinSplitSize 为用户设置的最小分片数... 阅读全文

posted @ 2015-01-22 10:51 林六天阅读(2343) 评论(0) 推荐(0)

Spark在集群中的安装

摘要：今天由于所以要安装spark做一些实验。我已有的环境是：操作系统：CentOS6.5hadoop：hadoop2.4.1JDK：1.7集群环境：四个节点闲话不说，以下是我的安装步骤：说明：下边的这些安装都是先在master节点上安装。安装完成后将scala和spark传到其他节点。Spark采用的是... 阅读全文

posted @ 2014-11-20 12:23 林六天阅读(373) 评论(0) 推荐(0)

ambari的重新安装

摘要：ambari是什么呢？这里我简单说一下ambari的目的，他的目的就是简化hadoop集群的安装和管理。对于安装简化到什么地步呢？只需要几个命令，在页面上配置几个参数，几百几千个节点的集群就能安装成功。第一次安装可以参考官方的指导，很简单。https://cwiki.apache.org/confl... 阅读全文

posted @ 2014-11-14 15:33 林六天阅读(4686) 评论(0) 推荐(0)

Hadoop-MapReduce之自定义数据类型

摘要：以下是自定义的一个数据类型，有两个属性，一个是名称，一个是开始点（可以理解为单词和单词的位置）MR程序就不写了，请看WordCount程序。package cn.genekang.hadoop.mr.RealignerTargetCreator;import java.io.DataInput;im... 阅读全文

posted @ 2014-10-31 18:17 林六天阅读(335) 评论(0) 推荐(0)

Hadoop-Map/Reduce之单表连接的实现

摘要：MapReduce程序就是根据其特性对数据进行一个简单的逻辑处理，其中最为重要的一个特性就是根据key值将value值进行合并，其次就是在shuffle阶段有排序。遇到一个MR程序就是要巧妙利用合并、排序的特性。单表关联就是根据利用了合并的原理。先上测试数据child parentTom Luc... 阅读全文

posted @ 2014-10-30 11:01 林六天阅读(401) 评论(0) 推荐(0)

使用Pig预测电信用户的移动路径

摘要：实战数据：预期结果：测试数据：002|2014-09-10 00-09|东油大学002|2014-09-10 09-17|学苑小区001|2014-09-12 00-09|东油大学001|2014-09-12 09-17|新玛特002|2014-09-13 00-09|东油大学002|2014-09... 阅读全文

posted @ 2014-07-20 11:08 林六天阅读(360) 评论(0) 推荐(0)

Hadoop--map/reduce实现单词计数

摘要：map/reduce实现单词计数阅读全文

posted @ 2014-07-07 10:31 林六天阅读(1076) 评论(0) 推荐(0)

mao/reduce实现求平均值

摘要：mao/reduce实现求平均值阅读全文

posted @ 2014-07-07 10:30 林六天阅读(534) 评论(0) 推荐(0)

map/reduce实现数据去重

摘要：map/reduce实现数据去重阅读全文

posted @ 2014-07-07 10:29 林六天阅读(413) 评论(0) 推荐(0)

Hadoop--Map/Reduce实现多表链接

摘要：map/reduce实现多表链接阅读全文

posted @ 2014-07-07 10:27 林六天阅读(388) 评论(0) 推荐(0)

林六天

生命不息，学习不止

随笔分类 - Hadoop学习之路

公告