08 2014 档案
hadoop的数据存储
摘要:行存储如图2所示,基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力,这是因为行存储保证了相同记录的所有域都在同一个集群节点,即同一个HDFS块。不过,行存储的缺点也是显而易见的,例如它不能支持快速查询处理,因为当查询仅仅针对多列表中的少数几列时,它不能跳过不必要的列读取;此... 阅读全文
posted @ 2014-08-22 11:11 netskill 阅读(1362) 评论(0) 推荐(0)
HIVE安装
摘要:前提条件:1)已经完成HADOOP的安装。本文已安装HADOOP2.2.0。2)已经安装好MYSQL。1、下载HIVEhttp://apache.fayea.com/apache-mirror/hive/stable/下载apache-hive-0.13.1-bin.tar.gz。解压后,直接用,你... 阅读全文
posted @ 2014-08-15 15:43 netskill 阅读(302) 评论(0) 推荐(0)
使用MapReduce并行构建Lucene索引
摘要:本篇呢,我们里看下如何使用MapReduce来构建索引,代码如下:package com.mapreduceindex;import java.io.IOException;import java.util.ArrayList;import java.util.List;import java.ut... 阅读全文
posted @ 2014-08-15 14:09 netskill 阅读(611) 评论(0) 推荐(0)
hadoop , lucene 分布式索引方案
摘要:一、lucene介绍Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人... 阅读全文
posted @ 2014-08-15 14:07 netskill 阅读(628) 评论(0) 推荐(0)
Hadoop的ChainMapper和ChainReducer实战
摘要:Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道... 阅读全文
posted @ 2014-08-15 11:23 netskill 阅读(368) 评论(0) 推荐(0)
ChainMapper/ChainReducer 的实现原理
摘要:ChainMapper/ChainReducer 主要为了解决线性链式Mapper 而提出的。也就是说,在Map 或者Reduce 阶段存在多个Mapper,这些Mapper 像Linux 管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper 的输入,形成一个流水线,形式类似于[MA... 阅读全文
posted @ 2014-08-15 11:21 netskill 阅读(409) 评论(0) 推荐(0)
mapreduce排序【二次排序】
摘要:mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程)public static class Map extends Mapper public static class Reduce ... 阅读全文
posted @ 2014-08-14 16:59 netskill 阅读(1075) 评论(0) 推荐(0)
Map/Reduce中分区和分组的问题
摘要:全篇结论【分在同一组的一定同属一个分区。在一个分区的可重载"job.setGroupingComparatorClass(a.class);"中的a类的compare方法重新定义分组规则,同一组的value做为reduce的输入。】一、为什么写分区和分组在排序中的作用是不一样的,今天早上看书,又有点... 阅读全文
posted @ 2014-08-14 16:55 netskill 阅读(428) 评论(0) 推荐(0)
mapreduce原理【分区,分组】
摘要:分析这个原理,的原因是: 1、更好的理解MAPREDUCE的过程。 2、在二次排序时会用到这个原理,二次排序要重写分区方法,重写分组方法;如果原理没搞明白,就无法写二次排序的代码。Key默认分区默认分组自定义分区自定义分组Abc1231、使用系统默认分区方式,是按KEY进行分区。2、KEY相... 阅读全文
posted @ 2014-08-14 16:09 netskill 阅读(791) 评论(0) 推荐(0)
Hive 分区、桶、Sort Merge Bucket Join
摘要:Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv... 阅读全文
posted @ 2014-08-14 15:10 netskill 阅读(1327) 评论(0) 推荐(0)
Hadoop的Reduce Join+BloomFilter实现表链接
摘要:适用于场景连接的列数据量很大,在分布式缓存中无法存储时,Bloom Filter 可解决这个问题,用很小的内存可有MAP端过滤掉不需要JOIN的数据,这样传到REDUCE的数据量减少,减少了网络传及磁盘IO。缺点Bloom Filter 会有一定的错误率,但是错误率很低,用空间换取了时间。并且,最终... 阅读全文
posted @ 2014-08-14 14:49 netskill 阅读(552) 评论(0) 推荐(0)