摘要:
前提条件:1)已经完成HADOOP的安装。本文已安装HADOOP2.2.0。2)已经安装好MYSQL。1、下载HIVEhttp://apache.fayea.com/apache-mirror/hive/stable/下载apache-hive-0.13.1-bin.tar.gz。解压后,直接用,你... 阅读全文
posted @ 2014-08-15 15:43
netskill
阅读(301)
评论(0)
推荐(0)
摘要:
本篇呢,我们里看下如何使用MapReduce来构建索引,代码如下:package com.mapreduceindex;import java.io.IOException;import java.util.ArrayList;import java.util.List;import java.ut... 阅读全文
posted @ 2014-08-15 14:09
netskill
阅读(609)
评论(0)
推荐(0)
摘要:
一、lucene介绍Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人... 阅读全文
posted @ 2014-08-15 14:07
netskill
阅读(625)
评论(0)
推荐(0)
摘要:
Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道... 阅读全文
posted @ 2014-08-15 11:23
netskill
阅读(366)
评论(0)
推荐(0)
摘要:
ChainMapper/ChainReducer 主要为了解决线性链式Mapper 而提出的。也就是说,在Map 或者Reduce 阶段存在多个Mapper,这些Mapper 像Linux 管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper 的输入,形成一个流水线,形式类似于[MA... 阅读全文
posted @ 2014-08-15 11:21
netskill
阅读(404)
评论(0)
推荐(0)
浙公网安备 33010602011771号