随笔档案「2014年8月15日」：HIVE安装 ... - netskill

2014年8月15日

摘要：前提条件：1）已经完成HADOOP的安装。本文已安装HADOOP2.2.0。2）已经安装好MYSQL。1、下载HIVEhttp://apache.fayea.com/apache-mirror/hive/stable/下载apache-hive-0.13.1-bin.tar.gz。解压后，直接用，你... 阅读全文

posted @ 2014-08-15 15:43 netskill 阅读(308) 评论(0) 推荐(0)

使用MapReduce并行构建Lucene索引

摘要：本篇呢，我们里看下如何使用MapReduce来构建索引，代码如下：package com.mapreduceindex;import java.io.IOException;import java.util.ArrayList;import java.util.List;import java.ut... 阅读全文

posted @ 2014-08-15 14:09 netskill 阅读(621) 评论(0) 推荐(0)

hadoop , lucene 分布式索引方案

摘要：一、lucene介绍Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人... 阅读全文

posted @ 2014-08-15 14:07 netskill 阅读(633) 评论(0) 推荐(0)

Hadoop的ChainMapper和ChainReducer实战

摘要： Hadoop的MR作业支持链式处理，类似在一个生产牛奶的流水线上，每一个阶段都有特定的任务要处理，比如提供牛奶盒，装入牛奶，封盒，打印出厂日期，等等，通过这样进一步的分工，从而提高了生产效率，那么在我们的Hadoop的MapReduce中也是如此，支持链式的处理方式，这些Mapper像Linux管道... 阅读全文

posted @ 2014-08-15 11:23 netskill 阅读(376) 评论(0) 推荐(0)

ChainMapper/ChainReducer 的实现原理

摘要： ChainMapper/ChainReducer 主要为了解决线性链式Mapper 而提出的。也就是说，在Map 或者Reduce 阶段存在多个Mapper，这些Mapper 像Linux 管道一样，前一个Mapper的输出结果直接重定向到下一个Mapper 的输入，形成一个流水线，形式类似于[MA... 阅读全文

posted @ 2014-08-15 11:21 netskill 阅读(417) 评论(0) 推荐(0)