随笔分类 -  Hadoop

摘要:1. 在官网http://hive.apache.org/下载所需要版本的Hive,以下我们就以hive 2.1.0版为例。 2. 将下载好的压缩包放到指定文件夹解压,tar -zxvf apache-hive-2.1.0-bin.tar.gz。 3. 将Hive安装路径添加到/etc/profil 阅读全文
posted @ 2016-07-28 17:34 finalboss1987 阅读(129) 评论(0) 推荐(0)
摘要:在Hadoop中实现全排序有如下三种方法: 1. 只使用一个reducer 2. 自定义partitioner 3. 使用TotalOrderPartitioner 其中第一种方法显然违背了mapreduce分布式编程的初衷,在数据量大的情况下并不适用。第二种方法的问题在于开发人员需要预先知道输入数 阅读全文
posted @ 2016-03-30 14:40 finalboss1987 阅读(347) 评论(0) 推荐(0)
摘要:本文给出一个实现MapReduce二次排序的例子 阅读全文
posted @ 2016-03-24 14:38 finalboss1987 阅读(314) 评论(0) 推荐(0)
摘要:概述 本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型。新旧API主要区别在于新API(org.apache.hadoop.mapreduce)将原来的旧API(org.apache.hadoop.mapred)中的接口转换为了抽象类。 Ma 阅读全文
posted @ 2016-03-17 16:41 finalboss1987 阅读(341) 评论(0) 推荐(0)
摘要:sqoop即SQL-to-Hadoop,是一个把数据从关系型数据库导入到Hadoop系统中的工具(HDFS,HIVE和HBase),也可以将数据从Hadoop导入到关系型数据库。本文以sqoop 1.99.6版本为例演示如何配置和使用sqoop。 1. 从Apache网上下载sqoop http:/ 阅读全文
posted @ 2016-02-19 11:49 finalboss1987 阅读(975) 评论(0) 推荐(0)
摘要:注:该文内容部分来源于ChinaHadoop.cn上的hadoop视频教程。 一. HDFS概述 HDFS即Hadoop Distributed File System, 源于Google发表于2003年的论文,是一种分布式的文件系统。 HDFS优点: 高容错性(数据自动保存多个副本) 适合批处理 阅读全文
posted @ 2016-02-16 11:13 finalboss1987 阅读(817) 评论(0) 推荐(0)
摘要:摘要 我们设计实现了google文件系统,一个面向大规模分布式数据密集性应用的可扩展分布式文件系统。它运行在廉价的商品化硬件上提供容错功能,为大量的客户端提供高的整体性能。 尽管与现有的分布式文件系统具有很多相同的目标,我们的设计更多的来源于对于我们的具体应用的负载类型以及当前甚至未来技术环境的观察 阅读全文
posted @ 2016-01-29 17:07 finalboss1987 阅读(1764) 评论(0) 推荐(0)
摘要:安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面添加"xxx ALL=(ALL) ALL"(这里的xxx是你的用户名),然后保存退出 2. 将JDK压缩包解压到某一目录 阅读全文
posted @ 2016-01-29 15:28 finalboss1987 阅读(879) 评论(0) 推荐(0)
摘要:1. 安装JDK,eclipse,下载hadoop源代码并解压到某一个目录。 2. 安装maven,将bin目录添加到PATH环境变量中。 3. 安装protobuf2.5.0,将protoc-2.5.0-win32中的protoc.exe拷贝到c:\windows\system32中,将proto 阅读全文
posted @ 2016-01-29 10:34 finalboss1987 阅读(237) 评论(0) 推荐(0)