随笔分类 -  Hadoop

摘要:在elasticsearch-hadoop的具体使用中碰到了几个问题,有必要记录一下,避免下次遇到时又要重新研究。 阅读全文
posted @ 2016-01-07 15:26 徽沪一郎 阅读(8032) 评论(0) 推荐(0)
摘要:Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。 Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令人满意。由于Spark出色的处理速度,有人已经成功将HiveQL的执行利用Spark来运行,这就是已经非常闻名的Shark开源项目。 在Spark 1.0中,Spark自身提供了对Hive的支持。本文不准备分析Spark是如何来提供对Hive的支持的,而只着重于如何搭建Hive On Spark的测试环境。 阅读全文
posted @ 2014-05-30 08:44 徽沪一郎 阅读(6212) 评论(0) 推荐(5)
摘要:本文主要讲述如何利用hortonworks sanbox来搭建hadoop2的学习环境。Hortonworks sanbox集成了hadoop2及其上的一些常用工具如hive, pig等。 阅读全文
posted @ 2014-02-20 12:25 徽沪一郎 阅读(6790) 评论(1) 推荐(0)