Hadoop - 随笔分类 - 徽沪一郎

摘要：在elasticsearch-hadoop的具体使用中碰到了几个问题，有必要记录一下，避免下次遇到时又要重新研究。阅读全文

posted @ 2016-01-07 15:26 徽沪一郎阅读(8050) 评论(0) 推荐(0)

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

摘要：Hive是基于Hadoop的开源数据仓库工具，提供了类似于SQL的HiveQL语言，使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。 Hive的整体框架中有一个重要的模块是执行模块，这一部分是用Hadoop中MapReduce计算框架来实现，因而在处理速度上不是非常令人满意。由于Spark出色的处理速度，有人已经成功将HiveQL的执行利用Spark来运行，这就是已经非常闻名的Shark开源项目。在Spark 1.0中，Spark自身提供了对Hive的支持。本文不准备分析Spark是如何来提供对Hive的支持的，而只着重于如何搭建Hive On Spark的测试环境。阅读全文

posted @ 2014-05-30 08:44 徽沪一郎阅读(6238) 评论(0) 推荐(5)

Hadoop2 实战系列之1 -- Hortonworks Sandbox的安装和使用

摘要：本文主要讲述如何利用hortonworks sanbox来搭建hadoop2的学习环境。Hortonworks sanbox集成了hadoop2及其上的一些常用工具如hive, pig等。阅读全文

posted @ 2014-02-20 12:25 徽沪一郎阅读(6805) 评论(1) 推荐(0)

随笔分类 - Hadoop

公告