随笔分类 - Hadoop
摘要:Apache Kylin是一个开源的,分布式分析引擎,提供SQL接口和多维度分析,支持Hadoop的大数据,最早来自eBay的贡献。 Kylin需要你拥有Hadoop CLI的访问,在Hadoop CLI中,你可以对hdfs,hive,hbase和map-reduce的完全权限。为了使得事情简单,建
阅读全文
摘要:首先我们介绍下Hive中的数据类型 数值型类型 字符串类型 日期类型 复杂类型 数值型类型 TINY INT SMALL INT INT BIG INT FLOAT DOUBLE DECIMAL 字符串类型 CHAR VARCHAR STRING 日期类型 Timestamp Date 复杂类型 A
阅读全文
摘要:1. 介绍 Apache Hive可以使用SQL来读,写,管理分布式存储的大数据集,结构可以投射到已经存储的数据上,命令行工具和JDBC驱动可以让用户连接到Hive。 2. 安装和配置 你可以下载Hive的稳定版本或者下载源码,自己编译Hive 必要: Java1.7(Hive 1.2需要java1
阅读全文
摘要:Hive提供Hive Query language(HQL)用来进行数据操作 Hive查询提供下面的特性 数据模型,例如数据库和表的创建 ETL方法,例如提取,转变,加载数据到表里 join来合并不同的数据表 用户自定义的脚本 基于Hadoop快速查询工具 首先创建表 排序查询 分组查询 Sort
阅读全文
摘要:Hive是基于Hadoop的ETL工具和数据仓库。 结构化数据 结构化数据就像RDBMS 半结构化的数据,例如:json,xml 什么时候使用Hive 当需要强大的统计方法的时候 当要处理结构化或者半结构化数据 当需要基于Hadoop的数据仓库 可以于Hbase结合 Hive用在什么地方 作为ETL
阅读全文
摘要:准备工作 为了运行Alluxio集群在多个机器上,必须部署Alluxio服务到这些机器上。可以下载伴随特定Hadoop版本的二进制AlLxio包,也可以从Alluxio源码中编译。 当从源码中编译时,Alluxio默认是伴随着Apache HDFS的2.2.0版本编译的。为了编译其他的Hadoop版
阅读全文
摘要:当mysql中的字段为tinyint类型时,通过sqoop导入数据到hdfs上,在hdfs上显示的是true,false值。为了显示0,1。 解决方法: jdbc:mysql://<hostname>:<port>/<dbname>?tinyInt1isBit=false
阅读全文
摘要:quit和exit命令 reset命令 重置配置参数到默认的值,在hive控制台中,使用set命令或者-hiveconf设置的配置参数将会恢复到默认值。 reset命令并不应用在set命令中使用hiveconf:作为前缀的key名称 set命令 Add命令 List命令 Delete命令 Shell
阅读全文
摘要:创建一个类 用Maven构建成jar包 打开hive shell控制台
阅读全文

浙公网安备 33010602011771号