文章分类 -  hive

摘要:HS2配置 hive site.xml HS2保证 在hadoop的core site.xml中设置如下内容 beeline连接 阅读全文
posted @ 2017-01-12 21:39 zhangshihai1232 阅读(648) 评论(0) 推荐(0)
摘要:HiveServer2 转自:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Overview HiveServer2服务可以让客户端执行hive命令,支持多线程并发,JDBC、ODBC、Beeline、TCP、HTTP方式 阅读全文
posted @ 2017-01-06 10:45 zhangshihai1232 阅读(1209) 评论(0) 推荐(0)
摘要:Carbondata在OLAP应用 转 转自:http://bbs.ruoren.com/thread 46679608 1 1.html OLAP查询 OLAP查询优化方向: 1. 细分查询场景 2. 存储格式 3. 查询引擎 OLAP基础知识简介 维度(dimension):常用于where查询 阅读全文
posted @ 2016-12-15 13:03 zhangshihai1232 阅读(698) 评论(0) 推荐(0)
摘要:GenericUDTF UDTF需要继承GenericUDTF OperatorDesc OperatorDesc的子类AbstractOperatorDesc,对于所有的Operator都有一个相应的OperatorDesc具体实现; ObjectInspector ObjectInspector 阅读全文
posted @ 2016-12-15 11:45 zhangshihai1232 阅读(1258) 评论(0) 推荐(0)
摘要:参考: http://blog.csdn.net/zhong_han_jun/article/details/50814246 阅读全文
posted @ 2016-12-14 16:14 zhangshihai1232 阅读(120) 评论(0) 推荐(0)
摘要:UDF 然后执行 UDAF UDAF和group by一起使用 resolver:resolver负责类型检查,操作符重载 evaluator:UDAF逻辑 resolver(继承AbstractGenericUDAFResolver) 大体框架 第一行创建LOG对象,用来写入警告和错误到hive的 阅读全文
posted @ 2016-12-09 13:16 zhangshihai1232 阅读(374) 评论(1) 推荐(0)
摘要:HIVE 支持:MapReduce、Spark、Tez Hive系统由:用户接口层、HiveServer层、元数据管理、HiveQL解析器、执行引擎构成 用户接口层 CLI(需要机器安装hive) Beeline(HiveServer2大数据量访问问题,jdbc) JDBC访问HiveServer2 阅读全文
posted @ 2016-11-17 19:19 zhangshihai1232 阅读(789) 评论(0) 推荐(0)
摘要:功能:从mysql或pg中抓取数据,存储为hive orc格式 一. 准备工作 main函数 在主函数中,先生成CliOptionParser的单例,又调用CliOptionParser的parseArgs方法,解析传入参数 parseArgs 创建JCommander,创建Reflections工 阅读全文
posted @ 2016-11-14 20:48 zhangshihai1232 阅读(757) 评论(0) 推荐(0)
摘要:hive导出数据 乱码原因: 1. excel打开csv时格式默认为gbk,但是从hive中导出来的是utf8的 2. csv文件的列分隔符是逗号或者\t,而hive中默认使用\001 解决方式 函数组成列 利用iconv转码 阅读全文
posted @ 2016-11-08 15:56 zhangshihai1232 阅读(4919) 评论(0) 推荐(0)
摘要:一. ORC文件格式 在RCFile的基础上进行了一定的改进,所以与RCFile相比,具有以下一些优势: 1. ORC中的特定的序列化与反序列化操作可以使ORC file writer根据数据类型进行写出。 2. 提供了多种RCFile中没有的indexes,这些indexes可以使ORC的read 阅读全文
posted @ 2016-11-01 22:27 zhangshihai1232 阅读(2883) 评论(0) 推荐(0)
摘要:高级查询 group by 按照某些字段值进行分组,相同值放在一起 注意:select后非聚合列必须出现在group by中 除了普通列就是一些聚合操作 group by后面也跟表达式,比如substr(col),截取col的某些部分作为group by where放在map中 having在red 阅读全文
posted @ 2016-08-31 21:03 zhangshihai1232 阅读(199) 评论(0) 推荐(0)
摘要:一. 执行命令方式 cli,jdbc,hwi,beeline cli是shell执行方式,需要再集群节点或者hiveclient执行 hwi需要启动hive server在hive节点访问,beeline可以在任意节点访问 执行hadoop命令 执行shell命令 命令交互 hive help hi 阅读全文
posted @ 2016-08-31 18:06 zhangshihai1232 阅读(536) 评论(0) 推荐(0)
摘要:一. Partition 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念 分区表指的是在创建表时指定的partition的分区空间 如果需要创建有分区的表,需要在create表的时候调用可 阅读全文
posted @ 2016-08-30 21:53 zhangshihai1232 阅读(309) 评论(0) 推荐(0)
摘要:一. 数据类型 基础数据类型 |数据类型 |所占字节 |开始支持版本| | | | | |TINYINT |1byte, 128 ~ 127 || |SMALLINT |2byte, 32,768 ~ 32,767 || |INT |4byte, 2,147,483,648 ~ 2,147,483, 阅读全文
posted @ 2016-08-30 21:51 zhangshihai1232 阅读(147) 评论(0) 推荐(0)
摘要:一. 部署 下载并解压 使用2.1.0版本 http://www.apache.org/dyn/closer.cgi/hive/ https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive 2.1.0/ 环境变量 hive配置文件 修改derby初始化 阅读全文
posted @ 2016-08-30 09:55 zhangshihai1232 阅读(233) 评论(0) 推荐(0)