hive - 文章分类 - zhangshihai1232

摘要：HS2配置 hive site.xml HS2保证在hadoop的core site.xml中设置如下内容 beeline连接阅读全文

posted @ 2017-01-12 21:39 zhangshihai1232 阅读(648) 评论(0) 推荐(0)

摘要：HiveServer2 转自：https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Overview HiveServer2服务可以让客户端执行hive命令，支持多线程并发，JDBC、ODBC、Beeline、TCP、HTTP方式阅读全文

posted @ 2017-01-06 10:45 zhangshihai1232 阅读(1209) 评论(0) 推荐(0)

Carbondata在OLAP应用-转

摘要：Carbondata在OLAP应用转转自：http://bbs.ruoren.com/thread 46679608 1 1.html OLAP查询 OLAP查询优化方向: 1. 细分查询场景 2. 存储格式 3. 查询引擎 OLAP基础知识简介维度(dimension):常用于where查询阅读全文

posted @ 2016-12-15 13:03 zhangshihai1232 阅读(698) 评论(0) 推荐(0)

hive-UDTF-源码及例子

摘要：GenericUDTF UDTF需要继承GenericUDTF OperatorDesc OperatorDesc的子类AbstractOperatorDesc，对于所有的Operator都有一个相应的OperatorDesc具体实现； ObjectInspector ObjectInspector 阅读全文

posted @ 2016-12-15 11:45 zhangshihai1232 阅读(1258) 评论(0) 推荐(0)

hive-基础-map和reduce数量

摘要：参考： http://blog.csdn.net/zhong_han_jun/article/details/50814246 阅读全文

posted @ 2016-12-14 16:14 zhangshihai1232 阅读(120) 评论(0) 推荐(0)

hive-基础-UDAF概述

摘要：UDF 然后执行 UDAF UDAF和group by一起使用 resolver：resolver负责类型检查，操作符重载 evaluator：UDAF逻辑 resolver(继承AbstractGenericUDAFResolver) 大体框架第一行创建LOG对象，用来写入警告和错误到hive的阅读全文

posted @ 2016-12-09 13:16 zhangshihai1232 阅读(374) 评论(1) 推荐(0)

hive-基础-sql解析

摘要：HIVE 支持：MapReduce、Spark、Tez Hive系统由：用户接口层、HiveServer层、元数据管理、HiveQL解析器、执行引擎构成用户接口层 CLI(需要机器安装hive) Beeline(HiveServer2大数据量访问问题，jdbc) JDBC访问HiveServer2 阅读全文

posted @ 2016-11-17 19:19 zhangshihai1232 阅读(789) 评论(0) 推荐(0)

hive-java数据导入工具-准备&建表&导数

摘要：功能：从mysql或pg中抓取数据，存储为hive orc格式一. 准备工作 main函数在主函数中，先生成CliOptionParser的单例，又调用CliOptionParser的parseArgs方法，解析传入参数 parseArgs 创建JCommander，创建Reflections工阅读全文

posted @ 2016-11-14 20:48 zhangshihai1232 阅读(757) 评论(0) 推荐(0)

hive导出数据到cvs

摘要：hive导出数据乱码原因： 1. excel打开csv时格式默认为gbk，但是从hive中导出来的是utf8的 2. csv文件的列分隔符是逗号或者\t，而hive中默认使用\001 解决方式函数组成列利用iconv转码阅读全文

posted @ 2016-11-08 15:56 zhangshihai1232 阅读(4919) 评论(0) 推荐(0)

hive-基础-ORC格式

摘要：一. ORC文件格式在RCFile的基础上进行了一定的改进，所以与RCFile相比，具有以下一些优势： 1. ORC中的特定的序列化与反序列化操作可以使ORC file writer根据数据类型进行写出。 2. 提供了多种RCFile中没有的indexes，这些indexes可以使ORC的read 阅读全文

posted @ 2016-11-01 22:27 zhangshihai1232 阅读(2883) 评论(0) 推荐(0)

hive基础-高级查询

摘要：高级查询 group by 按照某些字段值进行分组，相同值放在一起注意：select后非聚合列必须出现在group by中除了普通列就是一些聚合操作 group by后面也跟表达式，比如substr(col)，截取col的某些部分作为group by where放在map中 having在red 阅读全文

posted @ 2016-08-31 21:03 zhangshihai1232 阅读(199) 评论(0) 推荐(0)

hive基础-命令&数据加载&数据导出&表属性操作

摘要：一. 执行命令方式 cli,jdbc，hwi,beeline cli是shell执行方式，需要再集群节点或者hiveclient执行 hwi需要启动hive server在hive节点访问，beeline可以在任意节点访问执行hadoop命令执行shell命令命令交互 hive help hi 阅读全文

posted @ 2016-08-31 18:06 zhangshihai1232 阅读(536) 评论(0) 推荐(0)

hive基础-表

摘要：一. Partition 在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念分区表指的是在创建表时指定的partition的分区空间如果需要创建有分区的表，需要在create表的时候调用可阅读全文

posted @ 2016-08-30 21:53 zhangshihai1232 阅读(309) 评论(0) 推荐(0)

hive基础-数据类型&表操作

摘要：一. 数据类型基础数据类型 |数据类型 |所占字节 |开始支持版本| | | | | |TINYINT |1byte， 128 ~ 127 || |SMALLINT |2byte， 32,768 ~ 32,767 || |INT |4byte, 2,147,483,648 ~ 2,147,483, 阅读全文

posted @ 2016-08-30 21:51 zhangshihai1232 阅读(147) 评论(0) 推荐(0)

hive部署

摘要：一. 部署下载并解压使用2.1.0版本 http://www.apache.org/dyn/closer.cgi/hive/ https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive 2.1.0/ 环境变量 hive配置文件修改derby初始化阅读全文

posted @ 2016-08-30 09:55 zhangshihai1232 阅读(233) 评论(0) 推荐(0)

zhangshihai1232

文章分类 - hive

公告