文章分类 - hive
摘要:HS2配置 hive site.xml HS2保证 在hadoop的core site.xml中设置如下内容 beeline连接
        阅读全文
            
摘要:HiveServer2 转自:https://cwiki.apache.org/confluence/display/Hive/HiveServer2+Overview HiveServer2服务可以让客户端执行hive命令,支持多线程并发,JDBC、ODBC、Beeline、TCP、HTTP方式 
        阅读全文
            
摘要:Carbondata在OLAP应用 转 转自:http://bbs.ruoren.com/thread 46679608 1 1.html OLAP查询 OLAP查询优化方向: 1. 细分查询场景 2. 存储格式 3. 查询引擎 OLAP基础知识简介 维度(dimension):常用于where查询
        阅读全文
            
摘要:GenericUDTF UDTF需要继承GenericUDTF OperatorDesc OperatorDesc的子类AbstractOperatorDesc,对于所有的Operator都有一个相应的OperatorDesc具体实现; ObjectInspector ObjectInspector
        阅读全文
            
摘要:参考: http://blog.csdn.net/zhong_han_jun/article/details/50814246
        阅读全文
            
摘要:UDF 然后执行 UDAF UDAF和group by一起使用 resolver:resolver负责类型检查,操作符重载 evaluator:UDAF逻辑 resolver(继承AbstractGenericUDAFResolver) 大体框架 第一行创建LOG对象,用来写入警告和错误到hive的
        阅读全文
            
摘要:HIVE 支持:MapReduce、Spark、Tez Hive系统由:用户接口层、HiveServer层、元数据管理、HiveQL解析器、执行引擎构成 用户接口层 CLI(需要机器安装hive) Beeline(HiveServer2大数据量访问问题,jdbc) JDBC访问HiveServer2
        阅读全文
            
摘要:功能:从mysql或pg中抓取数据,存储为hive orc格式 一. 准备工作 main函数 在主函数中,先生成CliOptionParser的单例,又调用CliOptionParser的parseArgs方法,解析传入参数 parseArgs 创建JCommander,创建Reflections工
        阅读全文
            
摘要:hive导出数据 乱码原因: 1. excel打开csv时格式默认为gbk,但是从hive中导出来的是utf8的 2. csv文件的列分隔符是逗号或者\t,而hive中默认使用\001 解决方式 函数组成列 利用iconv转码
        阅读全文
            
摘要:一. ORC文件格式 在RCFile的基础上进行了一定的改进,所以与RCFile相比,具有以下一些优势: 1. ORC中的特定的序列化与反序列化操作可以使ORC file writer根据数据类型进行写出。 2. 提供了多种RCFile中没有的indexes,这些indexes可以使ORC的read
        阅读全文
            
摘要:高级查询 group by 按照某些字段值进行分组,相同值放在一起 注意:select后非聚合列必须出现在group by中 除了普通列就是一些聚合操作 group by后面也跟表达式,比如substr(col),截取col的某些部分作为group by where放在map中 having在red
        阅读全文
            
摘要:一. 执行命令方式 cli,jdbc,hwi,beeline cli是shell执行方式,需要再集群节点或者hiveclient执行 hwi需要启动hive server在hive节点访问,beeline可以在任意节点访问 执行hadoop命令 执行shell命令 命令交互 hive help hi
        阅读全文
            
摘要:一. Partition 在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念 分区表指的是在创建表时指定的partition的分区空间 如果需要创建有分区的表,需要在create表的时候调用可
        阅读全文
            
摘要:一. 数据类型 基础数据类型 |数据类型	|所占字节	|开始支持版本| | | | | |TINYINT	|1byte, 128 ~ 127 || |SMALLINT	|2byte, 32,768 ~ 32,767 || |INT	|4byte, 2,147,483,648 ~ 2,147,483,
        阅读全文
            
摘要:一. 部署 下载并解压 使用2.1.0版本 http://www.apache.org/dyn/closer.cgi/hive/ https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive 2.1.0/ 环境变量 hive配置文件 修改derby初始化
        阅读全文
            
 
                    
                     
                    
                 
                    
                
 
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号