随笔分类 - hive
摘要:hive当中也带有很多的窗口函数以及分析函数,主要用于以下这些场景 (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询 1、创建hive表并加载数据 创建表 hive (hive_explode)> create table order_detail( 
        阅读全文
                
摘要:reflect函数可以支持在sql中调用java中的自带函数,秒杀一切udf函数。 使用java.lang.Math当中的Max求两列中最大值 创建hive表 create table test_udf(col1 int,col2 int) row format delimited fields t
        阅读全文
                
摘要:4、行转列 1.相关函数说明 CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串; CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔
        阅读全文
                
摘要:1、使用explode函数将hive表中的Map和Array字段数据进行拆分 lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一
        阅读全文
                
摘要:1.Map类型长度函数: size(Map<k .V>) 语法: size(Map<k .V>) 返回值: int 说明: 返回map类型的长度 hive> select size(t) from map_table2; 2 2.array类型长度函数: size(Array<T>) 语法: siz
        阅读全文
                
摘要:1、array类型访问: A[n] 语法: A[n] 操作类型: A为array类型,n为int类型 说明:返回数组A中的第n个变量值。数组的起始下标为0。比如,A是个值为['foo', 'bar']的数组类型,那么A[0]将返回'foo',而A[1]将返回'bar' hive> create ta
        阅读全文
                
摘要:1、Map类型构建: map **** 语法: map (key1, value1, key2, value2, …) 说明:根据输入的key和value对构建map类型 hive> Create table mapTable as select map('100','tom','200','mar
        阅读全文
                
摘要:1、个数统计函数: count *** 语法: count(*), count(expr), count(DISTINCT expr[, expr_.]) 返回值: int 说明: count(*)统计检索出的行的个数,包括NULL值的行;count(expr)返回指定字段的非空值的个数;count
        阅读全文
                
摘要:1、字符串长度函数:length 语法: length(string A) 返回值: int 说明:返回字符串A的长度 hive> select length('abcedfg') from tableName; 7 2、字符串反转函数:reverse 语法: reverse(string A) 返
        阅读全文
                
摘要:1、If函数: if *** 语法: if(boolean testCondition, T valueTrue, T valueFalseOrNull) 返回值: T 说明: 当条件testCondition为TRUE时,返回valueTrue;否则返回valueFalseOrNull hive>
        阅读全文
                
摘要:1、UNIX时间戳转日期函数: from_unixtime *** 语法: from_unixtime(bigint unixtime[, string format]) 返回值: string 说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区
        阅读全文
                
摘要:1、取整函数: round *** 语法: round(double a) 返回值: BIGINT 说明: 返回double类型的整数值部分 (遵循四舍五入) hive> select round(3.1415926) from tableName; 3 hive> select round(3.5
        阅读全文
                
摘要:1、等值比较: = 语法:A=B 操作类型:所有基本类型 描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE hive> select 1 from tableName where 1=1; 2、不等值比较: <> 语法: A <> B 操作类型: 所有基本类型 描述: 如果表达式A
        阅读全文
                
摘要:1. 数据仓库基本介绍 英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数
        阅读全文
                
摘要:Hive 主流文件存储格式对比 1、存储文件的压缩比测试 创建表,存储数据格式为TextFile 创建表,存储数据格式为TextFile 向表中加载数据 向表中加载数据 查看表的数据量大小 查看表的数据量大小 创建表,存储数据格式为 parquet 创建表,存储数据格式为 parquet 向表中加载
        阅读全文
                
摘要:1. hive表的数据压缩 1.1 数据的压缩说明 压缩模式评价 可使用以下三种标准对压缩方式进行评价 1、压缩比:压缩比越高,压缩后文件越小,所以压缩比越高越好 2、压缩时间:越快越好 3、已经压缩的格式文件是否可以再分割:可以分割的格式允许单一文件由多个Mapper程序处理,可以更好的并行化 压
        阅读全文
                
摘要:1. 基本查询 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 注意 SQL 语言大小写不敏感 SQL 可以写在一行或者多行 关键字不能被缩写,也不能分行 各子句一般要分行写 使用缩进提高语句的可读性 SQL 
        阅读全文
                
摘要:1. Hive的分区表 1.1 hive的分区表的概念 1.2 hive分区表的构建 创建一个分区字段的分区表 创建一个分区字段的分区表 创建二级分区表 创建二级分区表 2、Hive修改表结构 2.1 修改表的名称 2.2 表的结构信息 2.3 增加/修改/替换列信息 增加列 增加列 修改列 修改列
        阅读全文
                
 
                    
                
 浙公网安备 33010602011771号
浙公网安备 33010602011771号