摘要:
一、Hive 执行过程概述 1、概述 (1) Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 (2)操作符 Operator 是 Hive 的最小处理单元 (3)每个操作符代表一个 HDFS 操作或者 MapReduc 阅读全文
posted @ 2018-04-15 15:44
扎心了,老铁
阅读(11669)
评论(2)
推荐(5)
摘要:
1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、主要表现 任务 阅读全文
posted @ 2018-04-15 15:41
扎心了,老铁
阅读(33534)
评论(2)
推荐(4)
摘要:
一、Hive的命令行 1、Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular c 阅读全文
posted @ 2018-04-15 15:40
扎心了,老铁
阅读(15264)
评论(0)
推荐(0)
摘要:
概述 GROUPING SETS,GROUPING__ID,CUBE,ROLLUP 这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。 数据准备 数据格式 创建表 玩一玩GROUPING SETS和GROUPING__ID 说明 在一 阅读全文
posted @ 2018-04-15 15:37
扎心了,老铁
阅读(15359)
评论(1)
推荐(4)
摘要:
数据准备 数据格式 cookie4.txt 创建表 玩一玩LAG 说明 LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值 第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 查询语句 查询结果 阅读全文
posted @ 2018-04-15 15:33
扎心了,老铁
阅读(34260)
评论(1)
推荐(5)

浙公网安备 33010602011771号