2022 年 7月 1 日随笔档案 - +1000

2022年7月1日

摘要： Hive优化 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，sele 阅读全文

posted @ 2022-07-01 22:20 +1000 阅读(46) 评论(0) 推荐(0)

Hive-day13 Hive各种函数分类

摘要： Hive自定义函数UserDefineFunction UDF：一进一出定义UDF函数要注意下面几点: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate()，这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF 阅读全文

posted @ 2022-07-01 22:19 +1000 阅读(53) 评论(0) 推荐(0)

Hive-day12 Hive行列转换

摘要： Hive 行转列 lateral view explode create table testArray2( name string, weight array<string> )row format delimited fields terminated by '\t' COLLECTION IT 阅读全文

posted @ 2022-07-01 21:42 +1000 阅读(34) 评论(0) 推荐(0)

Hive-day11 Hive窗口函数

摘要： Hive窗口函数普通的聚合函数每组(Group by)只返回一个值，而开窗函数则可为窗口中的每行都返回一个值。简单理解，就是对查询的结果多出一列，这一列可以是聚合值（聚合开窗函数），也可以是排序值（排序开窗函数）。开窗函数一般就是说的是over（）函数，其窗口是由一个 OVER 子句定义的多阅读全文

posted @ 2022-07-01 21:38 +1000 阅读(53) 评论(0) 推荐(0)

Hive-day10 DQL和Hive内置函数

摘要： Hive查询语法(DQL) 全局排序 order by 会对输入做全局排序，因此在执行MapReduce任务时只有一个reducer，这会导致当输入规模较大时，需要较长的计算时间。因为所有的数据都要经过唯一的reducer，所以数据大的情况下，一个reducer的处理速度有限使用 order by 阅读全文

posted @ 2022-07-01 21:05 +1000 阅读(54) 评论(0) 推荐(0)

Hive-day09 HiveJDBC

摘要： Hive JDBC 启动hiveserver2 在使用Hive JDBC之前必须先启动客服端服务，这样用其他节点，或者idea就可以连接hive数据库，命令为： hive --service hiveserver2 & 或者 hiveserver2 & 新建maven项目并添加两个依赖 <depen 阅读全文

posted @ 2022-07-01 20:52 +1000 阅读(36) 评论(0) 推荐(0)