摘要:
Hive优化 1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,sele 阅读全文
posted @ 2022-07-01 22:20
+1000
阅读(46)
评论(0)
推荐(0)
摘要:
Hive自定义函数UserDefineFunction UDF:一进一出 定义UDF函数要注意下面几点: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate(),这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF 阅读全文
posted @ 2022-07-01 22:19
+1000
阅读(53)
评论(0)
推荐(0)
摘要:
Hive 行转列 lateral view explode create table testArray2( name string, weight array<string> )row format delimited fields terminated by '\t' COLLECTION IT 阅读全文
posted @ 2022-07-01 21:42
+1000
阅读(34)
评论(0)
推荐(0)
摘要:
Hive窗口函数 普通的聚合函数每组(Group by)只返回一个值,而开窗函数则可为窗口中的每行都返回一个值。 简单理解,就是对查询的结果多出一列,这一列可以是聚合值(聚合开窗函数),也可以是排序值(排序开窗函数)。 开窗函数一般就是说的是over()函数,其窗口是由一个 OVER 子句 定义的多 阅读全文
posted @ 2022-07-01 21:38
+1000
阅读(53)
评论(0)
推荐(0)
摘要:
Hive查询语法(DQL) 全局排序 order by 会对输入做全局排序,因此在执行MapReduce任务时只有一个reducer,这会导致当输入规模较大时,需要较长的计算时间。因为所有的数据都要经过唯一的reducer,所以数据大的情况下,一个reducer的处理速度有限 使用 order by 阅读全文
posted @ 2022-07-01 21:05
+1000
阅读(54)
评论(0)
推荐(0)
摘要:
Hive JDBC 启动hiveserver2 在使用Hive JDBC之前必须先启动客服端服务,这样用其他节点,或者idea就可以连接hive数据库,命令为: hive --service hiveserver2 & 或者 hiveserver2 & 新建maven项目并添加两个依赖 <depen 阅读全文
posted @ 2022-07-01 20:52
+1000
阅读(36)
评论(0)
推荐(0)
浙公网安备 33010602011771号