随笔分类 -  hive

摘要:1.Hadoop计算框架的特点 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum,count,max,min等UDAF,不怕数据倾斜问题 阅读全文
posted @ 2017-11-24 01:00 hustzzl 阅读(2178) 评论(0) 推荐(0)
摘要:reflect函数可以支持在sql中调用java中的自带函数,秒杀一切udf函数。 使用案例1:所有记录执行相同的java内置函数 hive中建一张表test_udf:column1(int),column2(int) 表中数据如下: 1,2 2,3 3,4 4,5 5,6 sql:select r 阅读全文
posted @ 2017-11-23 21:16 hustzzl 阅读(9881) 评论(0) 推荐(2)