随笔分类 - hive

Hive优化案例

摘要：1.Hadoop计算框架的特点数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业效率相对比较低，比如即使有几百万的表，如果多次关联多次汇总，产生十几个jobs，耗时很长。原因是map reduce作业初始化的时间是比较长的。 sum，count，max，min等UDAF，不怕数据倾斜问题阅读全文

posted @ 2017-11-24 01:00 hustzzl 阅读(2197) 评论(0) 推荐(0)

hive新特性reflect函数介绍

摘要：reflect函数可以支持在sql中调用java中的自带函数，秒杀一切udf函数。使用案例1：所有记录执行相同的java内置函数 hive中建一张表test_udf:column1(int),column2(int) 表中数据如下： 1,2 2,3 3,4 4,5 5,6 sql：select r 阅读全文

posted @ 2017-11-23 21:16 hustzzl 阅读(9911) 评论(0) 推荐(2)

hustzzl

随笔分类 - hive

公告