2020 年 2月 13 日随笔档案 - guoyu1

2020年2月13日

摘要： 1、双重key聚合解决数据倾斜：个别key数据量过大，导致数据倾斜。在key前加随机前缀，先进行一次预聚合，然后再将随机前缀去掉，再进行一次聚合。 // 注册自定义函数 spark.udf().register("concat_String_string", new ConcatStringStri 阅读全文

posted @ 2020-02-13 21:04 guoyu1 阅读(456) 评论(0) 推荐(0)

常见hql底层执行原理

摘要： 1、join SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid; 实现过程： Map： 1、以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合。（key=on条阅读全文

posted @ 2020-02-13 17:34 guoyu1 阅读(638) 评论(0) 推荐(0)

Hive窗口函数实战使用

摘要： 1、row_number：分组排序+序号标记假如我们有这样一组数据，我们需要求出不同性别的年龄top2的人的信息。这个时候怎么做？可能我们会首先想到分组，但是分组只能值top1，怎么样能求出top2，top3呢？这时候我们想如果分组后能够按照年龄排序然后标出来序号就好了！ id age name 阅读全文

posted @ 2020-02-13 16:15 guoyu1 阅读(335) 评论(0) 推荐(0)

打怪up

公告