摘要:
1、双重key聚合解决数据倾斜:个别key数据量过大,导致数据倾斜。在key前加随机前缀,先进行一次预聚合,然后再将随机前缀去掉,再进行一次聚合。 // 注册自定义函数 spark.udf().register("concat_String_string", new ConcatStringStri 阅读全文
posted @ 2020-02-13 21:04
guoyu1
阅读(453)
评论(0)
推荐(0)
摘要:
1、join SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid; 实现过程: Map: 1、以 JOIN ON 条件中的列作为 Key,如果有多个列,则 Key 是这些列的组合。(key=on条 阅读全文
posted @ 2020-02-13 17:34
guoyu1
阅读(633)
评论(0)
推荐(0)
摘要:
1、row_number: 分组排序+序号标记 假如我们有这样一组数据,我们需要求出不同性别的年龄top2的人的信息。这个时候怎么做?可能我们会首先想到分组,但是分组只能值top1,怎么样能求出top2,top3呢?这时候我们想如果分组后能够按照年龄排序然后标出来序号就好了! id age name 阅读全文
posted @ 2020-02-13 16:15
guoyu1
阅读(332)
评论(0)
推荐(0)

浙公网安备 33010602011771号