摘要: 1、双重key聚合解决数据倾斜:个别key数据量过大,导致数据倾斜。在key前加随机前缀,先进行一次预聚合,然后再将随机前缀去掉,再进行一次聚合。 // 注册自定义函数 spark.udf().register("concat_String_string", new ConcatStringStri 阅读全文
posted @ 2020-02-13 21:04 guoyu1 阅读(453) 评论(0) 推荐(0)
摘要: 1、join SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid; 实现过程: Map: 1、以 JOIN ON 条件中的列作为 Key,如果有多个列,则 Key 是这些列的组合。(key=on条 阅读全文
posted @ 2020-02-13 17:34 guoyu1 阅读(633) 评论(0) 推荐(0)
摘要: 1、row_number: 分组排序+序号标记 假如我们有这样一组数据,我们需要求出不同性别的年龄top2的人的信息。这个时候怎么做?可能我们会首先想到分组,但是分组只能值top1,怎么样能求出top2,top3呢?这时候我们想如果分组后能够按照年龄排序然后标出来序号就好了! id age name 阅读全文
posted @ 2020-02-13 16:15 guoyu1 阅读(332) 评论(0) 推荐(0)