spark-数据倾斜

spark-数据倾斜

1.解决方案

1.1使用Hive ETL预处理数据

1.2、过滤少数导致倾斜的key

1.3、提高shuffle操作的并行度

1.4、双重聚合

1.5、将reduce join转为map join

1.6 、采样倾斜key并分拆join操作

1. 7、使用随机前缀和扩容RDD进行join

posted @ 2022-07-21 23:17  a-tao必须奥利给  阅读(49)  评论(0)    收藏  举报