Spark 调优
Spark 调优

1.对多次使用的RDD进行持久化


2.使用高性能的算子

3.广播大变量

4.使用kryo优化序列化性能


5.优化数据结构

6.使用高性能的库fastutil

数据本地性


jvm调优

shuffle调优

调节Executor堆外内存



数据倾斜
1.数据分布不均;2.有shuffle
解决方案
1.使用Hive ETL预处理数据

2.过滤少数导致倾斜的key

3.提高shuffle操作的并行度

4.双重聚合

5.将reduce join 转为map join

6.采样倾斜key并拆分join操作

7.使用随机前缀和扩容RDD进行join

浙公网安备 33010602011771号