wqy1027

eeee

Spark 调优

Spark 调优

1.对多次使用的RDD进行持久化

2.使用高性能的算子

3.广播大变量

4.使用kryo优化序列化性能

5.优化数据结构

6.使用高性能的库fastutil

数据本地性

jvm调优

shuffle调优

调节Executor堆外内存

数据倾斜

1.数据分布不均；2.有shuffle

解决方案

1.使用Hive ETL预处理数据

2.过滤少数导致倾斜的key

3.提高shuffle操作的并行度

4.双重聚合

5.将reduce join 转为map join

6.采样倾斜key并拆分join操作

7.使用随机前缀和扩容RDD进行join

posted on 2022-11-03 21:05 不想写代码的小玉阅读(36) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告