spark学习4

今天学习如何从内存管理到Shuffle调优
内容要点：
资源配置黄金法则：小Executor（5核以内）+ 多Executor，避免超大Executor导致GC压力过大。

Shuffle优化：

避免groupByKey，优先使用reduceByKey（Map端预聚合）。

Join优化：小表使用broadcast提示，避免Shuffle。

合理设置Shuffle分区数（spark.sql.shuffle.partitions）。

序列化：启用Kryo序列化（spark.serializer），比Java序列化更快、更紧凑。

数据倾斜解决方案：开启AQE动态优化（spark.sql.adaptive.enabled）处理倾斜Join。

发表于 2026-02-27 11:54 2305-3王皓扬阅读(2) 评论(0) 收藏举报

公告