今天学习如何从内存管理到Shuffle调优
内容要点:
资源配置黄金法则:小Executor(5核以内)+ 多Executor,避免超大Executor导致GC压力过大。
Shuffle优化:
避免groupByKey,优先使用reduceByKey(Map端预聚合)。
Join优化:小表使用broadcast提示,避免Shuffle。
合理设置Shuffle分区数(spark.sql.shuffle.partitions)。
序列化:启用Kryo序列化(spark.serializer),比Java序列化更快、更紧凑。
数据倾斜解决方案:开启AQE动态优化(spark.sql.adaptive.enabled)处理倾斜Join。
浙公网安备 33010602011771号