摘要: 核心优化思路 减少数据量: 尽早过滤掉不需要的数据,减少参与后续计算、Shuffle 和落盘的数据量。 减少 Shuffle: Shuffle(数据跨节点移动)是 Spark 中最昂贵、最容易成为瓶颈的操作。应尽量避免不必要的 Shuffle,或优化 Shuffle 过程。 并行度优化: 确保任务能 阅读全文
posted @ 2025-06-04 16:02 zz_bigdata 阅读(436) 评论(0) 推荐(0)