分为几个部分: 开发调优、资源调优、数据倾斜调优、shuffle调优 开发调优: 主要包括这几个方面 RDD lineage设计、算子的合理使用、特殊操作的优化等 避免创建重复的RDD,尽可能复用同一个RDD 一个RDD包含另外一个RDD,对多次使用的RDD进行持久化 内存(序列化),磁盘(序列化) Read More
posted @ 2018-05-04 11:00 George_sz Views(500) Comments(0) Diggs(0) Edit