摘要:
摘要
1.使用reduceByKey/aggregateByKey替代groupByKey
2.使用mapPartitions替代普通map
3.使用foreachPartitions替代foreach
4.使用filter之后进行coalesce操作
5.使用repartitionAndSortWithinPartitions替代repartition与sort类操作
6.使用broadcast使各task共享同一Executor的集合替代算子函数中各task传送一份集合 阅读全文