Spark 2.x管理与开发-Spark RDD的高级算子(四)coalesce与repartition+其他高级算子

一、coalesce与repartition

都是将RDD中的分区进行重分区。

区别是:coalesce默认不会进行shuffle(false);而repartition会进行shuffle(true),即:会将数据真正通过网络进行重分区。

示例:

 

 

 

下面两句话是等价的:

val rdd2 = rdd1.repartition(3)

val rdd3 = rdd1.coalesce(3,true) --->如果是false,查看RDD的length依然是2

二、其他高级算子

参考:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html

博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3