Spark 2.x管理与开发-Spark Core-Spark RDD的高级算子（四）coalesce与repartition+其他高级算子

Posted on 2020-07-12 23:24 MissRong 阅读(73) 评论(0) 收藏举报

Spark 2.x管理与开发-Spark RDD的高级算子（四）coalesce与repartition+其他高级算子

都是将RDD中的分区进行重分区。

区别是：coalesce默认不会进行shuffle（false）；而repartition会进行shuffle（true），即：会将数据真正通过网络进行重分区。

示例：

下面两句话是等价的：

val rdd2 = rdd1.repartition(3)

val rdd3 = rdd1.coalesce(3,true) --->如果是false，查看RDD的length依然是2

刷新页面返回顶部