RDD介绍与执行

 

 

  • repartition

增加或减少分区。会产生shuffle。(多个分区分到一个分区不会产生shuffle

  • coalesce

coalesce常用来减少分区,第二个参数是减少分区的过程中是否产生shuffle。

true为产生shuffle,false不产生shuffle。默认是false。

coalesce设置的分区数比原来的RDD的分区数还多的话,第二个参数设置为false不会起作用,如果设置成true,效果和repartition一样。repartition(numPartitions) = coalesce(numPartitions,true)

 

即zipWithIndex()函数是让RDD从0开始一次记下

而zip(rdd2)则是让两个连接起来(两个必须相等长度)

将两个RDD中的元素(KV格式/非KV格式变成一个KV格式的RDD,两个RDD的每个分区元素个数必须相同。

 

posted @ 2019-03-25 20:52  pursue330  阅读(318)  评论(0编辑  收藏  举报