cogroup算子是协分组算子,它的作用是合并多个RDD内容,这也是一个k,v类型的算子。
把合并起来的多个RDD中,共同的key算作key,value为一个元组,元组内容是compactbuffer,里面内容是之前RDD的value值。cogroup几个RDD就有几个RDD
具体可以看下面俩副图。
cogroup,在shuffle之后的分区数量由它合并的多个RDD中的最大值决定