摘要:
intersection算子是得到多个RDD之间的交集的,下面来从源码上看一下具体处理。 intersection算子是交集,cogroup算子是并集,intersection不依赖k,v类型,cogroup依赖k,v类型 1. 把 多个RDD对应的数据map成(value,null)元组类型 2. 阅读全文
posted @ 2021-12-13 20:24
习惯了蓝
阅读(217)
评论(0)
推荐(0)
摘要:
下面是distinct算子源码,他也是一个shuffle类算子,底层运用了reduceByKey算子 关键看这一句 对分区内数据先进行map操作,接着调用reduceByKey对同组内数据进行(x,_)=>x 函数操作。 阅读全文
posted @ 2021-12-13 13:22
习惯了蓝
阅读(91)
评论(0)
推荐(0)

浙公网安备 33010602011771号