摘要: intersection算子是得到多个RDD之间的交集的,下面来从源码上看一下具体处理。 intersection算子是交集,cogroup算子是并集,intersection不依赖k,v类型,cogroup依赖k,v类型 1. 把 多个RDD对应的数据map成(value,null)元组类型 2. 阅读全文
posted @ 2021-12-13 20:24 习惯了蓝 阅读(217) 评论(0) 推荐(0)
摘要: 下面是distinct算子源码,他也是一个shuffle类算子,底层运用了reduceByKey算子 关键看这一句 对分区内数据先进行map操作,接着调用reduceByKey对同组内数据进行(x,_)=>x 函数操作。 阅读全文
posted @ 2021-12-13 13:22 习惯了蓝 阅读(91) 评论(0) 推荐(0)