下面是distinct算子源码,他也是一个shuffle类算子,底层运用了reduceByKey算子
关键看这一句
对分区内数据先进行map操作,接着调用reduceByKey对同组内数据进行(x,_)=>x 函数操作。