distinct算子

下面是distinct算子源码,他也是一个shuffle类算子,底层运用了reduceByKey算子

关键看这一句

对分区内数据先进行map操作,接着调用reduceByKey对同组内数据进行(x,_)=>x 函数操作。

posted @ 2021-12-13 13:22  习惯了蓝  阅读(98)  评论(0)    收藏  举报