算子groupBy和groupByKey的区别

1、groupBy不用考虑数据格式,而groupByKey必须是kv数据格式

2、groupBy需要指定分组规则,而groupByKey是根据key对value分组

3、返回值类型不同,groupBy是将整条数据放在集合中,groupByKey只是将value放在集合中,例如:

val value1: RDD[(String, Iterable[Int])] = value.groupByKey()
val value3: RDD[(String, Iterable[(String, Int)])] = value.groupBy(_._1)

 



posted on 2022-08-05 16:33  吴玉川  阅读(327)  评论(0)    收藏  举报