spark进行groupby之后值转成list

spark的rdd进行groupby以后有时需要对value处理

可以这样处理:

grouped=rdd.groupBy(lambda x: x[0]).map(lambda x : (x[0], list(x[1]))) 

 

之后可以循环处理 grouped里的对象,类似:

keys=grouped.keys().collect()

for key in keys:

 value=grouped.lookup(key)

 

posted @ 2017-09-05 17:43  白神来了  阅读(1881)  评论(0)    收藏  举报