摘要: spark pair转化操作 sparik pair rdd是一种键值对数据,常见的转化函数如下图 以单词统计 使用mapToPair方法,返回二元组 使用reduceKey方法归纳统计相同的健,把值相加,统计 调用默认的rdd sortByKey函数将所有的字符排序 例子源码 结果输出 阅读全文
posted @ 2020-03-03 11:07 碧海潮心 阅读(220) 评论(0) 推荐(0) 编辑
摘要: spark rdd的转化方法 rdd作为抽象分布式数据集,有常见的转化函数,比如map,flatmap,collect map和flatMap方法区别 flatmap返回的是扁平化的数值,返回的更多。 map返回的T数目跟原来是一样的,对原来的数据做了处理仍然封装了在一起 collect返回 col 阅读全文
posted @ 2020-03-03 10:36 碧海潮心 阅读(662) 评论(0) 推荐(0) 编辑