Spark聚合操作-reduceByKey、groupByKey、combineBykey的使用与比较
摘要:
聚合操作是spark运算中特别常见的一种行为。比如分析用户一天的活着一次登陆的行为,就要把日志按用户id进行聚合,然后做排序、求和、求平均之类的运算……而spark中对于聚合操作的蒜子也比较丰富,本文主要结合作者个人的经验和网上资料,对这几个算子进行整理和比较。 这里,一般都是对Pair RDD 进 阅读全文
posted @ 2017-05-05 15:28 Luis_Yao 阅读(8489) 评论(0) 推荐(1) 编辑