2017年5月5日

Spark聚合操作-reduceByKey、groupByKey、combineBykey的使用与比较

摘要: 聚合操作是spark运算中特别常见的一种行为。比如分析用户一天的活着一次登陆的行为,就要把日志按用户id进行聚合,然后做排序、求和、求平均之类的运算……而spark中对于聚合操作的蒜子也比较丰富,本文主要结合作者个人的经验和网上资料,对这几个算子进行整理和比较。 这里,一般都是对Pair RDD 进 阅读全文

posted @ 2017-05-05 15:28 Luis_Yao 阅读(8489) 评论(0) 推荐(1) 编辑

导航