摘要: 下面来看看groupByKey和reduceByKey的区别: 虽然两个函数都能得出正确的结果, 但reduceByKey函数更适合使用在大数据集上。 这是因为Spark知道它可以在每个分区移动数据之前将输出数据与一个共用的key结合。 借助下图可以理解在reduceByKey里发生了什么。 在数据 阅读全文
posted @ 2017-07-03 15:34 bonelee 阅读(15270) 评论(0) 推荐(0)