Spark Core 核心概念：键值对 RDD 算子

知识点：
键值对 RDD 的创建：map转换为 (key, value) 格式
分区算子：partitionBy、getPartition
聚合算子：reduceByKey、groupByKey、aggregateByKey、sortByKey
练习：
对比reduceByKey与groupByKey的性能：

reduceByKey：先分区内聚合，再全局聚合，性能优

rdd.reduceByKey(lambda a, b: a + b).collect()

groupByKey：直接拉取所有键值对到分区，性能差，大数据场景慎用

rdd.groupByKey().mapValues(sum).collect()
实现按值排序的词频统计结果
易错
reduceByKey是宽依赖算子，会触发 Shuffle（数据洗牌）
aggregateByKey支持自定义分区内和全局聚合逻辑，灵活性最高

posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

WMKQF

Spark Core 核心概念：键值对 RDD 算子

reduceByKey：先分区内聚合，再全局聚合，性能优

groupByKey：直接拉取所有键值对到分区，性能差，大数据场景慎用

公告