Spark Core 核心概念：RDD 行动算子

知识点：
基础行动算子：count、collect、first、take、foreach
聚合行动算子：reduce、fold、aggregate
持久化行动算子：saveAsTextFile、saveAsSequenceFile
聚合算子对比练习：

rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5])

reduce：无初始值，两两聚合

print(rdd.reduce(lambda a, b: a + b)) # 输出15

fold：有初始值，先对每个分区聚合，再全局聚合

print(rdd.fold(0, lambda a, b: a + b)) # 输出15

aggregate：支持不同类型的聚合，(初始值, 分区内聚合, 全局聚合)

print(rdd.aggregate(0, lambda a, b: a + b, lambda a, b: a + b)) # 输出15
将 RDD 结果保存到本地和 HDFS
易错：
collect会将所有分区数据拉取到 Driver 端，大数据场景禁止使用
saveAsTextFile输出的是文件夹，包含分区文件和_SUCCESS 标识

posted @ 2026-01-24 09:50 再报错就堵桥0 阅读(4) 评论(0) 收藏举报

刷新页面返回顶部

WMKQF

Spark Core 核心概念：RDD 行动算子

reduce：无初始值，两两聚合

fold：有初始值，先对每个分区聚合，再全局聚合

aggregate：支持不同类型的聚合，(初始值, 分区内聚合, 全局聚合)

公告