Spark Core 核心概念:RDD 行动算子

知识点:
基础行动算子:count、collect、first、take、foreach
聚合行动算子:reduce、fold、aggregate
持久化行动算子:saveAsTextFile、saveAsSequenceFile
聚合算子对比练习:

rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5])

reduce:无初始值,两两聚合

print(rdd.reduce(lambda a, b: a + b)) # 输出15

fold:有初始值,先对每个分区聚合,再全局聚合

print(rdd.fold(0, lambda a, b: a + b)) # 输出15

aggregate:支持不同类型的聚合,(初始值, 分区内聚合, 全局聚合)

print(rdd.aggregate(0, lambda a, b: a + b, lambda a, b: a + b)) # 输出15
将 RDD 结果保存到本地和 HDFS
易错:
collect会将所有分区数据拉取到 Driver 端,大数据场景禁止使用
saveAsTextFile输出的是文件夹,包含分区文件和_SUCCESS 标识

posted @ 2026-01-24 09:50  再报错就堵桥0  阅读(4)  评论(0)    收藏  举报