摘要:
知识点: 基础行动算子:count、collect、first、take、foreach 聚合行动算子:reduce、fold、aggregate 持久化行动算子:saveAsTextFile、saveAsSequenceFile 聚合算子对比练习: rdd = spark.sparkContext 阅读全文
posted @ 2026-01-24 09:50
再报错就堵桥0
阅读(4)
评论(0)
推荐(0)
摘要:
知识点: 持久化原因:避免重复计算,提升性能 持久化级别:MEMORY_ONLY、MEMORY_AND_DISK、DISK_ONLY等 缓存与检查点:cache() vs checkpoint() 持久化代码实现与性能对比: from pyspark import StorageLevel rdd 阅读全文
posted @ 2026-01-24 09:50
再报错就堵桥0
阅读(3)
评论(0)
推荐(0)
摘要:
知识点: 键值对 RDD 的创建:map转换为 (key, value) 格式 分区算子:partitionBy、getPartition 聚合算子:reduceByKey、groupByKey、aggregateByKey、sortByKey 练习: 对比reduceByKey与groupByKe 阅读全文
posted @ 2026-01-24 09:50
再报错就堵桥0
阅读(4)
评论(0)
推荐(0)

浙公网安备 33010602011771号