2025.2.11（寒假第二十三天）

RDD 的缓存与持久化
学习目标：
学习 RDD 的缓存机制。
掌握 RDD 的持久化方法。
理解不同存储级别的区别。
学习内容：
RDD 缓存机制：
使用 cache 方法将 RDD 缓存到内存中。
使用 persist 方法将 RDD 缓存到指定的存储级别。

// 创建 SparkContext
val sc = new SparkContext("local[*]", "RDD Persistence")

// 创建一个 RDD
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

// 缓存 RDD 到内存中
distData.cache()

// 执行多次操作
println(distData.count()) // 输出: 5
println(distData.count()) // 输出: 5

// 持久化 RDD 到磁盘
distData.persist(org.apache.spark.storage.StorageLevel.DISK_ONLY)

// 执行多次操作
println(distData.count()) // 输出: 5
println(distData.count()) // 输出: 5

// 停止 SparkContext
sc.stop()
实验总结：
掌握 RDD 的缓存机制，理解 cache 和 persist 的区别。
理解不同存储级别的区别，根据实际需求选择合适的存储级别。
学会使用缓存机制提高程序的性能。

posted @ 2025-02-11 22:34 kuku睡阅读(16) 评论(0) 收藏举报

刷新页面返回顶部

wangrui0429