2025.2.11(寒假第二十三天)
RDD 的缓存与持久化
学习目标:
学习 RDD 的缓存机制。
掌握 RDD 的持久化方法。
理解不同存储级别的区别。
学习内容:
RDD 缓存机制:
使用 cache 方法将 RDD 缓存到内存中。
使用 persist 方法将 RDD 缓存到指定的存储级别。
// 创建 SparkContext
val sc = new SparkContext("local[*]", "RDD Persistence")
// 创建一个 RDD
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
// 缓存 RDD 到内存中
distData.cache()
// 执行多次操作
println(distData.count()) // 输出: 5
println(distData.count()) // 输出: 5
// 持久化 RDD 到磁盘
distData.persist(org.apache.spark.storage.StorageLevel.DISK_ONLY)
// 执行多次操作
println(distData.count()) // 输出: 5
println(distData.count()) // 输出: 5
// 停止 SparkContext
sc.stop()
实验总结:
掌握 RDD 的缓存机制,理解 cache 和 persist 的区别。
理解不同存储级别的区别,根据实际需求选择合适的存储级别。
学会使用缓存机制提高程序的性能。