2025.2.8(寒假第二十一天)
RDD 的基本操作
学习目标:
掌握 RDD 的基本转换操作。
掌握 RDD 的基本行动操作。
理解 RDD 的懒加载机制。
学习内容:
RDD 转换操作:
map:对 RDD 中的每个元素应用函数。
filter:过滤 RDD 中的元素。
flatMap:对 RDD 中的每个元素应用函数,并将结果展平。
groupByKey:对 RDD 中的键值对按键分组。
reduceByKey:对 RDD 中的键值对按键聚合。
RDD 行动操作:
collect:将 RDD 中的所有元素收集到驱动程序。
count:返回 RDD 中的元素数量。
take:返回 RDD 中的前 n 个元素。
saveAsTextFile:将 RDD 保存为文本文件。
val sc = new SparkContext("local[*]", "RDD Operations")
// 创建一个 RDD
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
// 转换操作
val squared = distData.map(x => x * x)
val filtered = squared.filter(x => x > 10)
// 行动操作
println(filtered.collect().mkString(", ")) // 输出: 16, 25
println(filtered.count()) // 输出: 2
println(filtered.take(2)) // 输出: Array(16, 25)
// 停止 SparkContext
sc.stop()
实验总结:
掌握 RDD 的基本转换操作和行动操作。
理解 RDD 的懒加载机制,只有在执行行动操作时才会触发计算。