2025.1.27(寒假第二十天)
RDD 基础概念与环境配置
理解 RDD 的基本概念和特性。
熟悉 RDD 的创建方法。
完成 Spark 环境的配置和测试。
RDD 理论知识:
RDD 的定义:RDD 是 Spark 的核心数据结构,是一个分布式的数据集合,具有不可变性、分区性和容错性。
RDD 的特性:弹性、分布式、不可变、懒加载、分区存储。
RDD 的类型:窄依赖和宽依赖。
RDD 的操作:转换操作(Transformation)和行动操作(Action)。
配置环境变量 SPARK_HOME 和 PATH。
配置 spark-defaults.conf 文件,设置基本的 Spark 配置参数。
spark-shell
// 创建 SparkContext
val sc = new SparkContext("local[*]", "RDD Basics")
// 创建一个 RDD
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
// 打印 RDD 的内容
distData.collect().foreach(println)
// 停止 SparkContext
sc.stop()
实验总结:
理解 RDD 的基本概念和特性。
掌握 RDD 的创建方法。
确保环境配置正确,能够成功运行 Spark 程序。