2025.1.27(寒假第二十天)

RDD 基础概念与环境配置

理解 RDD 的基本概念和特性。
熟悉 RDD 的创建方法。
完成 Spark 环境的配置和测试。

RDD 理论知识:
RDD 的定义:RDD 是 Spark 的核心数据结构,是一个分布式的数据集合,具有不可变性、分区性和容错性。
RDD 的特性:弹性、分布式、不可变、懒加载、分区存储。
RDD 的类型:窄依赖和宽依赖。
RDD 的操作:转换操作(Transformation)和行动操作(Action)。

配置环境变量 SPARK_HOME 和 PATH。
配置 spark-defaults.conf 文件,设置基本的 Spark 配置参数。

spark-shell

// 创建 SparkContext
val sc = new SparkContext("local[*]", "RDD Basics")

// 创建一个 RDD
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

// 打印 RDD 的内容
distData.collect().foreach(println)

// 停止 SparkContext
sc.stop()
实验总结:
理解 RDD 的基本概念和特性。
掌握 RDD 的创建方法。
确保环境配置正确,能够成功运行 Spark 程序。

posted @ 2025-01-27 18:49  kuku睡  阅读(4)  评论(0)    收藏  举报