2025.1.20(寒假第十三天)

数据导入与预处理
学习目标:
掌握如何从文件中导入数据并转化为 DataFrame。
学习如何处理数据集中的缺失值和类别型变量。
学习内容:
下载 Adult 数据集。
使用 Scala 代码从文件中读取数据并转化为 DataFrame。
处理数据集中的缺失值和类别型变量。
学习如何使用 Spark SQL 对 DataFrame 进行基本操作。

val df = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("adult.data.csv")

// 查看数据
df.show()

// 处理缺失值
val dfCleaned = df.na.drop()

// 将类别型变量转换为数值型
import org.apache.spark.ml.feature.StringIndexer
val indexer = new StringIndexer()
.setInputCol("workclass")
.setOutputCol("workclassIndex")
val dfIndexed = indexer.fit(dfCleaned).transform(dfCleaned)

// 查看转换后的数据
dfIndexed.show()
实验总结:
掌握了如何从文件中导入数据并转化为 DataFrame。
学会了处理缺失值和类别型变量的方法。
学会了使用 Spark SQL 对 DataFrame 进行基本操作。

posted @ 2025-01-20 09:24  kuku睡  阅读(6)  评论(0)    收藏  举报