2025.1.20(寒假第十三天)
数据导入与预处理
学习目标:
掌握如何从文件中导入数据并转化为 DataFrame。
学习如何处理数据集中的缺失值和类别型变量。
学习内容:
下载 Adult 数据集。
使用 Scala 代码从文件中读取数据并转化为 DataFrame。
处理数据集中的缺失值和类别型变量。
学习如何使用 Spark SQL 对 DataFrame 进行基本操作。
val df = spark.read.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("adult.data.csv")
// 查看数据
df.show()
// 处理缺失值
val dfCleaned = df.na.drop()
// 将类别型变量转换为数值型
import org.apache.spark.ml.feature.StringIndexer
val indexer = new StringIndexer()
.setInputCol("workclass")
.setOutputCol("workclassIndex")
val dfIndexed = indexer.fit(dfCleaned).transform(dfCleaned)
// 查看转换后的数据
dfIndexed.show()
实验总结:
掌握了如何从文件中导入数据并转化为 DataFrame。
学会了处理缺失值和类别型变量的方法。
学会了使用 Spark SQL 对 DataFrame 进行基本操作。

浙公网安备 33010602011771号