2025.1.21（寒假第十四天）

主成分分析（PCA）基础
学习目标：
理解 PCA 的原理和应用场景。
学习如何在 Spark MLlib 中使用 PCA。
学习内容：
学习 PCA 的基本原理。
使用 Spark MLlib 中的 PCA 对数据进行降维。
设置主成分数目为 3，将特征向量投影到低维空间。
学习如何可视化 PCA 结果。

import org.apache.spark.ml.feature.PCA
import org.apache.spark.ml.feature.VectorAssembler

// 将特征组装成一个向量
val assembler = new VectorAssembler()
.setInputCols(Array("age", "fnlwgt", "educationNum", "capitalGain", "capitalLoss", "hoursPerWeek"))
.setOutputCol("features")
val dfFeatures = assembler.transform(dfIndexed)

// 应用 PCA
val pca = new PCA()
.setK(3)
.setInputCol("features")
.setOutputCol("pcaFeatures")
val pcaModel = pca.fit(dfFeatures)
val pcaDF = pcaModel.transform(dfFeatures)

// 查看降维后的数据
pcaDF.select("pcaFeatures").show()

// 保存降维后的数据
pcaDF.write.csv("pca_output.csv")
实验总结：
理解了 PCA 的原理和应用场景。
掌握了如何使用 Spark MLlib 进行 PCA 降维。
学会了如何保存降维后的数据。

posted @ 2025-01-21 09:24 kuku睡阅读(17) 评论(0) 收藏举报

刷新页面返回顶部

wangrui0429

2025.1.21（寒假第十四天）

公告