2025.1.21(寒假第十四天)

主成分分析(PCA)基础
学习目标:
理解 PCA 的原理和应用场景。
学习如何在 Spark MLlib 中使用 PCA。
学习内容:
学习 PCA 的基本原理。
使用 Spark MLlib 中的 PCA 对数据进行降维。
设置主成分数目为 3,将特征向量投影到低维空间。
学习如何可视化 PCA 结果。

import org.apache.spark.ml.feature.PCA
import org.apache.spark.ml.feature.VectorAssembler

// 将特征组装成一个向量
val assembler = new VectorAssembler()
.setInputCols(Array("age", "fnlwgt", "educationNum", "capitalGain", "capitalLoss", "hoursPerWeek"))
.setOutputCol("features")
val dfFeatures = assembler.transform(dfIndexed)

// 应用 PCA
val pca = new PCA()
.setK(3)
.setInputCol("features")
.setOutputCol("pcaFeatures")
val pcaModel = pca.fit(dfFeatures)
val pcaDF = pcaModel.transform(dfFeatures)

// 查看降维后的数据
pcaDF.select("pcaFeatures").show()

// 保存降维后的数据
pcaDF.write.csv("pca_output.csv")
实验总结:
理解了 PCA 的原理和应用场景。
掌握了如何使用 Spark MLlib 进行 PCA 降维。
学会了如何保存降维后的数据。

posted @ 2025-01-21 09:24  kuku睡  阅读(16)  评论(0)    收藏  举报