寒假第十九天
实验流程
-
进行主成分分析(PCA)
-
选择数据集中的 6 个连续型数值变量进行主成分分析。
-
使用 Spark MLlib 的 PCA 算法,通过
setK()方法将主成分数量设置为 3。 -
将连续型特征向量转换为 3 维的主成分,并查看转换后的数据。
-
-
验证 PCA 结果
-
查看转换后的主成分数据,确保降维后的数据保留了原始数据的主要信息。
-
通过可视化工具(如 Matplotlib)绘制主成分的散点图,观察数据的分布情况。
-
实验结果
-
成功对 6 个连续型数值变量进行了主成分分析,并将其降维到 3 维。
-
验证了降维后的数据,确保其保留了原始数据的主要信息。
实验总结
我掌握了如何使用 Spark MLlib 进行主成分分析(PCA),并将高维数据降维到低维空间。通过降维,我简化了数据的复杂性,为后续的分类模型训练提供了更高效的数据表示。
浙公网安备 33010602011771号