寒假第十九天


实验流程

  1. 进行主成分分析(PCA)

    • 选择数据集中的 6 个连续型数值变量进行主成分分析。

    • 使用 Spark MLlib 的 PCA 算法,通过 setK() 方法将主成分数量设置为 3。

    • 将连续型特征向量转换为 3 维的主成分,并查看转换后的数据。

  2. 验证 PCA 结果

    • 查看转换后的主成分数据,确保降维后的数据保留了原始数据的主要信息。

    • 通过可视化工具(如 Matplotlib)绘制主成分的散点图,观察数据的分布情况。

实验结果

  • 成功对 6 个连续型数值变量进行了主成分分析,并将其降维到 3 维。

  • 验证了降维后的数据,确保其保留了原始数据的主要信息。

实验总结

我掌握了如何使用 Spark MLlib 进行主成分分析(PCA),并将高维数据降维到低维空间。通过降维,我简化了数据的复杂性,为后续的分类模型训练提供了更高效的数据表示。

 
posted @ 2025-02-09 16:00  连师傅只会helloword  阅读(11)  评论(0)    收藏  举报