特征提取之主成分分析PCA
主成分分析(Principal Component Analysis,简称PCA)是一种广泛使用的无监督学习算法,主要用于数据降维(Dimensionality Reduction)。
PCA 的核心目标是通过线性变换,将原始数据投影到一个新的坐标系统中。在这个新系统中,数据的大部分方差(信息量)被集中在几个新的坐标轴上,这些新的坐标轴被称为主成分(Principal Components)。
1. PCA 的核心原理
PCA 的基本思想可以概括为:
- 最大化方差:找到一个新的坐标轴(第一个主成分),使得数据投影到这个轴上的方差最大化。方差最大意味着保留的信息量最多。
- 正交性:找到第二个主成分,它必须与第一个主成分正交(垂直),并捕获剩余数据中最大的方差。
- 降维:重复这个过程,直到找到所需数量的主成分。由于大部分信息被集中在前几个主成分中,我们可以选择保留这些最重要的成分,而忽略方差较小的后续成分,从而达到降维的目的。
2. PCA 的工作流程
PCA 的实现通常遵循以下步骤:
- 标准化(Standardization):对原始数据进行标准化处理(均值为 0,方差为 1),以消除不同特征尺度差异的影响。这是关键的第一步。
- 计算协方差矩阵(Covariance Matrix):计算数据集中各个特征之间的协方差矩阵,该矩阵描述了特征之间的相关性。
- 计算特征值和特征向量(Eigenvalues and Eigenvectors):对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
- 特征向量:这些向量定义了新的主成分轴的方向。
- 特征值:每个特征值对应一个特征向量,它衡量了沿着该主成分轴的数据方差大小。特征值越大,该主成分越重要。
- 排序和选择主成分:将特征值按降序排列。根据累计贡献率(Cumulative Explained Variance)或预设的维度数量,选择前𝐾个最大的特征值及其对应的特征向量。
- 投影到新空间(降维):利用选定的K个特征向量(投影矩阵),将原始数据集投影到新的𝐾维子空间。
3. PCA 的优缺点与用途
优点:
- 减少计算复杂性:降维后的数据量更小,可以加快后续模型的训练速度。
- 去除冗余信息:通过将相关特征组合成独立的主成分,减少了数据的冗余性。
- 降低过拟合风险:减少特征数量可以帮助简化模型,一定程度上防止过拟合。
- 数据可视化:高维数据难以可视化,PCA 可以将数据降至 2 维或 3 维,便于绘制散点图进行观察和分析。
缺点:
- 可解释性差:新的主成分是原始特征的线性组合,通常难以像原始特征那样直观解释其物理意义。
- 信息损失:降维过程不可避免地会丢失一些信息,选择合适的维度𝐾是一个权衡。
- 对异常值敏感:PCA 基于方差,而方差容易受到异常值的影响。
总结
PCA 是一种强大的数据预处理技术,它通过找到数据方差最大的方向来实现降维。它在数据压缩、噪声去除、可视化和提高模型效率方面有着广泛的应用。
参考资料:
1《统计学》
2. 《机器学习实践》
浙公网安备 33010602011771号