主成分分析读书笔记
在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。[1]
主成分分析的基本思想是根据协方差的理论并利用线性代数的结果,将n维数据投影到另外一个n维正交基空间中进而来确定相应的主成分。
主成分分析的数学构建过程中使用了以下几点假设:要求给定的数据满足或者近似满足高斯分布;投影到新的坐标系下后,得到的向量是原来向量投影后的线性组合(linearity);概率上的一个结果:方差或者协方差的数值越大者对系统的影响越大;主成分必须是正交的。使用主成分分析的时候要注意数据要满足以上几种假设,否则计算出来的结果可能和实际出入很大。[2]
主成分分析的求解的一种算法借助于矩阵奇异值(SVD)分解定理。
主成分分析的一个特点:不需要使用任何参数,这是它的一个优点,同时也是一个缺点。
参考文献:
[1] http://zh.wikipedia.org/wiki/主成分分析
[2] http://www.brainmapping.org/NITP/PNA/Readings/pca.pdf
BTW: 参考文献[2]中给出了PCA的数学推导过程,其中使用了一个toy example,形象易懂。
浙公网安备 33010602011771号