主成分分析读书笔记

      在多元统计分析中,主成分分析(英语:Principal components analysisPCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。[1]

      主成分分析的基本思想是根据协方差的理论并利用线性代数的结果,将n维数据投影到另外一个n维正交基空间中进而来确定相应的主成分。

      主成分分析的数学构建过程中使用了以下几点假设:要求给定的数据满足或者近似满足高斯分布;投影到新的坐标系下后,得到的向量是原来向量投影后的线性组合(linearity);概率上的一个结果:方差或者协方差的数值越大者对系统的影响越大;主成分必须是正交的。使用主成分分析的时候要注意数据要满足以上几种假设,否则计算出来的结果可能和实际出入很大。[2]

      主成分分析的求解的一种算法借助于矩阵奇异值(SVD)分解定理。

      主成分分析的一个特点:不需要使用任何参数,这是它的一个优点,同时也是一个缺点。

 

参考文献:

     [1] http://zh.wikipedia.org/wiki/主成分分析

     [2] http://www.brainmapping.org/NITP/PNA/Readings/pca.pdf

 

BTW: 参考文献[2]中给出了PCA的数学推导过程,其中使用了一个toy example,形象易懂。

posted on 2014-04-20 11:23  caicailiu  阅读(201)  评论(0)    收藏  举报