主成分分析

 


PCA 主成分分析
1.什么是主成分分析-----即 什么是降维
2.有什么作用---如何应用
3.为什么进行主成分分析----即为什么降维


通过正交变换将一组可能存在相关性的变量 转成 一组线性不相关 的变量
主成分分析 奇异值分解

why
变量之间存在相关性,增加了问题分析的复杂性
作用:
减少分析的指标同时,尽量减少原指标包含信息的损失

数据降维
假设三维空间中有一系列点 分布在过原点的平面上
矩阵变换----矩阵的zhi 就是2
这些数据之间是有相关性的,这些数据构成的过原点的向量的最大线性无关组包含2个向量

特征选择的问题
就是要剔除的特征主要是和类标签无关的特征。
这里的特征很多是和类标签有关的
但里面存在噪声或者冗余
需要一种特征jiangwei的方法来减少特征数,减少噪音和冗余,减少过度拟合的可能性

PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征

第一步:中心化(均值化)
第二步:求特征协方差矩阵
协方差是衡量两个变量同时变化的变化程度
协方差大于零 表示 一个增 另一个也增
协方差小于零 表示 一个增 另一个减
若x y相互独立则 协方差为零
但是! 协方差为0 不能表示两者相互独立
协方差越大,两者影响越大,反之,越小
第三步,求协方差的特征值和特征向量
第四步, 将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
第五步,将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后的样本矩阵为DataAdjust(m*n),协方差矩阵是n*n,选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为
FinalData(10*1) = DataAdjust(10*2矩阵) x 特征向量(-0.677873399, -0.735178656)T

就是求协方差的特征值和特征向量 然后做数据转换

 

posted @ 2019-06-26 11:39  leims  阅读(183)  评论(0)    收藏  举报