主成分分析

PCA 主成分分析
1.什么是主成分分析-----即什么是降维
2.有什么作用---如何应用
3.为什么进行主成分分析----即为什么降维

通过正交变换将一组可能存在相关性的变量转成一组线性不相关的变量
主成分分析奇异值分解

why
变量之间存在相关性，增加了问题分析的复杂性
作用：
减少分析的指标同时，尽量减少原指标包含信息的损失

数据降维
假设三维空间中有一系列点分布在过原点的平面上
矩阵变换----矩阵的zhi 就是2
这些数据之间是有相关性的，这些数据构成的过原点的向量的最大线性无关组包含2个向量

特征选择的问题
就是要剔除的特征主要是和类标签无关的特征。
这里的特征很多是和类标签有关的
但里面存在噪声或者冗余
需要一种特征jiangwei的方法来减少特征数，减少噪音和冗余，减少过度拟合的可能性

PCA的思想是将n维特征映射到k维上（k<n），这k维是全新的正交特征。这k维特征称为主成分，是重新构造出来的k维特征，而不是简单地从n维特征中去除其余n-k维特征

第一步：中心化（均值化）
第二步：求特征协方差矩阵
协方差是衡量两个变量同时变化的变化程度
协方差大于零表示一个增另一个也增
协方差小于零表示一个增另一个减
若x y相互独立则协方差为零
但是！协方差为0 不能表示两者相互独立
协方差越大，两者影响越大，反之，越小
第三步，求协方差的特征值和特征向量
第四步，将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
第五步，将样本点投影到选取的特征向量上。假设样例数为m，特征数为n，减去均值后的样本矩阵为DataAdjust(m*n)，协方差矩阵是n*n，选取的k个特征向量组成的矩阵为EigenVectors(n*k)。那么投影后的数据FinalData为
FinalData(10*1) = DataAdjust(10*2矩阵) x 特征向量(-0.677873399, -0.735178656)T

就是求协方差的特征值和特征向量然后做数据转换

posted @ 2019-06-26 11:39 leims 阅读(183) 评论(0) 收藏举报

刷新页面返回顶部

leims

主成分分析

公告