PCA

通过正交变换将一组相关性的变量数据转换为一组线性不相关的变量，转换后的变量被称为主成分。

将n维样本点转换为k维后，每一维上的样本方差都很大。

1.特征值和特征向量

A为n×n的方阵且有其中λ为一标量，则称λ为向量v对应的特征值，也称v为特征值λ对应的特征向量。

对角矩阵(diagonal matrix)是一个主对角线之外的元素皆为0的矩阵，常写为diag（a1，a2,...,an) 。

6.PCA算法流程

从上面两节我们可以看出，求样本 $x_i$ 的 $n'$ 维的主成分其实就是求样本集的协方差矩阵 $\frac{1}{m}XX^\top$ 的前 $n'$ 个特征值对应特征向量矩阵 $P$ ，然后对于每个样本 $x_i$ ,做如下变换 $y_i=Px_i$ ，即达到降维的PCA目的。

下面我们看看具体的算法流程：

输入： $n$ 维样本集 $X=(x_1,x_2,...,x_m)$ ，要降维到的维数 $n'$ .

输出：降维后的样本集 $Y$

1.对所有的样本进行中心化 $x_i=x_i-\frac{1}{m}\sum_{j=1}^{m}x_j$

2.计算样本的协方差矩阵 $C=\frac{1}{m}XX^\mathsf{T}$

3.求出协方差矩阵的特征值及对应的特征向量

4.将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P

5.Y=PX即为降维到k维后的数据

posted on 2020-10-22 18:09 happygril3 阅读(116) 评论(0) 收藏举报

刷新页面返回顶部