PCA算法
PCA算法过程
任务描述
本关任务:补充 python 代码,完成 PCA 函数,实现降维功能。
相关知识
为了完成本关任务,你需要掌握:
- demean;
- 协方差;
- 特征值分解;
- PCA 算法流程。
PCA与降维
降维的方法有很多,而最为常用的就是PCA(主成分分析)。 PCA 是将数据从原来的坐标系转换到新的坐标系,新的坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且方差最大的方向。然后该过程一直重复,重复次数为原始数据中的特征数量。最后会发现大部分方差都包含在最前面几个新坐标轴中,因此可以忽略剩下的坐标轴,从而达到降维的目的。
PCA的算法流程
PCA 在降维时,需要指定将维度降至多少维,假设降至 k 维,则 PCA 的算法流程如下:
- demean;
- 计算数据的协方差矩阵;
- 计算协方差矩阵的特征值与特征向量;
- 按照特征值,将特征向量从大到小进行排序;
- 选取前 k 个特征向量作为转换矩阵;
- demean 后的数据与转换矩阵做矩阵乘法获得降维后的数据。
其中demean ,协方差矩阵,特征值与特征向量的相关知识如下:
1. demean
demean 又称为零均值化,意思是将数据中每个维度上的均值变成 0。那为什么要这样做呢? PCA 实质上是找方差最大的方向,而方差的公式如下(其中μ为均值):
Var(x)=n1i=1∑n(x−μ)2
如果将均值变成0,那么方差计算起来就更加方便,如下:
Var(x)=n1i=1∑n(x)2
在 numpy 中想要 demean 很简单,代码如下:
import numpy as np#计算样本各个维度的均值u = np.mean(data, axis=0)#demeanafter_demean = data - u
2. 协方差矩阵
协方差描述的是两个特征之间的相关性,当协方差为正时,两个特征呈正相关关系(同增同减);当协方差为负时,两个特征呈负相关关系(一增一减);当协方差为0时,两个特征之间没有任何相关关系。
协方差的数学定义如下(假设样本有 x 和 y 两种特征,而 X 就是包含所有样本的 x 特征的集合, Y 就是包含所有样本的 y 特征的集合):
conv(X,Y)=n−1∑i=1n(xi−μx)∑i=1n(yi−μy)
如果在算协方差之前做了 demean 操作,那么公式则为:
conv(X,Y)=n−1∑i=1nxi∑i=1nyi
假设样本只有 X 和 Y 这两个特征,现在把 X 与 X, X 与 Y, Y 与 X, Y 与 Y 的协方差组成矩阵,那么就构成了协方差矩阵。而协方差矩阵反应的就是特征与特征之间的相关关系。
| X | Y | |
|---|---|---|
| X | conv(X,X) | conv(X,Y) |
| Y | conv(Y,X) | conv(Y,Y) |
NumPy 提供了计算协方差矩阵的函数 cov,示例代码如下:
import numpy as np# 计算after_demean的协方差矩阵# after_demean的行数为样本个数,列数为特征个数# 由于cov函数的输入希望是行代表特征,列代表数据的矩阵,所以要转置cov = np.cov(after_demean.T)
3. 特征值与特征向量
特征值与特征向量的数学定义:如果向量v 与矩阵 A 满足 Av=λv ,则称向量 v 是矩阵A的一个特征向量, λ 是相应的特征值。
因为协方差矩阵为方阵,所以我们可以计算协方差矩阵的特征向量和特征值。其实这里的特征值从某种意义上来说体现了方差的大小,特征值越大方差就越大。而特征值所对应的特征向量就代表将原始数据进行坐标轴转换之后的数据。
numpy 为我们提供了计算特征值与特征向量的接口 eig,示例代码如下:
import numpy as np#eig函数为计算特征值与特征向量的函数#cov为矩阵,value为特征值,vector为特征向量value, vector = np.linalg.eig(cov)
因此,PCA 算法伪代码如下:
#假设数据集为D,PCA后的特征数量为kdef pca(D, k):after_demean=demean(D)计算after_demean的协方差矩阵covvalue, vector = eig(cov)根据特征值value将特征向量vector降序排序筛选出前k个特征向量组成映射矩阵Pafter_demean和P做矩阵乘法得到resultreturn result
编程要求
在 begin-end 之间填写pca(data, k)函数,实现 PCA 算法,要求返回降维后的数据。其中:
- data :原始样本数据,类型为 ndarray;
- k :需要降维至 k 维,类型为 int。
代码实现
1 import numpy as np 2 3 def pca(data, k): 4 ''' 5 对data进行PCA,并将结果返回 6 :param data:数据集,类型为ndarray 7 :param k:想要降成几维,类型为int 8 :return: 降维后的数据,类型为ndarray 9 ''' 10 11 #********* Begin *********# 12 #1.计算各个维度的demean 13 u = np.mean(data,axis = 0) 14 after_demean = data - u 15 16 #2.计算协方差矩阵 17 cov = np.cov(after_demean.T) 18 19 #3.通过特征值,特征向量实现降维度 20 value, vector = np.linalg.eig(cov) 21 22 #4.根据特征值value将特征向量vector降序排序 23 index = np.argsort(-value) 24 #5.筛选出前k个特征向量组成映射矩阵P 25 P = [] 26 #注意特征向量时列向量,而numpy的二维矩阵(数组)a[m][n]中,a[1]表示第1行值 27 P = np.matrix(vector.T[index[:k]]) #所以这里需要进行转置 28 #6.after_demean和P做矩阵乘法得到result 29 result = after_demean * P.T 30 31 return result 32 #********* End *********#

浙公网安备 33010602011771号