PCA
思想
通过找到一个低维平面,使得样本到该平面的投影误差最小,而这些投影形成了新的特征。比如下图:

步骤
1.对样本做feature scaling
2.将数据从n维降到k维,计算协方差矩阵(这里的x没有1项):

利用SVD(奇异值分解)计算特征向量

我们真正需要的是U矩阵的前k列:

然后将原来的特征转换为新特征:

恢复
从压缩后的特征恢复到原来的特征的公式:

K的选择
为了与原样本保持近似,需要保留99%(可以自由变化)的方差,有2种方法去选择k:
①法一
先令k=1,进行下面的计算,如果不等式成立,则ok,否则令k=2,。。。。

②法二
计算:

其中S :

先从k=1开始,计算下式,若成立则ok,否则。。。。

注意
要先将PCA用于训练集,然后得到参数以后,再用于验证集和测试集。别动不动就用PCA,实在不行的时候才用。

浙公网安备 33010602011771号