PCA和SVD简述

PCA

PCA全称为Principal Components Analysis，即主成分分析，是一种常用的降维方法。

PCA将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来的全部指标。将n维特征映射到k维全新的正交特征上。

PCA的实现一般有两种：特征值分解和SVD.

原理

对原始空间中顺序找出一组相互正交的坐标轴，首先找到第一个坐标轴（数据特征的线性组合）F1，使得数据样本在该坐标轴上的方差达到最大，F1表征第一主成分信息；接下来找第二个轴，第二个轴与第一个轴为正交关系（表示不再使用第一主成分中的信息）并且也是使得该方向上的样本方差最大；以此类推...这样能够找到n个坐标轴。由于后面找到的坐标轴上的方差较小，因此可以只取前面r个坐标轴去近似表示这个空间。最终达到降维的效果。

实现方法

1. 特征值分解 (以下图片来源于北京大学李戈老师的课件)