[转载]特征值分解 (EVD)，奇异值分解 (SVD) 和主成份分析 (PCA)

范叶亮 / 2017-12-11

准备知识

向量与基

首先，定义

后续为了便于理解，我们以二维向量为例，则

我们从

其中，

在

则对于向量

其中

因此，当我们确定好一组基之后，我们仅需利用向量在基上的投影值即可表示对应的向量。一般情况下，我们会选择由坐标轴方向上的单位向量构成的基作为默认的基来表示向量，但我们仍可选择其他的基。例如，我们选择

线性变换

以二维空间为例，定义一个如下矩阵

则对于二维空间中一个向量

(1) 通过变换将任意一个点

(2) 通过变换将任意一个点

(3) 变换将任意一个点

(4) 通过变换将任意一个点

(5) 变换将任意一个点

特征值分解

设

则

其中

这样，一个方阵

A <- matrix(c(3, -2, -0.9, 0,
              -2, 4, 1, 0,
              0, 0, -1, 0,
              -0.5, -0.5, 0.1, 1),
            4, 4, byrow = T)
A_eig <- eigen(A)
print(A_eig)

# eigen() decomposition
# $values
# [1]  5.561553  1.438447  1.000000 -1.000000
# 
# $vectors
#             [,1]       [,2] [,3]        [,4]
# [1,] -0.61530186  0.4176225    0  0.15282144
# [2,]  0.78806410  0.3260698    0 -0.13448286
# [3,]  0.00000000  0.0000000    0  0.97805719
# [4,] -0.01893678 -0.8480979    1 -0.04431822

则利用特征值和特征向量，可以还原原矩阵

A_re <- A_eig$vectors %*%
    diag(A_eig$values) %*%
    solve(A_eig$vectors)
print(A_re)

#      [,1] [,2] [,3] [,4]
# [1,]  3.0 -2.0 -0.9    0
# [2,] -2.0  4.0  1.0    0
# [3,]  0.0  0.0 -1.0    0
# [4,] -0.5 -0.5  0.1    1

奇异值分解

特征值分解针对的是方阵，对于一个

其中

我们利用经典的 lena 图片展示一下 SVD 的作用，lena 图片为一张

我们对原始图片进行灰度处理后，进行特征值分解，下图中从左到右，从上到下分别是原始的灰度图像，利用 20 个左奇异向量和 20 个右奇异向量重构图像，利用 50 个左奇异向量和 100 个右奇异向量重构图像，利用 200 个左奇异向量和 200 个右奇异向量重构图像。

从图中可以看出，我们仅用了 200 个左奇异向量和 200 个右奇异向量重构图像与原始灰度图像已经基本看不出任何区别。因此，我们利用 SVD 可以通过仅保留较大的奇异值实现数据的压缩。

主成份分析

主成份分析 ¹ 可以通俗的理解为一种降维方法。其目标可以理解为将一个

对每一个维度进行零均值化，即减去这一维度的均值

其中，

对于两个随机变量，我们可以利用协方差简单表示这两个变量之间的相关性

对于已经零均值化后的矩阵

因为矩阵

从 PCA 的目标来看，我们则可以通过求解矩阵

例如，我们将二维数据

降至一维

x <- matrix(c(-1, -1, 0, 0, 2,
              -2, 0, 0, 1, 1),
            5, 2, byrow = F)
x_pca <- prcomp(x)

print(pca)
# Standard deviations (1, .., p=2):
# [1] 1.5811388 0.7071068
# 
# Rotation (n x k) = (2 x 2):
#            PC1        PC2
# [1,] 0.7071068  0.7071068
# [2,] 0.7071068 -0.7071068

summary(pca)
# Importance of components:
#                           PC1    PC2
# Standard deviation     1.5811 0.7071
# Proportion of Variance 0.8333 0.1667
# Cumulative Proportion  0.8333 1.0000

x_ <- predict(x_pca, x)
print(x_)
#             PC1        PC2
# [1,] -2.1213203  0.7071068
# [2,] -0.7071068 -0.7071068
# [3,]  0.0000000  0.0000000
# [4,]  0.7071068 -0.7071068
# [5,]  2.1213203  0.7071068

降维的投影结果如图所示

Wold, Svante, Kim Esbensen, and Paul Geladi. “Principal component analysis.” Chemometrics and intelligent laboratory systems 2.1-3 (1987): 37-52. ↩
文章原文链接：https://leovan.me/cn/2017/12/evd-svd-and-pca/

posted @ 2019-08-26 15:22 LeonYi 阅读(394) 评论(0) 收藏举报

刷新页面返回顶部

LeonYi