Python机器学习笔记：奇异值分解（SVD）算法

完整代码及其数据，请移步小编的GitHub

　　传送门：请点击我

　　如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote

　　奇异值分解（Singular Value Decomposition，后面简称 SVD）是在线性代数中一种重要的矩阵分解，它不光可用在降维算法中（例如PCA算法）的特征分解，还可以用于推荐系统，以及自然语言处理等领域，在机器学习，信号处理，统计学等领域中有重要应用。

　　比如之前的学习的PCA，掌握了SVD原理后再去看PCA是非常简单的，因为我最近在整理学习线性代数基础，并温习了一遍特征值与特征向量，所以这里同时也温习一下SVD算法，如果想看我之前的PCA降维的文章，可以参考下面：

Python机器学习笔记：主成分分析（PCA）算法

Python机器学习笔记：使用scikit-learn工具进行PCA降维

　　好了，话不多说，这里再对SVD算法做一个总结（这里总结主线是参考刘建平大佬和老师的网课视频学习，首先在这里提出感谢）

1，基变换与特征值分解

1.1 向量的表示与基变换

　　首先看看向量，向量可以表示为（3, 2），实际上表示线性组合：

　　基表示：（1, 0）和（0, 1）叫做二维空间中的一组基。

　　一组基就确定了对向量进行表示的空间，而向量的表示就是基于这组基进行坐标表示。选定的基不同，空间自然不同，那么向量表示的坐标自然也不同。一般情况下，我们会默认传统的正交坐标系为标准的基选择，但其实对传统正交坐标系进行选择，放缩或剪切变换后得到的依然是一个坐标系。

　　基变换：数据与一个基做内积运算，结果作为第一个新的坐标分量，然后与第二个基做内积运算，结果作为第二个新坐标的分量。

　　将一组基A下的坐标转换成另一组集B下的坐标——核心思想就是将A中的基用B对应的坐标系进行表示，将该向量在A下的坐标表示变换成关于基A的线性组合，进行代换即可。

　　数据（3， 2）映射到基中坐标为：

1.2 特征值分解

　　首先回归下特征值和特征向量的定义，其定义如下：

　　其中A是一个 n * n 的矩阵，x 是一个 n 维向量，则我们说 λ 是矩阵A的一个特征值，而 x 是矩阵A的特征值 λ 所对应的特征向量。

　　求出特征值和特征向量有什么好处呢？就是我们可以将矩阵 A 特征分解。如果我们求出了矩阵 A 的 n 个特征值 λ₁ <= λ₂ <= λ_n ，以及这 n 个特征值所对应的特征向量 {W₁, W₂, ...W_n}，如果这 n 个特征向量线性无关，那么矩阵 A 就可以用下式的特征分解表示：

　　其中 W 是这 n 个特征向量所长成的 n * n 维矩阵，而 Σ 为这个 n 个特征值为主对角线的 n * n 维矩阵。

　　一般我们会把 W 的这 n 个特征向量标准化，即满足 ||w_i||₂ = 1，或者说 w_i^Tw_i=1，此时 W 的 n 个特向量为标准正交基，满足W^TW = I，即 W^T = W^-1。

　　这样我们特征分解表达式可以写成：

　　注意到要进行特征分解，矩阵A必须为方阵。那么如果A不是方阵，即行和列不相同时，我们还可以对矩阵进行分解吗？答案是可以，就是下面我们要学习的SVD算法。

2，特征分解和奇异值分解（SVD）的区别

　　特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。

　　所有的矩阵都可以进行奇异值分解，但只有方阵才可以进行特征值分解。当所给的矩阵是对称的方阵，A^T=A，二者的结果是相同的。也就是说对称矩阵的特征值分解是所有奇异值分解的一个特例。但是二者还是存在一些小的差异，奇异值分解需要对奇异值进行从大到小的排序，而且全部是大于等于零。

　　对于如上的奇异值分解公式，我们可以看到奇异值分解同时包含了旋转，缩放和投影三种作用，并且U和V都起到了对A进行旋转的作用，而 Σ 起到了对 A 缩放的作用，特征值分解只有缩放的效果。

　　在应用上，奇异值分解主要用于数据矩阵，而特征值分解主要用于方型的相关矩阵。

3，奇异值分解的定义

　　特征值分解释一个提取矩阵特征很不错的方法，但是它只适用于方阵，而在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有M个学生，每个学生有N个成绩，这样就形成了一个M*N的矩阵就可能不是方阵了，我们怎么样才能像描述特征值一样描述这样一般矩阵的重要特征呢？奇异值分解就是干这个事情，奇异值分解是一个能适用于任何的矩阵的一种分解的方法。

3.1 SVD的理论描述

　　假设 A 是一个 m*n 阶矩阵，其中的元素全部属于域 K，也就是实数域或复数域。如此则存在一个分解使得：

　　其中 U 是 m*m 阶酋矩阵，Σ 是半正定 m*n 阶对角矩阵，而 V* 是V的共轭转置，是 n*n 阶酋矩阵，这样的分解就称作 M 的奇异值分解。Σ（是对角矩阵，但不一定是方阵）对角线上的元素 Σi 即为 M 的奇异值。

　　一般的 Σ 有如下形式：

　　上述分解中会构建出一个矩阵 Σ ，该矩阵只有对角元素，其他元素均为0，另一个惯例是，Σ 的对角元素是从大到小排列的。这些对角元素称为奇异值。在科学和工程中，一直存在这个一个普遍事实：在某个奇异值的数目（r个）之后，其他奇异值都置为零，这就意味着数据集中仅有 r 个重要特征，其余的都是噪声或冗余数据。

　　从下图可以形象的看出上面SVD的定义：

　　那么我们如何求出SVD分解后的 U，Σ，V 这三个矩阵呢？

　　如果我们将 A 的转置和 A 做矩阵乘法，那么会得到 n*n 的一个方阵 A^TA。既然 A^TA 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足下式：

　　这样我们就可以得到矩阵 A^TA 的 n 个特征值和对应的 n 个特征向量 v 了。将 A^TA 的所有特征向量张成一个 n*n 的矩阵 V，就是我们SVD公式里面的V矩阵了。一般我们将 V 中的每个特征向量叫做 A 的右奇异向量。

　　如果我们将 A 和 A 的转置做矩阵乘法，那么会得到 m*m的一个方阵 AA^T。既然 AA^T 是方阵，那么我们就可以进行特征分解，得到的特征值和特征向量满足下面公式：

　　这样我们就可以得到矩阵 AA^T 的 m 个特征值和对应的 m 个特征向量 u了。将 AA^T 的所有特征张成一个 m*m 的矩阵 U，就是我们 SVD 公式里面的 U矩阵了。一般我们将 U 中的每个特征向量叫做 A 的左奇异向量。

　　U 和 V 我们都求出来了，现在就剩下奇异值矩阵 Σ 没有求出了。

　　由于 Σ 除了对角线上是奇异值其他位置都是0，所以我们只需要求出每个奇异值 σ 就可以了。

　　我们注意到：

　　这样我们可以求出我们的每一个奇异值，进而求出奇异值矩阵 Σ。

　　上面还有一个问题就是我们说 A^TA 的特征向量组成的就是我们SVD中的 V矩阵，而 AA^T的特征向量组成的就是我们 SVD中的 U矩阵，这有什么根据吗？这个其实很容易证明，我们以V矩阵的证明为例：

　　上式证明使用了：U^TU = I, Σ^TΣ = Σ²。可以看出 A^TA 的特征向量组成的的确就是我们SVD中的 V 矩阵。类似的方法可以得到 AA^T 的特征向量组成的就是我们 SVD中的 U 矩阵。

　　进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方，也就是说特征值和奇异值满足如下关系：

　　这样也就是说，我们可以不用上面推导的式子来计算奇异值，上式如下：

　　我们可以直接通过求 A^TA 的特征值取平方根来求奇异值。

注意1：通过A^TA的特征值取平方根求解奇异值的注意点

　　我们知道，正常求 U，V，Σ 不便求，所以，我们利用如下性质（公式上面有提到，这里再复述一下）：

　　需要注意的是：这里的 ΣΣ^T 和 Σ^TΣ 在矩阵的角度上来讲，他们是不相等的，因为他们的维度不同 ΣΣ^T €R^m*m，而 Σ^TΣ€R^n*n，但是他们在主对角线的奇异值是相等的，即有：

　　所以对于 ΣΣ^T 和 Σ^TΣ 中的特征值开方，可以得到所有的奇异值。

注意2：酋矩阵的定义

　　若n行n列的复数矩阵 U满足：

　　其中 In 为 n 阶单位矩阵，U^T 为 U的共轭转置，则U为酋矩阵（即矩阵U为酋矩阵，当且仅当其共轭转置U^T 为其逆矩阵：U^-1 = U^T）

3.2 SVD的几何层面理解

　　下面从几何层面上去理解二维的SVD：对于任意的 2*2 矩阵，通过 SVD 可以将一个互相垂直的网络（orthogonal grid）变换到另外一个互相垂直的网络。

　　我们可以通过向量的方式来描述这个事实：首先，选择两个互相正交的单位向量 v1 和 v2，向量 Mv1 和 Mv2 正交。

　　u1 和 u2 分别表示 Mv1 和 Mv2 的单位向量，σ1*u1=Mv1 和 σ2*u2=Mv2，σ1 和 σ2分别表示这不同方向向量上的模，也称为作为矩阵 M 的奇异值。

　　这样就有了如下关系式：

　　我们现在可以简单描述下经过 M 线性变换后的向量 x 的表达形式。由于向量 v1 和 v2 是正交的单位向量，我们可以得到如下式子：

　　这就意味着：

　　向量内积可以用向量的转置来标色，如下所示：

　　最终的式子为：

　　上述的式子经常表示为：

　　u 矩阵的列向量分别是 u1 和 u2，Σ 是一个对角矩阵，对角元素分别是对应的 σ1 和 σ2，v 矩阵的列向量分别为 v1 和 v2。

　　这就表明了任意的矩阵 M 是可以分解成三个矩阵，v 表示原始域的标准正交基， u 表示经过 M 变换后的 co-domain 的标准正交基，Σ 表示了 v 中的向量与 u 中相对应向量之间的关系。

3.3 SVD的推导

　　这里直接拿了百度百科的内容。

3.3 SVD的一些性质

　　上面我们对SVD的定义和计算做了详细的描述，下面对其一些性质进行分析。

　　对于奇异值，它和我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的块，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们可以用最大的k个奇异值和对应的左右奇异值向量来近似描述矩阵。也就是说：

　　其中 k 要比 n 小很多，也就是一个大的矩阵 A 可以用三个小的矩阵来标色，如下图所示，现在我们的矩阵 A 只需要灰色的部分的三个小矩阵就可以近似描述了。

　　由于奇异值的特点就是衰减特别快，也就是说仅仅有前几个奇异值特别大，后面的值都很小，这一点可以用于数据压缩和去噪，PCA降维，也可以用于推荐算法，将用户和喜好对应的矩阵分解，进而得到隐含的用户需求来做推荐。

4，SVD算法的应用

4.1 矩阵近似值

　　奇异值分解在统计中的主要应用为主成分分析（PCA），一种数据分析方法，用来找出大量数据中所隐含的“模式”，PCA算法的作用是把数据集映射到低维空间中去。数据集的特征值（在SVD中用奇异值表征）按照重要性排列，降维的过程就是舍弃不重要的特征向量的过程，而剩下的特征向量组成的空间即为降维后的空间。

　　在PCA降维中，需要找到样本协方差矩阵 X^TX 的最大的 d 个特征向量，然后用这最大的 d 个特征向量张成的矩阵来做低维投影降维。可以看出，在这个过程中需要先求出协方差矩阵 X^TX，当样本数多样本特征数也多的时候，这个计算量是很大的。

　　注意到SVD也可以得到协方差矩阵 X^TX 最大的 d 个特征向量张成的矩阵，但是SVD有个好处，有一些SVD的实现算法可以不先求出协方差矩阵 X^TX ，也能求出我们的右奇异矩阵 V。也就是说，我们的 PCA算法可以不用做特征分解，而是做 SVD来完成。这个方法在样本量很大的时候很有效。实际上，scikit-learn 算法的背后真正的实现就是SVD，而不是我们认为的暴力特征分解。

　　另一方面，注意到 PCA仅仅使用了我们 SVD的右奇异矩阵，没有使用左奇异矩阵，那么左奇异矩阵有什么用呢？

　　假设我们那的样本是 m*n 的矩阵 X，如果我们通过 SVD找到了矩阵 XX^T 最大的 d 个特征向量张成的 m*d 维矩阵 U，则我们如果进行如下处理：

　　可以得到一个 d*n 的矩阵 X'，这个矩阵和我们原来的 m*n 维样本矩阵 X 相比，行数从 m 减到了 d，可见对行数进行了压缩，也就是说，左奇异矩阵可以用于行数的压缩。相对的，右奇异矩阵可以用于列数集特征维度的压缩，也就是我们的PCA降维。

　　举个例子，我们搜集的数据中总是存在噪声：无论采用的设备多精密，方法有多好，总是会存在一些误差的。大的奇异值对应了矩阵中的主要信息的话，运用SVD进行数据分析，提取其中的主要部分的话，还是相当合理的。

　　作为例子，假设我们搜集的数据如下所示：

　　我们将数据用矩阵的形式表示：

　　经过奇异值分解后，得到：

　　由于第一个奇异值远比第二个要大，数据中有包含一些噪声，第二个奇异值在原始矩阵分解相对应的部分可以忽略。经过SVD分解后，保留了主要样本点如图所示：

　　就保留主要数据来看，该过程与PCA降维有一些联系，PCA 也是要了SVD去检测数据间依赖和冗余信息。

4.2 平行奇异值

　　把频率选择性衰落信道进行分解。

4.3 求伪逆

　　奇异值分解可以被用来计算矩阵的伪逆，若矩阵 M 的奇异值分解为 M = UΣV*，那么 M 的伪逆为： M+ = VΣ⁺U*。

　　其中 Σ⁺是 Σ 的伪逆，并将其主对角线上每个非零元素都求导数之后再转置得到的。求伪逆通常用来求解线性最小平方，最小二乘法问题。

4.4 在数据表达上的应用

　　下面我们来看一个奇异值分解在数据表达上的应用，假设我们有如下一张 15*25的图像数据：

　　如图所示，该图像主要由下面三部分构成：

　　我们将图像表示为 15*25 的矩阵，矩阵的元素对应着图像不同像素，如果像素是白色的话，就取1，黑色的话就取0，我们得到了一个具有 375个元素的矩阵，如下图所示：

　　如果我们对矩阵 M 进行奇异值分解以后，得到的奇异值分别是：

　　矩阵 M 就可以表示成：

　　vi 具有 15个元素， ui 具有 25 个元素，σi 对应不同的奇异值，如上图所示，我们就可以用 123个元素来表示具有 375个元素的图像数据了。

4.5 降噪（noise reduction）

　　前面例子的奇异值都不为零，或者都还算比较大，下面我们来探索一下拥有零或者非常小的奇异值的情况。通常来讲，大的奇异值对应的部分会包含更多的信息。比如，我们有一张扫描，带有噪声的图像，如下图所示：

　　我们采用跟实例二相同的处理方式处理该扫描图像，得到图像矩阵的奇异值：

　　很明显，前面三个奇异值远远比后面的奇异值要大，这样矩阵 M 的分解方式就可以如下：

　　经过奇异值分解后，我们得到了一张降噪后的图像。

5， SVD计算实例

5.1 实例1

　　对M进行奇异值分解，M矩阵如下：

　　我们看一下 M 矩阵变换后的效果，如下图所示：

　　在这个例子中，第二个奇异值为0，因此经过变换后只有一个方向上有表达。

　　换句话说，如果某些奇异值非常小的话，其相对应的几项就可以不同出现在矩阵 M 的分解式中。因此，我们可以看到矩阵 M 的秩大小等于非零奇异值的个数。

5.2 实例2

　　这里我们用一个例子来说明矩阵是如何进行奇异值分解的。

　　我们需要进行奇异值分解的矩阵A如下：

　　我们首先求出 A^TA和 AA^T：

　　进行求出 A^TA 的特征值和特征向量（此处的特征向量取的是单位向量）：

　　则 V 为：

　　接着求 AA^T 的特征值和特征向量（此处的特征向量取的是单位向量）：

　　则 U 为：

　　利用 Av_i=σ_iu_i，i=1,2 求奇异值：

　　当然，我们也可以用 σ_i= √λ_i 直接求出奇异值为 √3 和 1。

　　即通过：

　　我们代数矩阵即可求出奇异值。

　　最终得到 A 的奇异值分解为：

6，利用Python实现SVD降维

6.1 Python中SVD的函数

　　Python中的 Numpy 包内有一个 linalg 的线性工具，可以使用它来直接计算 SVD 的结果，不需要专门研究对应的线性代数的知识，我们拿上面 5.2 的实例来看，矩阵如下：

　　我们使用该函数来计算它的SVD。

　　得到如下结果：

　　可以看到 Σ 是以行向量的形式出现，因为该矩阵除了对角元素以外其他元素均为0，这样的格式更节省空间。

　　我们和之前计算的结果进行比对：

　　我们发现 Σ 和我们计算出来的是一致的。

　　当然人可以计算2*2, 3*3的，但是当矩阵的维度越来越大呢？

　　接下来再看一个大的数据集，我们建立如下的数据集：

　　我们求出奇异值为：

　　我们发现它后面两个值接近于0，所以我们就可以将最后两个值去掉了，接下来我们就可以去掉一部分元素的矩阵近似表示原始数据：

　　这样我们重构的近似矩阵如下：

[[ 1.00000000e+00  1.00000000e+00  1.00000000e+00  7.75989921e-16
   7.71587483e-16]
 [ 2.00000000e+00  2.00000000e+00  2.00000000e+00  3.00514919e-16
   2.77832253e-16]
 [ 1.00000000e+00  1.00000000e+00  1.00000000e+00  2.18975112e-16
   2.07633779e-16]
 [ 5.00000000e+00  5.00000000e+00  5.00000000e+00  3.00675663e-17
  -1.28697294e-17]
 [ 1.00000000e+00  1.00000000e+00 -5.48397422e-16  2.00000000e+00
   2.00000000e+00]
 [ 3.21319929e-16  4.43562065e-16 -3.48967188e-16  3.00000000e+00
   3.00000000e+00]
 [ 9.71445147e-17  1.45716772e-16 -1.52655666e-16  1.00000000e+00
   1.00000000e+00]]

　　四舍五入之后与原始数据基本保持一致。

　　我们如果知道仅仅需要保留到前3个奇异值呢？其中一个典型的做法就是保留矩阵中的 90%的能量信息，我们将所有的奇异值取平方和，直到加到总和的90%为止。

6.2 在图像压缩中的应用

　　一个图像矩阵，我们总可以将它分解为以下形式，通过选取不同个数的 Σ 中的奇异值，就可以实现图像的压缩：

　　如果只想实现图像压缩，我们可以使用python numpy 库中的 linalg.svd 对图像矩阵进行分解，进而提取前K个奇异值便能实现SVD图像压缩的效果，下面我们看一下代码：

#_*_ coding:utf-8_*_
import numpy as np
import cv2

img = cv2.imread('harden.jpg')
print('origin image shape is ', img.shape)
# 表示 RGB 中各有一个矩阵，都为300*532
#  origin image shape is  (300, 532, 3)


def svd_compression(img, k):
    res_image = np.zeros_like(img)
    for i in range(img.shape[2]):
        # 进行奇异值分解, 从svd函数中得到的奇异值sigma 是从大到小排列的
        U, Sigma, VT = np.linalg.svd(img[:,:,i])
        res_image[:, :, i] = U[:,:k].dot(np.diag(Sigma[:k])).dot(VT[:k,:])

    return res_image


# 保留前 k 个奇异值
res1 = svd_compression(img, k=300)
res2 = svd_compression(img, k=200)
res3 = svd_compression(img, k=100)
res4 = svd_compression(img, k=50)

row11 = np.hstack((res1, res2))
row22 = np.hstack((res3, res4))
res = np.vstack((row11, row22))

cv2.imshow('img', res)
cv2.waitKey(0)
cv2.destroyAllWindows()

　　我们这里分别提取了前300， 200， 100， 50 的奇异值，图如下：

　　可以看到，当我们取到前面300个奇异值来重构图片时，基本与原图看不出来差别，甚至两百的都是都还OK。

　　所以从上面的压缩结果来看，奇异值可以被看作是一个矩阵的代表值，或者说奇异值能够代表这个矩阵的信息，当奇异值越大时，它代表的信息越多。因此我们取前面若干个最大的奇异值，就可以基本还原出数据本身。

参考文献：https://blog.csdn.net/xiahouzuoxin/article/details/41118351

http://www.ams.org/publicoutreach/feature-column/fcarc-svd

https://www.cnblogs.com/pinard/p/6251584.html

https://jingyan.baidu.com/article/9f63fb916ba5e1c8400f0eca.html

http://blog.sciencenet.cn/blog-696950-699432.html

百度百科，SVD的步骤推导等等

posted @ 2021-01-19 15:25 战争热诚阅读(18428) 评论(0) 收藏举报

刷新页面返回顶部

战争热诚