【深度学习数学基础:线性代数】5. 矩阵分解:5.1 QR分解
5. 矩阵分解
矩阵分解简介
矩阵分解(decomposition或factorization)是指通过线性变换,将某个给定矩阵分解为两个或三个矩阵标准型的乘积,以减化计算或让分析更简单,在极少情况下将矩阵分解为两个矩阵的标准型之和。
标准型的定义
标准型指通过相似变换将矩阵变换为某些特殊的规范形式,以使矩阵的某些特性显现得更直观明了。出于应用目的不同,有多种不同的规范形式,因而就有多种不同的标准型。常见的如:
- 对角阵:最理想形式,但并非总能达成
- Jordan型:对角线上的元素由Jordan块构成,\(n\)阶Jordan块指对角元为\(\lambda\),对角元之上元素为1的矩阵
- 上三角阵:实际中最实用的规范方案
Jordan块与Jordan标准型
Jordan块的数学表达为:
Jordan标准型的示例包括:
5.1 QR分解
5.1.1 【补】正交矩阵
正交矩阵的定义
正交矩阵(Orthogonal Matrix)是一类特殊的方阵,其行向量和列向量都是标准正交向量组。具体来说,若一个\(n \times n\)实矩阵\(Q\)满足以下条件:
其中\(Q^T\)表示\(Q\)的转置矩阵,\(I\)表示\(n\)阶单位矩阵,则称\(Q\)为正交矩阵。
正交矩阵的性质
-
行列式值:正交矩阵的行列式值为1或-1,即:
\[\det(Q) = \pm 1 \] -
向量长度保持:对任意向量\(\boldsymbol{x}\),正交变换不改变向量的长度,即:
\[\| Q\boldsymbol{x} \| = \| \boldsymbol{x} \| \] -
向量间夹角保持:正交变换不改变向量间的夹角,即对任意向量\(\boldsymbol{x}\)和\(\boldsymbol{y}\),有:
\[(Q\boldsymbol{x})^T(Q\boldsymbol{y}) = \boldsymbol{x}^T\boldsymbol{y} \] -
逆矩阵等于转置:正交矩阵的逆矩阵等于其转置矩阵,即:
\[Q^{-1} = Q^T \]
正交矩阵的几何意义
在几何上,正交矩阵表示的是欧几里得空间中的旋转变换或反射变换。当\(\det(Q) = 1\)时,正交变换表示纯旋转;当\(\det(Q) = -1\)时,正交变换表示旋转加反射。
正交矩阵与QR分解的关系
在QR分解中,正交矩阵\(Q\)起到了关键作用:
- 列空间保持:\(Q\)的列向量构成了原矩阵\(A\)的列空间的一组标准正交基。
- 数值稳定性:正交变换具有良好的数值稳定性,使得QR分解在数值计算中广泛应用。
- 分解形式:在Full QR分解中,\(Q\)是一个完整的正交方阵,而在Reduced QR分解中,\(Q\)是列正交矩阵(满足\(Q^TQ = I\),但\(QQ^T \neq I\))。
5.1.2 QR分解
QR分解简介
QR分解是最常见的矩阵分解方式之一。设有任意矩阵\(A_{m \times n}\)且\(m \geq n\)(若\(m<n\)可研究\(A^{T}\)),那么\(A\)一定可以分解成两个矩阵的乘积:\(Q\)表示正交阵(orthogonal matrix),\(R\)表示上三角阵(upper triangular matrix)。
其中\(Q\)是一个正交阵,\(R\)是一个上三角阵。根据\(Q\)、\(R\)形状的不同,QR分解也分两种形式:
注:如无特殊说明,正交阵一般指正交单位阵。
QR分解的两种形式
- Reduced(简化)形式:\(Q\)是\(m \times n\)型列正交阵,\(R\)是\(n \times n\)型上三角阵。
- Full(完全)形式:\(Q\)是\(m \times m\)型正交阵,\(R\)是一个\(m \times n\)型上三角阵,或者此时可以将\(R\)写成:
QR分解的存在性
对于任意一个矩阵\(A\),总是可以做QR分解,这也是QR分解非常常用的原因之一。
根据\(\boldsymbol{A}\)是否列满秩(因为讨论的是\(m \geq n\)),不同形式的QR分解会表现出不同特性。对于简化形式:
QR分解的唯一性
-
若\(\boldsymbol{A}\)是 列满秩 的:\(\boldsymbol{Q}\)是列正交阵,\(\boldsymbol{R}\)是\(n \times n\)型列线性无关上三角阵(非奇异),若要求\(\boldsymbol{R}\)的对角元均为正,则\(\boldsymbol{Q}\)、\(\boldsymbol{R}\)都是唯一的45。
-
若\(\boldsymbol{\mathrm{rank}}(\boldsymbol{A}) = r < n\)(非列满秩):假设\(\boldsymbol{A}\)的前\(r\)列是线性无关的46,则\(\boldsymbol{Q}\)是列正交的且\(\boldsymbol{Q}\)的前\(r\)列是唯一的,后\(n-r\)列不是唯一的。如果此时把\(\boldsymbol{A}\)写成下列形式且要求\(\boldsymbol{R}\)的对角元为正则\(\boldsymbol{Q}\)、\(\boldsymbol{R}\)都是唯一的:
\[\boldsymbol{A} = \boldsymbol{Q}_{m \times r}\boldsymbol{R}_{r \times n} \]
脚注说明
45 要求对角元为正是因为不然的话,只需要令\(\boldsymbol{Q}\)、\(\boldsymbol{R}\)分别乘以\(-1\)就能得到一个新的分解。
46 总可以通过行变换将前\(r\)列变成线性无关的。
QR分解举例
设有矩阵 \(\boldsymbol{A}\) ,很明显它是 列满秩 的。它QR分解的结果如下:
可以验证 \(\boldsymbol{Q}\) 是 列正交阵(列向量范数为1且两两正交):
1. 列向量范数为1
-
对第一列 \(\boldsymbol{q}_1\):
\[\|\boldsymbol{q}_1\| = \sqrt{\left(\frac{\sqrt{35}}{35}\right)^2 + \left(\frac{3\sqrt{35}}{35}\right)^2 + \left(\frac{\sqrt{35}}{7}\right)^2} = \sqrt{\frac{35 + 9 \times 35 + 35 \times 5^2}{35^2}} = 1 \] -
对第二列 \(\boldsymbol{q}_2\):
\[\|\boldsymbol{q}_2\| = \sqrt{\left(\frac{13\sqrt{210}}{210}\right)^2 + \left(\frac{2\sqrt{210}}{105}\right)^2 + \left(\frac{\sqrt{210}}{42}\right)^2} = \sqrt{\frac{169 \times 210 + 16 \times 210 + 25 \times 210}{210^2}} = 1 \]
2. 列向量两两正交
第一列与第二列的点积:
【注】关于\(\boldsymbol{Q}\)为何是正交矩阵。
- 向量2-范数的定义
对于 \(k\) 维向量 \(\boldsymbol{v} = (v_1, v_2, \dots, v_k)^\mathrm{T}\),其 2-范数(欧几里得范数)定义为:\[\|\boldsymbol{v}\| = \sqrt{v_1^2 + v_2^2 + \dots + v_k^2} \]
- 以 \(\boldsymbol{q}_1\) 为例计算范数
\(\boldsymbol{q}_1\) 是正交矩阵 \(\boldsymbol{Q}\) 的第一列,分量为:\[\boldsymbol{q}_1 = \left( \frac{\sqrt{35}}{35},\ \frac{3\sqrt{35}}{35},\ \frac{\sqrt{35}}{7} \right)^\mathrm{T} \](1)计算各分量的平方
- 第一个分量平方:\(\left( \frac{\sqrt{35}}{35} \right)^2 = \frac{35}{35^2} = \frac{1}{35}\);
- 第二个分量平方:\(\left( \frac{3\sqrt{35}}{35} \right)^2 = \frac{9 \times 35}{35^2} = \frac{9}{35}\);
- 第三个分量平方:\(\left( \frac{\sqrt{35}}{7} \right)^2 = \frac{35}{7^2} = \frac{35}{49} = \frac{25}{35}\)(通分后,\(49=7^2\),\(\frac{35}{49} = \frac{5}{7} = \frac{25}{35}\))。
(2)平方和求和
将三个平方项相加:
\[\frac{1}{35} + \frac{9}{35} + \frac{25}{35} = \frac{1+9+25}{35} = \frac{35}{35} = 1 \](3)开根号求范数
根据范数定义,对平方和开根号:
\[\|\boldsymbol{q}_1\| = \sqrt{1} = 1 \]
- 同理分析 \(\boldsymbol{q}_2\) 的范数
\(\boldsymbol{q}_2\) 是 \(\boldsymbol{Q}\) 的第二列,分量为:\[\boldsymbol{q}_2 = \left( \frac{13\sqrt{210}}{210},\ \frac{2\sqrt{210}}{105},\ -\frac{\sqrt{210}}{42} \right)^\mathrm{T} \]通过 通分统一分母(如210) 计算平方和:
- 第一项平方:\(\left( \frac{13\sqrt{210}}{210} \right)^2 = \frac{169 \times 210}{210^2} = \frac{169}{210}\);
- 第二项平方:\(\left( \frac{2\sqrt{210}}{105} \right)^2 = \frac{4 \times 210}{210^2} = \frac{16}{210}\)(因 \(105 \times 2 = 210\),分子分母同乘2,\(\frac{2}{105} = \frac{4}{210}\));
- 第三项平方:\(\left( -\frac{\sqrt{210}}{42} \right)^2 = \frac{210}{42^2} = \frac{25}{210}\)(因 \(42 \times 5 = 210\),分子分母同乘5,\(\frac{1}{42} = \frac{5}{210}\))。
平方和为:
\[\frac{169}{210} + \frac{16}{210} + \frac{25}{210} = \frac{210}{210} = 1 \]开根号后,\(\|\boldsymbol{q}_2\| = \sqrt{1} = 1\)。
- 正交矩阵的列向量核心性质
正交矩阵的 列向量是“标准正交向量”:
- 范数为1:每个列向量的2-范数等于 \(\boldsymbol{1}\)(如 \(\boldsymbol{q}_1\)、\(\boldsymbol{q}_2\) 的推导);
- 正交性:不同列向量的点积为 \(\boldsymbol{0}\)(前文已验证 \(\boldsymbol{q}_1^\mathrm{T}\boldsymbol{q}_2 = 0\))。
这是正交矩阵的本质特征,也是QR分解中 \(\boldsymbol{Q}\) 列正交性的体现。
不唯一的QR分解(矩阵不满秩)
设有矩阵 \(\boldsymbol{A}\) ,很明显它 不是列满秩(列向量线性相关,第二列是第一列的2倍)。它的QR分解结果如下47:
矩阵与向量表示
列正交性验证(范数与点积)
1. 列向量范数为1
-
对 \(\boldsymbol{q}_1\):
\[\|\boldsymbol{q}_1\| = \sqrt{\left( \dfrac{\sqrt{14}}{14} \right)^2 + \left( \dfrac{\sqrt{14}}{7} \right)^2 + \left( \dfrac{3\sqrt{14}}{14} \right)^2} = \sqrt{\dfrac{14 + 4 \times 14 + 9 \times 14}{14^2}} = \sqrt{\dfrac{14 \times 14}{14^2}} = 1 \] -
对 \(\boldsymbol{q}_2\):
\[\|\boldsymbol{q}_2\| = \sqrt{\left( -\dfrac{2\sqrt{5}}{5} \right)^2 + \left( -\dfrac{\sqrt{5}}{5} \right)^2 + 0^2} = \sqrt{\dfrac{20 + 5}{25}} = \sqrt{\dfrac{25}{25}} = 1 \]
2. 列向量正交(点积为0)
脚注说明
47 因为 \(\boldsymbol{Q}\) 要是列正交阵且第一列唯一,故可通过求第一列的 零空间 构造第二列
零空间:所有与 \(\boldsymbol{q}_1\) 点积为0的向量集合(满足 \(\boldsymbol{q}_1^\mathrm{T}\boldsymbol{x}=0\) ),从中选\(\boldsymbol{q}_2\) 保证正交性
对于 完全形式的QR分解:
- 若 \(\boldsymbol{A}\) 是 列满秩 的:\(\boldsymbol{Q}\) 是列正交阵且是唯一的,\(\boldsymbol{R}\) 可以写成 \(\begin{pmatrix}\boldsymbol{R}_{0} \\ \boldsymbol{0}\end{pmatrix}\),其中 \(\boldsymbol{R}_{0}\) 是 \(n \times n\) 型且唯一,因而 \(\boldsymbol{R}\) 也是唯一的。
- 若 \(\operatorname{rank}(\boldsymbol{A}) = r < n\) 不是列满秩 的:假设 \(\boldsymbol{A}\) 的前 \(r\) 列是线性无关的,则 \(\boldsymbol{Q}\) 是正交的且其前 \(r\) 列是唯一的。
此种情况和简化形式类似,但注意讨论唯一性时要限定 \(\boldsymbol{R}\) 的对角元为正。
5.1.3 施密特(Schmidt)正交化
设\(\boldsymbol{A}\)的\(n\)个\(m\)维列向量\((\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \dots, \boldsymbol{\alpha}_n)\)线性无关,根据施密特(Schmidt)正交化可以将它们变成正交向量(对一组线性无关的列向量做正交化实际上就是在做QR分解):
此时\((\boldsymbol{\beta}_1, \boldsymbol{\beta}_2, \dots, \boldsymbol{\beta}_n)\)是正交的且与\((\boldsymbol{\alpha}_1, \boldsymbol{\alpha}_2, \dots, \boldsymbol{\alpha}_n)\)是等价的48。
脚注说明
48 两个向量组等价表示它们可以张成相同的空间;\(\boldsymbol{\dfrac{\langle \boldsymbol{\alpha}, \boldsymbol{\beta} \rangle}{\langle \boldsymbol{\beta}, \boldsymbol{\beta} \rangle}\boldsymbol{\beta}}\) 表示\(\boldsymbol{\alpha}\)在\(\boldsymbol{\beta}\)上的投影。
可以将施密特正交化的过程,看作对原向量组的 QR分解。定义投影系数 $ b_{i,j} = \dfrac{\langle \boldsymbol{\alpha}_i, \boldsymbol{\beta}_j \rangle}{\langle \boldsymbol{\beta}_j, \boldsymbol{\beta}_j \rangle} $(即 \(\boldsymbol{\alpha}_i\) 在 \(\boldsymbol{\beta}_j\) 上的投影系数),推导如下:
1. 向量展开式推导
-
由 \(\boldsymbol{\beta}_1 = \boldsymbol{\alpha}_1\),直接得:
\[\boldsymbol{\alpha}_1 = \boldsymbol{\beta}_1 \] -
由 \(\boldsymbol{\beta}_2 = \boldsymbol{\alpha}_2 - b_{1,2}\boldsymbol{\beta}_1\),移项得:
\[\boldsymbol{\alpha}_2 = b_{1,2}\boldsymbol{\beta}_1 + \boldsymbol{\beta}_2 \] -
由 \(\boldsymbol{\beta}_3 = \boldsymbol{\alpha}_3 - b_{1,3}\boldsymbol{\beta}_1 - b_{2,3}\boldsymbol{\beta}_2\),移项得:
\[\boldsymbol{\alpha}_3 = b_{1,3}\boldsymbol{\beta}_1 + b_{2,3}\boldsymbol{\beta}_2 + \boldsymbol{\beta}_3 \] -
以此类推,对第 \(n\) 个向量:
\[\boldsymbol{\alpha}_n = b_{1,n}\boldsymbol{\beta}_1 + \dots + b_{n-1,n}\boldsymbol{\beta}_{n-1} + \boldsymbol{\beta}_n \]
2. 矩阵形式与单位化(构造正交阵 \(\boldsymbol{Q}\) 和上三角阵 \(\boldsymbol{R}\))
引入 单位正交向量:令 $ \boldsymbol{\varepsilon}_1 = \dfrac{\boldsymbol{\beta}_1}{|\boldsymbol{\beta}_1|}, \boldsymbol{\varepsilon}_2 = \dfrac{\boldsymbol{\beta}_2}{|\boldsymbol{\beta}_2|}, \dots, \boldsymbol{\varepsilon}_n = \dfrac{\boldsymbol{\beta}_n}{|\boldsymbol{\beta}_n|} $(对 \(\boldsymbol{\beta}_i\) 单位化,保证 \(\|\boldsymbol{\varepsilon}_i\|=1\) 且正交性不变)。
此时,\(\boldsymbol{\beta}_i = \|\boldsymbol{\beta}_i\| \boldsymbol{\varepsilon}_i\),代入原向量组的矩阵表示:
(1)原向量组用 \(\boldsymbol{\beta}\) 表示
(2)替换 \(\boldsymbol{\beta}_i = \|\boldsymbol{\beta}_i\| \boldsymbol{\varepsilon}_i\)
(3)合并为QR分解
令:
- \(\boldsymbol{Q} = (\boldsymbol{\varepsilon}_1, \boldsymbol{\varepsilon}_2, \dots, \boldsymbol{\varepsilon}_n)\)(正交阵,列向量单位正交,满足 \(\boldsymbol{Q}^\mathrm{T}\boldsymbol{Q} = \boldsymbol{I}\)),
- \(\boldsymbol{R} = \begin{pmatrix} \|\boldsymbol{\beta}_1\| & \|\boldsymbol{\beta}_1\|b_{1,2} & \dots & \|\boldsymbol{\beta}_1\|b_{1,n} \\ 0 & \|\boldsymbol{\beta}_2\| & \dots & \|\boldsymbol{\beta}_2\|b_{2,n} \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \dots & \|\boldsymbol{\beta}_n\| \end{pmatrix}\)(上三角阵,对角线元素为 \(\|\boldsymbol{\beta}_i\|\),上三角元素含投影系数),
则原向量组的矩阵表示为 QR分解形式:
核心结论
施密特正交化的本质是 构造QR分解:
- \(\boldsymbol{Q}\) 实现“正交化+单位化”,是列正交阵;
- \(\boldsymbol{R}\) 记录“投影系数+长度缩放”,是上三角阵;
两者结合完成对原向量组的分解,体现QR分解的几何意义。
施密特正交化的例子
设有 无关向量:
1. 正交化(施密特方法)与单位化步骤
(1)处理 \(\boldsymbol{v}_1\)
取 \(\boldsymbol{q}_1 = \boldsymbol{v}_1 = (1, 1, 0)^\mathrm{T}\),进行 单位化(归一化,使范数为1):
- 计算2-范数:\(\|\boldsymbol{q}_1\| = \sqrt{1^2 + 1^2 + 0^2} = \sqrt{2}\),
- 单位化后:\[\boldsymbol{q}_1^\circ = \frac{\boldsymbol{q}_1}{\|\boldsymbol{q}_1\|} = \left( \frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}, 0 \right)^\mathrm{T} \]
(2)处理 \(\boldsymbol{v}_2\)(施密特正交化 + 单位化)
-
正交化:减去 \(\boldsymbol{v}_2\) 在 \(\boldsymbol{q}_1\) 上的投影,投影系数为:
\[b_{1,2} = \frac{\langle \boldsymbol{v}_2, \boldsymbol{q}_1 \rangle}{\langle \boldsymbol{q}_1, \boldsymbol{q}_1 \rangle} = \frac{1 \times 1 + 0 \times 1 + 1 \times 0}{1^2 + 1^2 + 0^2} = \frac{1}{2} \]正交化后的向量:
\[\boldsymbol{q}_2 = \boldsymbol{v}_2 - b_{1,2}\boldsymbol{q}_1 = (1, 0, 1)^\mathrm{T} - \frac{1}{2}(1, 1, 0)^\mathrm{T} = \left( \frac{1}{2}, -\frac{1}{2}, 1 \right)^\mathrm{T} \] -
单位化:计算2-范数并归一化,范数为:
\[\|\boldsymbol{q}_2\| = \sqrt{\left(\frac{1}{2}\right)^2 + \left(-\frac{1}{2}\right)^2 + 1^2} = \sqrt{\frac{3}{2}} = \frac{\sqrt{6}}{2} \]单位化后:
\[\boldsymbol{q}_2^\circ = \frac{\boldsymbol{q}_2}{\|\boldsymbol{q}_2\|} = \left( \frac{1}{\sqrt{6}}, -\frac{1}{\sqrt{6}}, \frac{2}{\sqrt{6}} \right)^\mathrm{T} \]
最终,正交且单位化的向量组 为:
(满足 \(\langle \boldsymbol{q}_1^\circ, \boldsymbol{q}_2^\circ \rangle = 0\) 且 \(\|\boldsymbol{q}_1^\circ\| = \|\boldsymbol{q}_2^\circ\| = 1\))
浙公网安备 33010602011771号