【深度学习数学基础:线性代数】5. 矩阵分解:5.3 Cholesky分解
5. 矩阵分解
5.3 Cholesky分解
1. 定义
Cholesky分解是针对 正定矩阵 或 半正定矩阵 的分解方法,核心结论为:
任意 \(n \times n\) 型 正定矩阵 \(\boldsymbol{A}\),可分解为两种等价形式:
- 上三角分解:\(\boldsymbol{A} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R}\),其中 \(\boldsymbol{R}\) 是 \(n \times n\) 型 上三角阵;
- 下三角分解:\(\boldsymbol{A} = \boldsymbol{L}\boldsymbol{L}^\mathrm{T}\),其中 \(\boldsymbol{L}\) 是 \(n \times n\) 型 下三角阵。
若要求 \(\boldsymbol{L}\)(或 \(\boldsymbol{R}\))的 对角元素为正,则 Cholesky 分解是 唯一 的。
2. 正定、半正定矩阵
-
正定矩阵:
对任意非零向量 \(\boldsymbol{x} \in \mathbb{R}^n\),二次型 \(\boldsymbol{x}^\mathrm{T}\boldsymbol{A}\boldsymbol{x} > 0\),且 \(\boldsymbol{A}\) 必须是 对称矩阵(\(\boldsymbol{A} = \boldsymbol{A}^\mathrm{T}\))。
通俗说:“输入任何非零方向 \(\boldsymbol{x}\),经 \(\boldsymbol{A}\) 加权后的‘能量’(二次型结果)始终为正”,且矩阵自身对称。 -
半正定矩阵:
对任意非零向量 \(\boldsymbol{x} \in \mathbb{R}^n\),二次型 \(\boldsymbol{x}^\mathrm{T}\boldsymbol{A}\boldsymbol{x} \geq 0\)(允许部分非零 \(\boldsymbol{x}\) 使结果为 \(0\)),且 \(\boldsymbol{A}\) 对称。
3. 与协方差矩阵的关联
在实际应用中,协方差矩阵 是 Cholesky 分解的典型场景:
协方差矩阵描述随机变量间的“协同变化程度”,它天然是 对称矩阵,且通常满足 正定(或半正定)(正定意味着变量间线性无关性强,半正定允许存在线性相关)。
利用 Cholesky 分解可将协方差阵拆解为三角阵,便于后续计算(如生成符合协方差结构的随机变量)。
4. 正定阵的“对称”必要性(反例说明)
正定矩阵的定义 必须同时满足:
- 对任意 \(\boldsymbol{x} \neq \boldsymbol{0}\),\(\boldsymbol{x}^\mathrm{T}\boldsymbol{A}\boldsymbol{x} > 0\);
- \(\boldsymbol{A}\) 是对称矩阵(\(\boldsymbol{A} = \boldsymbol{A}^\mathrm{T}\))。
反例:矩阵 \(\boldsymbol{M} = \begin{pmatrix} 2 & 0 \\ 2 & 2 \end{pmatrix}\),虽对任意 \(\boldsymbol{x} = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}\) 有:
但 \(\boldsymbol{M}\) 不是对称矩阵(\(\boldsymbol{M} \neq \boldsymbol{M}^\mathrm{T}\)),因此不满足“正定矩阵”的通常定义。
Cholesky分解的存在性与唯一性证明 (证明太难,看不懂也没事,会用就行,我看个半懂)
一、存在性证明(归纳法 + 分块矩阵)
对正定矩阵 \(\boldsymbol{A}_{n \times n}\),通过分块矩阵分解和数学归纳法证明其可分解为 \(\boldsymbol{A} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R}\)(\(\boldsymbol{R}\) 为对角元正的上三角阵)。
1. 分块矩阵初始化
将正定矩阵 \(\boldsymbol{A}\) 按第一行/列分块:
注释:把大矩阵拆成“1阶对角元 + 列向量 + 子矩阵”,方便逐步分解。
2. 构造一阶分解 \(\boldsymbol{R}_1\)
因 \(\boldsymbol{A}\) 正定,故 \(a_{11} > 0\)(正定阵对角元恒正),定义:
验证分块乘法:
记子矩阵 \(\boldsymbol{S}_{n-1} = \boldsymbol{A}_{2:n,2:n} - \dfrac{1}{a_{11}}\boldsymbol{A}_{2:n,1}\boldsymbol{A}_{2:n,1}^\mathrm{T}\),则:
注释:\(\boldsymbol{S}_{n-1}\) 是正定子矩阵(因 \(\boldsymbol{A}\) 正定,可证明 \(\boldsymbol{S}_{n-1}\) 也正定),进入归纳递推。
3. 归纳递推(低阶到高阶)
假设对 \(n-1\) 阶正定矩阵,Cholesky分解存在(即 \(\boldsymbol{S}_{n-1} = \boldsymbol{\hat{R}}^\mathrm{T}\boldsymbol{\hat{R}}\),\(\boldsymbol{\hat{R}}\) 为上三角阵),则:
令 \(\boldsymbol{R} = \begin{pmatrix} 1 & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{\hat{R}} \end{pmatrix} \boldsymbol{R}_1\)(上三角阵,因 \(\boldsymbol{R}_1\) 和 \(\boldsymbol{\hat{R}}\) 均为上三角),则:
注释:归纳法核心:若 \(n-1\) 阶成立,则 \(n\) 阶成立。结合 \(n=1\) 时显然成立(\(\boldsymbol{A} = (\sqrt{a_{11}})(\sqrt{a_{11}})\)),故任意正定阵的Cholesky分解存在。
二、唯一性证明(利用三角阵逆的性质)
假设正定阵 \(\boldsymbol{A}\) 有两种Cholesky分解:\(\boldsymbol{A} = \boldsymbol{R}_1^\mathrm{T}\boldsymbol{R}_1 = \boldsymbol{R}_2^\mathrm{T}\boldsymbol{R}_2\)(\(\boldsymbol{R}_1, \boldsymbol{R}_2\) 为对角元正的上三角阵),证明 \(\boldsymbol{R}_1 = \boldsymbol{R}_2\)。
1. 构造逆矩阵关系
由 \(\boldsymbol{R}_1^\mathrm{T}\boldsymbol{R}_1 = \boldsymbol{R}_2^\mathrm{T}\boldsymbol{R}_2\),两边左乘 \(\boldsymbol{R}_1^{-\mathrm{T}}\)、右乘 \(\boldsymbol{R}_2^{-1}\),得:
注释:\(\boldsymbol{R}^{-\mathrm{T}}\) 是 \(\boldsymbol{R}^\mathrm{T}\) 的逆,即 \((\boldsymbol{R}^\mathrm{T})^{-1} = (\boldsymbol{R}^{-1})^\mathrm{T}\)。
2. 分析矩阵类型(上三角 vs 下三角)
- 左式 \(\boldsymbol{R}_1 \boldsymbol{R}_2^{-1}\):上三角阵的乘积仍为上三角阵(上三角逆是上三角,乘积保上三角)。
- 右式 \(\boldsymbol{R}_2^{-\mathrm{T}} \boldsymbol{R}_1^\mathrm{T}\):下三角阵的乘积仍为下三角阵(下三角逆是下三角,转置后上/下三角互换,乘积保下三角)。
因此,\(\boldsymbol{R}_1 \boldsymbol{R}_2^{-1}\) 既是上三角又是下三角,故为对角阵:
3. 对角元的唯一性(利用正定性)
设 \(\boldsymbol{R}_1 = (r_{ij}), \boldsymbol{R}_2 = (s_{ij})\),因对角元 \(r_{ii}, s_{ii} > 0\),且对角阵 \(\boldsymbol{D}\) 的元素满足:
结合 \(r_{ii}, s_{ii} > 0\),得 \(r_{ii} = s_{ii}\)。递推可知所有对角元相等,且非对角元因三角阵结构也必相等(上三角阵非对角元由低阶唯一确定)。
故 \(\boldsymbol{R}_1 = \boldsymbol{R}_2\),即对角元为正的Cholesky分解唯一。
三、反向结论(分解正定则原矩阵正定)
若矩阵 \(\boldsymbol{A} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R}\)(\(\boldsymbol{R}\) 为对角元正的上三角阵),则对任意非零向量 \(\boldsymbol{x}\):
且 \(\boldsymbol{A}\) 对称(\(\boldsymbol{A}^\mathrm{T} = (\boldsymbol{R}^\mathrm{T}\boldsymbol{R})^\mathrm{T} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R} = \boldsymbol{A}\)),故 \(\boldsymbol{A}\) 是正定阵。
关键理解总结
- 存在性:通过分块矩阵和归纳法,将高阶正定阵分解为低阶子矩阵的递推,保证分解存在。
- 唯一性:利用上/下三角阵逆的性质,结合对角元正的条件,强制分解唯一。
- 反向性:分解形式可反过来判定原矩阵正定,体现Cholesky分解与正定性的紧密关联。
浙公网安备 33010602011771号