【深度学习数学基础:线性代数】5. 矩阵分解:5.3 Cholesky分解

5. 矩阵分解

5.3 Cholesky分解

1. 定义

Cholesky分解是针对 正定矩阵半正定矩阵 的分解方法,核心结论为:
任意 \(n \times n\)正定矩阵 \(\boldsymbol{A}\),可分解为两种等价形式:

  • 上三角分解:\(\boldsymbol{A} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R}\),其中 \(\boldsymbol{R}\)\(n \times n\)上三角阵
  • 下三角分解:\(\boldsymbol{A} = \boldsymbol{L}\boldsymbol{L}^\mathrm{T}\),其中 \(\boldsymbol{L}\)\(n \times n\)下三角阵

若要求 \(\boldsymbol{L}\)(或 \(\boldsymbol{R}\))的 对角元素为正,则 Cholesky 分解是 唯一 的。

2. 正定、半正定矩阵

  • 正定矩阵
    对任意非零向量 \(\boldsymbol{x} \in \mathbb{R}^n\),二次型 \(\boldsymbol{x}^\mathrm{T}\boldsymbol{A}\boldsymbol{x} > 0\),且 \(\boldsymbol{A}\) 必须是 对称矩阵\(\boldsymbol{A} = \boldsymbol{A}^\mathrm{T}\))。
    通俗说:“输入任何非零方向 \(\boldsymbol{x}\),经 \(\boldsymbol{A}\) 加权后的‘能量’(二次型结果)始终为正”,且矩阵自身对称。

  • 半正定矩阵
    对任意非零向量 \(\boldsymbol{x} \in \mathbb{R}^n\),二次型 \(\boldsymbol{x}^\mathrm{T}\boldsymbol{A}\boldsymbol{x} \geq 0\)(允许部分非零 \(\boldsymbol{x}\) 使结果为 \(0\)),且 \(\boldsymbol{A}\) 对称。

3. 与协方差矩阵的关联

在实际应用中,协方差矩阵 是 Cholesky 分解的典型场景:
协方差矩阵描述随机变量间的“协同变化程度”,它天然是 对称矩阵,且通常满足 正定(或半正定)(正定意味着变量间线性无关性强,半正定允许存在线性相关)。
利用 Cholesky 分解可将协方差阵拆解为三角阵,便于后续计算(如生成符合协方差结构的随机变量)。

4. 正定阵的“对称”必要性(反例说明)

正定矩阵的定义 必须同时满足

  • 对任意 \(\boldsymbol{x} \neq \boldsymbol{0}\)\(\boldsymbol{x}^\mathrm{T}\boldsymbol{A}\boldsymbol{x} > 0\)
  • \(\boldsymbol{A}\) 是对称矩阵(\(\boldsymbol{A} = \boldsymbol{A}^\mathrm{T}\))。

反例:矩阵 \(\boldsymbol{M} = \begin{pmatrix} 2 & 0 \\ 2 & 2 \end{pmatrix}\),虽对任意 \(\boldsymbol{x} = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}\) 有:

\[\boldsymbol{x}^\mathrm{T}\boldsymbol{M}\boldsymbol{x} = \begin{pmatrix} x_1 & x_2 \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 2 & 2 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = (x_1 + x_2)^2 + x_1^2 + x_2^2 > 0 \]

\(\boldsymbol{M}\) 不是对称矩阵(\(\boldsymbol{M} \neq \boldsymbol{M}^\mathrm{T}\)),因此不满足“正定矩阵”的通常定义。

Cholesky分解的存在性与唯一性证明 (证明太难,看不懂也没事,会用就行,我看个半懂)

一、存在性证明(归纳法 + 分块矩阵)

对正定矩阵 \(\boldsymbol{A}_{n \times n}\),通过分块矩阵分解数学归纳法证明其可分解为 \(\boldsymbol{A} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R}\)\(\boldsymbol{R}\) 为对角元正的上三角阵)。

1. 分块矩阵初始化

将正定矩阵 \(\boldsymbol{A}\) 按第一行/列分块:

\[\boldsymbol{A} = \begin{pmatrix} a_{11} & \boldsymbol{A}_{2:n,1}^\mathrm{T} \\ \boldsymbol{A}_{2:n,1} & \boldsymbol{A}_{2:n,2:n} \end{pmatrix} \]

注释:把大矩阵拆成“1阶对角元 + 列向量 + 子矩阵”,方便逐步分解。

2. 构造一阶分解 \(\boldsymbol{R}_1\)

\(\boldsymbol{A}\) 正定,故 \(a_{11} > 0\)(正定阵对角元恒正),定义:

\[\boldsymbol{R}_1 = \begin{pmatrix} \sqrt{a_{11}} & \dfrac{1}{\sqrt{a_{11}}}\boldsymbol{A}_{2:n,1}^\mathrm{T} \\ \boldsymbol{0} & \boldsymbol{I}_{n-1} \end{pmatrix} \]

验证分块乘法:

\[\boldsymbol{R}_1^\mathrm{T}\boldsymbol{R}_1 = \begin{pmatrix} \sqrt{a_{11}} & \boldsymbol{0} \\ \dfrac{1}{\sqrt{a_{11}}}\boldsymbol{A}_{2:n,1} & \boldsymbol{I}_{n-1} \end{pmatrix} \begin{pmatrix} \sqrt{a_{11}} & \dfrac{1}{\sqrt{a_{11}}}\boldsymbol{A}_{2:n,1}^\mathrm{T} \\ \boldsymbol{0} & \boldsymbol{I}_{n-1} \end{pmatrix} = \begin{pmatrix} a_{11} & \boldsymbol{A}_{2:n,1}^\mathrm{T} \\ \boldsymbol{A}_{2:n,1} & \boldsymbol{A}_{2:n,2:n} - \dfrac{1}{a_{11}}\boldsymbol{A}_{2:n,1}\boldsymbol{A}_{2:n,1}^\mathrm{T} \end{pmatrix} \]

记子矩阵 \(\boldsymbol{S}_{n-1} = \boldsymbol{A}_{2:n,2:n} - \dfrac{1}{a_{11}}\boldsymbol{A}_{2:n,1}\boldsymbol{A}_{2:n,1}^\mathrm{T}\),则:

\[\boldsymbol{A} = \boldsymbol{R}_1^\mathrm{T} \begin{pmatrix} 1 & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{S}_{n-1} \end{pmatrix} \boldsymbol{R}_1 \]

注释:\(\boldsymbol{S}_{n-1}\)正定子矩阵(因 \(\boldsymbol{A}\) 正定,可证明 \(\boldsymbol{S}_{n-1}\) 也正定),进入归纳递推

3. 归纳递推(低阶到高阶)

假设对 \(n-1\) 阶正定矩阵,Cholesky分解存在(即 \(\boldsymbol{S}_{n-1} = \boldsymbol{\hat{R}}^\mathrm{T}\boldsymbol{\hat{R}}\)\(\boldsymbol{\hat{R}}\) 为上三角阵),则:

\[\boldsymbol{A} = \boldsymbol{R}_1^\mathrm{T} \begin{pmatrix} 1 & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{\hat{R}}^\mathrm{T}\boldsymbol{\hat{R}} \end{pmatrix} \boldsymbol{R}_1 = \boldsymbol{R}_1^\mathrm{T} \begin{pmatrix} 1 & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{\hat{R}}^\mathrm{T} \end{pmatrix} \begin{pmatrix} 1 & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{\hat{R}} \end{pmatrix} \boldsymbol{R}_1 \]

\(\boldsymbol{R} = \begin{pmatrix} 1 & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{\hat{R}} \end{pmatrix} \boldsymbol{R}_1\)(上三角阵,因 \(\boldsymbol{R}_1\)\(\boldsymbol{\hat{R}}\) 均为上三角),则:

\[\boldsymbol{A} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R} \]

注释:归纳法核心:若 \(n-1\) 阶成立,则 \(n\) 阶成立。结合 \(n=1\) 时显然成立(\(\boldsymbol{A} = (\sqrt{a_{11}})(\sqrt{a_{11}})\)),故任意正定阵的Cholesky分解存在

二、唯一性证明(利用三角阵逆的性质)

假设正定阵 \(\boldsymbol{A}\) 有两种Cholesky分解:\(\boldsymbol{A} = \boldsymbol{R}_1^\mathrm{T}\boldsymbol{R}_1 = \boldsymbol{R}_2^\mathrm{T}\boldsymbol{R}_2\)\(\boldsymbol{R}_1, \boldsymbol{R}_2\) 为对角元正的上三角阵),证明 \(\boldsymbol{R}_1 = \boldsymbol{R}_2\)

1. 构造逆矩阵关系

\(\boldsymbol{R}_1^\mathrm{T}\boldsymbol{R}_1 = \boldsymbol{R}_2^\mathrm{T}\boldsymbol{R}_2\),两边左乘 \(\boldsymbol{R}_1^{-\mathrm{T}}\)、右乘 \(\boldsymbol{R}_2^{-1}\),得:

\[\boldsymbol{R}_1 \boldsymbol{R}_2^{-1} = \boldsymbol{R}_2^{-\mathrm{T}} \boldsymbol{R}_1^\mathrm{T} \]

注释:\(\boldsymbol{R}^{-\mathrm{T}}\)\(\boldsymbol{R}^\mathrm{T}\) 的逆,即 \((\boldsymbol{R}^\mathrm{T})^{-1} = (\boldsymbol{R}^{-1})^\mathrm{T}\)

2. 分析矩阵类型(上三角 vs 下三角)
  • 左式 \(\boldsymbol{R}_1 \boldsymbol{R}_2^{-1}\)上三角阵的乘积仍为上三角阵(上三角逆是上三角,乘积保上三角)。
  • 右式 \(\boldsymbol{R}_2^{-\mathrm{T}} \boldsymbol{R}_1^\mathrm{T}\)下三角阵的乘积仍为下三角阵(下三角逆是下三角,转置后上/下三角互换,乘积保下三角)。

因此,\(\boldsymbol{R}_1 \boldsymbol{R}_2^{-1}\) 既是上三角又是下三角,故为对角阵

\[\boldsymbol{R}_1 \boldsymbol{R}_2^{-1} = \boldsymbol{D} \quad (\boldsymbol{D} \text{ 为对角阵}) \]

3. 对角元的唯一性(利用正定性)

\(\boldsymbol{R}_1 = (r_{ij}), \boldsymbol{R}_2 = (s_{ij})\),因对角元 \(r_{ii}, s_{ii} > 0\),且对角阵 \(\boldsymbol{D}\) 的元素满足:

\[d_{ii} = \frac{r_{ii}}{s_{ii}} \implies r_{ii}^2 = s_{ii}^2 \]

结合 \(r_{ii}, s_{ii} > 0\),得 \(r_{ii} = s_{ii}\)。递推可知所有对角元相等,且非对角元因三角阵结构也必相等(上三角阵非对角元由低阶唯一确定)。

\(\boldsymbol{R}_1 = \boldsymbol{R}_2\),即对角元为正的Cholesky分解唯一

三、反向结论(分解正定则原矩阵正定)

若矩阵 \(\boldsymbol{A} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R}\)\(\boldsymbol{R}\) 为对角元正的上三角阵),则对任意非零向量 \(\boldsymbol{x}\)

\[\boldsymbol{x}^\mathrm{T}\boldsymbol{A}\boldsymbol{x} = \boldsymbol{x}^\mathrm{T}\boldsymbol{R}^\mathrm{T}\boldsymbol{R}\boldsymbol{x} = \|\boldsymbol{R}\boldsymbol{x}\|^2 > 0 \]

\(\boldsymbol{A}\) 对称(\(\boldsymbol{A}^\mathrm{T} = (\boldsymbol{R}^\mathrm{T}\boldsymbol{R})^\mathrm{T} = \boldsymbol{R}^\mathrm{T}\boldsymbol{R} = \boldsymbol{A}\)),故 \(\boldsymbol{A}\)正定阵

关键理解总结

  • 存在性:通过分块矩阵和归纳法,将高阶正定阵分解为低阶子矩阵的递推,保证分解存在。
  • 唯一性:利用上/下三角阵逆的性质,结合对角元正的条件,强制分解唯一。
  • 反向性:分解形式可反过来判定原矩阵正定,体现Cholesky分解与正定性的紧密关联。
posted @ 2025-07-10 12:59  秦瑞迁  阅读(430)  评论(0)    收藏  举报