【深度学习数学基础:线性代数】5. 矩阵分解:5.4 特征分解
5. 矩阵分解
5.4 特征分解
特征分解的定义
设矩阵 \(\boldsymbol{A}\) 为 \(n \times n\) 型方阵,若它能写成:
\[\boldsymbol{A} = \boldsymbol{V} \boldsymbol{\Lambda} \boldsymbol{V}^{-1}
\]
其中:
- \(\boldsymbol{\Lambda} = \text{diag}(\lambda_1, \dots, \lambda_n)\) 是对角阵(
diag表示对角元素为 \(\lambda_1, \dots, \lambda_n\) 的对角矩阵 ,例如 \(\text{diag}(2,5)\) 对应 \(\begin{pmatrix} 2 & 0 \\ 0 & 5 \end{pmatrix}\)); - \(\lambda_i\) 为 \(\boldsymbol{A}\) 的特征值;
- \(\boldsymbol{V}\) 是非奇异方阵(可逆),其列向量是 \(\boldsymbol{A}\) 的特征向量(即 \(\boldsymbol{V} = (\boldsymbol{v}_1, \dots, \boldsymbol{v}_n)\) ,\(\boldsymbol{v}_i\) 是 \(\boldsymbol{A}\) 对应 \(\lambda_i\) 的特征向量 );
则称 \(\boldsymbol{A}\) 可被特征分解(或谱分解)。
特征分解的正确性验证
若 \(\boldsymbol{A}\) 有 \(n\) 个特征向量 \(\boldsymbol{V} = (\boldsymbol{v}_1, \dots, \boldsymbol{v}_n)\) 及 \(n\) 个特征值 \(\boldsymbol{\Lambda} = \text{diag}(\lambda_1, \dots, \lambda_n)\),根据特征向量定义(\(\boldsymbol{A}\boldsymbol{v}_i = \lambda_i \boldsymbol{v}_i\)),将 \(n\) 个等式整合为矩阵乘法:
\[\boldsymbol{A}(\boldsymbol{v}_1, \dots, \boldsymbol{v}_n) = (\boldsymbol{v}_1, \dots, \boldsymbol{v}_n) \begin{pmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{pmatrix}
\]
即:
\[\boldsymbol{A}\boldsymbol{V} = \boldsymbol{V}\boldsymbol{\Lambda}
\]
因 \(\boldsymbol{V}\) 的列向量线性无关(特征向量性质),故 \(\boldsymbol{V}\) 可逆。两边右乘 \(\boldsymbol{V}^{-1}\) 得:
\[\boldsymbol{A} = \boldsymbol{V}\boldsymbol{\Lambda}\boldsymbol{V}^{-1}
\]
特征分解的存在性条件
并非所有方阵都能特征分解,需满足以下条件之一:
- \(\boldsymbol{A}\) 的 \(n\) 个特征值互不相同(此时特征向量必线性无关,\(\boldsymbol{V}\) 可逆 );
- 对任意特征值 \(\lambda_i\),其代数重数等于几何重数(
- 代数重数:特征值 \(\lambda_i\) 作为特征方程 \(\det(\boldsymbol{A} - \lambda \boldsymbol{I}) = 0\) 根的重数(即方程中 \((\lambda - \lambda_i)\) 的幂次 );
- 几何重数:\(\lambda_i\) 对应特征向量张成空间的维数(即齐次方程 \((\boldsymbol{A} - \lambda_i \boldsymbol{I})\boldsymbol{x} = \boldsymbol{0}\) 的解空间维数 )。
)。
若某特征值 \(\lambda_i\) 的代数重数为 \(m_i\),但对应线性无关特征向量少于 \(m_i\) 个(几何重数 \(< m_i\)),则 \(\boldsymbol{A}\) 无法特征分解。
Jordan分解(广义特征分解)
对无法特征分解的方阵,可退而求其次进行Jordan分解(若尔当分解):
若方阵 \(\boldsymbol{A}\) 能写成:
\[\boldsymbol{A} = \boldsymbol{X} \boldsymbol{J} \boldsymbol{X}^{-1}
\]
其中:
- \(\boldsymbol{X}\) 是非奇异阵,其列向量是 \(\boldsymbol{A}\) 的广义特征向量(generalized eigenvectors,可理解为“扩展的特征向量”,适配重根情况 );
- \(\boldsymbol{J}\) 是Jordan标准型(对角块为Jordan块的分块矩阵,Jordan块形如 \(\begin{pmatrix} \lambda & 1 \\ & \ddots & 1 \\ & & \lambda \end{pmatrix}\) ,用于描述重根的局部结构 );
则称 \(\boldsymbol{A}\) 可Jordan分解。
补充概念速记
- 单纯矩阵(simple matrix):满足“所有特征值的代数重数 = 几何重数”的矩阵,可对角化(即能特征分解 );
- Jordan分解是特征分解的“推广”,通过广义特征向量适配无法对角化的方阵。
浙公网安备 33010602011771号