神经网络之特征分解 - 详解
1. 基本概念
对于一个方阵(A∈Rn×n)(A \in \mathbb{R}^{n \times n})(A∈Rn×n),特征分解指的是将它分解为如下形式:
A=VΛV−1 A = V \Lambda V^{-1}A=VΛV−1
其中:
- (V)(V)(V) 是由 (A)(A)(A) 的特征向量组成的矩阵,列向量是线性无关的特征向量。
- (Λ)(\Lambda)(Λ)是一个对角矩阵,对角线上的元素是对应的特征值。
- (V−1)(V^{-1})(V−1) 是 (V)(V)(V) 的逆矩阵。
如果 (A)(A)(A) 是实对称矩阵通过,则它能够被正交对角化:
A=QΛQT A = Q \Lambda Q^TA=QΛQT
其中 (Q)(Q)(Q)是正交矩阵(列向量是单位正交的特征向量)。
2. 特征分解的原理
假设 (v)(v)(v) 是矩阵 (A)(A)(A)的一个特征向量,对应特征值(λ)(\lambda)(λ),则满足:
Av=λv A v = \lambda vAv=λv
这意味着,线性变换 (A) 对向量 (v) 的作用仅仅是拉伸或缩放,不会改变方向(方向可能翻转,假如(λ<0)(\lambda < 0)(λ<0)当矩阵可被特征分解时,所有的线性组合都可以利用特征向量方向上的伸缩表示,从而把矩阵的作用“分解”成若干独立方向上的缩放。
3. 特征分解的条件
矩阵必须是方阵。
矩阵必须是可对角化的,即有 (n)(n)(n)个线性无关的特征向量。
- 并非所有矩阵都可对角化,比如存在缺少足够特征向量的非对称矩阵。
对于实对称矩阵,总是可以正交对角化:
- 实数。就是特征值一定
- 特征向量能够正交归一化。
4. 计算特征值与特征向量
- 特征值 (λ)(\lambda)(λ):求解特征方程
det(A−λI)=0 \det(A - \lambda I) = 0det(A−λI)=0
- 特征向量 (v):代入方程
(A−λI)v=0 (A - \lambda I) v = 0(A−λI)v=0
得到对应的非零向量 (v)。
5. 特征分解的意义
理解线性变换:
- 将繁琐变换分解为独立方向上的伸缩。
矩阵函数的计算:
- 对角矩阵更容易计算矩阵幂、指数或对数:
Ak=VΛkV−1,eA=VeΛV−1 A^k = V \Lambda^k V^{-1},\quad e^A = V e^{\Lambda} V^{-1}Ak=VΛkV−1,eA=VeΛV−1
- 对角矩阵更容易计算矩阵幂、指数或对数:
降维与主成分分析(PCA):
- 协方差矩阵的特征向量对应重要方向,特征值表示方差大小。
物理与工程问题:
- 振动分析、量子力学、图像处理等。
6. 举例
设矩阵:
A=[21 12] A = \begin{bmatrix} 2 & 1 \ 1 & 2 \end{bmatrix}A=[2112]
- 求特征值:
det(A−λI)=∣2−λ1 12−λ∣=(2−λ)2−1=0 \det(A - \lambda I) = \begin{vmatrix} 2-\lambda & 1 \ 1 & 2-\lambda \end{vmatrix} = (2-\lambda)^2 - 1 = 0det(A−λI)=2−λ112−λ=(2−λ)2−1=0
解得 (λ1=1),(λ2=3)(\lambda_1 = 1), (\lambda_2 = 3)(λ1=1),(λ2=3)。
- 求特征向量:
- 对 (\lambda_1 = 1):
[11 11]v=0 ⟹ v1=[1 −1] \begin{bmatrix} 1 & 1 \ 1 & 1 \end{bmatrix} v = 0 \implies v_1 = \begin{bmatrix}1 \ -1\end{bmatrix}[1111]v=0⟹v1=[1−1] - 对 (\lambda_2 = 3):
[−11 1−1]v=0 ⟹ v2=[1 1] \begin{bmatrix}-1 & 1 \ 1 & -1 \end{bmatrix} v = 0 \implies v_2 = \begin{bmatrix}1 \ 1\end{bmatrix}[−111−1]v=0⟹v2=[11]
于是:
A=VΛV−1,V=[11 −11],Λ=[10 03] A = V \Lambda V^{-1},\quad V = \begin{bmatrix}1 & 1 \ -1 & 1\end{bmatrix},\quad \Lambda = \begin{bmatrix}1 & 0 \ 0 & 3\end{bmatrix}A=VΛV−1,V=[11−11],Λ=[1003]

浙公网安备 33010602011771号