昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

8.1特征值性质和估计

矩阵特征值问题核心知识点详解与推导证明

各位同学,今天我们系统讲解矩阵特征值问题的核心定义、性质、定理与推导,这是数值线性代数、科学工程计算的核心基础,贯穿振动分析、系统稳定性、数据降维等诸多领域。我们从定义出发,一步步完成推导证明,最后做系统归纳。


一、特征值与特征向量的核心定义与基础推导

1. 定义的引入

\(n\)阶实方阵\(A\in\mathbb{R}^{n\times n}\)特征值问题的核心是:找到复数\(\lambda\in\mathbb{C}\)非零向量\(x\in\mathbb{C}^n\),使得

\[Ax=\lambda x \tag{8.1} \]

其中:

  • \(\lambda\)称为矩阵\(A\)的特征值;
  • 非零向量\(x\)称为矩阵\(A\)属于特征值\(\lambda\)的特征向量。

关键强调:特征向量必须满足\(x\neq0\)。若\(x=0\),对任意\(\lambda\)都满足\(Ax=\lambda x\),没有任何数学意义,这是初学者最容易忽略的核心前提。

2. 特征多项式与特征方程的推导

对式(8.1)移项变形,可得:

\[Ax - \lambda x = 0 \implies (\lambda I - A)x = 0 \]

其中\(I\)\(n\)阶单位矩阵。

上式是齐次线性方程组,根据线性代数基本定理:齐次线性方程组有非零解的充要条件是系数矩阵的行列式为0(若行列式不为0,系数矩阵可逆,方程组只有零解\(x=0\),不符合特征向量非零的要求)。因此必须满足:

\[\det(\lambda I - A)=0 \]

我们将行列式展开,定义特征多项式\(p(\lambda)\)

\[p(\lambda)=\det(\lambda I - A)=\begin{vmatrix} \lambda - a_{11} & -a_{12} & \dots & -a_{1n} \\ -a_{21} & \lambda - a_{22} & \dots & -a_{2n} \\ \vdots & \vdots & & \vdots \\ -a_{n1} & -a_{n2} & \dots & \lambda - a_{nn} \end{vmatrix}\]

特征多项式的展开推导

\(n\)阶行列式的展开是所有不同行不同列元素乘积的代数和,其中:

  • 最高次项\(\lambda^n\)仅来自主对角线元素的乘积\((\lambda - a_{11})(\lambda - a_{22})\dots(\lambda - a_{nn})\),系数为1;
  • \(\lambda^{n-1}\)项也仅来自主对角线乘积的展开,系数为\(-(a_{11}+a_{22}+\dots+a_{nn})=-\mathrm{tr}(A)\),其中\(\mathrm{tr}(A)\)称为矩阵\(A\),即主对角线元素之和;
  • 其余项最多包含\(n-2\)个主对角线元素,因此\(\lambda\)的最高次数不超过\(n-2\)

因此特征多项式的标准形式为:

\[p(\lambda)=\lambda^n + c_1\lambda^{n-1} + \dots + c_{n-1}\lambda + c_n = 0 \tag{8.2} \]

式(8.2)称为矩阵\(A\)特征方程

3. 迹、行列式与特征值的核心恒等式推导

根据代数基本定理,\(n\)次代数方程\(p(\lambda)=0\)在复数域内有且仅有\(n\)个根(重根按重数计算),记为\(\lambda_1,\lambda_2,\dots,\lambda_n\),即矩阵\(A\)的全部特征值。因此特征多项式可因式分解为:

\[p(\lambda)=(\lambda - \lambda_1)(\lambda - \lambda_2)\dots(\lambda - \lambda_n) \]

将因式分解式展开,与标准形式(8.2)做系数对应相等,即可得到两个核心恒等式:

  1. 迹与特征值的和
    因式分解展开后,\(\lambda^{n-1}\)的系数为\(-(\lambda_1+\lambda_2+\dots+\lambda_n)\),与标准形式的\(c_1=-\mathrm{tr}(A)\)对应,消去负号得:

    \[\mathrm{tr}(A)=\sum_{i=1}^n a_{ii} = \sum_{i=1}^n \lambda_i \]

    结论:矩阵的迹等于其所有特征值的和。

  2. 行列式与特征值的积
    因式分解展开后,常数项为\((-1)^n\lambda_1\lambda_2\dots\lambda_n\);而标准形式的常数项\(c_n=p(0)=\det(-A)=(-1)^n\det(A)\),对应消去\((-1)^n\)得:

    \[\det(A) = \lambda_1\lambda_2\dots\lambda_n \]

    结论:矩阵的行列式等于其所有特征值的乘积。

核心意义:这两个恒等式是特征值最基础的性质,是后续所有推导的基础,也是验证特征值计算是否正确的核心依据。


二、特征值与特征向量的基本性质及证明

性质1:\(A^T\)\(A\)有完全相同的特征值

证明
要证明两个矩阵有相同的特征值,只需证明它们的特征多项式完全相同。
根据转置的性质:\((\lambda I)^T=\lambda I^T=\lambda I\),因此\(\lambda I - A^T = (\lambda I - A)^T\)
再根据行列式的核心性质:任意方阵的转置的行列式等于自身的行列式,即\(\det(M^T)=\det(M)\)
因此:

\[\det(\lambda I - A^T)=\det\left((\lambda I - A)^T\right)=\det(\lambda I - A) \]

\(A^T\)\(A\)的特征多项式完全相同,因此特征值完全相同。

补充提醒:\(A^T\)\(A\)特征值相同,但特征向量不一定相同,切勿混淆。

性质2:若\(A\)非奇异(可逆),则\(A^{-1}\)的特征值为\(\lambda^{-1}\),特征向量与\(A\)相同

证明
\(A\)可逆的充要条件是\(\det(A)\neq0\),根据行列式与特征值的关系,\(A\)的所有特征值\(\lambda\neq0\),因此\(\lambda^{-1}\)有意义。
已知\(Ax=\lambda x\)\(x\neq0\)),等式两边同时左乘\(A^{-1}\)

\[A^{-1}Ax = A^{-1}\lambda x \]

左边\(A^{-1}A=I\),因此\(Ix=x\);右边\(\lambda\)为常数,可提出,因此:

\[x = \lambda A^{-1}x \]

两边同时除以非零常数\(\lambda\),得:

\[A^{-1}x = \lambda^{-1}x \]

根据定义,\(\lambda^{-1}\)\(A^{-1}\)的特征值,对应的特征向量仍为\(x\)

性质3:相似矩阵\(B=S^{-1}AS\)\(S\)可逆)与\(A\)有相同的特征多项式

证明
相似矩阵的定义:存在可逆矩阵\(S\),使得\(B=S^{-1}AS\)。我们直接计算\(B\)的特征多项式:

\[\det(\lambda I - B)=\det(\lambda I - S^{-1}AS) \]

利用单位矩阵的恒等变形:\(\lambda I = S^{-1}\lambda I S\),代入得:

\[\det(\lambda I - B)=\det\left(S^{-1}\lambda I S - S^{-1}AS\right)=\det\left(S^{-1}(\lambda I - A)S\right) \]

根据行列式乘积性质:\(\det(MN)=\det(M)\det(N)\),因此:

\[\det\left(S^{-1}(\lambda I - A)S\right)=\det(S^{-1})\cdot\det(\lambda I - A)\cdot\det(S) \]

又因为\(\det(S^{-1})=\frac{1}{\det(S)}\),因此\(\det(S^{-1})\cdot\det(S)=1\),最终得:

\[\det(\lambda I - B)=\det(\lambda I - A) \]

结论:相似矩阵有相同的特征多项式、相同的特征值,因此迹和行列式也相同(迹、行列式是相似不变量);但特征向量不一定相同,\(B\)的特征向量为\(S^{-1}x\)\(x\)\(A\)的特征向量)。

补充性质:实矩阵的复特征值共轭成对出现

结论:实矩阵的复特征值与复特征向量一定共轭成对出现,且复特征向量的实部和虚部线性无关。
证明
\(A\)为实矩阵,\(\lambda=a+ib\)\(b\neq0\))为复特征值,\(x=u+iv\)为对应的复特征向量,即\(Ax=\lambda x\)\(x\neq0\))。
对等式两边取共轭,实矩阵满足\(\bar{A}=A\),因此:

\[\bar{A}\bar{x}=\bar{\lambda}\bar{x} \implies A\bar{x}=\bar{\lambda}\bar{x} \]

\(\bar{x}\neq0\),因此\(\bar{\lambda}=a-ib\)也是\(A\)的特征值,对应特征向量为\(\bar{x}=u-iv\),即复特征值、特征向量共轭成对出现。

再证明实部\(u\)和虚部\(v\)线性无关(反证法):
\(Ax=\lambda x\)展开,实部、虚部分别对应相等,得:

\[Au = au - bv, \quad Av = bu + av \]

假设\(u,v\)线性相关,则存在不全为0的实数\(k_1,k_2\),使得\(k_1u + k_2v=0\)

  • \(v=0\),则\(x=u\)为实向量,\(\lambda=a\)为实数,与\(\lambda\)是复特征值矛盾;
  • \(u=kv\)\(k\)为实数),代入\(Au=au-bv\),得\(Av=(a+ib)v\),左边\(Av\)为实向量,右边为虚部非零的复向量,矛盾。
    因此假设不成立,\(u,v\)线性无关。

三、特征值的运算性质(定理8.1)及证明

定理8.1\(\lambda\)\(A\in\mathbb{R}^{n\times n}\)的特征值,即\(Ax=\lambda x,x\neq0\),则:

  1. \(c\lambda\)\(cA\)的特征值(\(c\)为非零常数);
  2. \(\lambda-\mu\)\(A-\mu I\)的特征值(\(\mu\)为常数);
  3. \(\lambda^k\)\(A^k\)的特征值(\(k\)为正整数)。

证明(1)

已知\(Ax=\lambda x\),等式两边同时乘以常数\(c\),得:

\[cAx = c\lambda x \implies (cA)x = (c\lambda)x \]

\(x\neq0\),因此\(c\lambda\)\(cA\)的特征值。

证明(2)

直接展开计算:

\[(A-\mu I)x = Ax - \mu Ix = \lambda x - \mu x = (\lambda - \mu)x \]

\(x\neq0\),因此\(\lambda-\mu\)\(A-\mu I\)的特征值。

证明(3)

采用数学归纳法

  • 基例:\(k=1\)时,\(A^1x=\lambda^1x\),显然成立;
  • 归纳假设:假设\(k=m\)时,\(A^m x=\lambda^m x\)成立;
  • 归纳递推:\(k=m+1\)时,

    \[A^{m+1}x = A\cdot A^m x = A(\lambda^m x) = \lambda^m Ax = \lambda^m \cdot \lambda x = \lambda^{m+1}x \]

    等式成立。

根据数学归纳法,对所有正整数\(k\)\(\lambda^k\)\(A^k\)的特征值。

推广:该结论可拓展到矩阵多项式,若\(f(A)=a_0A^m+a_1A^{m-1}+\dots+a_mI\),则\(f(A)\)的特征值为\(f(\lambda)=a_0\lambda^m+a_1\lambda^{m-1}+\dots+a_m\)


四、矩阵可对角化定理(定理8.2)及证明

矩阵可对角化定义:若存在可逆矩阵\(P\),使得\(P^{-1}AP=\mathrm{diag}(\lambda_1,\lambda_2,\dots,\lambda_n)\)(对角矩阵),则称矩阵\(A\)可对角化。

定理8.2(2):不同特征值对应的特征向量线性无关

结论:若\(A\)\(m\)个(\(m\leq n\))不同的特征值\(\lambda_1,\lambda_2,\dots,\lambda_m\),则对应的特征向量\(x_1,x_2,\dots,x_m\)线性无关。

证明:采用数学归纳法+反证法

  • 基例:\(m=1\)时,单个非零特征向量\(x_1\)必然线性无关,成立;
  • 归纳假设:假设\(m=k\)时,\(k\)个不同特征值对应的特征向量\(x_1,\dots,x_k\)线性无关;
  • 归纳递推:考虑\(m=k+1\)的情况,设存在不全为0的常数\(c_1,\dots,c_{k+1}\),使得

    \[c_1x_1 + c_2x_2 + \dots + c_{k+1}x_{k+1}=0 \tag{*} \]

    等式两边同时左乘\(A\),结合\(Ax_i=\lambda_i x_i\),得:

    \[c_1\lambda_1x_1 + c_2\lambda_2x_2 + \dots + c_{k+1}\lambda_{k+1}x_{k+1}=0 \tag{**} \]

    对式(*)两边同时乘以\(\lambda_{k+1}\),得:

    \[c_1\lambda_{k+1}x_1 + c_2\lambda_{k+1}x_2 + \dots + c_{k+1}\lambda_{k+1}x_{k+1}=0 \tag{***} \]

    用式()减去式(*),得:

    \[c_1(\lambda_1-\lambda_{k+1})x_1 + c_2(\lambda_2-\lambda_{k+1})x_2 + \dots + c_k(\lambda_k-\lambda_{k+1})x_k=0 \]

    根据归纳假设,\(x_1,\dots,x_k\)线性无关,因此系数必须全为0:

    \[c_i(\lambda_i-\lambda_{k+1})=0 \quad (i=1,\dots,k) \]

    由于\(\lambda_1,\dots,\lambda_{k+1}\)互不相同,\(\lambda_i-\lambda_{k+1}\neq0\),因此\(c_1=c_2=\dots=c_k=0\)
    代入式(*),得\(c_{k+1}x_{k+1}=0\),而\(x_{k+1}\neq0\),因此\(c_{k+1}=0\),与“常数不全为0”的假设矛盾。

因此\(x_1,\dots,x_{k+1}\)线性无关,根据数学归纳法,结论成立。

定理8.2(1):矩阵可对角化的充要条件

结论\(A\in\mathbb{R}^{n\times n}\)可对角化的充分必要条件是\(A\)具有\(n\)个线性无关的特征向量。

必要性证明(可对角化\(\implies\)\(n\)个线性无关特征向量)

\(A\)可对角化,即存在可逆矩阵\(P\),使得\(P^{-1}AP=\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_n)\)
\(P\)按列分块:\(P=[p_1\ p_2\ \dots\ p_n]\),其中\(p_i\)\(P\)的第\(i\)列向量。
\(P\)可逆,因此\(P\)的列向量\(p_1,\dots,p_n\)线性无关,且均为非零向量。

\(P^{-1}AP=\Lambda\)两边左乘\(P\),得\(AP=P\Lambda\),分别展开左右两边:

  • 左边:\(AP=A[p_1\ p_2\ \dots\ p_n]=[Ap_1\ Ap_2\ \dots\ Ap_n]\)
  • 右边:\(P\Lambda=[p_1\ p_2\ \dots\ p_n]\cdot\mathrm{diag}(\lambda_1,\dots,\lambda_n)=[\lambda_1p_1\ \lambda_2p_2\ \dots\ \lambda_np_n]\)

矩阵相等则对应列向量相等,因此\(Ap_i=\lambda_i p_i\)\(i=1,\dots,n\)),即\(p_1,\dots,p_n\)\(A\)\(n\)个线性无关的特征向量,必要性得证。

充分性证明(有\(n\)个线性无关特征向量\(\implies\)可对角化)

\(A\)\(n\)个线性无关的特征向量\(p_1,\dots,p_n\),对应特征值\(\lambda_1,\dots,\lambda_n\),即\(Ap_i=\lambda_i p_i\)

构造矩阵\(P=[p_1\ p_2\ \dots\ p_n]\),由于\(p_1,\dots,p_n\)线性无关,\(P\)列满秩,为可逆方阵。
计算\(AP\)

\[AP=A[p_1\ \dots\ p_n]=[Ap_1\ \dots\ Ap_n]=[\lambda_1p_1\ \dots\ \lambda_np_n]=P\cdot\mathrm{diag}(\lambda_1,\dots,\lambda_n) \]

两边左乘\(P^{-1}\),得\(P^{-1}AP=\mathrm{diag}(\lambda_1,\dots,\lambda_n)\),即\(A\)可对角化,充分性得证。

核心推论:若\(A\)\(n\)个不同的特征值,则\(A\)一定可对角化(充分不必要条件,例如单位矩阵特征值全为1,但本身就是对角矩阵,可对角化)。


五、实对称矩阵的瑞利商性质(定理8.3)及证明

前提:实对称矩阵\(A\in\mathbb{R}^{n\times n}\)满足\(A^T=A\),其所有特征值均为实数,且可正交对角化(存在正交矩阵\(Q\),使得\(Q^TAQ=\mathrm{diag}(\lambda_1,\dots,\lambda_n)\))。

瑞利商定义:对非零向量\(x\in\mathbb{R}^n\),定义

\[R(x)=\frac{(Ax,x)}{(x,x)}, \quad x\neq0 \]

其中\((x,y)=x^Ty\)\(\mathbb{R}^n\)中的标准内积,\((x,x)=||x||_2^2>0\)\(x\neq0\))。

定理8.3 设实对称矩阵\(A\)的特征值按大小排序为\(\lambda_1\geq\lambda_2\geq\dots\geq\lambda_n\),则:

  1. 对任意非零向量\(x\in\mathbb{R}^n\),有\(\lambda_n \leq R(x) \leq \lambda_1\)
  2. \(\lambda_1=\max_{x\neq0} R(x)\)\(\lambda_n=\min_{x\neq0} R(x)\)

证明(1)

实对称矩阵可正交对角化,即存在正交矩阵\(Q\)\(Q^TQ=QQ^T=I\)),使得\(Q^TAQ=\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_n)\)

对任意非零向量\(x\),做线性变换\(x=Qy\)\(y\neq0\),正交变换保持非零性),正交变换保持内积不变:

\[(x,x)=(Qy,Qy)=(Qy)^T(Qy)=y^TQ^TQy=y^Ty=(y,y) \]

计算\((Ax,x)\)

\[(Ax,x)=(AQy,Qy)=(Q\Lambda Q^T Qy,Qy)=(Q\Lambda y,Qy)=y^T\Lambda^T Q^T Q y=y^T\Lambda y \]

展开得:

\[y^T\Lambda y = \lambda_1y_1^2 + \lambda_2y_2^2 + \dots + \lambda_ny_n^2 \]

由于\(\lambda_1\geq\lambda_2\geq\dots\geq\lambda_n\),对所有\(i\)\(\lambda_n\leq\lambda_i\leq\lambda_1\),因此:

\[\lambda_n(y_1^2+\dots+y_n^2) \leq y^T\Lambda y \leq \lambda_1(y_1^2+\dots+y_n^2) \]

即:

\[\lambda_n (y,y) \leq (Ax,x) \leq \lambda_1 (y,y) \]

结合\((y,y)=(x,x)>0\),两边同时除以\((x,x)\),得:

\[\lambda_n \leq \frac{(Ax,x)}{(x,x)} \leq \lambda_1 \]

结论(1)得证。

证明(2)

由结论(1),\(R(x)\leq\lambda_1\)对所有非零\(x\)成立,我们只需证明\(R(x)\)可以取到\(\lambda_1\)
\(x_1\)\(\lambda_1\)对应的特征向量,即\(Ax_1=\lambda_1x_1\)\(x_1\neq0\),则:

\[R(x_1)=\frac{(Ax_1,x_1)}{(x_1,x_1)}=\frac{\lambda_1(x_1,x_1)}{(x_1,x_1)}=\lambda_1 \]

因此\(\lambda_1\)\(R(x)\)的最大值,即\(\lambda_1=\max_{x\neq0} R(x)\)

同理,取\(x_n\)\(\lambda_n\)对应的特征向量,\(Ax_n=\lambda_nx_n\),则\(R(x_n)=\lambda_n\),因此\(\lambda_n=\min_{x\neq0} R(x)\),结论(2)得证。

工程意义:瑞利商是数值计算中求矩阵最大/最小特征值的核心工具,瑞利商迭代法收敛速度快,是工程中求解大型矩阵特征值的常用方法。


六、核心知识点系统归纳总结表

分类 核心结论 适用条件 关键说明/推导核心
核心定义 特征值与特征向量:满足\(Ax=\lambda x\)\(\lambda\in\mathbb{C}\)为特征值,非零\(x\in\mathbb{C}^n\)为对应特征向量 \(A\in\mathbb{R}^{n\times n}\)\(x\neq0\) 齐次方程组\((\lambda I - A)x=0\)有非零解\(\iff\det(\lambda I - A)=0\)
核心定义 特征多项式:\(p(\lambda)=\det(\lambda I - A)\),特征方程:\(p(\lambda)=0\) \(A\in\mathbb{R}^{n\times n}\) 展开为\(n\)次多项式\(p(\lambda)=\lambda^n + c_1\lambda^{n-1}+\dots+c_n\)
核心定义 矩阵的迹:\(\mathrm{tr}(A)=\sum_{i=1}^n a_{ii}\) \(A\in\mathbb{R}^{n\times n}\) 主对角线元素之和,是矩阵相似不变量
核心定义 瑞利商:\(R(x)=\frac{(Ax,x)}{(x,x)}\)\((x,x)=x^Tx\) \(A\)为实对称矩阵,\(x\in\mathbb{R}^n,x\neq0\) \(R(x)\)为实数,取值介于\(A\)的最小、最大特征值之间
核心恒等式 \(\mathrm{tr}(A)=\sum_{i=1}^n \lambda_i\) \(A\in\mathbb{R}^{n\times n}\)\(\lambda_1\dots\lambda_n\)\(A\)的全部特征值 特征多项式\(\lambda^{n-1}\)项的系数对应相等
核心恒等式 \(\det(A)=\prod_{i=1}^n \lambda_i\) \(A\in\mathbb{R}^{n\times n}\)\(\lambda_1\dots\lambda_n\)\(A\)的全部特征值 特征多项式常数项对应相等
基本性质 \(A^T\)\(A\)有完全相同的特征值 \(A\in\mathbb{R}^{n\times n}\) 特征多项式相同:\(\det(\lambda I - A^T)=\det(\lambda I - A)\),特征向量不一定相同
基本性质 \(A\)可逆,则\(A^{-1}\)的特征值为\(\lambda^{-1}\),特征向量与\(A\)相同 \(A\)可逆(\(\lambda\neq0\)),\(Ax=\lambda x,x\neq0\) \(Ax=\lambda x\)左乘\(A^{-1}\),变形得\(A^{-1}x=\lambda^{-1}x\)
基本性质 相似矩阵\(B=S^{-1}AS\)\(A\)有相同的特征多项式、特征值 \(S\)可逆,\(A,B\)为同阶方阵 \(\det(\lambda I - B)=\det(S^{-1}(\lambda I - A)S)=\det(\lambda I - A)\)
基本性质 实矩阵的复特征值、复特征向量共轭成对出现 \(A\in\mathbb{R}^{n\times n}\)\(\lambda=a+ib(b\neq0)\)为复特征值 \(Ax=\lambda x\)取共轭,得\(A\bar{x}=\bar{\lambda}\bar{x}\);复特征向量的实部、虚部线性无关
运算性质 \(c\lambda\)\(cA\)的特征值(\(c\)为常数) \(Ax=\lambda x,x\neq0\) \(Ax=\lambda x\)\(c\),得\((cA)x=(c\lambda)x\)
运算性质 \(\lambda-\mu\)\(A-\mu I\)的特征值(\(\mu\)为常数) \(Ax=\lambda x,x\neq0\) \((A-\mu I)x=Ax-\mu x=(\lambda-\mu)x\)
运算性质 \(\lambda^k\)\(A^k\)的特征值(\(k\)为正整数) \(Ax=\lambda x,x\neq0\) 数学归纳法证明,递推得\(A^{m+1}x=\lambda^{m+1}x\)
可对角化定理 不同特征值对应的特征向量线性无关 \(A\in\mathbb{R}^{n\times n}\)\(\lambda_1\dots\lambda_m\)\(m\)个不同特征值 数学归纳法+反证法,构造线性组合消元推导
可对角化定理 \(A\)可对角化的充要条件:\(A\)\(n\)个线性无关的特征向量 \(A\in\mathbb{R}^{n\times n}\) 必要性:可逆矩阵\(P\)的列向量为线性无关特征向量;充分性:以特征向量为列构造可逆矩阵\(P\)
可对角化推论 \(A\)\(n\)个不同的特征值,则\(A\)一定可对角化 \(A\in\mathbb{R}^{n\times n}\) 不同特征值对应特征向量线性无关,满足可对角化充要条件(充分不必要)
瑞利商性质 对任意非零\(x\in\mathbb{R}^n\)\(\lambda_n\leq R(x)\leq\lambda_1\) \(A\)\(n\)阶实对称矩阵,\(\lambda_1\geq\dots\geq\lambda_n\)为特征值 实对称矩阵正交对角化,令\(x=Qy\),通过特征值上下界放缩证明
瑞利商性质 \(\lambda_1=\max_{x\neq0} R(x)\)\(\lambda_n=\min_{x\neq0} R(x)\) \(A\)\(n\)阶实对称矩阵 取对应特征向量时,\(R(x)\)可取到\(\lambda_1\)\(\lambda_n\),即为最值

格什戈林圆盘定理 知识点详解与完整推导证明

各位同学,今天我们讲解的格什戈林(Gershgorin)圆盘定理,是数值线性代数中特征值估计的核心工具,也是工程应用中最实用的特征值范围判定方法。

在之前的课程中,我们学习了特征值的精确求解方法,但在实际科学与工程问题中,我们经常遇到两类核心场景:

  1. 面对高阶大型矩阵,精确计算特征值的计算成本极高;
  2. 我们不需要特征值的精确值,仅需判断其范围——比如判断线性动力系统是否稳定(特征值实部是否小于0)、矩阵是否正定(特征值是否全正)、迭代算法是否收敛(谱半径是否小于1)。

格什戈林圆盘定理仅通过矩阵元素本身,无需复杂计算,就能快速给出特征值的范围,完美解决了这类问题。


一、格什戈林圆盘的核心定义(定义8.1)

\(A=(a_{ij})_{n\times n}\)\(n\)阶复方阵(实方阵是其最常用的特例),我们先明确两个核心概念:

1. 第\(i\)个行去心和\(r_i\)

\[r_i = \sum_{\substack{j=1 \\ j\neq i}}^n |a_{ij}| \quad (i=1,2,\dots,n) \]

关键强调(初学者高频易错点)

  • \(r_i\)是矩阵\(i\)去掉主对角线元素\(a_{ii}\),其余所有元素的绝对值之和,因此称为「去心行和」,绝对不能把\(j=i\)\(|a_{ii}|\)计入求和。
  • 绝对值\(|\cdot|\):当\(a_{ij}\)为实数时是普通绝对值,为复数时是复数的模长,保证\(r_i\)一定是非负实数。

2. 格什戈林圆盘\(D_i\)

我们在复平面上定义集合:

\[D_i = \left\{ z \mid |z - a_{ii}| \leq r_i,\ z\in\mathbb{C} \right\} \]

这个集合\(D_i\)称为矩阵\(A\)的第\(i\)个格什戈林圆盘,所有\(D_i\)的集合称为\(A\)的格什戈林圆盘族。

几何意义拆解

  • 复平面:横轴为复数的实部,纵轴为复数的虚部;
  • 圆心:圆盘的圆心是主对角线元素\(a_{ii}\),若\(A\)是实矩阵,\(a_{ii}\)为实数,所有圆盘的圆心都落在复平面的实轴上;
  • 半径:圆盘的半径就是去心行和\(r_i\),半径非负;
  • 圆盘本质:复平面上,所有到圆心\(a_{ii}\)的距离(模长)不超过半径\(r_i\)的复数的集合。

直观示例:2阶实矩阵\(A=\begin{pmatrix} 3 & 1 \\ 2 & 4 \end{pmatrix}\)

  • 第1行去心和\(r_1=|1|=1\),第1个圆盘\(D_1\):圆心\(3\),半径\(1\),对应复平面上\(|z-3|\leq1\),实轴投影为区间\([2,4]\)
  • 第2行去心和\(r_2=|2|=2\),第2个圆盘\(D_2\):圆心\(4\),半径\(2\),对应\(|z-4|\leq2\),实轴投影为区间\([2,6]\)
  • 两个圆盘的并集为\([2,6]\),根据定理,\(A\)的所有特征值都落在这个区间内(精确计算得特征值为\(2\)\(5\),完全符合结论)。

二、格什戈林圆盘定理(定理8.4)详解与完整证明

定理8.4(1):特征值的圆盘并集包含性

定理完整表述

\(A=(a_{ij})_{n\times n}\)\(n\)阶复方阵,则\(A\)的每一个特征值,都必属于\(A\)的某一个格什戈林圆盘\(D_i\)中。
换句话说:\(A\)的全部特征值,都包含在复平面上\(n\)个格什戈林圆盘的并集\(\bigcup_{i=1}^n D_i\)中。


结论(1)的逐步骤严谨证明

证明完全基于特征值与特征向量的定义,结合复数的三角不等式,每一步都明确依据,无任何跳步。

步骤1:从特征值的核心定义出发
\(\lambda\)是矩阵\(A\)的任意一个特征值,根据定义,存在非零向量\(x=(x_1,x_2,\dots,x_n)^T\in\mathbb{C}^n\),使得

\[Ax = \lambda x \]

这个非零向量\(x\)就是\(\lambda\)对应的特征向量。

步骤2:选取特征向量的最大模分量
因为\(x\neq0\),其分量不全为0,我们取\(x\)的分量中模长最大的项,记其下标为\(k\),即:

\[|x_k| = \max_{1\leq i\leq n} |x_i| = \|x\|_\infty \neq 0 \]

核心前提强调\(|x_k|\)一定不等于0!因为\(x\)是非零向量,无穷范数\(\|x\|_\infty\)是分量模长的最大值,若最大值为0,则所有分量均为0,与\(x\neq0\)矛盾。这是后续不等式放缩的关键基础。

步骤3:展开特征方程的第\(k\)行,完成核心变形
将矩阵方程\(Ax=\lambda x\)按行展开,第\(k\)行的方程为:

\[\sum_{j=1}^n a_{kj} x_j = \lambda x_k \]

我们把等式左边\(j=k\)的主对角线项单独拆分,移到等式右侧:

\[a_{kk}x_k + \sum_{\substack{j=1 \\ j\neq k}}^n a_{kj} x_j = \lambda x_k \]

移项后得到证明的核心等式:

\[(\lambda - a_{kk}) x_k = \sum_{\substack{j=1 \\ j\neq k}}^n a_{kj} x_j \]

这一步将特征值与主对角线元素的差单独放在左侧,非主对角线项全部放在右侧,为后续放缩做准备。

步骤4:两边取模长,应用复数三角不等式
对上述等式两边同时取复数的模长,根据复数模长的性质\(|ab|=|a|\cdot|b|\),以及三角不等式(和的模长不超过模长的和)\(|\sum_{j} z_j| \leq \sum_{j} |z_j|\),可得:

\[|\lambda - a_{kk}| \cdot |x_k| = \left| \sum_{\substack{j=1 \\ j\neq k}}^n a_{kj} x_j \right| \leq \sum_{\substack{j=1 \\ j\neq k}}^n |a_{kj}| \cdot |x_j| \]

步骤5:利用最大模分量完成不等式放缩
步骤2中已确定\(|x_k|\)是所有分量模长的最大值,因此对任意\(j\neq k\),都有\(|x_j| \leq |x_k|\)。将这个上界代入右侧求和式,可得:

\[\sum_{\substack{j=1 \\ j\neq k}}^n |a_{kj}| \cdot |x_j| \leq \sum_{\substack{j=1 \\ j\neq k}}^n |a_{kj}| \cdot |x_k| \]

右侧的\(|x_k|\)与求和下标\(j\)无关,可作为常数提出,因此:

\[\sum_{\substack{j=1 \\ j\neq k}}^n |a_{kj}| \cdot |x_k| = |x_k| \cdot \sum_{\substack{j=1 \\ j\neq k}}^n |a_{kj}| = |x_k| \cdot r_k \]

这里的\(r_k\)就是我们定义的第\(k\)个去心行和。

步骤6:化简得到最终结论
结合步骤4和步骤5的结果,我们得到:

\[|\lambda - a_{kk}| \cdot |x_k| \leq |x_k| \cdot r_k \]

由于\(|x_k| \neq 0\),不等式两边同时除以\(|x_k|\),不等号方向保持不变,最终得到:

\[|\lambda - a_{kk}| \leq r_k \]

根据格什戈林圆盘的定义,该不等式说明:特征值\(\lambda\)属于第\(k\)个格什戈林圆盘\(D_k\)
由于\(\lambda\)\(A\)的任意一个特征值,因此\(A\)的所有特征值都必属于某一个格什戈林圆盘,即全部包含在所有圆盘的并集中,结论(1)得证。


结论(1)的核心说明与高频误区纠正

  1. 适用范围:该结论对任意复方阵都成立,无额外限制条件,适用范围极广。
  2. 最常见的认知错误:很多初学者会误以为「每个格什戈林圆盘里都有一个特征值」,这是完全错误的。定理(1)仅说明「每个特征值都在某个圆盘里」,反向不成立。
    反例验证:矩阵\(A=\begin{pmatrix} 0 & 3 \\ 1 & 0 \end{pmatrix}\)
    • 第1个圆盘\(D_1\):圆心\(0\),半径\(|3|=3\),即\(|z|\leq3\)
    • 第2个圆盘\(D_2\):圆心\(0\),半径\(|1|=1\),即\(|z|\leq1\)
      两个圆盘的并集是\(|z|\leq3\),而\(A\)的特征值是\(\sqrt{3}\)\(-\sqrt{3}\),全部落在\(D_1\)中,\(D_2\)内没有任何特征值,完美验证了上述误区的错误性。

定理8.4(2):连通分支的特征值计数性质

定理完整表述

如果矩阵\(A\)\(m\)个格什戈林圆盘组成一个连通的并集\(S\),且\(S\)与余下的\(n-m\)个格什戈林圆盘完全分离(无任何交集),那么\(S\)中恰好包含\(A\)\(m\)个特征值(重特征值按重数计算)。

核心推论(工程最常用):如果\(A\)的某一个格什戈林圆盘\(D_i\)是孤立的(与其他所有圆盘都无交集),那么\(D_i\)中精确包含\(A\)一个特征值。


结论(2)的证明思路

该结论的核心依据是复矩阵特征值的连续性,我们拆解核心逻辑,帮助大家理解结论的本质:

步骤1:构造连续变化的矩阵族
我们构造依赖参数\(t\in[0,1]\)的矩阵族\(A(t)\)

\[A(t) = D + t(A - D) \]

其中\(D=\mathrm{diag}(a_{11},a_{22},\dots,a_{nn})\)\(A\)的主对角线构成的对角矩阵。

  • \(t=0\)时,\(A(0)=D\),是对角矩阵,特征值就是主对角线元素\(a_{11},a_{22},\dots,a_{nn}\),每个特征值对应一个圆盘\(D_i(0)\)(此时半径为0,圆盘就是点\(a_{ii}\)),每个圆盘内恰好1个特征值;
  • \(t=1\)时,\(A(1)=A\),就是我们的原矩阵;
  • \(t\)从0连续变化到1时,\(A(t)\)的元素连续变化,圆盘的圆心固定为\(a_{ii}\),半径\(t\cdot r_i\)从0连续增长到\(r_i\),圆盘连续扩大。

步骤2:特征值的连续性
根据复分析的核心结论:矩阵的特征值是矩阵元素的连续函数。当矩阵的元素连续变化时,特征值会在复平面上连续变化,不会发生「跳跃」。

步骤3:连通分支的隔离性
\(S\)\(m\)个圆盘组成的连通并集,与其他\(n-m\)个圆盘完全分离,中间存在无圆盘覆盖的「隔离带」:

  • \(t=0\)时,\(S\)对应的\(m\)个点内有\(m\)个特征值,其余\(n-m\)个点内有\(n-m\)个特征值;
  • 由于隔离带的存在,特征值连续变化时,无法从\(S\)内跳到隔离带外,也无法从外跳进\(S\)内;
  • 因此当\(t=1\)时,\(S\)内仍然恰好有\(m\)个特征值,其余\(n-m\)个圆盘内有\(n-m\)个特征值。

推论验证:矩阵\(A=\begin{pmatrix} 3 & 0.5 \\ 0.2 & 6 \end{pmatrix}\)

  • \(D_1\)\(|z-3|\leq0.5\),对应区间\([2.5,3.5]\)
  • \(D_2\)\(|z-6|\leq0.2\),对应区间\([5.8,6.2]\)
    两个圆盘完全分离,均为孤立圆盘,因此每个圆盘内恰好有1个特征值(精确计算得特征值约为2.97和6.03,完全符合结论)。

三、定理的优化:对角相似变换改进特征值估计

格什戈林圆盘定理的优势是计算简单,但当圆盘重叠时,估计范围会过大,我们可以通过对角相似变换优化圆盘,缩小半径、分离重叠圆盘,得到更精确的估计。

1. 优化的核心原理

相似矩阵有完全相同的特征值!我们对\(A\)做相似变换\(B=D^{-1}AD\)\(D\)为可逆对角矩阵),\(B\)\(A\)的特征值完全相同,但\(B\)的格什戈林圆盘与\(A\)不同,可通过调整\(D\)让圆盘更小、更分离。

2. 变换的构造与圆盘变化

取对角矩阵\(D=\mathrm{diag}(\alpha_1,\alpha_2,\dots,\alpha_n)\)\(\alpha_i>0\)),则\(D^{-1}=\mathrm{diag}(\alpha_1^{-1},\alpha_2^{-1},\dots,\alpha_n^{-1})\)
计算\(B=D^{-1}AD\)的元素:

\[B=(b_{ij})_{n\times n}, \quad b_{ij} = \frac{\alpha_j}{\alpha_i} a_{ij} \]

核心变化规律:

  • 主对角线元素\(b_{ii}=a_{ii}\),即圆盘的圆心完全不变
  • \(i\)个去心行和(新半径)为:

    \[r_i' = \sum_{\substack{j=1 \\ j\neq i}}^n |b_{ij}| = \sum_{\substack{j=1 \\ j\neq i}}^n \frac{\alpha_j}{\alpha_i} |a_{ij}| \]

    可通过调整\(\alpha_i\)的大小,缩小特定圆盘的半径。

3. 实用技巧

  • 要缩小第\(k\)个圆盘的半径:取\(\alpha_k>1\),其余\(\alpha_i=1\),此时\(r_k' = \frac{r_k}{\alpha_k}\)\(\alpha_k\)越大,半径越小;
  • 拓展:结合列格什戈林圆盘(\(A\)\(A^T\)特征值相同,因此特征值也在列去心和构造的圆盘并集中),取行、列圆盘的交集,可得到更精确的估计范围。

四、核心知识点归纳总结表

分类 核心内容 完整表述 关键依据与注意事项
基础定义 行去心和\(r_i\) $r_i = \sum_{\substack{j=1 \ j\neq i}}^n a_
基础定义 格什戈林圆盘\(D_i\) $D_i = \left{ z \mid z - a_
核心定理(1) 特征值的并集包含性 矩阵\(A\)的所有特征值,都包含在其所有格什戈林圆盘的并集\(\bigcup_{i=1}^n D_i\) 适用于所有复方阵;仅说明「特征值属于某个圆盘」,不保证每个圆盘都有特征值
核心定理(2) 连通分支的计数性质 \(m\)个连通且与其他圆盘分离的格什戈林圆盘的并集,恰好包含\(A\)\(m\)个特征值(重数计入) 核心依据是矩阵特征值的连续性;孤立圆盘(\(m=1\))恰好包含1个特征值,是工程最常用的推论
定理优化 对角相似变换 取可逆对角矩阵\(D=\mathrm{diag}(\alpha_1,\dots,\alpha_n)\),对\(B=D^{-1}AD\)应用圆盘定理,\(B\)\(A\)特征值相同 变换后圆心不变,半径变为$r_i'=\sum_{\substack{j=1 \ j\neq i}}^n \frac{\alpha_j}
拓展结论 列格什戈林圆盘 列去心和$c_i=\sum_{\substack{j=1 \ j\neq i}}^n a_
工程应用 典型使用场景 1. 线性系统稳定性判定(特征值实部是否小于0);2. 矩阵正定性判定(特征值是否全正);3. 迭代法收敛性判定(谱半径是否小于1);4. 高阶矩阵特征值的快速粗估计 无需复杂计算,仅通过矩阵元素即可快速得到特征值范围,计算成本为\(O(n^2)\),远低于特征值精确求解的\(O(n^3)\)
易错纠正 高频误区 1. 误将\(a_{ii}\)计入\(r_i\)的求和;2. 误以为每个圆盘里必有一个特征值;3. 忽略复平面概念,仅在实数域理解圆盘 定理(1)是「特征值属于圆盘」,不是「圆盘包含特征值」,只有分离的连通分支才有计数性质

例8.1 格什戈林圆盘定理应用 全流程详解

本例题是格什戈林圆盘定理的经典应用,完整展示了特征值基础范围估计→对角相似变换优化估计→精确值验证的全流程,帮助大家掌握定理的实际使用方法,以及如何提升特征值估计的精度。


一、题目与基础准备

我们需要估计3阶实方阵

\[A = \begin{pmatrix} 4 & 1 & 0 \\ 1 & 0 & -1 \\ 1 & 1 & -4 \end{pmatrix} \]

的特征值范围,核心工具是格什戈林圆盘定理,先回顾核心定义:

  1. \(i\)个行去心和:\(r_i = \sum_{\substack{j=1 \\ j\neq i}}^n |a_{ij}|\)(第\(i\)行非主对角线元素的绝对值之和);
  2. \(i\)个格什戈林圆盘:\(D_i = \{ \lambda \mid |\lambda - a_{ii}| \leq r_i \}\),圆心为第\(i\)个主对角线元素,半径为行去心和。

二、第一步:原始格什戈林圆盘计算与基础估计

1. 逐行计算圆盘

我们对矩阵\(A\)的每一行,分别计算去心行和与对应圆盘:

  • 第1行(\(i=1\):主对角线元素\(a_{11}=4\),非主对角线元素为\(1,0\)
    去心行和\(r_1=|1|+|0|=1\),对应圆盘\(D_1\)\(|\lambda - 4| \leq 1\)
    实轴投影区间:\([4-1, 4+1] = [3,5]\)

  • 第2行(\(i=2\):主对角线元素\(a_{22}=0\),非主对角线元素为\(1,-1\)
    去心行和\(r_2=|1|+|-1|=2\),对应圆盘\(D_2\)\(|\lambda| \leq 2\)
    实轴投影区间:\([-2,2]\)

  • 第3行(\(i=3\):主对角线元素\(a_{33}=-4\),非主对角线元素为\(1,1\)
    去心行和\(r_3=|1|+|1|=2\),对应圆盘\(D_3\)\(|\lambda + 4| \leq 2\)
    实轴投影区间:\([-6,-2]\)

2. 基于定理的基础估计

根据格什戈林圆盘定理,我们得到以下结论:

  1. 并集包含性\(A\)的所有特征值都落在3个圆盘的并集\(D_1\cup D_2\cup D_3\)中,即实轴上的\([-6,2] \cup [3,5]\)
  2. 孤立圆盘的计数性质
    • \(D_1=[3,5]\)\(D_2、D_3\)无任何交集,是孤立圆盘。根据定理推论,孤立圆盘内恰好包含\(A\)的1个特征值;又因为实矩阵的复特征值共轭成对出现,单个圆盘内不可能存在一对复特征值,因此这个特征值一定是实特征值,范围为\(3 \leq \lambda_1 \leq 5\)
    • \(D_2=[-2,2]\)\(D_3=[-6,-2]\)\(\lambda=-2\)处连通,组成一个包含2个圆盘的连通分支,因此恰好包含\(A\)的剩下2个特征值\(\lambda_2、\lambda_3\),范围为\([-6,2]\),无法区分两个特征值的具体区间,估计精度不足。

三、第二步:对角相似变换优化估计

1. 优化的核心原理

相似矩阵具有完全相同的特征值。我们构造可逆对角矩阵\(D\),对\(A\)做相似变换\(A_1=D^{-1}AD\)\(A_1\)\(A\)的特征值完全一致,但可以通过调整\(D\)的元素,改变圆盘的半径,让原本连通的圆盘分离,得到更精确的估计。

2. 构造变换矩阵与计算\(A_1\)

例题中选取对角矩阵的逆为:

\[D^{-1} = \begin{pmatrix} 1 & & \\ & 1 & \\ & & 0.9 \end{pmatrix} \]

对应的对角矩阵\(D = \begin{pmatrix} 1 & & \\ & 1 & \\ & & 1/0.9 \end{pmatrix}\)

根据对角矩阵的乘法规则:\(D^{-1}AD\)的元素满足\(b_{ij} = \frac{\alpha_j}{\alpha_i}a_{ij}\)\(\alpha_i\)\(D\)的对角元素),逐行计算得到:

\[A_1 = D^{-1}AD = \begin{pmatrix} 4 & 1 & 0 \\ 1 & 0 & -\frac{10}{9} \\ 0.9 & 0.9 & -4 \end{pmatrix} \]

3. 计算\(A_1\)的格什戈林圆盘与优化估计

\(A_1\)逐行计算圆盘:

  • 第1行:主对角线\(4\),去心行和\(|1|+|0|=1\),圆盘\(E_1\)\(|\lambda-4|\leq1\),区间\([3,5]\),与原圆盘一致。
  • 第2行:主对角线\(0\),去心行和\(|1|+|-\frac{10}{9}|=\frac{19}{9}\approx2.11\),圆盘\(E_2\)\(|\lambda|\leq\frac{19}{9}\),区间\([-\frac{19}{9},\frac{19}{9}]\approx[-2.11,2.11]\)
  • 第3行:主对角线\(-4\),去心行和\(|0.9|+|0.9|=1.8\),圆盘\(E_3\)\(|\lambda+4|\leq1.8\),区间\([-5.8,-2.2]\)

4. 优化后的结论

此时3个圆盘的连通性发生了关键变化:

  • \(E_1=[3,5]\)\(E_2=[-2.11,2.11]\)\(E_3=[-5.8,-2.2]\)两两之间无交集,全部为孤立圆盘
  • 根据定理推论,每个孤立圆盘内恰好包含\(A\)的1个实特征值,得到高精度估计:
    1. \(3 \leq \lambda_1 \leq 5\)
    2. \(-\frac{19}{9} \leq \lambda_2 \leq \frac{19}{9}\)(约\(-2.11 \leq \lambda_2 \leq 2.11\)
    3. \(-5.8 \leq \lambda_3 \leq -2.2\)

四、精确值验证

我们通过求解\(A\)的特征方程,验证估计的正确性:

  1. 特征方程:\(\det(\lambda I - A)=0\),展开计算得:

    \[\lambda^3 -16\lambda -7=0 \]

  2. 求解三次方程,得到3个实特征值的精确数值:
    • \(\lambda_1\approx4.2030\),落在\([3,5]\)内;
    • \(\lambda_2\approx-0.4429\),落在\([-\frac{19}{9},\frac{19}{9}]\)内;
    • \(\lambda_3\approx-3.7601\),落在\([-5.8,-2.2]\)内。

所有精确值完全符合我们的估计范围,验证了格什戈林圆盘定理的正确性,以及对角相似变换的优化效果。


五、核心内容归纳总结表

阶段 圆盘编号 圆盘表达式 实轴区间 连通性分析 估计结论
原始估计 \(D_1\) $ \lambda-4 \leq1$ \([3,5]\)
原始估计 \(D_2\) $ \lambda \leq2$ \([-2,2]\)
原始估计 \(D_3\) $ \lambda+4 \leq2$ \([-6,-2]\)
优化估计 \(E_1\) $ \lambda-4 \leq1$ \([3,5]\)
优化估计 \(E_2\) $ \lambda \leq\frac{19}{9}$ \([-\frac{19}{9},\frac{19}{9}]\)
优化估计 \(E_3\) $ \lambda+4 \leq1.8$ \([-5.8,-2.2]\)

核心方法总结

  1. 格什戈林圆盘定理可仅通过矩阵元素快速给出特征值的范围,无需复杂的特征方程求解;
  2. 孤立圆盘可精确锁定单个特征值,连通圆盘仅能确定特征值的并集范围;
  3. 对角相似变换是优化估计的核心方法,可在不改变特征值的前提下调整圆盘半径,分离重叠圆盘,大幅提升估计精度。

Bauer-Fike定理 知识点详解与完整推导证明

各位同学,今天我们讲解的Bauer-Fike定理,是矩阵特征值扰动分析的核心奠基性定理,解决的是数值计算与工程应用中的核心问题:当矩阵元素存在微小扰动(测量误差、舍入误差、计算截断误差)时,矩阵的特征值会发生多大的变化? 也就是特征值对扰动的敏感性问题。

在之前的课程中,我们学习了特征值的定义、性质与范围估计,而在实际应用中,我们拿到的矩阵永远不可能是“绝对精确”的,因此必须明确:扰动后的特征值与原特征值的偏差边界在哪里?Bauer-Fike定理就给出了这个偏差的严格上界。


一、定理背景与核心符号说明

1. 问题背景

设原矩阵为\(A\in\mathbb{R}^{n\times n}\),其特征值为\(\lambda_1,\lambda_2,\dots,\lambda_n\);由于误差存在,我们实际处理的是扰动矩阵\(A+E\),其中\(E\)为扰动矩阵(通常\(||E||\)很小),设\(\mu\)\(A+E\)的任意一个特征值。

我们的核心目标:找到\(\mu\)到原矩阵\(A\)的所有特征值的最小距离的上界,即\(\min_{\lambda\in\sigma(A)} |\lambda-\mu|\)的上界,其中\(\sigma(A)\)表示矩阵\(A\)的谱(所有特征值的集合)。

2. 核心符号说明

符号 含义
\(P^{-1}AP=D=\mathrm{diag}(\lambda_1,\lambda_2,\dots,\lambda_n)\) 矩阵\(A\)可对角化,\(P\)为对角化的相似变换矩阵(特征向量矩阵),\(D\)\(A\)的特征值对角矩阵
$
\(\mathrm{cond}(P)\) 矩阵\(P\)的条件数,$\mathrm{cond}(P)=
\(\sigma(A)\) 矩阵\(A\)的谱,即\(A\)的所有特征值的集合

二、Bauer-Fike定理完整表述

定理8.5(Bauer-Fike定理)\(A\in\mathbb{R}^{n\times n}\)是可对角化矩阵,满足\(P^{-1}AP=D=\mathrm{diag}(\lambda_1,\lambda_2,\dots,\lambda_n)\)\(\mu\)是扰动矩阵\(A+E\)的任意一个特征值,则有:

\[\min_{\lambda\in\sigma(A)} |\lambda - \mu| \leq ||P^{-1}||_p \cdot ||P||_p \cdot ||E||_p \tag{8.3} \]

定理的直观解读

扰动后的特征值\(\mu\),到原矩阵\(A\)的所有特征值的最小距离,不会超过「对角化矩阵\(P\)的条件数」与「扰动矩阵\(E\)的范数」的乘积。

  • \(\mathrm{cond}(P)\)很小(良态),则微小的扰动\(E\)只会带来特征值的微小变化;
  • \(\mathrm{cond}(P)\)很大(病态),哪怕扰动\(E\)极小,也可能导致特征值发生巨大变化。

三、定理的逐步骤严谨证明

我们分两种情况讨论,核心证明针对非平凡情况:

情况1:\(\mu\in\sigma(A)\)\(\mu\)本身就是原矩阵\(A\)的特征值)

此时\(\min_{\lambda\in\sigma(A)} |\lambda-\mu|=0\),不等式右边\(||P^{-1}||\cdot||P||\cdot||E||\geq0\),不等式显然成立,无需额外证明。

情况2:\(\mu\notin\sigma(A)\)\(\mu\)不是原矩阵的特征值,非平凡情况)

这是证明的核心,我们从特征值的定义出发,逐步变形推导,每一步都明确依据。

步骤1:从扰动矩阵的特征方程出发

\(\mu\)\(A+E\)的特征值,根据特征值定义,存在非零向量\(x\neq0\),使得:

\[(A+E)x = \mu x \]

移项得到核心方程:

\[(A + E - \mu I)x = 0 \tag{1} \]

步骤2:代入对角化分解,做相似变换变形

已知\(A\)可对角化,即\(A=PDP^{-1}\),将其代入式(1),并在等式两边同时左乘\(P^{-1}\)\(P\)可逆,左乘不改变等式成立性):

\[P^{-1}(PDP^{-1} + E - \mu I)x = 0 \]

展开并整理:

\[P^{-1}PDP^{-1}x + P^{-1}E x - P^{-1}\mu I x = 0 \]

利用\(P^{-1}P=I\),化简得:

\[D P^{-1}x + P^{-1}E x - \mu P^{-1}x = 0 \]

为了简化表达式,我们引入中间变量\(y = P^{-1}x\)。这里有一个关键前提:\(y\neq0\)。因为\(P\)是可逆矩阵,可逆矩阵乘非零向量\(x\),结果一定是非零向量,因此\(y\neq0\)

同时,我们将\(P^{-1}E x\)变形为\(P^{-1}E P P^{-1}x = P^{-1}E P y\)(利用\(I=PP^{-1}\)做恒等变形),最终方程整理为:

\[(D - \mu I)y = - (P^{-1} E P) y \tag{2} \]

步骤3:利用可逆性变形,引入范数

因为\(\mu\notin\sigma(A)\),所以对所有\(\lambda_i\in\sigma(A)\),都有\(\lambda_i - \mu \neq 0\)。而\(D - \mu I\)是对角矩阵,对角元为\(\lambda_i - \mu\),因此\(D - \mu I\)是可逆矩阵。

我们在式(2)两边同时左乘\((D - \mu I)^{-1}\),得到:

\[y = - (D - \mu I)^{-1} (P^{-1} E P) y \tag{3} \]

对式(3)两边同时取\(p\)-范数,根据矩阵范数的相容性\(||AB|| \leq ||A|| \cdot ||B||\)),右边的范数满足:

\[|| - (D - \mu I)^{-1} (P^{-1} E P) y || \leq ||(D - \mu I)^{-1}|| \cdot ||P^{-1} E P|| \cdot ||y|| \]

因此有:

\[||y|| \leq ||(D - \mu I)^{-1}|| \cdot ||P^{-1}|| \cdot ||E|| \cdot ||P|| \cdot ||y|| \tag{4} \]

这里再次利用了范数的相容性:\(||P^{-1}EP|| \leq ||P^{-1}|| \cdot ||E|| \cdot ||P||\)

步骤4:化简不等式,计算对角矩阵的范数

因为\(y\neq0\),所以\(||y||>0\),我们可以在式(4)两边同时除以\(||y||\),不等号方向不变,得到:

\[1 \leq ||(D - \mu I)^{-1}|| \cdot ||P^{-1}|| \cdot ||P|| \cdot ||E|| \tag{5} \]

接下来计算对角矩阵\((D - \mu I)^{-1}\)\(p\)-范数:
\((D - \mu I)^{-1}\)仍是对角矩阵,其对角元为\(\frac{1}{\lambda_i - \mu}\)\(i=1,2,\dots,n\))。
对于\(p=1,2,\infty\)这三种范数,对角矩阵的范数等于其对角元绝对值的最大值,即:

\[||(D - \mu I)^{-1}||_p = \max_{1\leq i\leq n} \left| \frac{1}{\lambda_i - \mu} \right| = \frac{1}{\min_{1\leq i\leq n} |\lambda_i - \mu|} \]

我们记\(m = \min_{\lambda\in\sigma(A)} |\lambda - \mu|\),则\(||(D - \mu I)^{-1}||_p = \frac{1}{m}\)

步骤5:得到最终结论

\(||(D - \mu I)^{-1}||_p = \frac{1}{m}\)代入式(5),得到:

\[1 \leq \frac{1}{m} \cdot ||P^{-1}||_p \cdot ||P||_p \cdot ||E||_p \]

两边同时乘以\(m\),不等号方向不变,最终得到:

\[m \leq ||P^{-1}||_p \cdot ||P||_p \cdot ||E||_p \]

即:

\[\min_{\lambda\in\sigma(A)} |\lambda - \mu| \leq ||P^{-1}||_p \cdot ||P||_p \cdot ||E||_p \]

定理得证。


四、定理的核心延伸概念解读

1. 特征值问题的条件数

从定理结论可以看到,\(||P^{-1}|| \cdot ||P|| = \mathrm{cond}(P)\)是特征值扰动的放大系数:扰动\(E\)的影响会被\(\mathrm{cond}(P)\)放大,决定了特征值的敏感性。

但注意:将\(A\)对角化的相似变换矩阵\(P\)不是唯一的,不同的\(P\)会得到不同的\(\mathrm{cond}(P)\)。为了得到最紧的上界,我们定义:

\[\nu(A) = \inf\left\{ \mathrm{cond}(P) \mid P^{-1}AP = \mathrm{diag}(\lambda_1,\dots,\lambda_n) \right\} \]

\(\nu(A)\)称为矩阵\(A\)的特征值问题的条件数,它是所有可能的对角化矩阵\(P\)的条件数的下确界,刻画了矩阵\(A\)本身的特征值对扰动的敏感程度。

  • \(\nu(A)\)很小,说明\(A\)的特征值问题是良态的,微小扰动只会带来特征值的微小变化;
  • \(\nu(A)\)很大,说明\(A\)的特征值问题是病态的,哪怕微小扰动也可能导致特征值大幅偏移。

2. 两个条件数的核心区别(高频易错点)

很多初学者会混淆「特征值问题的条件数\(\nu(A)\)」和「线性方程组的条件数\(\mathrm{cond}(A)\)」,这是两个完全独立的概念,二者没有必然联系,我们用教材中的经典例子说明:

例子:二阶对角矩阵\(A = \mathrm{diag}(1, 10^{-10})\)

  1. 线性方程组的条件数:\(\mathrm{cond}(A) = ||A||_\infty \cdot ||A^{-1}||_\infty = 1 \times 10^{10} = 10^{10}\),是严重病态的,求解线性方程组\(Ax=b\)时,\(b\)的微小误差会导致解的巨大偏差;
  2. 特征值问题的条件数:\(A\)本身就是对角矩阵,取\(P=I\)(单位矩阵),\(\mathrm{cond}(I)=1\),因此\(\nu(A) \leq 1\),是完全良态的,哪怕\(A\)有微小扰动,特征值的变化也极小。

这个例子清晰说明:同一个矩阵,线性方程组的条件数和特征值问题的条件数可以相差极大,二者是完全不同的概念,切勿混淆。


五、定理的意义与局限性

1. 定理的核心意义

  1. 通用上界:给出了所有可对角化矩阵特征值扰动的通用上界,为数值计算中特征值的误差分析提供了严格的理论依据;
  2. 敏感性根源:明确了特征值对扰动的敏感性,根源不在于矩阵本身的条件数,而在于特征向量矩阵\(P\)的病态程度
  3. 工程指导:在工程计算(如结构动力学、控制系统稳定性分析)中,可通过该定理判断计算得到的特征值的可靠性,评估误差范围。

2. 定理的局限性

  1. 适用范围限制:仅适用于可对角化矩阵(非亏损矩阵),对于不可对角化的亏损矩阵(存在亏损特征值,Jordan标准型非对角),该定理不适用,需要更复杂的扰动分析理论;
  2. 上界的松紧性:给出的是全局上界,部分场景下上界可能偏松,尤其是当\(\mathrm{cond}(P)\)很大时,无法区分不同特征值的个体敏感性;
  3. 条件数的计算难度:特征值问题的条件数\(\nu(A)\)难以精确计算,实际应用中通常用某一个对角化矩阵\(P\)\(\mathrm{cond}(P)\)近似代替。

六、核心知识点归纳总结表

分类 核心内容 关键说明
定理核心前提 1. \(A\in\mathbb{R}^{n\times n}\)可对角化,\(P^{-1}AP=D=\mathrm{diag}(\lambda_1,\dots,\lambda_n)\)
2. \(\mu\)是扰动矩阵\(A+E\)的任意特征值;
3. $
定理核心结论 $\min_{\lambda\in\sigma(A)} |\lambda - \mu| \leq |P^{-1}|
证明核心步骤 1. 从扰动特征方程出发,代入对角化分解;
2. 引入中间变量\(y=P^{-1}x\),整理方程;
3. 两边取范数,利用范数相容性放缩;
4. 计算对角矩阵的范数,化简得到结论
关键前提:\(y\neq0\)\(D-\mu I\)可逆、范数的相容性
特征值问题条件数 \(\nu(A) = \inf\left\{ \mathrm{cond}(P) \mid P^{-1}AP=D \right\}\) 刻画矩阵本身的特征值敏感性,是所有对角化矩阵\(P\)的条件数的下确界
两个条件数的区别 特征值问题的条件数\(\nu(A)\) vs 线性方程组的条件数\(\mathrm{cond}(A)\) 二者是完全独立的概念,无必然联系;前者由特征向量矩阵的病态程度决定,后者由矩阵本身的病态程度决定
定理意义 1. 给出特征值扰动的严格上界;
2. 明确特征值敏感性的根源;
3. 为数值计算的误差分析提供理论基础
是特征值扰动分析的奠基性定理,广泛应用于数值计算与工程领域
定理局限性 1. 仅适用于可对角化矩阵;
2. 上界可能偏松;
3. 特征值问题条件数难以精确计算
亏损矩阵的扰动分析需要更复杂的Jordan标准型相关理论

posted on 2026-03-05 19:58  Indian_Mysore  阅读(1)  评论(0)    收藏  举报

导航