夫君子之行，静以修身，俭以养德；非澹泊无以明志，非宁静无以致远。夫学须静也，才须学也；非学无以广才，非志无以成学。怠慢则不能励精，险躁则不能冶性。年与时驰，意与岁去，遂成枯落，多不接世。悲守穷庐，将复何及！

6.1迭代法基本概念

迭代法基本概念深度讲解与推导证明

作为数值线性代数的核心内容，迭代法是求解大型稀疏线性方程组的核心方法，区别于高斯消元等直接法，它通过构造收敛的向量序列逼近精确解，在工程计算（如偏微分方程数值解、大规模电路仿真等）中具有不可替代的作用。以下将从核心思想、定义、数学推导、收敛性定理四个维度展开详细讲解，并最终进行结构化总结。

一、迭代法的核心思想与基本形式

1. 问题背景与适用场景

我们的目标是求解线性方程组：

\[Ax = b \tag{6.1} \]

其中$A \in \mathbb{R}^{n \times n}$为非奇异矩阵（方程组有唯一解$x^*$）。

直接法（如选主元消去法）：适合低阶稠密矩阵，运算量固定，可得到理论精确解，但无法利用矩阵的稀疏性，对$n \geq 10^4$的大型稀疏矩阵，内存和运算量会急剧膨胀。
迭代法：专门针对大型稀疏矩阵，仅需存储非零元素，内存占用极低；通过递推构造向量序列$\{x^{(k)}\}$逼近精确解$x^*$，运算可控，是工程中大规模方程组的首选解法。

2. 迭代法的思想拆解（以例6.1为例）

以二元线性方程组为例，直观理解迭代的本质：

\[\begin{cases} 3x_1 + 2x_2 = 12 \\ x_1 + 2x_2 = 2 \end{cases} \tag{6.2} \]

步骤1：求精确解

通过消元法可得唯一解：$x^* = (5, -3/2)^T = (5, -1.5)^T$。

步骤2：变量分离（方程组等价变形）

迭代法的核心是对角元变量分离：将每个方程的对角元对应的变量留在左侧，其余项移到右侧，得到等价方程组：

\[\begin{cases} x_1 = \frac{1}{3}(-2x_2 + 12) \\ x_2 = \frac{1}{2}(-x_1 + 2) \end{cases} \]

步骤3：构造迭代递推式

基于分离后的方程，构造递推公式，用前一步的迭代值计算下一步的新值，分为两种基础格式：

格式1：雅可比迭代（Jacobi）

核心规则：所有新值全部用上一步的旧值计算，即$x^{(k+1)}$的所有分量都仅依赖$x^{(k)}$。
递推公式为：

\[\begin{cases} x_1^{(k+1)} = \frac{1}{3}(-2x_2^{(k)} + 12) \\ x_2^{(k+1)} = \frac{1}{2}(-x_1^{(k)} + 2) \end{cases}, \quad k=0,1,2,\dots \tag{6.4} \]

格式2：高斯-塞德尔迭代（Gauss-Seidel, G-S）

核心规则：一旦算出新的分量，立刻用该新值计算后续分量，即$x^{(k+1)}$的后续分量优先使用同一步已算出的新值，收敛速度更快。
递推公式为：

\[\begin{cases} x_1^{(k+1)} = \frac{1}{3}(-2x_2^{(k)} + 12) \\ x_2^{(k+1)} = \frac{1}{2}(-x_1^{(k+1)} + 2) \end{cases}, \quad k=0,1,2,\dots \tag{6.6} \]

步骤4：迭代的矩阵形式（通用格式）

所有单步定常迭代都可以写成统一的矩阵形式：

\[x^{(k+1)} = Bx^{(k)} + f \tag{6.8} \]

其中$B$称为迭代矩阵，$f$为常数向量。

以雅可比迭代为例，将式(6.4)展开为矩阵形式：

\[\begin{pmatrix} x_1^{(k+1)} \\ x_2^{(k+1)} \end{pmatrix} = \begin{pmatrix} 0 & -\frac{2}{3} \\ -\frac{1}{2} & 0 \end{pmatrix} \begin{pmatrix} x_1^{(k)} \\ x_2^{(k)} \end{pmatrix} + \begin{pmatrix} 4 \\ 1 \end{pmatrix} \]

即雅可比迭代矩阵$B_J = \begin{pmatrix} 0 & -\frac{2}{3} \\ -\frac{1}{2} & 0 \end{pmatrix}$，常数项$f_J = \begin{pmatrix} 4 \\ 1 \end{pmatrix}$。

3. 迭代法的通用定义（定义6.1）

对于原方程组$Ax=b$变形得到的等价方程组$x=Bx+f$：

单步定常迭代法：通过递推公式$x^{(k+1)} = Bx^{(k)} + f$（$B$与迭代次数$k$无关）构造向量序列$\{x^{(k)}\}$，逐步逼近解$x^*$的方法，称为单步定常迭代法。
收敛与发散：若$\lim_{k \to \infty} x^{(k)} = x^*$（极限存在），则称迭代法收敛，$x^*$即为方程组的解；若极限不存在，则称迭代法发散。

二、迭代收敛性的核心：误差递推与矩阵序列极限

1. 误差递推公式（收敛性分析的核心）

定义误差向量：第$k$步迭代值与精确解的差

\[\varepsilon^{(k)} = x^{(k)} - x^* \]

我们有两个核心等式：

迭代式：$x^{(k+1)} = Bx^{(k)} + f$
精确解满足的等式：$x^* = Bx^* + f$

将两式相减，得到误差的递推关系：

\[\varepsilon^{(k+1)} = x^{(k+1)} - x^* = B(x^{(k)} - x^*) = B\varepsilon^{(k)} \]

对该式递推展开，可得：

\[\varepsilon^{(k)} = B\varepsilon^{(k-1)} = B^2\varepsilon^{(k-2)} = \dots = B^k \varepsilon^{(0)} \]

其中$\varepsilon^{(0)} = x^{(0)} - x^*$为初始误差。

核心结论：迭代收敛等价于：对任意初始误差$\varepsilon^{(0)}$，$\lim_{k \to \infty} \varepsilon^{(k)} = 0$，即$\lim_{k \to \infty} B^k \varepsilon^{(0)} = 0$。这一问题可转化为矩阵序列$B^k$的极限问题。

2. 矩阵序列的极限定义与性质

定义6.2 矩阵序列的极限

设有矩阵序列$\{A_k\}$，其中$A_k = (a_{ij}^{(k)}) \in \mathbb{R}^{n \times n}$，以及矩阵$A = (a_{ij}) \in \mathbb{R}^{n \times n}$。若对所有$i,j=1,2,\dots,n$，都有

\[\lim_{k \to \infty} a_{ij}^{(k)} = a_{ij} \]

即矩阵的$n^2$个元素对应的数列全部收敛到$A$的对应元素，则称矩阵序列$\{A_k\}$收敛于$A$，记作$\lim_{k \to \infty} A_k = A$；否则称序列发散。

例6.2 矩阵幂序列的极限

设矩阵$A = \begin{pmatrix} \lambda & 1 \\ 0 & \lambda \end{pmatrix}$，先通过数学归纳法推导其幂次：

基例：$k=1$时，$A^1 = \begin{pmatrix} \lambda & 1 \\ 0 & \lambda \end{pmatrix}$，成立。
归纳假设：设$k=m$时，$A^m = \begin{pmatrix} \lambda^m & m\lambda^{m-1} \\ 0 & \lambda^m \end{pmatrix}$。
归纳递推：$k=m+1$时，$A^{m+1} = A^m \cdot A = \begin{pmatrix} \lambda^m \cdot \lambda + m\lambda^{m-1} \cdot 0 & \lambda^m \cdot 1 + m\lambda^{m-1} \cdot \lambda \\ 0 \cdot \lambda + \lambda^m \cdot 0 & 0 \cdot 1 + \lambda^m \cdot \lambda \end{pmatrix} = \begin{pmatrix} \lambda^{m+1} & (m+1)\lambda^m \\ 0 & \lambda^{m+1} \end{pmatrix}$，成立。

因此$A^k = \begin{pmatrix} \lambda^k & k\lambda^{k-1} \\ 0 & \lambda^k \end{pmatrix}$。当$|\lambda| < 1$时：

$\lim_{k \to \infty} \lambda^k = 0$（指数衰减）；
$\lim_{k \to \infty} k\lambda^{k-1} = 0$（洛必达法则可证，多项式增长远慢于指数衰减）。

因此$\lim_{k \to \infty} A^k = \begin{pmatrix} 0 & 0 \\ 0 & 0 \end{pmatrix}$（零矩阵）；若$|\lambda| \geq 1$，则$A^k$发散。

定理6.1 矩阵序列极限的范数刻画

\[\lim_{k \to \infty} A_k = A \iff \lim_{k \to \infty} \|A_k - A\| = 0 \]

其中$\|\cdot\|$为任意一种矩阵从属范数（算子范数，如1-范数、∞-范数、2-范数）。

证明：

先证对∞-范数成立：
- 必要性（$\Rightarrow$）：若$\lim_{k \to \infty} A_k = A$，则所有元素$|a_{ij}^{(k)} - a_{ij}| \to 0$。矩阵∞-范数是行和范数：$\|A_k - A\|_\infty = \max_{1 \leq i \leq n} \sum_{j=1}^n |a_{ij}^{(k)} - a_{ij}|$，有限个趋于0的数列的最大值也趋于0，故$\lim_{k \to \infty} \|A_k - A\|_\infty = 0$。
- 充分性（$\Leftarrow$）：若$\lim_{k \to \infty} \|A_k - A\|_\infty = 0$，则对任意$i,j$，$|a_{ij}^{(k)} - a_{ij}| \leq \sum_{j=1}^n |a_{ij}^{(k)} - a_{ij}| \leq \|A_k - A\|_\infty \to 0$，由夹逼准则，所有元素收敛，故$\lim_{k \to \infty} A_k = A$。
推广到任意从属范数：
矩阵范数具有等价性：对任意两种从属范数$\|\cdot\|_\alpha$和$\|\cdot\|_\beta$，存在常数$c_1,c_2>0$，使得$c_1\|A\|_\alpha \leq \|A\|_\beta \leq c_2\|A\|_\alpha$。因此$\lim_{k \to \infty} \|A_k - A\|_\infty = 0$等价于任意从属范数的极限为0，定理得证。

定理6.2 零矩阵收敛的充要条件

$\lim_{k \to \infty} A_k = 0$（零矩阵）的充分必要条件是：对任意$x \in \mathbb{R}^n$，$\lim_{k \to \infty} A_k x = 0$（零向量）。

证明：

必要性（$\Rightarrow$）：若$\lim_{k \to \infty} A_k = 0$，由定理6.1，$\lim_{k \to \infty} \|A_k\| = 0$。由从属范数的相容性，$\|A_k x\| \leq \|A_k\| \|x\|$，两边取极限得$\lim_{k \to \infty} \|A_k x\| = 0$，即$\lim_{k \to \infty} A_k x = 0$。
充分性（$\Leftarrow$）：若对任意$x$，$\lim_{k \to \infty} A_k x = 0$，取$x$为单位坐标向量$e_j$（第$j$个分量为1，其余为0），则$A_k e_j$是$A_k$的第$j$列。因此$\lim_{k \to \infty} A_k e_j = 0$意味着$A_k$的所有列都趋于零向量，即所有元素趋于0，故$\lim_{k \to \infty} A_k = 0$。

三、迭代法收敛性的核心定理

1. 谱半径的定义

矩阵$B$的谱半径$\rho(B)$定义为：

\[\rho(B) = \max\{ |\lambda| \mid \lambda \text{ 是 } B \text{ 的特征值} \} \]

即矩阵所有特征值的模的最大值。

2. 定理6.3 迭代收敛的等价条件（核心定理）

设$B \in \mathbb{R}^{n \times n}$，以下3个命题完全等价：

$\lim_{k \to \infty} B^k = 0$（零矩阵）；
$\rho(B) < 1$（迭代矩阵的谱半径小于1）；
至少存在一种从属矩阵范数$\|\cdot\|_s$，使得$\|B\|_s < 1$。

循环证明：

(1) $\Rightarrow$ (2)（反证法）

假设$\lim_{k \to \infty} B^k = 0$，但$\rho(B) \geq 1$，即$B$存在特征值$\lambda$满足$|\lambda| \geq 1$，对应非零特征向量$x$，满足$Bx = \lambda x$。

因此$B^k x = \lambda^k x$，两边取范数得$\|B^k x\| = |\lambda|^k \|x\|$。由于$|\lambda| \geq 1$，$\|x\|>0$，故$\|B^k x\| \geq \|x\| > 0$，与定理6.2中“$\lim_{k \to \infty} B^k = 0$则对任意$x$，$\lim_{k \to \infty} B^k x = 0$”矛盾。因此假设不成立，$\rho(B) < 1$。

(2) $\Rightarrow$ (3)（谱半径与范数的关系）

根据数值代数基本结论：对任意矩阵$B$和任意$\varepsilon>0$，存在从属范数$\|\cdot\|_s$，使得$\|B\|_s \leq \rho(B) + \varepsilon$。

已知$\rho(B) < 1$，取$\varepsilon = \frac{1 - \rho(B)}{2} > 0$，则$\rho(B) + \varepsilon = \frac{1 + \rho(B)}{2} < 1$，因此存在从属范数$\|\cdot\|_s$，使得$\|B\|_s < 1$。

(3) $\Rightarrow$ (1)（范数相容性）

已知存在从属范数$\|\cdot\|_s$，使得$\|B\|_s = q < 1$。由矩阵范数的相容性：

\[\|B^k\|_s \leq \|B\|_s^k = q^k \]

由于$0 < q < 1$，$\lim_{k \to \infty} q^k = 0$，故$\lim_{k \to \infty} \|B^k\|_s = 0$。根据定理6.1，$\lim_{k \to \infty} B^k = 0$。

定理意义：

迭代法收敛的充要条件是迭代矩阵的谱半径$\rho(B) < 1$，这是判断迭代收敛的根本准则；
命题(3)给出了迭代收敛的充分条件：若能找到任意一种从属范数满足$\|B\| < 1$，则迭代一定收敛（计算范数比计算特征值更简便，工程中常用∞-范数、1-范数快速判断）。

3. 定理6.4 谱半径的范数表示（Gelfand公式）

设$B \in \mathbb{R}^{n \times n}$，$\|\cdot\|$为任意从属范数，则：

\[\lim_{k \to \infty} \|B^k\|^{\frac{1}{k}} = \rho(B) \]

证明核心：

下界：对任意$k$，$\rho(B)^k = \rho(B^k) \leq \|B^k\|$，开方得$\rho(B) \leq \|B^k\|^{\frac{1}{k}}$，故$\liminf_{k \to \infty} \|B^k\|^{\frac{1}{k}} \geq \rho(B)$。
上界：对任意$\varepsilon>0$，构造$B_\varepsilon = [\rho(B)+\varepsilon]^{-1}B$，则$\rho(B_\varepsilon) < 1$，故$\lim_{k \to \infty} B_\varepsilon^k = 0$，即存在$N$，当$k>N$时$\|B_\varepsilon^k\| < 1$，即$\|B^k\| < [\rho(B)+\varepsilon]^k$，开方得$\|B^k\|^{\frac{1}{k}} < \rho(B)+\varepsilon$，故$\limsup_{k \to \infty} \|B^k\|^{\frac{1}{k}} \leq \rho(B)$。

综上，上下界相等，极限等于$\rho(B)$。

定理意义：谱半径刻画了矩阵幂次的渐近增长速度，$\rho(B)$越小，$B^k$衰减越快，迭代收敛速度越快。

四、知识点结构化总结表

分类	核心内容	关键公式/结论	核心意义
迭代法基础	适用场景	大型稀疏线性方程组$Ax=b$（$n \geq 10^4$）	解决直接法内存/运算量爆炸的问题
	通用迭代格式	$x^{(k+1)} = Bx^{(k)} + f$，$k=0,1,2,\dots$	所有单步定常迭代的统一表达
	雅可比迭代	新值全部用旧值计算，迭代矩阵$B_J$对角元为0	基础迭代格式，并行性好
	高斯-塞德尔迭代	新值优先用同一步已算出的分量计算	收敛速度通常快于雅可比迭代
误差分析	误差向量定义	$\varepsilon^{(k)} = x^{(k)} - x^*$	量化迭代值与精确解的差距
	误差递推公式	$\varepsilon^{(k)} = B^k \varepsilon^{(0)}$	迭代收敛性完全由迭代矩阵$B$的幂次决定
矩阵序列极限	矩阵序列收敛定义	所有元素的数列收敛，即$\lim_{k \to \infty} a_{ij}^{(k)} = a_{ij}$	矩阵收敛的本质定义
	范数刻画定理	$\lim_{k \to \infty} A_k = A \iff \lim_{k \to \infty} \|A_k - A\| = 0$	将元素级收敛转化为范数收敛，便于计算
	零矩阵收敛条件	$\lim_{k \to \infty} A_k = 0 \iff \forall x \in \mathbb{R}^n, \lim_{k \to \infty} A_k x = 0$	连接矩阵收敛与向量收敛的桥梁
收敛性核心定理	谱半径定义	$\rho(B) = \max{	\lambda
	迭代收敛充要条件	迭代收敛$\iff \rho(B) < 1$	判断迭代收敛的根本准则
	迭代收敛充分条件	存在从属范数$\|\cdot\|_s$，使得$\|B\|_s < 1$	工程中快速判断收敛的实用工具
	Gelfand公式	$\lim_{k \to \infty} \|B^k\|^{\frac{1}{k}} = \rho(B)$	刻画迭代的渐近收敛速度

迭代法的收敛性深度讲解与完整推导证明

作为数值线性代数迭代法的核心理论，本节内容解决了三个核心问题：如何构造通用的迭代格式、迭代法何时收敛、如何估计迭代误差与收敛速度。以下将从基础构造、核心定理、误差分析、收敛速度四个维度，进行逐点详细讲解与严格推导，最后进行结构化总结。

一、迭代法的通用构造：矩阵分裂法

1. 问题前提

我们求解的线性方程组为：

\[Ax = b \]

其中$A=(a_{ij}) \in \mathbb{R}^{n \times n}$为非奇异矩阵，保证方程组有唯一解$x^*$。

2. 矩阵分裂的核心思想

迭代法构造的核心是矩阵分裂：将系数矩阵$A$拆分为两个矩阵的差：

\[A = M - N \]

其中$M$称为分裂矩阵，必须满足两个核心要求：

$M$是非奇异矩阵（保证可逆）；
线性方程组$Mx=d$极易求解（如$M$为对角矩阵、下三角矩阵，求解仅需前代/对角求逆，计算量极低）。

3. 迭代格式的推导

将$A=M-N$代入原方程组$Ax=b$，做等价变形：

\[\begin{align*} (M-N)x &= b \\ Mx &= Nx + b \end{align*} \]

由于$M$非奇异，两边同时左乘$M^{-1}$，得到等价的不动点方程组：

\[x = M^{-1}N x + M^{-1}b \]

令迭代矩阵$B = M^{-1}N = I - M^{-1}A$，常数项$f = M^{-1}b$，则方程组简化为通用形式：

\[x = Bx + f \tag{6.10} \]

基于此，构造单步定常迭代法的递推格式：

\[\begin{cases} x^{(0)} \quad (\text{初始向量}) \\ x^{(k+1)} = Bx^{(k)} + f, \quad k=0,1,2,\dots \end{cases} \tag{6.11} \]

核心意义：选取不同的分裂矩阵$M$，即可得到不同的迭代法（如雅可比迭代、高斯-塞德尔迭代、超松弛迭代等），所有单步定常迭代都可统一为该格式。

二、迭代法收敛的充要条件（基本定理）

定理6.5 单步定常迭代收敛的充要条件

定理内容：对任意选取的初始向量$x^{(0)}$，迭代法(6.11)收敛的充分必要条件是：迭代矩阵$B$的谱半径$\rho(B) < 1$。

完整证明过程

1. 前置准备

首先明确两个核心等式：

迭代递推式：$x^{(k+1)} = Bx^{(k)} + f$
精确解满足的不动点方程：若迭代收敛到$x^*$，则$x^* = Bx^* + f$（极限状态下$x^{(k+1)}=x^{(k)}=x^*$）

定义误差向量：第$k$步迭代值与精确解的偏差

\[\varepsilon^{(k)} = x^{(k)} - x^* \]

将迭代式与不动点方程相减，得到误差的递推关系：

\[\begin{align*} \varepsilon^{(k+1)} &= x^{(k+1)} - x^* \\ &= (Bx^{(k)} + f) - (Bx^* + f) \\ &= B(x^{(k)} - x^*) \\ &= B\varepsilon^{(k)} \end{align*} \]

对该式递推展开，可得误差的最终表达式：

\[\varepsilon^{(k)} = B\varepsilon^{(k-1)} = B^2\varepsilon^{(k-2)} = \dots = B^k \varepsilon^{(0)} \]

其中$\varepsilon^{(0)} = x^{(0)} - x^*$为初始误差。

迭代收敛的本质是：对任意初始向量$x^{(0)}$（即任意初始误差$\varepsilon^{(0)}$），都有$\lim_{k \to \infty} \varepsilon^{(k)} = 0$，即$\lim_{k \to \infty} B^k \varepsilon^{(0)} = 0$。

2. 充分性证明（$\rho(B) < 1 \implies$ 迭代收敛）

已知$\rho(B) < 1$，根据定理6.3（矩阵幂收敛的等价条件），$\rho(B) < 1$等价于$\lim_{k \to \infty} B^k = 0$（零矩阵）。

对任意初始误差$\varepsilon^{(0)}$，由矩阵范数的相容性：

\[\|\varepsilon^{(k)}\| = \|B^k \varepsilon^{(0)}\| \leq \|B^k\| \cdot \|\varepsilon^{(0)}\| \]

当$k \to \infty$时，$\|B^k\| \to 0$，因此$\lim_{k \to \infty} \|\varepsilon^{(k)}\| = 0$，即$\lim_{k \to \infty} x^{(k)} = x^*$，迭代收敛。

3. 必要性证明（迭代收敛 $\implies \rho(B) < 1$）

已知对任意初始向量$x^{(0)}$，迭代都收敛到$x^*$，即对任意初始误差$\varepsilon^{(0)}$，都有$\lim_{k \to \infty} \varepsilon^{(k)} = \lim_{k \to \infty} B^k \varepsilon^{(0)} = 0$。

由于$\varepsilon^{(0)}$可以是任意$n$维向量（$x^{(0)}$任意选取，$x^*$固定，因此$\varepsilon^{(0)}$可取遍$\mathbb{R}^n$所有向量），根据定理6.2：

\[\text{对任意 } x \in \mathbb{R}^n, \lim_{k \to \infty} B^k x = 0 \iff \lim_{k \to \infty} B^k = 0 \]

再根据定理6.3，$\lim_{k \to \infty} B^k = 0$等价于$\rho(B) < 1$，必要性得证。

定理应用示例

例6.3 雅可比迭代的收敛性判断

例6.1的雅可比迭代矩阵为：

\[B = \begin{pmatrix} 0 & -\frac{2}{3} \\ -\frac{1}{2} & 0 \end{pmatrix} \]

步骤1：求特征方程
特征方程为$\det(\lambda I - B) = 0$，代入矩阵计算：

\[\det(\lambda I - B) = \begin{vmatrix} \lambda & \frac{2}{3} \\ \frac{1}{2} & \lambda \end{vmatrix} = \lambda^2 - \frac{2}{3} \cdot \frac{1}{2} = \lambda^2 - \frac{1}{3} = 0 \]

步骤2：求特征值与谱半径
解得特征值$\lambda_1 = -\frac{\sqrt{3}}{3}$，$\lambda_2 = \frac{\sqrt{3}}{3}$，因此谱半径：

\[\rho(B) = \max\left\{ \left| -\frac{\sqrt{3}}{3} \right|, \left| \frac{\sqrt{3}}{3} \right| \right\} = \frac{\sqrt{3}}{3} \approx 0.577 < 1 \]

结论：根据定理6.5，该迭代法对任意初始向量都收敛。

例6.4 发散迭代的判断

迭代矩阵为：

\[B = \begin{pmatrix} 0 & -2 \\ -\frac{3}{2} & 0 \end{pmatrix} \]

步骤1：求特征方程

\[\det(\lambda I - B) = \begin{vmatrix} \lambda & 2 \\ \frac{3}{2} & \lambda \end{vmatrix} = \lambda^2 - 2 \cdot \frac{3}{2} = \lambda^2 - 3 = 0 \]

步骤2：求特征值与谱半径
解得特征值$\lambda_1 = \sqrt{3}$，$\lambda_2 = -\sqrt{3}$，谱半径：

\[\rho(B) = \sqrt{3} \approx 1.732 > 1 \]

结论：根据定理6.5，该迭代法发散。

三、迭代法收敛的充分条件与误差估计

定理6.5是收敛的充要条件，但计算谱半径需要求所有特征值，对高阶矩阵计算成本高。因此我们引入更易计算的范数判据（充分条件），同时给出迭代误差的实用估计公式。

定理6.6 迭代收敛的充分条件与误差估计

定理内容：设有迭代格式$x^{(k+1)} = Bx^{(k)} + f$，若$B$的某一种从属范数满足$\|B\| = q < 1$，则：

迭代法收敛，即对任意$x^{(0)}$，$\lim_{k \to \infty} x^{(k)} = x^*$，且$x^* = Bx^* + f$；
先验误差估计1：$\|x^* - x^{(k)}\| \leq q^k \|x^* - x^{(0)}\|$；
后验误差估计：$\|x^* - x^{(k)}\| \leq \frac{q}{1-q} \|x^{(k)} - x^{(k-1)}\|$；
先验误差估计2：$\|x^* - x^{(k)}\| \leq \frac{q^k}{1-q} \|x^{(1)} - x^{(0)}\|$。

完整证明过程

1. 结论(1) 收敛性证明

根据矩阵谱半径的基本性质：矩阵的谱半径不超过其任意一种从属范数，即$\rho(B) \leq \|B\| = q < 1$。

由定理6.5，$\rho(B) < 1$时迭代收敛，且存在唯一解$x^* = Bx^* + f$，结论(1)得证。

2. 结论(2) 先验误差估计1证明

由误差递推关系：

\[x^* - x^{(k+1)} = B(x^* - x^{(k)}) \]

两边取从属范数，由范数的相容性：

\[\|x^* - x^{(k+1)}\| \leq \|B\| \cdot \|x^* - x^{(k)}\| = q \|x^* - x^{(k)}\| \]

对该不等式反复递推：

\[\begin{align*} \|x^* - x^{(k)}\| &\leq q \|x^* - x^{(k-1)}\| \\ &\leq q^2 \|x^* - x^{(k-2)}\| \\ &\leq \dots \\ &\leq q^k \|x^* - x^{(0)}\| \end{align*} \]

结论(2)得证。

3. 结论(3) 后验误差估计证明

首先推导相邻迭代步的差的递推关系：

\[\begin{align*} x^{(k+1)} - x^{(k)} &= (Bx^{(k)} + f) - (Bx^{(k-1)} + f) \\ &= B(x^{(k)} - x^{(k-1)}) \end{align*} \]

两边取范数得：

\[\|x^{(k+1)} - x^{(k)}\| \leq q \|x^{(k)} - x^{(k-1)}\| \tag{①} \]

再对误差做拆分，利用三角不等式的反向形式（$\|a + b\| \geq \left| \|a\| - \|b\| \right|$）：

\[\begin{align*} \|x^{(k+1)} - x^{(k)}\| &= \|(x^* - x^{(k)}) - (x^* - x^{(k+1)})\| \\ &\geq \left| \|x^* - x^{(k)}\| - \|x^* - x^{(k+1)}\| \right| \end{align*} \]

由误差递推关系，$\|x^* - x^{(k+1)}\| \leq q \|x^* - x^{(k)}\|$，代入上式：

\[\begin{align*} \|x^{(k+1)} - x^{(k)}\| &\geq \|x^* - x^{(k)}\| - \|x^* - x^{(k+1)}\| \\ &\geq \|x^* - x^{(k)}\| - q \|x^* - x^{(k)}\| \\ &= (1 - q) \|x^* - x^{(k)}\| \end{align*} \]

由于$q < 1$，$1-q > 0$，两边除以$1-q$得：

\[\|x^* - x^{(k)}\| \leq \frac{1}{1-q} \|x^{(k+1)} - x^{(k)}\| \tag{②} \]

将式①代入式②，替换$\|x^{(k+1)} - x^{(k)}\|$：

\[\|x^* - x^{(k)}\| \leq \frac{q}{1-q} \|x^{(k)} - x^{(k-1)}\| \]

结论(3)得证。

工程意义：该公式是迭代停止准则的核心依据——实际计算中我们无法得到精确解$x^*$，但可以计算相邻两步迭代的差$\|x^{(k)} - x^{(k-1)}\|$，当该值小于预设精度时，即可停止迭代。

4. 结论(4) 先验误差估计2证明

对式①反复递推，可得：

\[\begin{align*} \|x^{(k)} - x^{(k-1)}\| &\leq q \|x^{(k-1)} - x^{(k-2)}\| \\ &\leq q^2 \|x^{(k-2)} - x^{(k-3)}\| \\ &\leq \dots \\ &\leq q^{k-1} \|x^{(1)} - x^{(0)}\| \end{align*} \]

将该式代入结论(3)的公式：

\[\begin{align*} \|x^* - x^{(k)}\| &\leq \frac{q}{1-q} \|x^{(k)} - x^{(k-1)}\| \\ &\leq \frac{q}{1-q} \cdot q^{k-1} \|x^{(1)} - x^{(0)}\| \\ &= \frac{q^k}{1-q} \|x^{(1)} - x^{(0)}\| \end{align*} \]

结论(4)得证。

工程意义：仅需计算初始两步的迭代差，即可提前估计任意迭代步的误差，还可预先计算达到目标精度所需的迭代次数。

重要说明：范数判据是充分非必要条件

定理6.6的条件$\|B\| < 1$是收敛的充分条件，不是必要条件：即使$B$的所有常用从属范数都大于1，迭代仍可能收敛，只要满足$\rho(B) < 1$。

例6.5 范数大于1但迭代收敛的示例

迭代矩阵为：

\[B = \begin{pmatrix} 0.9 & 0 \\ 0.3 & 0.8 \end{pmatrix} \]

步骤1：计算常用范数

∞-范数（行和最大值）：$\|B\|_\infty = \max\{0.9, 0.3+0.8\} = 1.1 > 1$
1-范数（列和最大值）：$\|B\|_1 = \max\{0.9+0.3, 0+0.8\} = 1.2 > 1$
2-范数（最大奇异值）：$\|B\|_2 \approx 1.043 > 1$

步骤2：计算谱半径
$B$是下三角矩阵，特征值等于对角元，即$\lambda_1=0.9$，$\lambda_2=0.8$，因此：

\[\rho(B) = \max\{0.9, 0.8\} = 0.9 < 1 \]

结论：尽管所有常用范数都大于1，但谱半径小于1，迭代仍收敛。

四、迭代法的收敛速度

迭代收敛仅说明迭代序列会逼近精确解，工程中还需要衡量迭代收敛的快慢，即需要多少次迭代能达到目标精度。

1. 误差压缩率的核心意义

由误差递推关系$\varepsilon^{(k)} = B^k \varepsilon^{(0)}$，可得误差的相对压缩率：

\[\frac{\|\varepsilon^{(k)}\|}{\|\varepsilon^{(0)}\|} \leq \|B^k\| \]

即迭代$k$次后，误差的最大压缩倍数为$\|B^k\|$，平均每次迭代的压缩率为$\|B^k\|^{\frac{1}{k}}$。

压缩率越小，误差衰减越快，迭代收敛越快。为了将“压缩率”转化为“收敛速度”（数值越大收敛越快），我们引入对数形式的收敛速度定义。

2. 收敛速度的定义

定义6.3 平均收敛速度

迭代法的平均收敛速度定义为：

\[R_k(B) = -\ln \|B^k\|^{\frac{1}{k}} \tag{6.12} \]

局限性：平均收敛速度$R_k(B)$依赖于迭代次数$k$和选取的范数，不便于不同迭代法的收敛性对比。

定义6.4 渐近收敛速度

由定理6.4（Gelfand公式），$\lim_{k \to \infty} \|B^k\|^{\frac{1}{k}} = \rho(B)$，因此当$k \to \infty$时，平均收敛速度的极限为$-ln\rho(B)$，与迭代次数、范数无关。

我们定义渐近收敛速度为：

\[R(B) = -\ln \rho(B) \tag{6.13} \]

核心性质：

$R(B)$仅由迭代矩阵的谱半径决定，与迭代次数、范数无关，是衡量迭代收敛速度的根本指标；
$\rho(B)$越小，$R(B)$越大，迭代收敛越快；
当$\rho(B) \to 1^-$时，$R(B) \to 0$，迭代收敛极慢。

3. 迭代次数的预估公式

工程中通常要求迭代误差的相对压缩率小于$\sigma = 10^{-s}$（即达到$s$位有效数字），即：

\[\frac{\|\varepsilon^{(k)}\|}{\|\varepsilon^{(0)}\|} \leq 10^{-s} \]

由渐近收敛速度的意义，$\frac{\|\varepsilon^{(k)}\|}{\|\varepsilon^{(0)}\|} \approx \rho(B)^k$，因此：

\[\rho(B)^k \leq 10^{-s} \]

两边取自然对数：

\[k \cdot \ln\rho(B) \leq -s \cdot \ln10 \]

由于$\rho(B) < 1$，$\ln\rho(B) < 0$，两边除以$\ln\rho(B)$需变号，得到迭代次数预估公式：

\[k \geq \frac{s \cdot \ln10}{R(B)} \]

示例：迭代次数预估

例6.1的雅可比迭代，$\rho(B) = \frac{\sqrt{3}}{3}$，因此渐近收敛速度：

\[R(B) = -\ln\left( \frac{\sqrt{3}}{3} \right) = \frac{1}{2}\ln3 \approx 0.5493 \]

若要求误差压缩到$10^{-5}$（即$s=5$），代入公式：

\[k \geq \frac{5 \times \ln10}{0.5493} \approx \frac{5 \times 2.3026}{0.5493} \approx 20.96 \]

因此取$k=21$次迭代即可达到$10^{-5}$的精度，与实际迭代结果一致。

五、知识点结构化总结表

分类	核心内容	关键公式/结论	核心意义与应用
迭代法通用构造	矩阵分裂法	$A = M - N$，$B = M^{-1}N$，$f = M^{-1}b$	所有单步定常迭代的统一构造框架，不同$M$对应不同迭代法
	通用迭代格式	$x^{(k+1)} = Bx^{(k)} + f$，$k=0,1,2,\dots$	迭代法的标准递推形式，是收敛性分析的基础
收敛性核心定理	收敛的充要条件（定理6.5）	迭代收敛$\iff \rho(B) < 1$	判断迭代收敛的根本准则，充要条件，无例外
	收敛的充分条件（定理6.6）	存在从属范数$\|B\| = q < 1 \implies$ 迭代收敛	工程中快速判断收敛的实用工具，无需计算特征值
误差估计公式	先验误差估计1	$\|x^* - x^{(k)}\| \leq q^k \|x^* - x^{(0)}\|$	刻画误差随迭代次数的指数衰减规律
	后验误差估计	$\|x^* - x^{(k)}\| \leq \frac{q}{1-q} \|x^{(k)} - x^{(k-1)}\|$	迭代停止准则的核心依据，实际计算中最常用
	先验误差估计2	$\|x^* - x^{(k)}\| \leq \frac{q^k}{1-q} \|x^{(1)} - x^{(0)}\|$	提前预估任意迭代步的误差，预设计算量
收敛速度	平均收敛速度	$R_k(B) = -\ln \|B^k\|^{\frac{1}{k}}$	刻画有限次迭代的平均收敛快慢
	渐近收敛速度	$R(B) = -\ln \rho(B)$	衡量迭代法收敛速度的根本指标，与迭代次数、范数无关
	迭代次数预估	$k \geq \frac{s \cdot \ln10}{R(B)}$（精度$10^{-s}$）	提前预估达到目标精度所需的迭代次数，规划计算量

posted on 2026-03-01 11:21 Indian_Mysore 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

分类	核心内容	关键公式/结论	核心意义
迭代法基础	适用场景	大型稀疏线性方程组\(Ax=b\)（\(n \geq 10^4\)）	解决直接法内存/运算量爆炸的问题
	通用迭代格式	\(x^{(k+1)} = Bx^{(k)} + f\)，\(k=0,1,2,\dots\)	所有单步定常迭代的统一表达
	雅可比迭代	新值全部用旧值计算，迭代矩阵\(B_J\)对角元为0	基础迭代格式，并行性好
	高斯-塞德尔迭代	新值优先用同一步已算出的分量计算	收敛速度通常快于雅可比迭代
误差分析	误差向量定义	\(\varepsilon^{(k)} = x^{(k)} - x^*\)	量化迭代值与精确解的差距
	误差递推公式	\(\varepsilon^{(k)} = B^k \varepsilon^{(0)}\)	迭代收敛性完全由迭代矩阵\(B\)的幂次决定
矩阵序列极限	矩阵序列收敛定义	所有元素的数列收敛，即\(\lim_{k \to \infty} a_{ij}^{(k)} = a_{ij}\)	矩阵收敛的本质定义
	范数刻画定理	\(\lim_{k \to \infty} A_k = A \iff \lim_{k \to \infty} \|A_k - A\| = 0\)	将元素级收敛转化为范数收敛，便于计算
	零矩阵收敛条件	\(\lim_{k \to \infty} A_k = 0 \iff \forall x \in \mathbb{R}^n, \lim_{k \to \infty} A_k x = 0\)	连接矩阵收敛与向量收敛的桥梁
收敛性核心定理	谱半径定义	$\rho(B) = \max{	\lambda
	迭代收敛充要条件	迭代收敛\(\iff \rho(B) < 1\)	判断迭代收敛的根本准则
	迭代收敛充分条件	存在从属范数\(\|\cdot\|_s\)，使得\(\|B\|_s < 1\)	工程中快速判断收敛的实用工具
	Gelfand公式	\(\lim_{k \to \infty} \|B^k\|^{\frac{1}{k}} = \rho(B)\)	刻画迭代的渐近收敛速度

分类	核心内容	关键公式/结论	核心意义与应用
迭代法通用构造	矩阵分裂法	\(A = M - N\)，\(B = M^{-1}N\)，\(f = M^{-1}b\)	所有单步定常迭代的统一构造框架，不同\(M\)对应不同迭代法
	通用迭代格式	\(x^{(k+1)} = Bx^{(k)} + f\)，\(k=0,1,2,\dots\)	迭代法的标准递推形式，是收敛性分析的基础
收敛性核心定理	收敛的充要条件（定理6.5）	迭代收敛\(\iff \rho(B) < 1\)	判断迭代收敛的根本准则，充要条件，无例外
	收敛的充分条件（定理6.6）	存在从属范数\(\|B\| = q < 1 \implies\) 迭代收敛	工程中快速判断收敛的实用工具，无需计算特征值
误差估计公式	先验误差估计1	\(\|x^* - x^{(k)}\| \leq q^k \|x^* - x^{(0)}\|\)	刻画误差随迭代次数的指数衰减规律
	后验误差估计	\(\|x^* - x^{(k)}\| \leq \frac{q}{1-q} \|x^{(k)} - x^{(k-1)}\|\)	迭代停止准则的核心依据，实际计算中最常用
	先验误差估计2	\(\|x^* - x^{(k)}\| \leq \frac{q^k}{1-q} \|x^{(1)} - x^{(0)}\|\)	提前预估任意迭代步的误差，预设计算量
收敛速度	平均收敛速度	\(R_k(B) = -\ln \|B^k\|^{\frac{1}{k}}\)	刻画有限次迭代的平均收敛快慢
	渐近收敛速度	\(R(B) = -\ln \rho(B)\)	衡量迭代法收敛速度的根本指标，与迭代次数、范数无关
	迭代次数预估	\(k \geq \frac{s \cdot \ln10}{R(B)}\)（精度\(10^{-s}\)）	提前预估达到目标精度所需的迭代次数，规划计算量

昆仑山:眼中无形心中有穴之穴人合一

6.1迭代法基本概念

迭代法基本概念 深度讲解与推导证明

一、迭代法的核心思想与基本形式

1. 问题背景与适用场景

2. 迭代法的思想拆解（以例6.1为例）

步骤1：求精确解

步骤2：变量分离（方程组等价变形）

步骤3：构造迭代递推式

格式1：雅可比迭代（Jacobi）

格式2：高斯-塞德尔迭代（Gauss-Seidel, G-S）

步骤4：迭代的矩阵形式（通用格式）

3. 迭代法的通用定义（定义6.1）

二、迭代收敛性的核心：误差递推与矩阵序列极限

1. 误差递推公式（收敛性分析的核心）

2. 矩阵序列的极限定义与性质

定义6.2 矩阵序列的极限

例6.2 矩阵幂序列的极限

定理6.1 矩阵序列极限的范数刻画

定理6.2 零矩阵收敛的充要条件

三、迭代法收敛性的核心定理

1. 谱半径的定义

2. 定理6.3 迭代收敛的等价条件（核心定理）

(1) \(\Rightarrow\) (2)（反证法）

(2) \(\Rightarrow\) (3)（谱半径与范数的关系）

(3) \(\Rightarrow\) (1)（范数相容性）

3. 定理6.4 谱半径的范数表示（Gelfand公式）

四、知识点结构化总结表

迭代法的收敛性 深度讲解与完整推导证明

一、迭代法的通用构造：矩阵分裂法

1. 问题前提

2. 矩阵分裂的核心思想

3. 迭代格式的推导

二、迭代法收敛的充要条件（基本定理）

定理6.5 单步定常迭代收敛的充要条件

完整证明过程

1. 前置准备

2. 充分性证明（\(\rho(B) < 1 \implies\) 迭代收敛）

3. 必要性证明（迭代收敛 \(\implies \rho(B) < 1\)）

定理应用示例

例6.3 雅可比迭代的收敛性判断

例6.4 发散迭代的判断

三、迭代法收敛的充分条件与误差估计

定理6.6 迭代收敛的充分条件与误差估计

完整证明过程

1. 结论(1) 收敛性证明

2. 结论(2) 先验误差估计1证明

3. 结论(3) 后验误差估计证明

4. 结论(4) 先验误差估计2证明

重要说明：范数判据是充分非必要条件

例6.5 范数大于1但迭代收敛的示例

四、迭代法的收敛速度

1. 误差压缩率的核心意义

2. 收敛速度的定义

定义6.3 平均收敛速度

定义6.4 渐近收敛速度

3. 迭代次数的预估公式

示例：迭代次数预估

五、知识点结构化总结表

导航

公告

迭代法基本概念深度讲解与推导证明

迭代法的收敛性深度讲解与完整推导证明