昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

5.4与向量范数相容的矩阵范数

与向量范数相容的矩阵范数 详细讲解与推导

各位同学,今天我们用多年教研积累的思路,把「与向量范数相容的矩阵范数」这个矩阵论核心知识点,从基础定义、核心定理、严谨推导到应用场景,一步步讲透,做到逻辑闭环、无跳步、可复现。


一、前置基础:向量范数回顾

我们先把根基打牢:范数是线性空间中对「元素长度/大小」的度量,必须满足范数三公理

1. 范数的公理化定义

\(V\)是数域\(\mathbb{F}\)(实数域\(\mathbb{R}\)或复数域\(\mathbb{C}\))上的线性空间,若对任意\(x\in V\),存在唯一实数\(\|x\|\)满足:

  1. 正定性\(\|x\|\geq0\),当且仅当\(x=0\)\(\|x\|=0\)
  2. 齐次性:对任意\(k\in\mathbb{F}\)\(\|kx\|=|k|\cdot\|x\|\)
  3. 三角不等式:对任意\(x,y\in V\)\(\|x+y\|\leq\|x\|+\|y\|\)
    则称\(\|x\|\)\(V\)上的一个范数。

2. \(\mathbb{R}^n\)\(\mathbb{C}^n\))上常用的向量范数

我们研究的是\(n\)维向量空间,最核心的4类向量范数如下,它们是矩阵范数的源头:

范数名称 定义式 核心说明
向量\(\infty\)-范数(最大范数) \(|x|_\infty = \max_{1\leq i\leq n}|x_i|\) 取向量分量绝对值的最大值,是\(p\to+\infty\)\(p\)-范数的极限
向量\(1\)-范数(和范数) \(|x|_1 = \sum_{i=1}^n |x_i|\) 向量所有分量绝对值之和
向量\(2\)-范数(欧氏范数) \(|x|_2 = (x,x)^{\frac{1}{2}} = \left(\sum_{i=1}^n |x_i|^2\right)^{\frac{1}{2}}\) 内积诱导的范数,即我们常用的欧氏距离;复数域下内积为\(x^H x\)(共轭转置)
向量\(p\)-范数 \(|x|_p = \left(\sum_{i=1}^n |x_i|^p\right)^{\frac{1}{p}},\ p\in[1,+\infty)\) 前三种范数均为\(p\)-范数的特例:\(p=1\)为1-范数,\(p=2\)为2-范数,\(p\to+\infty\)\(\infty\)-范数

二、从向量范数到矩阵范数:Frobenius范数

矩阵空间\(\mathbb{R}^{n\times n}\)\(\mathbb{C}^{n\times n}\))是维度为\(n^2\)的线性空间,我们可以直接把矩阵“拉平”为\(n^2\)维向量,用向量范数定义矩阵范数,最典型的就是Frobenius范数(F-范数)

1. F-范数的定义

对任意\(A=(a_{ij})_{n\times n}\in\mathbb{R}^{n\times n}\),定义:

\[\|A\|_F = \left(\sum_{i=1}^n\sum_{j=1}^n |a_{ij}|^2\right)^{\frac{1}{2}} \]

本质:把矩阵按行/列堆叠成\(n^2\)维向量后的2-范数。

2. F-范数的合法性证明(满足范数三公理)

  • 正定性\(\|A\|_F\)是平方和开根号,天然满足\(\|A\|_F\geq0\);当且仅当所有\(a_{ij}=0\)(即\(A\)为零矩阵)时,\(\|A\|_F=0\),正定性成立。
  • 齐次性:对任意\(k\in\mathbb{R}\)

    \[\|kA\|_F = \left(\sum_{i,j}|ka_{ij}|^2\right)^{\frac{1}{2}} = |k|\cdot\left(\sum_{i,j}|a_{ij}|^2\right)^{\frac{1}{2}} = |k|\cdot\|A\|_F \]

    齐次性成立。
  • 三角不等式:对任意\(A,B\in\mathbb{R}^{n\times n}\),由柯西不等式:

    \[\|A+B\|_F^2 = \sum_{i,j}|a_{ij}+b_{ij}|^2 \leq \sum_{i,j}(|a_{ij}|+|b_{ij}|)^2 = \|A\|_F^2 + 2\|A\|_F\|B\|_F + \|B\|_F^2 \]

    两边开根号得\(\|A+B\|_F \leq \|A\|_F + \|B\|_F\),三角不等式成立。

3. F-范数的相容性

F-范数天然满足两类核心相容性,这是它的核心价值:

  1. 与向量2-范数相容:对任意\(A\in\mathbb{R}^{n\times n},x\in\mathbb{R}^n\),有

    \[\|Ax\|_2 \leq \|A\|_F \|x\|_2 \]

    证明:由柯西不等式,\(\|Ax\|_2^2 = \sum_i|\sum_j a_{ij}x_j|^2 \leq \sum_i\left(\sum_j|a_{ij}|^2\sum_j|x_j|^2\right) = \|A\|_F^2 \|x\|_2^2\),开根号即得。

  2. 矩阵乘法的次乘性:对任意\(A,B\in\mathbb{R}^{n\times n}\),有

    \[\|AB\|_F \leq \|A\|_F \|B\|_F \]

    证明:设\(AB\)的元素为\(c_{ij}=\sum_k a_{ik}b_{kj}\),由柯西不等式\(|c_{ij}|^2\leq(\sum_k|a_{ik}|^2)(\sum_k|b_{kj}|^2)\),求和得\(\|AB\|_F^2\leq\sum_{i,j}(\sum_k|a_{ik}|^2)(\sum_k|b_{kj}|^2)=\|A\|_F^2\|B\|_F^2\),开根号即得。


三、核心概念:范数的相容性与从属范数(算子范数)

F-范数是“元素级”的范数,没有体现矩阵作为线性变换的本质。矩阵是\(\mathbb{R}^n\to\mathbb{R}^n\)的线性算子,我们需要一种能反映线性变换“放大能力”的范数,这就引出了与向量范数相容的从属范数

1. 矩阵-向量范数的相容性定义

\(\|\cdot\|_v\)\(\mathbb{R}^n\)上的向量范数,\(\|\cdot\|_M\)\(\mathbb{R}^{n\times n}\)上的矩阵范数,若对任意\(A\in\mathbb{R}^{n\times n},x\in\mathbb{R}^n\),都有:

\[\|Ax\|_v \leq \|A\|_M \|x\|_v \]

则称矩阵范数\(\|\cdot\|_M\)与向量范数\(\|\cdot\|_v\)相容

物理意义:矩阵\(A\)作用在向量\(x\)上,新向量的范数不会超过“矩阵放大倍数”乘以原向量的范数,这个放大倍数的上界就是矩阵范数。

2. 从属范数(算子范数)的定义

给定\(\mathbb{R}^n\)上的向量范数\(\|\cdot\|_v\),对任意\(A\in\mathbb{R}^{n\times n}\),定义:

\[\|A\|_v = \max_{x\neq 0} \frac{\|Ax\|_v}{\|x\|_v} = \max_{\|x\|_v=1} \|Ax\|_v \]

这个由向量范数诱导出的矩阵范数,称为从属于向量范数\(\|\cdot\|_v\)的矩阵范数,简称从属范数,也叫算子范数。

两个定义等价性证明:
对任意\(x\neq0\),令\(y=\frac{x}{\|x\|_v}\),则\(\|y\|_v=1\),此时

\[\frac{\|Ax\|_v}{\|x\|_v} = \frac{\|A\cdot\|x\|_v y\|_v}{\|x\|_v} = \|Ay\|_v \]

因此对所有非零\(x\)取最大值,等价于对所有单位向量\(y\)取最大值。


四、核心定理的严谨证明

定理5.13:从属范数的合法性与相容性

定理内容:设\(\|\cdot\|_v\)\(\mathbb{R}^n\)上的向量范数,则\(\|A\|_v = \max_{x\neq0}\frac{\|Ax\|_v}{\|x\|_v}\)\(\mathbb{R}^{n\times n}\)上的矩阵范数,且满足:

  1. 与向量范数相容:\(\|Ax\|_v \leq \|A\|_v \|x\|_v\)
  2. 矩阵乘法次乘性:\(\|AB\|_v \leq \|A\|_v \|B\|_v\)\(\forall A,B\in\mathbb{R}^{n\times n}\)

证明:

第一步:证明从属范数满足范数三公理
  1. 正定性
    对任意\(x\neq0\)\(\frac{\|Ax\|_v}{\|x\|_v}\geq0\),故\(\|A\|_v\geq0\)

    • \(A\)为零矩阵,则\(\forall x, Ax=0\),故\(\|A\|_v=0\)
    • \(\|A\|_v=0\),则\(\forall x\neq0, \|Ax\|_v=0\),取单位向量\(e_i\)(第\(i\)个分量为1,其余为0),则\(Ae_i\)\(A\)的第\(i\)列,\(\|Ae_i\|_v=0\),故\(A\)的所有列均为0,即\(A\)为零矩阵。
      正定性得证。
  2. 齐次性
    对任意\(k\in\mathbb{R}\)

    \[\|kA\|_v = \max_{x\neq0}\frac{\|kAx\|_v}{\|x\|_v} = |k|\max_{x\neq0}\frac{\|Ax\|_v}{\|x\|_v} = |k|\|A\|_v \]

    齐次性得证。

  3. 三角不等式
    对任意\(A,B\in\mathbb{R}^{n\times n}\),由向量范数的三角不等式:

    \[\|A+B\|_v = \max_{x\neq0}\frac{\|(A+B)x\|_v}{\|x\|_v} = \max_{x\neq0}\frac{\|Ax+Bx\|_v}{\|x\|_v} \]

    \[\leq \max_{x\neq0}\frac{\|Ax\|_v+\|Bx\|_v}{\|x\|_v} \leq \max_{x\neq0}\frac{\|Ax\|_v}{\|x\|_v} + \max_{x\neq0}\frac{\|Bx\|_v}{\|x\|_v} = \|A\|_v + \|B\|_v \]

    三角不等式得证。

第二步:证明与向量范数的相容性
  • \(x=0\),则\(\|A0\|_v=0\leq\|A\|_v\|0\|_v=0\),不等式成立;
  • \(x\neq0\),由\(\|A\|_v\)的定义,\(\frac{\|Ax\|_v}{\|x\|_v}\leq\|A\|_v\),两边乘\(\|x\|_v\)\(\|Ax\|_v\leq\|A\|_v\|x\|_v\)
    相容性得证。
第三步:证明矩阵乘法的次乘性

对任意\(A,B\in\mathbb{R}^{n\times n}\),任意\(x\neq0\),由相容性:

\[\|ABx\|_v = \|A(Bx)\|_v \leq \|A\|_v \|Bx\|_v \leq \|A\|_v \|B\|_v \|x\|_v \]

两边除以\(\|x\|_v\)\(\frac{\|ABx\|_v}{\|x\|_v}\leq\|A\|_v\|B\|_v\),对所有\(x\neq0\)取最大值,即得\(\|AB\|_v\leq\|A\|_v\|B\|_v\)
次乘性得证。


定理5.14:常用从属范数的计算公式

定理内容:对任意\(A=(a_{ij})_{n\times n}\in\mathbb{R}^{n\times n}\),有:

  1. \(\|A\|_\infty = \max_{1\leq i\leq n}\sum_{j=1}^n |a_{ij}|\)(行范数,从属于向量\(\infty\)-范数);
  2. \(\|A\|_1 = \max_{1\leq j\leq n}\sum_{i=1}^n |a_{ij}|\)(列范数,从属于向量\(1\)-范数);
  3. \(\|A\|_2 = \sqrt{\lambda_{\text{max}}(A^TA)}\)(2-范数/谱范数,从属于向量\(2\)-范数,\(\lambda_{\text{max}}\)表示最大特征值)。

证明:

(1) 行范数的证明

\(\|A\|_\infty\)的定义是\(\max_{\|x\|_\infty=1}\|Ax\|_\infty\)

  • 第一步:证明上界\(\|A\|_\infty\leq\mu\),其中\(\mu=\max_{1\leq i\leq n}\sum_{j=1}^n|a_{ij}|\)
    对任意满足\(\|x\|_\infty=1\)\(x\),有\(|x_j|\leq1\),因此

    \[\|Ax\|_\infty = \max_{1\leq i\leq n}\left|\sum_{j=1}^n a_{ij}x_j\right| \leq \max_{1\leq i\leq n}\sum_{j=1}^n |a_{ij}||x_j| \leq \max_{1\leq i\leq n}\sum_{j=1}^n |a_{ij}| = \mu \]

    \(\|A\|_\infty\leq\mu\)

  • 第二步:证明下界\(\|A\|_\infty\geq\mu\)
    \(\mu\)是第\(i_0\)行的元素绝对值之和,即\(\mu=\sum_{j=1}^n|a_{i_0j}|\)。构造向量\(x_0=(x_1,x_2,\dots,x_n)^T\),其中\(x_j=\text{sgn}(a_{i_0j})\)(符号函数,\(a>0\)时为1,\(a<0\)时为-1,\(a=0\)时为0)。
    显然\(\|x_0\|_\infty=1\),且\(Ax_0\)的第\(i_0\)个分量为:

    \[(Ax_0)_{i_0} = \sum_{j=1}^n a_{i_0j}x_j = \sum_{j=1}^n |a_{i_0j}| = \mu \]

    因此\(\|Ax_0\|_\infty\geq\mu\),即\(\|A\|_\infty\geq\mu\)

综上,\(\|A\|_\infty=\mu=\max_{1\leq i\leq n}\sum_{j=1}^n|a_{ij}|\),行范数得证。

(2) 列范数的证明

与行范数完全对称,简要说明:

  • 上界:对任意\(\|x\|_1=1\)\(x\)\(\|Ax\|_1=\sum_i|\sum_j a_{ij}x_j|\leq\sum_j|x_j|\sum_i|a_{ij}|\leq\max_j\sum_i|a_{ij}|=\nu\),故\(\|A\|_1\leq\nu\)
  • 下界:设\(\nu\)是第\(j_0\)列的元素和,取\(x_0\)为第\(j_0\)个分量为1、其余为0的单位向量,则\(\|x_0\|_1=1\)\(\|Ax_0\|_1=\sum_i|a_{ij_0}|=\nu\),故\(\|A\|_1\geq\nu\)

因此\(\|A\|_1=\max_{1\leq j\leq n}\sum_{i=1}^n|a_{ij}|\),列范数得证。

(3) 2-范数(谱范数)的证明

\(\|A\|_2\)的定义是\(\max_{\|x\|_2=1}\|Ax\|_2\)
首先,\(\|Ax\|_2^2=(Ax,Ax)=x^TA^TAx\)\(A^TA\)是实对称半正定矩阵,其特征值均为非负实数,设为\(\lambda_1\geq\lambda_2\geq\dots\geq\lambda_n\geq0\),对应的标准正交特征向量为\(u_1,u_2,\dots,u_n\)(即\(A^TAu_i=\lambda_i u_i\)\((u_i,u_j)=\delta_{ij}\))。

  • 第一步:证明上界\(\|A\|_2\leq\sqrt{\lambda_1}\)
    对任意\(\|x\|_2=1\)\(x\),可表示为\(x=\sum_{i=1}^n c_i u_i\),满足\(\sum_{i=1}^n c_i^2=1\)
    因此

    \[\|Ax\|_2^2 = x^TA^TAx = \sum_{i=1}^n c_i^2 \lambda_i \leq \lambda_1\sum_{i=1}^n c_i^2 = \lambda_1 \]

    开根号得\(\|Ax\|_2\leq\sqrt{\lambda_1}\),故\(\|A\|_2\leq\sqrt{\lambda_1}\)

  • 第二步:证明下界\(\|A\|_2\geq\sqrt{\lambda_1}\)
    \(x=u_1\)(对应最大特征值的单位特征向量),则\(\|x\|_2=1\),且

    \[\|Ax\|_2^2 = u_1^TA^TAu_1 = \lambda_1 u_1^Tu_1 = \lambda_1 \]

    \(\|Ax\|_2=\sqrt{\lambda_1}\),即\(\|A\|_2\geq\sqrt{\lambda_1}\)

综上,\(\|A\|_2=\sqrt{\lambda_{\text{max}}(A^TA)}\),谱范数得证。


定理5.15:谱半径与矩阵范数的关系

谱半径定义:对\(n\)阶方阵\(A\),其特征值为\(\lambda_1,\lambda_2,\dots,\lambda_n\),谱半径\(\rho(A)=\max_{1\leq i\leq n}|\lambda_i|\),即特征值模的最大值。

定理内容:对任意\(A\in\mathbb{R}^{n\times n}\),任意从属范数\(\|\cdot\|\),有\(\rho(A)\leq\|A\|\);反之,对任意\(\varepsilon>0\),至少存在一种从属范数\(\|\cdot\|_\varepsilon\),使得\(\|A\|_\varepsilon\leq\rho(A)+\varepsilon\)

前半部分证明:

\(\lambda\)\(A\)的任意特征值,\(x\)是对应的特征向量,即\(Ax=\lambda x\)\(x\neq0\)
由相容性,\(\|Ax\|=|\lambda|\|x\|\leq\|A\|\|x\|\),因\(\|x\|>0\),故\(|\lambda|\leq\|A\|\)
该式对所有特征值成立,因此\(\rho(A)=\max|\lambda_i|\leq\|A\|\),得证。


定理5.16:对称矩阵的2-范数

定理内容:若\(A\in\mathbb{R}^{n\times n}\)是对称矩阵,则\(\|A\|_2=\rho(A)\)

证明:

\(A\)对称,故\(A^T=A\),因此\(\|A\|_2=\sqrt{\lambda_{\text{max}}(A^TA)}=\sqrt{\lambda_{\text{max}}(A^2)}\)
\(A\)的特征值为\(\lambda_1,\dots,\lambda_n\),则\(A^2\)的特征值为\(\lambda_1^2,\dots,\lambda_n^2\),故\(\lambda_{\text{max}}(A^2)=(\max|\lambda_i|)^2=\rho(A)^2\)
因此\(\|A\|_2=\sqrt{\rho(A)^2}=\rho(A)\),得证。


定理5.17:逆矩阵的范数估计

定理内容:若\(\|B\|<1\)\(\|\cdot\|\)为任意从属范数),则\(I\pm B\)为非奇异矩阵,且

\[\|(I\pm B)^{-1}\| \leq \frac{1}{1-\|B\|} \]

证明:

  1. 证明\(I\pm B\)非奇异(反证法)
    假设\(I\pm B\)奇异,则\(\det(I\pm B)=0\),齐次方程组\((I\pm B)x=0\)有非零解\(x_0\),即\(Bx_0=\mp x_0\)
    两边取范数得\(\|Bx_0\|=\|x_0\|\leq\|B\|\|x_0\|\),因\(\|x_0\|>0\),故\(\|B\|\geq1\),与题设矛盾,因此\(I\pm B\)非奇异。

  2. 证明范数不等式
    \((I\pm B)(I\pm B)^{-1}=I\),展开移项得:

    \[(I\pm B)^{-1} = I \mp B(I\pm B)^{-1} \]

    两边取范数,由三角不等式和次乘性,且从属范数满足\(\|I\|=1\)

    \[\|(I\pm B)^{-1}\| \leq \|I\| + \|B\|\|(I\pm B)^{-1}\| = 1 + \|B\|\|(I\pm B)^{-1}\| \]

    移项得\(\|(I\pm B)^{-1}\|(1-\|B\|)\leq1\),因\(\|B\|<1\),故\(1-\|B\|>0\),两边除以\(1-\|B\|\)得:

    \[\|(I\pm B)^{-1}\| \leq \frac{1}{1-\|B\|} \]

    得证。


五、核心知识点归纳总结表

范数类型 定义式 计算公式 核心性质 典型适用场景
向量\(\infty\)-范数 \(|x|_\infty = \max_{1\leq i\leq n}|x_i|\) 分量绝对值最大值 满足范数三公理,\(p\to+\infty\)\(p\)-范数极限 最大误差估计、切比雪夫逼近
向量\(1\)-范数 \(|x|_1 = \sum_{i=1}^n|x_i|\) 分量绝对值之和 满足范数三公理,\(p=1\)\(p\)-范数 曼哈顿距离、稀疏优化、绝对误差和估计
向量\(2\)-范数 \(|x|_2 = \left(\sum_{i=1}^n|x_i|^2\right)^{\frac{1}{2}}\) 分量平方和开根号 内积诱导范数,酉不变性 欧氏距离、最小二乘、正交变换、谱分析
矩阵F-范数 \(|A|_F = \left(\sum_{i,j}|a_{ij}|^2\right)^{\frac{1}{2}}\) 矩阵元素平方和开根号 满足范数三公理,与向量2-范数相容,次乘性,酉不变性 元素级误差估计、低秩逼近、F范数正则化
矩阵行范数(从属\(\infty\)-范数) \(|A|_\infty = \max_{x\neq0}\frac{|Ax|_\infty}{|x|_\infty}\) 行元素绝对值和的最大值 从属范数,与向量\(\infty\)-范数相容,次乘性,\(|I|_\infty=1\) 行方向放大倍数估计、无穷维算子近似
矩阵列范数(从属\(1\)-范数) \(|A|_1 = \max_{x\neq0}\frac{|Ax|_1}{|x|_1}\) 列元素绝对值和的最大值 从属范数,与向量\(1\)-范数相容,次乘性,\(|I|_1=1\) 列方向放大倍数估计、1-范数优化问题
矩阵2-范数(谱范数) \(|A|_2 = \max_{x\neq0}\frac{|Ax|_2}{|x|_2}\) \(\sqrt{\lambda_{\text{max}}(A^TA)}\)(实矩阵) 从属范数,与向量2-范数相容,次乘性,酉不变性,对称矩阵满足\(|A|_2=\rho(A)\) 谱分析、奇异值分解、条件数计算、稳定性分析
通用从属范数 \(|A|_v = \max_{|x|_v=1}|Ax|_v\) 由对应向量范数诱导 必为合法矩阵范数,与对应向量范数相容,次乘性,\(\rho(A)\leq|A|_v\) 线性算子有界性分析、迭代法收敛性、矩阵扰动分析

核心理解要点

  1. 从属范数的本质是线性变换的最大放大倍数,是从向量范数自然诱导的,完美适配矩阵的线性变换属性;
  2. 相容性是矩阵范数的核心价值:没有相容性,矩阵范数就无法用于估计\(Ax\)的范数,失去了数值分析的核心意义;
  3. 行范数、列范数计算简单,适合工程快速估计;2-范数性质最优,理论价值最高,但计算需要特征值分解;F-范数计算简单,适合元素级的矩阵度量;
  4. 谱半径是矩阵的固有属性,与范数选取无关,是所有从属范数的下确界,是迭代法收敛性分析的核心工具。

posted on 2026-03-01 06:49  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航