昆仑山:眼中无形心中有穴之穴人合一

夫君子之行,静以修身,俭以养德;非澹泊无以明志,非宁静无以致远。夫学须静也,才须学也;非学无以广才,非志无以成学。怠慢则不能励精,险躁则不能冶性。年与时驰,意与岁去,遂成枯落,多不接世。悲守穷庐,将复何及!

 

3.1函数逼近的基本概念授课

3.1 函数逼近的基本概念 深度讲解

今天我们来系统拆解数值分析中函数逼近的基础概念。我会从「问题起源→核心工具→理论基石→通用框架」四个层面,把每个知识点讲透,同时帮大家理清知识点之间的逻辑关联,避开学习中最容易踩的坑。


一、开篇:我们为什么要学函数逼近?

在学习这一章之前,我们上一章刚学了插值法。插值的核心要求是:构造的多项式必须严格经过所有给定的节点,也就是在节点上,插值多项式和被插值函数的函数值完全相等。

但在实际工程、实验场景中,我们拿到的函数值数据,几乎都带有测量误差、随机噪声。比如你做实验测出来的一组(x,y),y本身就不是真实的函数值,只是一个近似值。这时候如果强行让插值曲线严格穿过这些带误差的点,反而会把噪声、误差放大,得到的曲线和真实的函数规律偏差极大,完全失去了近似的意义。

这时候,我们就需要换一个思路:不要求曲线严格过所有点,而是找一个形式简单的函数,在整个区间上,和真实函数(或观测数据)的整体误差最小。这就是函数逼近(也叫曲线拟合)要解决的核心问题。

要解决这个问题,我们首先要回答两个最根本的问题:

  1. 我们用来逼近的函数,和被逼近的函数,它们属于什么数学对象?在什么框架下研究?—— 这就是我们要讲的线性空间
  2. 怎么衡量两个函数的“接近程度”?怎么定义“误差最小”?—— 这就是后续要讲的范数、内积,也是函数逼近的度量标准。

这就是教材先讲线性空间的原因:先搭建我们研究的数学框架,再定义度量规则,最后才能求解“最优逼近”的问题。


二、核心基础:线性空间

2.1 线性空间的严格定义

线性空间,本质上是一个对加法和数乘运算封闭、且满足8条运算律的集合。我们把它拆解成最核心的两个部分:

1. 两个核心运算(封闭性是核心)

设V是一个非空集合,F是一个数域(我们课程里只用到实数域R或复数域C),定义两个运算:

  • 加法:对任意两个元素\(x,y \in V\),它们的和\(x+y\)仍然属于V(对加法封闭)
  • 数乘:对任意元素\(x \in V\),任意数\(\alpha \in F\),它们的数乘\(\alpha x\)仍然属于V(对数乘封闭)

2. 8条运算律(运算必须满足的规则)

加法4条:

  1. 交换律:\(x+y = y+x\)
  2. 结合律:\((x+y)+z = x+(y+z)\)
  3. 存在零元:V中存在唯一的零元素\(0\),对任意\(x \in V\),都有\(x+0=x\)
  4. 存在负元:对任意\(x \in V\),存在唯一的负元素\(-x \in V\),使得\(x+(-x)=0\)

数乘4条:

  1. 数乘结合律:\(\alpha(\beta x) = (\alpha\beta)x\)
  2. 数乘对元素加法的分配律:\(\alpha(x+y)=\alpha x+\alpha y\)
  3. 数的加法对数乘的分配律:\((\alpha+\beta)x=\alpha x+\beta x\)
  4. 单位元:\(1\cdot x = x\)

只有同时满足「加法、数乘封闭」+「8条运算律」,集合V才是数域F上的线性空间。教材里的通俗描述,核心就是“运算结果仍然在集合中”,本质就是封闭性+运算规则。

2.2 我们课程中3个核心的线性空间(必须吃透)

线性空间是一个很抽象的概念,但我们数值分析里,只需要重点掌握3个和函数、计算相关的线性空间,所有的逼近问题都在这几个空间里展开。

例子1:连续函数空间 \(C[a,b]\)\(C^n[a,b]\)

  • 定义\(C^n[a,b]\) 是闭区间\([a,b]\)上,所有具有n阶连续导数的实值(或复值)函数构成的集合。

  • 为什么是线性空间

    1. 加法封闭:如果\(f(x),g(x)\)都有n阶连续导数,那么\(f(x)+g(x)\)的n阶导数是\(f^{(n)}(x)+g^{(n)}(x)\),两个连续函数相加仍然连续,因此\(f+g \in C^n[a,b]\)
    2. 数乘封闭:对任意实数\(\alpha\)\(\alpha f(x)\)的n阶导数是\(\alpha f^{(n)}(x)\),仍然连续,因此\(\alpha f \in C^n[a,b]\)
    3. 8条运算律天然满足:零元就是恒等于0的函数,负元就是\(-f(x)\),函数的加法和数乘天然符合交换律、结合律等规则。
  • 特殊情况:当\(n=0\)时,\(C^0[a,b]\)就简记为\(C[a,b]\),也就是闭区间\([a,b]\)上所有连续函数构成的集合。这是我们函数逼近最核心的研究空间——我们要逼近的目标函数,几乎都属于\(C[a,b]\)

例子2:多项式空间 \(\mathcal{P}_n\)

  • 定义:所有次数不超过n的一元多项式构成的集合。
    ❗ 这里必须重点强调:是「不超过n次」,不是「恰好n次」!这是90%的学生都会踩的坑。
    如果是“恰好n次的多项式”,对加法不封闭:比如\(p(x)=x^n+1\)\(q(x)=-x^n+2\),相加后\(p+q=3\),是0次多项式,不属于“恰好n次的多项式集合”,因此不构成线性空间。只有“次数≤n”的集合,才是线性空间。

  • 为什么是线性空间

    1. 加法封闭:两个次数≤n的多项式相加,最高次项不会超过n,结果仍然属于\(\mathcal{P}_n\)
    2. 数乘封闭:数乘一个次数≤n的多项式,次数不会升高,结果仍然属于\(\mathcal{P}_n\)
    3. 运算律天然满足:零元是零多项式,负元是\(-p(x)\),符合所有运算规则。
  • 和上一章的关联:上一章的插值法,本质就是用\(\mathcal{P}_n\)中的多项式,去近似\(C[a,b]\)中的连续函数,只是插值要求“节点处函数值严格相等”,而我们这一章的逼近,要求“整体误差最小”。

例子3:向量/矩阵空间 \(\mathbb{R}^n\) / \(\mathbb{R}^{m\times n}\)

这是大家线性代数里最熟悉的线性空间:

  • \(\mathbb{R}^{m\times n}\):所有m行n列的实矩阵构成的集合,按矩阵加法和数乘,构成线性空间。
  • 特例:当\(m=1\)时,就是1行n列的行向量,也就是n维实向量空间\(\mathbb{R}^n\)

这个空间的意义在于:我们后面会把函数空间里的元素,通过“基”和“坐标”,和\(\mathbb{R}^n\)里的向量一一对应,把抽象的函数问题,转化为我们熟悉的向量、矩阵问题来求解。


三、线性空间的核心结构:线性相关/无关、基、维数、坐标

有了线性空间,我们接下来要搞清楚:这个空间的“骨架”是什么?怎么把空间里的抽象元素,变成我们能计算的具体数字?这就要靠线性相关/无关、基、维数、坐标这几个核心概念。

3.1 线性相关与线性无关

这是定义基的基础,我们先给严谨定义,再给大白话解释。

设V是数域F上的线性空间,有一组元素\(x_1,x_2,\dots,x_n \in V\)

  1. 线性相关:如果存在不全为0的数\(\alpha_1,\alpha_2,\dots,\alpha_n \in F\),使得

    \[\alpha_1x_1 + \alpha_2x_2 + \dots + \alpha_nx_n = 0 \]

    就称这组元素线性相关。
    ✅ 大白话:这组元素里,至少有一个元素,可以被其他元素线性表示出来,也就是“有多余的元素”,不是互相独立的。
    ❗ 易错提醒:是“不全为0”,不是“全不为0”!只要有一个系数不是0就满足条件,不是所有系数都不能为0。

  2. 线性无关:如果上面的等式,只有当\(\alpha_1=\alpha_2=\dots=\alpha_n=0\)时才成立,就称这组元素线性无关。
    ✅ 大白话:这组元素里,没有任何一个能被其他元素线性表示,每个元素都是“独立的”,没有冗余。

3.2 基、维数、坐标

这三个概念,是把抽象线性空间和我们熟悉的数值计算连接起来的桥梁。

1. 定义

如果线性空间V中,能找到n个线性无关的元素\(x_1,x_2,\dots,x_n\),使得V中任意一个元素x,都能被这n个元素线性表示:

\[x = \alpha_1x_1 + \alpha_2x_2 + \dots + \alpha_nx_n \]

那么:

  • 这组元素\(\{x_1,x_2,\dots,x_n\}\),叫做V的一组基(相当于这个空间的“坐标系”);
  • 基中元素的个数n,叫做线性空间V的维数,记为\(\dim V = n\),称V是n维线性空间;
  • 这组系数\((\alpha_1,\alpha_2,\dots,\alpha_n)\),叫做元素x在这组基下的坐标

2. 两个核心性质

  1. 基不唯一,维数唯一:同一个线性空间,可以有无数组不同的基,但不管哪组基,基中元素的个数(维数)是固定的,是线性空间的固有属性。
  2. 基固定时,坐标唯一:对于给定的一组基,一个元素的坐标是唯一的,这样我们就能把抽象的元素,和唯一的一组数(坐标)一一对应起来。

3.3 对应核心例子,吃透基与维数

我们还是用之前的3个核心线性空间,把基、维数、坐标对应起来,大家就能立刻理解。

例子1:n维向量空间\(\mathbb{R}^n\)

  • 标准基:\(\{e_1,e_2,\dots,e_n\}\),其中\(e_1=(1,0,\dots,0), e_2=(0,1,\dots,0), \dots, e_n=(0,\dots,0,1)\)
  • 线性无关性:只有全0的系数,才能让它们的线性组合等于零向量,因此线性无关。
  • 维数:\(\dim \mathbb{R}^n = n\),和我们的认知完全一致。
  • 坐标:任意向量\(x=(x_1,x_2,\dots,x_n) \in \mathbb{R}^n\),都能表示为\(x = x_1e_1 + x_2e_2 + \dots + x_ne_n\),因此它在标准基下的坐标,就是它本身\((x_1,x_2,\dots,x_n)\)

例子2:多项式空间\(\mathcal{P}_n\)

  • 标准基:\(\{1, x, x^2, \dots, x^n\}\)
    先验证线性无关:假设\(\alpha_0\cdot1 + \alpha_1\cdot x + \dots + \alpha_n\cdot x^n = 0\)(零多项式,即对所有x都等于0)。一个多项式是零多项式,当且仅当它的所有系数都为0,因此只有\(\alpha_0=\alpha_1=\dots=\alpha_n=0\)时等式成立,这组元素线性无关。

  • ❗ 重点提醒:维数\(\dim \mathcal{P}_n = n+1\)
    基里有n+1个元素,因此维数是n+1,不是n!比如\(\mathcal{P}_1\)(一次多项式\(ax+b\))的维数是2,\(\mathcal{P}_0\)(常数多项式)的维数是1,这是考试里最常考的易错点。

  • 坐标:任意多项式\(p(x)=a_0 + a_1x + \dots + a_nx^n \in \mathcal{P}_n\),在标准基下的坐标就是\((a_0,a_1,\dots,a_n)\)

  • 和上一章插值的关联
    上一章的拉格朗日插值基函数\(\{l_0(x),l_1(x),\dots,l_n(x)\}\)、牛顿插值基函数\(\{1,\omega_1(x),\dots,\omega_n(x)\}\),都是\(\mathcal{P}_n\)的一组基!
    原因很简单:它们有n+1个线性无关的元素,且任意次数≤n的多项式,都能表示为它们的线性组合(拉格朗日插值多项式、牛顿插值多项式)。这就是为什么它们叫“基函数”——它们本身就是多项式空间的一组基。
    而且:多项式在拉格朗日基下的坐标,就是节点处的函数值;在牛顿基下的坐标,就是对应的各阶均差,完美对应上一章的内容。

例子3:连续函数空间\(C[a,b]\)

教材里明确说明:\(C[a,b]\)无限维线性空间
原因很简单:我们能在里面找到任意多个线性无关的元素,比如\(\{1,x,x^2,\dots,x^n,\dots\}\),不管你取多少个,这组元素都是线性无关的,因此它没有有限个元素组成的基,是无限维的。
\(\mathcal{P}_n\)\(C[a,b]\)的有限维子空间——\(\mathcal{P}_n\)里的所有元素都属于\(C[a,b]\),且本身也是线性空间。


四、函数逼近的理论基石:魏尔斯特拉斯逼近定理

现在我们有了一个核心问题:\(C[a,b]\)是无限维的,\(\mathcal{P}_n\)是有限维的,我们用有限维的多项式,能不能逼近无限维空间里的任意连续函数?能不能让误差要多小有多小?

魏尔斯特拉斯(Weierstrass)逼近定理,完美回答了这个问题,给了我们肯定的答案,是整个函数逼近的理论基础——它告诉我们:用多项式逼近闭区间上的连续函数,是完全可行的

4.1 定理内容

定理3.1\(f(x) \in C[a,b]\)(即\(f(x)\)在闭区间\([a,b]\)上连续),则对任意给定的\(\varepsilon>0\)(无论\(\varepsilon\)多小),总存在一个代数多项式\(p(x)\),使得

\[\max_{a\leq x\leq b} |f(x) - p(x)| < \varepsilon \]

✅ 大白话翻译:只要\(f(x)\)是闭区间上的连续函数,我们总能找到一个多项式,让它在整个区间上,和\(f(x)\)的最大误差,比你给的任意小的正数\(\varepsilon\)还要小。也就是,多项式可以一致逼近闭区间上的任意连续函数,精度可以任意控制。

4.2 定理的核心意义

  1. 理论意义:彻底解决了“能不能逼近”的问题,证明了闭区间上的连续函数,都可以用多项式任意精度地近似,给了函数逼近的理论底气。
  2. 实际意义:告诉我们,无论多复杂的连续函数,我们都能用形式简单的多项式来近似,而且精度可以按需控制,这是数值计算中用多项式近似复杂函数的根本依据。

4.3 构造性证明:伯恩斯坦多项式

魏尔斯特拉斯定理最初的证明是存在性证明——只说了“存在这样的多项式”,但没说怎么找。1912年,伯恩斯坦给出了一个构造性证明,直接把满足要求的多项式构造了出来,这就是伯恩斯坦多项式。

1. 定义

对于\([0,1]\)区间上的连续函数\(f(x)\),它的n次伯恩斯坦多项式为:

\[B_n(f,x) = \sum_{k=0}^n f\left(\frac{k}{n}\right) \cdot \binom{n}{k} x^k (1-x)^{n-k} \]

其中\(\binom{n}{k} = \frac{n!}{k!(n-k)!}\)是二项式组合数。

2. 核心性质

  1. 它是一个次数不超过n的多项式,即\(B_n(f,x) \in \mathcal{P}_n\)
  2. 一致收敛性:\(\lim_{n\to\infty} B_n(f,x) = f(x)\),且这个收敛在\([0,1]\)上是一致收敛的,也就是整个区间上都同步收敛,不是只在某个点收敛;
  3. 导数收敛性:如果\(f(x)\)有m阶连续导数,那么\(B_n(f,x)\)的m阶导数,也一致收敛到\(f(x)\)的m阶导数,不仅函数值收敛,导数也同步收敛。

3. 优缺点

  • 优点:理论意义重大,给出了魏尔斯特拉斯定理的构造性证明,形式对称,性质优良;
  • 缺点:收敛速度极慢!要达到很高的精度,n需要取到非常大,计算量急剧上升,因此实际工程计算中几乎不会使用,它的价值主要在理论层面。

五、函数逼近的通用框架

多项式只是函数逼近的一种选择,我们可以用更一般的函数组来做逼近,这就是教材里给出的通用框架,也是后面傅里叶变换、正交逼近的基础。

5.1 通用逼近框架

我们在\(C[a,b]\)中,选取一组线性无关的函数\(\{\varphi_0(x), \varphi_1(x), \dots, \varphi_n(x)\}\),用它们张成一个子空间:

\[\Phi = \text{span}\{\varphi_0, \varphi_1, \dots, \varphi_n\} \]

也就是说,\(\Phi\)里的任意元素\(\varphi(x)\),都可以表示为这组基函数的线性组合:

\[\varphi(x) = a_0\varphi_0(x) + a_1\varphi_1(x) + \dots + a_n\varphi_n(x) \]

此时,函数逼近的核心问题就转化为:
对任意\(f(x) \in C[a,b]\),在子空间\(\Phi\)中,找到一个元素\(\varphi^*(x)\),使得\(f(x)-\varphi^*(x)\)在某种度量意义下的误差最小。

5.2 经典例子:傅里叶级数

教材里举的傅里叶级数,就是这个框架最经典的应用,也是后面快速傅里叶变换的基础。

对于周期函数,我们不用多项式,而是用三角函数系

\[\{1, \cos x, \sin x, \cos 2x, \sin 2x, \dots, \cos nx, \sin nx, \dots\} \]

这组函数是线性无关的,而且是正交的(后面会讲),用它们张成的子空间去逼近周期函数,效果远好于多项式,这就是傅里叶分析的核心。


六、内容总结与后续铺垫

今天我们把3.1节的内容完整拆解了一遍,整个逻辑链条非常清晰:

  1. 问题起源:插值不适合带误差的数据,需要整体近似的函数逼近;
  2. 研究框架:线性空间——定义了我们研究的函数、向量所在的空间,以及运算规则;
  3. 空间结构:线性相关/无关、基、维数——把抽象的函数,转化为可计算的坐标,打通了函数空间和向量空间的壁垒;
  4. 理论基础:魏尔斯特拉斯定理——证明了多项式可以任意精度逼近连续函数,解决了“能不能逼近”的问题;
  5. 通用框架:用任意线性无关的基函数张成子空间做逼近,为后续正交逼近、傅里叶变换做了铺垫。

下一部分,我们就要解决本节课留下的核心问题:怎么定义“误差最小”? 也就是线性空间中的范数、内积,有了度量标准,我们才能真正求解“最优逼近函数”。


学习避坑指南(多年教学经验总结)

  1. 牢记\(\mathcal{P}_n\)的维数是\(n+1\),不是n,这是期末必考的易错点;
  2. 线性相关的定义是“不全为0”,不是“全不为0”,不要搞反;
  3. 魏尔斯特拉斯定理的适用条件是「闭区间上的连续函数」,开区间、不连续函数不适用;
  4. 伯恩斯坦多项式收敛极慢,实际计算不要硬用,它的核心价值是理论证明;
  5. 基不唯一,但维数是线性空间的固有属性,不会随基的选择改变。

3.1.2 范数与赋范线性空间 深度讲解

各位同学,我们上一节课搭建了线性空间这个研究框架,解决了“函数逼近的研究对象在哪里”的问题;这一节课的范数,就是解决函数逼近最核心的底层问题:怎么衡量线性空间中元素的“大小”?怎么定义两个元素之间的“距离”?怎么量化“逼近误差”?

没有范数,我们就没法说“两个函数有多接近”,更没法找“误差最小的逼近函数”。可以说,范数就是整个数值分析、函数逼近的“度量标尺”。


一、范数的本质:向量长度的推广

我们先从最熟悉的场景入手:三维空间\(\mathbb{R}^3\)里的一个向量\(\boldsymbol{x}=(x,y,z)\),它的长度是\(\sqrt{x^2+y^2+z^2}\),这个长度有三个非常直观的性质:

  1. 长度非负:只有零向量的长度是0,其他向量长度都大于0;
  2. 伸缩不变:把向量放大\(\alpha\)倍,长度也放大\(|\alpha|\)倍;
  3. 三角不等式:两个向量相加的长度,不超过两个向量长度的和(两点之间直线最短)。

范数,就是把这三个核心性质抽象出来,推广到任意线性空间上,用来衡量线性空间中任意元素“大小”的数学工具。


二、范数的严格定义与赋范线性空间

2.1 定义拆解

定义3.1\(V\)是数域\(F\)上的线性空间,对任意的\(x \in V\),若存在唯一实数\(\|x\|\)与之对应,且满足以下3个条件:

  1. 正定性\(\|x\| \geq 0\),当且仅当\(x=0\)(线性空间的零元)时,\(\|x\|=0\)
  2. 齐次性\(\|\alpha x\| = |\alpha| \cdot \|x\|\),其中\(\alpha \in F\)(数域中的数);
  3. 三角不等式(三角不等式)\(\|x+y\| \leq \|x\| + \|y\|\),对任意\(x,y \in V\)成立。

则称\(\|\cdot\|\)是线性空间\(V\)上的一个范数,装备了范数的线性空间\(V\),就叫做赋范线性空间

2.2 三个条件的核心意义(缺一不可)

我给大家拆解每个条件的作用,为什么必须同时满足这三个条件,才能叫“范数”:

  1. 正定性:这是“大小”的根本属性——没有大小为负的元素,只有“不存在”的零元,大小才是0。如果去掉“当且仅当x=0时||x||=0”,就退化成了“半范数”,不能唯一衡量元素的大小。
  2. 齐次性:保证了元素的“伸缩”和“大小的伸缩”是同步的。比如你把函数放大2倍,它的“大小”也应该放大2倍,而不是其他倍数,符合我们对“长度”的直观认知。
    ❗ 易错提醒:这里的\(|\alpha|\)是数的绝对值(复数的模),不是范数,不要和范数符号搞混。
  3. 三角不等式:这是范数最核心的性质,也叫“次可加性”。它保证了“两个元素合起来的大小,不会超过各自大小的和”,对应我们常说的“两点之间直线最短”,是定义距离、极限、收敛的基础。

三、两类核心空间的常用范数

我们数值分析中,最核心的就是n维向量空间\(\mathbb{R}^n\)连续函数空间\(C[a,b]\),我们分别讲解它们的常用范数,大家会发现,这两类范数是完全对应的——离散的向量对应求和,连续的函数对应积分。

3.1 n维向量空间\(\mathbb{R}^n\)的常用范数

对任意n维向量\(\boldsymbol{x}=(x_1,x_2,\dots,x_n)^T \in \mathbb{R}^n\),我们有3种最常用的范数,它们都是p-范数的特例。

1. 统一形式:p-范数

\[\|\boldsymbol{x}\|_p = \left( \sum_{i=1}^n |x_i|^p \right)^{1/p}, \quad p \in [1,+\infty) \]

\(p\)取1、2、\(+\infty\)时,就得到我们最常用的3种范数。

2. 1-范数(和范数)

\[\|\boldsymbol{x}\|_1 = \sum_{i=1}^n |x_i| \]

✅ 直观意义:向量所有分量的绝对值之和,也叫“曼哈顿距离”——就像在城市里走方格路,横向纵向走的总路程。

3. 2-范数(欧几里得范数)

\[\|\boldsymbol{x}\|_2 = \left( \sum_{i=1}^n x_i^2 \right)^{1/2} \]

✅ 直观意义:我们最熟悉的向量长度,二维、三维空间里的直线距离,就是2-范数,也是线性代数里最常用的范数。

4. ∞-范数(最大范数/无穷范数)

\[\|\boldsymbol{x}\|_\infty = \max_{1\leq i\leq n} |x_i| \]

✅ 直观意义:向量所有分量中,绝对值最大的那个值。当\(p\to+\infty\)时,p-范数就会收敛到∞-范数,因为绝对值最大的分量,在p次方求和中会占据主导地位。

举个例子,算一算

给定向量\(\boldsymbol{x}=(1,-2,3)^T\),计算三种范数:

  • 1-范数:\(\|\boldsymbol{x}\|_1 = |1| + |-2| + |3| = 6\)
  • 2-范数:\(\|\boldsymbol{x}\|_2 = \sqrt{1^2 + (-2)^2 + 3^2} = \sqrt{14} \approx 3.7417\)
  • ∞-范数:\(\|\boldsymbol{x}\|_\infty = \max\{|1|,|-2|,|3|\} = 3\)

大家可以看到,同一个向量,用不同的范数,算出来的“大小”是不一样的,但它们都是合法的范数,只是度量的“尺子”不一样。

3.2 连续函数空间\(C[a,b]\)的常用范数

对任意连续函数\(f(x) \in C[a,b]\),我们对应向量范数,定义3种常用范数,本质就是把“离散分量的求和”推广为“连续区间的积分”。

1. ∞-范数(一致范数/最大范数)

\[\|f\|_\infty = \max_{a\leq x\leq b} |f(x)| \]

✅ 直观意义:函数在闭区间\([a,b]\)上的最大绝对值。因为\(f(x)\)是闭区间上的连续函数,一定能取到最大值,所以这里用\(\max\),不用上确界\(\sup\)
✅ 逼近意义:我们上一节课讲的魏尔斯特拉斯定理,就是用这个范数定义误差——\(\|f-p\|_\infty < \varepsilon\),就是整个区间上的最大误差都小于\(\varepsilon\),也叫“一致逼近”。

2. 1-范数(积分范数)

\[\|f\|_1 = \int_a^b |f(x)| dx \]

✅ 直观意义:函数绝对值在区间上的积分,也就是函数曲线和x轴围成的总面积,衡量的是函数在整个区间上的“累计大小”。

3. 2-范数(欧几里得范数/均方范数)

\[\|f\|_2 = \left( \int_a^b f^2(x) dx \right)^{1/2} \]

✅ 直观意义:函数平方的积分开根号,衡量的是函数在区间上的“均方大小”,也是后面最小二乘逼近、傅里叶分析的核心范数。

验证:函数范数满足范数的三个条件

我们以∞-范数为例,简单验证它符合范数定义:

  1. 正定性:\(|f(x)| \geq 0\),因此\(\max|f(x)| \geq 0\);若\(\max|f(x)|=0\),则\(f(x)\)在整个区间上恒为0,即零元,满足正定性。
  2. 齐次性:\(\|\alpha f\|_\infty = \max|\alpha f(x)| = |\alpha| \max|f(x)| = |\alpha| \|f\|_\infty\),满足齐次性。
  3. 三角不等式:\(\|f+g\|_\infty = \max|f(x)+g(x)| \leq \max(|f(x)|+|g(x)|) \leq \max|f(x)| + \max|g(x)| = \|f\|_\infty + \|g\|_\infty\),满足三角不等式。

1-范数和2-范数的验证思路完全一致,大家可以课后自己推导,核心就是利用积分的不等式性质。


四、范数的几何意义:\(\mathbb{R}^2\)中的单位球

教材里的图3-1,给了我们最直观的范数几何解释:\(\mathbb{R}^2\)平面上,所有范数等于1的向量,构成的封闭曲线,就是该范数下的“单位球”

我们逐个看:

  1. p=1(1-范数):单位球是一个菱形,方程是\(|x_1| + |x_2| = 1\)
  2. p=2(2-范数):单位球是我们最熟悉的单位圆,方程是\(x_1^2 + x_2^2 = 1\)
  3. p=4:单位球是一个圆角正方形,介于圆和正方形之间。
  4. p→∞(∞-范数):单位球是一个正方形,方程是\(\max\{|x_1|,|x_2|\}=1\)

核心结论

  1. 不同的范数,就是不同的“度量规则”,对“长度为1”的定义不同,因此单位球的形状不同;
  2. 随着p从1增大到∞,单位球从菱形,逐渐变圆,再逐渐变成正方形,是一个连续的变化过程;
  3. 无论形状怎么变,单位球都是关于原点对称的凸集,这是范数三个条件的必然结果,也是范数的几何特征。

五、范数的核心应用:向量序列的收敛性

有了范数,我们就能定义线性空间中的“极限”和“收敛”,这是迭代法、数值计算的核心基础。

5.1 向量序列的收敛定义

定义3.2\(\{\boldsymbol{x}^{(k)}\}\)\(\mathbb{R}^n\)中的向量序列,\(\boldsymbol{x}^* \in \mathbb{R}^n\),记\(\boldsymbol{x}^{(k)}=(x_1^{(k)},x_2^{(k)},\dots,x_n^{(k)})^T\)\(\boldsymbol{x}^*=(x_1^*,x_2^*,\dots,x_n^*)^T\)。如果对每个分量\(i=1,2,\dots,n\),都有

\[\lim_{k\to\infty} x_i^{(k)} = x_i^* \]

就称向量序列\(\{\boldsymbol{x}^{(k)}\}\)按分量收敛\(\boldsymbol{x}^*\),记为\(\lim_{k\to\infty} \boldsymbol{x}^{(k)} = \boldsymbol{x}^*\)

5.2 用范数判断收敛

按分量收敛,需要逐个检查每个分量,很麻烦。有了范数,我们可以用一个数来判断收敛:
向量序列按分量收敛,等价于\(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0\),其中\(\|\cdot\|\)\(\mathbb{R}^n\)上的任意范数。

这就是范数的强大之处:把n个分量的收敛问题,转化为一个非负数的极限问题。

我们看教材里的例3.1,就是最典型的应用:
用迭代法同时求\(\sqrt{2},\sqrt{3},\sqrt{5}\),把三个迭代过程拼成一个三维向量\(\boldsymbol{x}_k\),初始值\(\boldsymbol{x}_0=(1,1,1)^T\)
我们不需要逐个看每个分量的收敛情况,只需要计算相邻两次迭代的差的∞-范数\(\|\boldsymbol{x}_{k+1}-\boldsymbol{x}_k\|_\infty\),只要这个值趋近于0,就说明三个分量都收敛了。
因为∞-范数是分量的最大值,最大的分量都趋近于0了,所有分量自然都趋近于0,这就是∞-范数在迭代收敛判断中最常用的原因——计算简单,判断方便。

5.3 有限维空间的范数等价性

这里给大家补充一个核心结论(教材后续会讲到):有限维线性空间(比如\(\mathbb{R}^n\))上的所有范数,都是等价的
等价的意思是:对\(\mathbb{R}^n\)上的任意两种范数\(\|\cdot\|_a\)\(\|\cdot\|_b\),一定存在两个正数\(c_1,c_2>0\),使得对任意\(\boldsymbol{x} \in \mathbb{R}^n\),都有

\[c_1 \|\boldsymbol{x}\|_a \leq \|\boldsymbol{x}\|_b \leq c_2 \|\boldsymbol{x}\|_a \]

这个结论的意义非常重大:在有限维空间中,用任何范数判断收敛,结果都是一样的。一个序列在1-范数下收敛,在2-范数、∞-范数下也一定收敛,不会出现“用这个范数收敛,用那个范数不收敛”的情况。


六、范数的连续性定理(定理3.2)

6.1 定理内容

定理3.2 设非负函数\(N(\boldsymbol{x})=\|\boldsymbol{x}\|\)\(\mathbb{R}^n\)上的任意一个向量范数,则\(N(\boldsymbol{x})\)\(\boldsymbol{x}\)的分量\(x_1,x_2,\dots,x_n\)的连续函数。

简单说:范数是连续函数。当向量\(\boldsymbol{x}\)的变化很小时,范数的变化也很小,不会出现突变。

6.2 证明过程拆解

这个证明是范数性质的经典应用,我给大家一步步拆解,每一步都讲清楚用了什么性质:

第一步:把向量用标准基展开

\(\mathbb{R}^n\)的标准基为\(\boldsymbol{e}_1,\boldsymbol{e}_2,\dots,\boldsymbol{e}_n\),其中\(\boldsymbol{e}_i\)是第i个分量为1,其余为0的单位向量。
对任意两个向量\(\boldsymbol{x},\boldsymbol{y} \in \mathbb{R}^n\),可以表示为:

\[\boldsymbol{x} = \sum_{i=1}^n x_i \boldsymbol{e}_i, \quad \boldsymbol{y} = \sum_{i=1}^n y_i \boldsymbol{e}_i \]

第二步:用三角不等式推导范数差的上界

我们要证明:当\(\boldsymbol{x} \to \boldsymbol{y}\)时,\(N(\boldsymbol{x}) \to N(\boldsymbol{y})\),也就是\(|N(\boldsymbol{x}) - N(\boldsymbol{y})| \to 0\)
首先,利用三角不等式:

\[\|\boldsymbol{x}\| = \|\boldsymbol{y} + (\boldsymbol{x}-\boldsymbol{y})\| \leq \|\boldsymbol{y}\| + \|\boldsymbol{x}-\boldsymbol{y}\| \]

移项得:\(\|\boldsymbol{x}\| - \|\boldsymbol{y}\| \leq \|\boldsymbol{x}-\boldsymbol{y}\|\)
同理,把\(\boldsymbol{x}\)\(\boldsymbol{y}\)互换,得:\(\|\boldsymbol{y}\| - \|\boldsymbol{x}\| \leq \|\boldsymbol{y}-\boldsymbol{x}\| = \|\boldsymbol{x}-\boldsymbol{y}\|\)
两个式子合起来,就得到范数的一个核心性质:

\[| \|\boldsymbol{x}\| - \|\boldsymbol{y}\| | \leq \|\boldsymbol{x}-\boldsymbol{y}\| \]

这个式子也叫范数的Lipschitz连续性,是证明连续性的核心。

第三步:对\(\|\boldsymbol{x}-\boldsymbol{y}\|\)进行放缩

\(\boldsymbol{x}-\boldsymbol{y}\)用基展开,再用三角不等式放缩:

\[\|\boldsymbol{x}-\boldsymbol{y}\| = \left\| \sum_{i=1}^n (x_i - y_i) \boldsymbol{e}_i \right\| \leq \sum_{i=1}^n |x_i - y_i| \cdot \|\boldsymbol{e}_i\| \]

这里用了范数的齐次性和三角不等式,把和的范数拆成了范数的和。

第四步:用∞-范数控制,完成证明

我们知道,\(|x_i - y_i| \leq \|\boldsymbol{x}-\boldsymbol{y}\|_\infty\)(∞-范数是最大分量),因此:

\[\sum_{i=1}^n |x_i - y_i| \cdot \|\boldsymbol{e}_i\| \leq \|\boldsymbol{x}-\boldsymbol{y}\|_\infty \cdot \sum_{i=1}^n \|\boldsymbol{e}_i\| \]

令常数\(c = \sum_{i=1}^n \|\boldsymbol{e}_i\|\)(c是一个固定的正数,和\(\boldsymbol{x},\boldsymbol{y}\)无关),就得到:

\[| N(\boldsymbol{x}) - N(\boldsymbol{y}) | \leq c \cdot \|\boldsymbol{x}-\boldsymbol{y}\|_\infty \]

\(\boldsymbol{x} \to \boldsymbol{y}\)时,\(\|\boldsymbol{x}-\boldsymbol{y}\|_\infty \to 0\),因此\(| N(\boldsymbol{x}) - N(\boldsymbol{y}) | \to 0\),即\(N(\boldsymbol{x})\)是连续函数。


七、内容总结与易错点提醒

7.1 内容总结

这一节的内容,核心就是给线性空间装上“度量标尺”,整个逻辑链条是:

  1. 本质:范数是向量长度的推广,用来衡量线性空间中元素的大小;
  2. 定义:满足正定性、齐次性、三角不等式的实值函数,就是范数;
  3. 核心例子\(\mathbb{R}^n\)上的1、2、∞-范数,\(C[a,b]\)上对应的三种范数;
  4. 几何意义:不同范数对应不同形状的单位球,都是凸集;
  5. 核心应用:定义向量序列的收敛性,把多分量收敛转化为单个数的极限;
  6. 关键性质:范数是连续函数,有限维空间上所有范数等价。

7.2 多年教学经验总结的易错点

  1. 范数不唯一:同一个线性空间,可以定义无数种合法的范数,不是只有教材里的三种,只要满足三个条件,就是范数;
  2. 函数范数的定义域\(C[a,b]\)上的范数,是定义在闭区间上的,只有闭区间上的连续函数,才能保证取到最大值,∞-范数才能用\(\max\)
  3. 齐次性的绝对值:齐次性里的\(|\alpha|\)是数的绝对值/模,不是范数,很多同学会在这里写错符号;
  4. 三角不等式的方向:是\(\|x+y\| \leq \|x\| + \|y\|\),不要写反方向;
  5. 收敛性的等价性:只有有限维空间的范数是等价的,无限维空间(比如\(C[a,b]\))上的范数不等价,用不同范数判断收敛,结果可能不一样,这是后续学习要注意的。

下一节课,我们会在范数的基础上,引入内积,给线性空间装上“角度”的概念,为后面的正交逼近、最小二乘法打下基础。

定理3.3-3.4 向量范数等价性与收敛性 深度讲解

各位同学,我们上一节课讲了范数的定义,大家会发现一个问题:同一个向量,用不同的范数算出来的“大小”数值是不一样的。那会不会出现这种情况:一个向量序列,在1-范数下是收敛的,换2-范数就不收敛了?我们做数值计算的时候,到底该选哪个范数?

今天这两个定理,就彻底解决了这个核心问题——在有限维空间里,范数的选择不影响收敛性,所有范数都是“等价”的。这是数值分析中迭代法、误差分析的核心理论基础,也是考试的重点和难点,我会把定理的本质、证明逻辑、应用场景和易错点全部讲透。


一、定理3.3 向量范数的等价性

1.1 定理内容与核心本质

定理3.3\(\|\cdot\|_s\)\(\|\cdot\|_t\)\(\mathbb{R}^n\)上的任意两种向量范数,则存在正数\(c_1,c_2>0\),使得对所有的\(\boldsymbol{x} \in \mathbb{R}^n\),都有

\[c_1 \|\boldsymbol{x}\|_s \leq \|\boldsymbol{x}\|_t \leq c_2 \|\boldsymbol{x}\|_s \]

大白话翻译
在n维实向量空间里,不管你用哪种范数衡量向量的大小,它们之间永远只差一个固定的常数倍。不会出现“一个范数下向量无限大,另一个范数下却趋近于0”的情况,所有范数对“向量大小”的度量,本质是相容的。

核心逻辑补充
范数的等价性具有传递性:如果\(\|\cdot\|_a\)\(\|\cdot\|_b\)等价,\(\|\cdot\|_b\)\(\|\cdot\|_c\)等价,那么\(\|\cdot\|_a\)\(\|\cdot\|_c\)一定等价。
因此,我们只需要证明「任意范数和∞-范数等价」,就能推广到「任意两种范数之间等价」——这就是教材里“只要就\(\|\boldsymbol{x}\|_t\)\(\|\boldsymbol{x}\|_\infty\)证明成立即可”的根本原因。


1.2 证明过程逐行拆解

这个证明的核心是利用数学分析中的最值定理:有界闭集(紧集)上的连续函数,一定能取到最大值和最小值。我把每一步的逻辑和依据都讲清楚,大家就能完全看懂。

步骤1:不等式变形,转化问题

我们要证明的是:对任意\(\boldsymbol{x} \in \mathbb{R}^n\),有\(c_1 \|\boldsymbol{x}\|_\infty \leq \|\boldsymbol{x}\|_t \leq c_2 \|\boldsymbol{x}\|_\infty\)

  • \(\boldsymbol{x}=\boldsymbol{0}\)时,不等式两边都是0,显然成立;
  • \(\boldsymbol{x} \neq \boldsymbol{0}\)时,\(\|\boldsymbol{x}\|_\infty > 0\),我们把不等式两边同时除以\(\|\boldsymbol{x}\|_\infty\),得到:

    \[c_1 \leq \frac{\|\boldsymbol{x}\|_t}{\|\boldsymbol{x}\|_\infty} \leq c_2 \]

    \(\boldsymbol{y} = \frac{\boldsymbol{x}}{\|\boldsymbol{x}\|_\infty}\),则\(\|\boldsymbol{y}\|_\infty = 1\),不等式就转化为:证明在集合\(S=\{\boldsymbol{x} \mid \|\boldsymbol{x}\|_\infty = 1\}\)上,函数\(f(\boldsymbol{x})=\|\boldsymbol{x}\|_t\)的最大值和最小值都是正的常数

步骤2:分析集合\(S\)的性质

集合\(S = \{\boldsymbol{x} \mid \|\boldsymbol{x}\|_\infty = 1\}\),也就是\(\mathbb{R}^n\)中,所有分量的绝对值的最大值为1的向量构成的集合。

  • 它是有界集:所有分量都满足\(|x_i| \leq 1\),向量不会无限延伸;
  • 它是闭集:包含了所有边界点,是一个封闭的集合。

在数学分析中,\(\mathbb{R}^n\)中的有界闭集也叫紧集,它有一个核心性质:紧集上的连续函数,一定能取到最大值和最小值(魏尔斯特拉斯最值定理)。

步骤3:证明\(f(\boldsymbol{x})=\|\boldsymbol{x}\|_t\)\(S\)上的连续函数

上一节课的定理3.2已经证明:\(\mathbb{R}^n\)上的任意向量范数,都是向量分量的连续函数。
因此\(f(\boldsymbol{x})=\|\boldsymbol{x}\|_t\)在有界闭集\(S\)上是连续函数,根据最值定理,一定存在\(\boldsymbol{x}',\boldsymbol{x}'' \in S\),使得:

\[f(\boldsymbol{x}') = \min_{\boldsymbol{x} \in S} f(\boldsymbol{x}) = c_1, \quad f(\boldsymbol{x}'') = \max_{\boldsymbol{x} \in S} f(\boldsymbol{x}) = c_2 \]

步骤4:证明\(c_1,c_2>0\)

  • 首先,\(c_2 \geq c_1\),因为最大值一定大于等于最小值;
  • 其次,\(\boldsymbol{x}' \in S\),所以\(\|\boldsymbol{x}'\|_\infty = 1\),说明\(\boldsymbol{x}'\)不是零向量;
  • 根据范数的正定性,非零向量的范数一定大于0,因此\(f(\boldsymbol{x}')=\|\boldsymbol{x}'\|_t > 0\),即\(c_1>0\)

由此我们得到:对所有\(\boldsymbol{y} \in S\),都有\(0 < c_1 \leq f(\boldsymbol{y}) \leq c_2\)

步骤5:推广到所有\(\boldsymbol{x} \in \mathbb{R}^n\)

对任意非零向量\(\boldsymbol{x} \in \mathbb{R}^n\),令\(\boldsymbol{y} = \frac{\boldsymbol{x}}{\|\boldsymbol{x}\|_\infty}\),则\(\boldsymbol{y} \in S\),因此:

\[c_1 \leq f(\boldsymbol{y}) = \left\| \frac{\boldsymbol{x}}{\|\boldsymbol{x}\|_\infty} \right\|_t \leq c_2 \]

根据范数的齐次性\(\left\| \frac{\boldsymbol{x}}{\|\boldsymbol{x}\|_\infty} \right\|_t = \frac{\|\boldsymbol{x}\|_t}{\|\boldsymbol{x}\|_\infty}\),代入不等式后两边同乘\(\|\boldsymbol{x}\|_\infty\),就得到:

\[c_1 \|\boldsymbol{x}\|_\infty \leq \|\boldsymbol{x}\|_t \leq c_2 \|\boldsymbol{x}\|_\infty \]

对所有\(\boldsymbol{x} \in \mathbb{R}^n\)成立,证明完毕。


1.3 关键注意事项:不能推广到无穷维空间

教材里特别强调:定理3.3仅适用于有限维线性空间,无穷维空间不成立。这是考试中最常考的判断题,我给大家举一个反例,大家就能立刻理解。

反例:连续函数空间\(C[0,1]\)(无穷维空间)上的1-范数和∞-范数,不等价。
取函数序列\(f_n(x) = x^n\)\(x \in [0,1]\)

  1. ∞-范数:\(\|f_n\|_\infty = \max_{0\leq x\leq1} |x^n| = 1\),对所有n都成立;
  2. 1-范数:\(\|f_n\|_1 = \int_0^1 |x^n| dx = \frac{1}{n+1}\),当\(n\to\infty\)时,\(\|f_n\|_1 \to 0\)

如果两个范数等价,应该存在\(c_1>0\),使得\(c_1 \|f_n\|_\infty \leq \|f_n\|_1\),也就是\(c_1 \cdot 1 \leq \frac{1}{n+1}\)。但当n足够大时,\(\frac{1}{n+1}\)可以小于任意正数\(c_1\),不等式不可能成立,因此无穷维空间的范数不等价。


二、定理3.4 范数等价性的核心应用:向量序列的收敛性

2.1 定理内容与本质

定理3.4 向量序列\(\{\boldsymbol{x}^{(k)}\}\)按分量收敛于\(\boldsymbol{x}^*\),当且仅当对\(\mathbb{R}^n\)上的任意一种范数\(\|\cdot\|\),都有\(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0\),即:

\[\lim_{k\to\infty} \boldsymbol{x}^{(k)} = \boldsymbol{x}^* \iff \lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0 \]

大白话翻译
在有限维空间里,向量序列的收敛性,和范数的选择完全无关。只要在一种范数下误差趋近于0,那么在所有范数下误差都会趋近于0;按分量收敛,等价于任意范数下的范数收敛。

这就是这个定理的核心价值:我们做数值计算的时候,不用纠结选哪个范数,哪个范数计算方便,就用哪个,完全不用担心收敛性出问题。


2.2 证明过程拆解

这个证明是定理3.3的直接应用,逻辑非常清晰,分为两步:

步骤1:证明按分量收敛 ⇨ ∞-范数收敛

按分量收敛的定义是:对每个分量\(i=1,2,\dots,n\),都有\(\lim_{k\to\infty} x_i^{(k)} = x_i^*\),也就是\(\lim_{k\to\infty} |x_i^{(k)} - x_i^*| = 0\)

而∞-范数的定义是\(\|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty = \max_{1\leq i\leq n} |x_i^{(k)} - x_i^*|\),最大值趋近于0,当且仅当所有分量都趋近于0,因此:

\[\lim_{k\to\infty} \boldsymbol{x}^{(k)} = \boldsymbol{x}^* \iff \lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty = 0 \]

步骤2:用范数等价性推广到任意范数

\(\mathbb{R}^n\)上的任意一种范数\(\|\cdot\|\),根据定理3.3,存在正数\(c_1,c_2>0\),使得:

\[c_1 \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty \leq \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| \leq c_2 \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty \]

根据数列极限的夹逼准则

  • \(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty = 0\),则不等式右边\(c_2 \cdot 0 = 0\),左边\(c_1 \cdot 0 = 0\),因此中间的\(\|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|\)也趋近于0;
  • 反过来,若\(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0\),则左边\(c_1 \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty \leq 0\),而范数具有非负性,因此\(\|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty\)也必须趋近于0。

由此我们得到:

\[\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty = 0 \iff \lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0 \]

结合步骤1的等价性,就完成了定理的证明。


2.3 实际工程意义

这个定理是数值计算中迭代法收敛判断的核心依据,我给大家举一个最常见的例子:
我们用迭代法解线性方程组,或者求平方根、非线性方程的根时,不需要逐个检查每个分量的收敛情况,只需要计算相邻两次迭代的误差向量的∞-范数\(\|\boldsymbol{x}_{k+1} - \boldsymbol{x}_k\|_\infty\),只要这个值小于我们设定的精度(比如\(10^{-6}\)),就可以判定迭代收敛,停止计算。

原因很简单:

  1. ∞-范数计算最方便,只需要找分量的最大值,不需要求和、开平方;
  2. 根据定理3.4,∞-范数收敛,就意味着按分量收敛,也意味着1-范数、2-范数都收敛,完全不用担心精度问题。

教材里的例3.1就是最典型的应用:同时求\(\sqrt{2},\sqrt{3},\sqrt{5}\)的迭代,我们只需要计算\(\|\boldsymbol{x}_{k+1}-\boldsymbol{x}_k\|_\infty\),只要它趋近于0,就说明三个分量都收敛了,不需要逐个判断。


三、核心总结与易错点提醒

3.1 内容总结

  1. 定理3.3:有限维空间\(\mathbb{R}^n\)上的任意两种范数都是等价的,它们之间只差固定的正的常数倍,无穷维空间不满足这个性质;
  2. 定理3.4:有限维空间中,向量序列的按分量收敛,等价于任意范数下的范数收敛,收敛性和范数的选择无关;
  3. 核心价值:给了我们选择范数的自由,在数值计算中,优先选择计算方便的范数(通常是∞-范数),不用担心里程碑收敛性的问题。

3.2 多年教学经验总结的易错点

  1. 等价≠相等:范数等价,是指收敛性一致,不是范数的数值相等。同一个向量,不同范数的数值可以不同,只是它们之间有固定的上下界;
  2. 有限维限制:范数等价性仅适用于有限维线性空间,无穷维空间不成立,这是判断题、证明题的高频考点;
  3. 常数的固定性:等价常数\(c_1,c_2\)只和范数有关,和向量\(\boldsymbol{x}\)无关,是固定的正数,不是随向量变化的量;
  4. 收敛的等价性:定理3.4是“收敛性等价”,不是“收敛速度等价”。不同范数下,误差趋近于0的速度可以不同,但最终一定都会收敛。

3.1.3 内积与内积空间 深度讲解

各位同学,我们上一节课讲了范数,解决了“怎么衡量元素的大小”的问题;这一节课的内积,就是解决“怎么衡量元素之间的角度、正交性”的问题。

如果说范数是给线性空间装上了“长度标尺”,那内积就是给线性空间装上了“角度罗盘”,让我们能定义“垂直”“正交”“投影”这些几何概念,为后面的正交逼近、最小二乘法、傅里叶分析打下核心基础。


一、内积的本质:向量点积的推广

我们先从最熟悉的场景入手:三维空间\(\mathbb{R}^3\)里的两个向量\(\boldsymbol{a}=(a_1,a_2,a_3)\)\(\boldsymbol{b}=(b_1,b_2,b_3)\),它们的点积是:

\[\boldsymbol{a} \cdot \boldsymbol{b} = a_1b_1 + a_2b_2 + a_3b_3 \]

这个点积有三个核心性质:

  1. 对称性:\(\boldsymbol{a} \cdot \boldsymbol{b} = \boldsymbol{b} \cdot \boldsymbol{a}\)
  2. 线性性:\((\alpha\boldsymbol{a}+\beta\boldsymbol{b}) \cdot \boldsymbol{c} = \alpha(\boldsymbol{a} \cdot \boldsymbol{c}) + \beta(\boldsymbol{b} \cdot \boldsymbol{c})\)
  3. 正定性:\(\boldsymbol{a} \cdot \boldsymbol{a} \geq 0\),当且仅当\(\boldsymbol{a}=\boldsymbol{0}\)时,\(\boldsymbol{a} \cdot \boldsymbol{a}=0\)

同时,点积还能定义向量的长度和夹角:

  • 长度:\(\|\boldsymbol{a}\| = \sqrt{\boldsymbol{a} \cdot \boldsymbol{a}}\)
  • 夹角:\(\cos\theta = \frac{\boldsymbol{a} \cdot \boldsymbol{b}}{\|\boldsymbol{a}\| \|\boldsymbol{b}\|}\),当\(\boldsymbol{a} \cdot \boldsymbol{b}=0\)时,\(\theta=90^\circ\),即两向量垂直。

内积,就是把这三个核心性质和几何意义,抽象推广到任意线性空间上的数学工具。


二、内积的严格定义与内积空间

2.1 定义拆解

定义3.3\(V\)是数域\(F\)(实数域\(\mathbb{R}\)或复数域\(\mathbb{C}\))上的线性空间,对任意\(u,v \in V\),存在唯一的数\((u,v) \in F\)与之对应,且满足以下4个条件:

  1. 共轭对称性\((u,v) = \overline{(v,u)}\)
    • \(F=\mathbb{R}\)(实数域)时,共轭就是自身,因此退化为对称性\((u,v) = (v,u)\)
  2. 线性性(对第一个变量)\((\alpha u, v) = \alpha (u, v)\),其中\(\alpha \in F\)
    • 结合共轭对称性,可推出对第二个变量的共轭线性:\((u, \alpha v) = \overline{\alpha} (u, v)\)
  3. 可加性\((u + v, w) = (u, w) + (v, w)\),对任意\(u,v,w \in V\)成立;
  4. 正定性\((u,u) \geq 0\),当且仅当\(u=0\)(线性空间的零元)时,\((u,u)=0\)

则称\((u,v)\)\(V\)\(u\)\(v\)内积,定义了内积的线性空间\(V\),叫做内积空间

2.2 核心概念:正交

如果两个元素\(u,v \in V\)满足\((u,v)=0\),就称\(u\)\(v\)正交,记为\(u \perp v\)

✅ 直观意义:这是三维空间中“向量垂直”概念的直接推广。在函数空间里,两个函数正交,意味着它们在整个区间上“相互抵消”,没有重叠的能量,这是正交逼近、傅里叶分析的核心。


三、核心定理:柯西-施瓦茨不等式

3.1 定理内容

定理3.5\(V\)是一个内积空间,对任意\(u,v \in V\),有

\[|(u,v)|^2 \leq (u,u)(v,v) \]

这就是著名的柯西-施瓦茨(Cauchy-Schwarz)不等式

✅ 几何意义:在欧几里得空间里,它就是我们熟悉的\(|\boldsymbol{a} \cdot \boldsymbol{b}| \leq \|\boldsymbol{a}\| \|\boldsymbol{b}\|\),即“点积的绝对值不超过两个向量长度的乘积”,本质是\(\cos\theta\)的绝对值不超过1。

3.2 证明过程逐行拆解

这个证明是内积性质的经典应用,我给大家一步步拆解:

步骤1:处理特殊情况

\(v=0\)时,\((u,v)=0\)\((v,v)=0\),不等式两边都是0,显然成立。

步骤2:构造非负二次型

\(v \neq 0\)时,\((v,v) > 0\)(正定性)。对任意数\(\lambda \in F\),考虑内积:

\[(u + \lambda v, u + \lambda v) \geq 0 \]

根据内积的线性性和共轭对称性展开:

\[(u + \lambda v, u + \lambda v) = (u,u) + \lambda (v,u) + \overline{\lambda} (u,v) + |\lambda|^2 (v,v) \]

步骤3:选取特殊的\(\lambda\),消去交叉项

为了消去\(\lambda\)\(\overline{\lambda}\)的交叉项,我们选取\(\lambda = -\frac{(u,v)}{(v,v)}\),代入上式:

  • \(\lambda (v,u) = -\frac{(u,v)}{(v,v)} \cdot \overline{(u,v)} = -\frac{|(u,v)|^2}{(v,v)}\)
  • \(\overline{\lambda} (u,v) = -\frac{\overline{(u,v)}}{(v,v)} \cdot (u,v) = -\frac{|(u,v)|^2}{(v,v)}\)
  • \(|\lambda|^2 (v,v) = \frac{|(u,v)|^2}{(v,v)^2} \cdot (v,v) = \frac{|(u,v)|^2}{(v,v)}\)

代入后,非负二次型变为:

\[(u,u) - \frac{|(u,v)|^2}{(v,v)} - \frac{|(u,v)|^2}{(v,v)} + \frac{|(u,v)|^2}{(v,v)} \geq 0 \]

化简得:

\[(u,u) - \frac{|(u,v)|^2}{(v,v)} \geq 0 \]

两边同乘\((v,v) > 0\),就得到:

\[|(u,v)|^2 \leq (u,u)(v,v) \]

证明完毕。


四、内积导出的范数:内积空间是特殊的赋范线性空间

内积空间是“自带范数”的,我们可以直接从内积导出范数:

\[\|u\| = \sqrt{(u,u)} \]

4.1 验证范数的三个条件

  1. 正定性\(\|u\| = \sqrt{(u,u)} \geq 0\),当且仅当\(u=0\)时,\((u,u)=0\),即\(\|u\|=0\),满足正定性;
  2. 齐次性\(\|\alpha u\| = \sqrt{(\alpha u, \alpha u)} = \sqrt{|\alpha|^2 (u,u)} = |\alpha| \sqrt{(u,u)} = |\alpha| \|u\|\),满足齐次性;
  3. 三角不等式\(\|u + v\| \leq \|u\| + \|v\|\),这个不等式可以由柯西-施瓦茨不等式直接推出。

4.2 三角不等式的证明

我们从\((\|u\| + \|v\|)^2\)入手:

\[\begin{align*} (\|u\| + \|v\|)^2 &= \|u\|^2 + 2\|u\|\|v\| + \|v\|^2 \\ &= (u,u) + 2\|u\|\|v\| + (v,v) \\ &\geq (u,u) + 2|(u,v)| + (v,v) \quad \text{(由柯西-施瓦茨不等式)} \\ &\geq (u,u) + 2(u,v) + (v,v) \quad \text{(因为$2|(u,v)| \geq 2(u,v)$)} \\ &= (u + v, u + v) \\ &= \|u + v\|^2 \end{align*} \]

两边开方,就得到三角不等式\(\|u + v\| \leq \|u\| + \|v\|\)


五、核心例子:\(\mathbb{R}^n\)\(C[a,b]\)上的内积

5.1 \(\mathbb{R}^n\)\(\mathbb{C}^n\)中的内积

1. 标准内积(不带权)

\(\boldsymbol{x}=(x_1,x_2,\dots,x_n)^T, \boldsymbol{y}=(y_1,y_2,\dots,y_n)^T \in \mathbb{R}^n\),标准内积定义为:

\[(\boldsymbol{x},\boldsymbol{y}) = \sum_{i=1}^n x_i y_i = \boldsymbol{y}^T \boldsymbol{x} \]

由此导出的范数,就是我们熟悉的2-范数:

\[\|\boldsymbol{x}\|_2 = \sqrt{(\boldsymbol{x},\boldsymbol{x})} = \sqrt{\sum_{i=1}^n x_i^2} \]

2. 带权内积(加权内积)

如果给定正实数序列\(\omega_i > 0\)\(i=1,2,\dots,n\)),称为权系数,则可以定义带权内积:

\[(\boldsymbol{x},\boldsymbol{y}) = \sum_{i=1}^n \omega_i x_i y_i \]

相应的范数为:

\[\|\boldsymbol{x}\|_2 = \sqrt{\sum_{i=1}^n \omega_i x_i^2} \]

✅ 直观意义:权系数\(\omega_i\)表示对第\(i\)个分量的“重视程度”,\(\omega_i\)越大,这个分量在范数和内积中的权重就越高。当\(\omega_i=1\)时,就退化为标准内积。

3. 复向量空间\(\mathbb{C}^n\)中的带权内积

\(\boldsymbol{x},\boldsymbol{y} \in \mathbb{C}^n\),为了满足共轭对称性,内积定义为:

\[(\boldsymbol{x},\boldsymbol{y}) = \sum_{i=1}^n \omega_i x_i \overline{y_i} \]

其中\(\overline{y_i}\)\(y_i\)的共轭复数。


5.2 \(C[a,b]\)中的内积:权函数与带权内积

在连续函数空间\(C[a,b]\)中,我们把“离散求和”推广为“连续积分”,定义内积前,需要先定义权函数

1. 权函数的定义

定义3.4\([a,b]\)是有限或无限区间,非负函数\(\rho(x)\)满足:

  1. 积分\(\int_a^b x^k \rho(x) dx\)存在且有限(\(k=0,1,\dots\));
  2. \([a,b]\)上的非负连续函数\(g(x)\),如果\(\int_a^b g(x)\rho(x)dx=0\),则\(g(x) \equiv 0\)

则称\(\rho(x)\)\([a,b]\)上的一个权函数

2. \(C[a,b]\)中的带权内积

\(f(x),g(x) \in C[a,b]\),权函数\(\rho(x)\)给定,定义带权内积:

\[(f(x),g(x)) = \int_a^b \rho(x) f(x) g(x) dx \]

由此导出的范数为:

\[\|f(x)\|_2 = \sqrt{(f(x),f(x))} = \sqrt{\int_a^b \rho(x) f^2(x) dx} \]

✅ 最常用的特例:当\(\rho(x) \equiv 1\)时,就是标准内积和标准2-范数:

\[(f(x),g(x)) = \int_a^b f(x)g(x)dx, \quad \|f(x)\|_2 = \sqrt{\int_a^b f^2(x)dx} \]


六、内容总结与易错点提醒

6.1 内容总结

  1. 本质:内积是向量点积的推广,给线性空间定义了“角度”和“正交性”,内积空间是自带范数的特殊赋范线性空间;
  2. 定义:满足共轭对称性、线性性、可加性、正定性的二元函数,就是内积;
  3. 核心定理:柯西-施瓦茨不等式,是内积空间中最基本的不等式,也是证明三角不等式的关键;
  4. 核心例子\(\mathbb{R}^n\)中的标准内积、带权内积,\(C[a,b]\)中的带权内积,是我们后续学习的核心工具;
  5. 几何意义:正交是垂直的推广,内积导出的范数是长度的推广,内积空间是“可度量、可正交”的线性空间。

6.2 多年教学经验总结的易错点

  1. 共轭对称性:在复数域上,内积是共轭对称的,不是对称的,\((u,v) = \overline{(v,u)}\),很多同学会忽略共轭符号,导致错误;
  2. 线性性:内积对第一个变量是线性的,对第二个变量是共轭线性的,不是双线性的,这是复数域内积和实数域内积的重要区别;
  3. 权函数的非负性:权函数\(\rho(x)\)必须是非负的,且不能在区间上恒为0,否则会破坏内积的正定性;
  4. 内积导出范数的唯一性:由内积导出的范数,必须满足平行四边形法则\(\|u+v\|^2 + \|u-v\|^2 = 2\|u\|^2 + 2\|v\|^2\),不是所有范数都能由内积导出(比如1-范数、∞-范数就不能)。

下一节课,我们会利用内积和正交性,进入函数逼近的核心——最佳平方逼近,这是最小二乘法、傅里叶分析的直接应用。


格拉姆-施密特(Gram-Schmidt)正交化方法 深度讲解

各位同学,我们上一节课讲了内积和正交的概念,大家已经知道:正交基是线性空间中性质最好的一组基——用正交基计算坐标、内积、投影时,不会出现交叉项,计算量大幅降低,还能避免数值计算中的病态问题。

但我们实际拿到的基,往往是普通的线性无关组(比如多项式空间的\(\{1,x,x^2,\dots\}\)),不是正交的。今天要讲的格拉姆-施密特正交化,就是内积空间中最核心、最通用的方法:它能把任意一组线性无关的元素,转化为一组两两正交的元素,且不改变原元素张成的子空间。


一、方法的核心本质

格拉姆-施密特正交化的本质,是逐次投影相减法
对每一个新的元素,我们减去它在所有已经正交化的元素上的投影,剩下的部分就和之前所有的正交元素都垂直(正交)。

这个过程,就像把一组互相倾斜的坐标轴,一步步掰成互相垂直的坐标轴,同时保证坐标轴张成的空间完全不变。


二、定理3.6 内容与逐行拆解

2.1 定理完整内容

定理3.6\(\{u_1,u_2,\dots,u_k\}\)是内积空间\(V\)中的一组线性无关元素,按如下递推公式构造元素:

\[\begin{cases} v_1 = u_1, \\ v_i = u_i - \sum_{l=1}^{i-1} \frac{(u_i, v_l)}{(v_l, v_l)} v_l, \quad i=2,3,\dots,k, \end{cases} \]

\(\{v_1,v_2,\dots,v_k\}\)是一组两两正交的元素。

推论:若\(\{u_1,u_2,\dots,u_n\}\)\(V\)的一组基,则按上述方法得到的\(\{v_1,v_2,\dots,v_n\}\)\(V\)的一组正交基;若再将每个\(v_i\)单位化(除以自身范数),则得到\(V\)标准正交基


2.2 公式核心项解读

我们把递推公式的核心项拆开,大家就能立刻理解:

  1. 初始项\(v_1=u_1\):第一个元素直接保留,作为正交组的第一个基准元素。
  2. 投影系数\(\frac{(u_i, v_l)}{(v_l, v_l)}\):这是\(u_i\)\(v_l\)上的投影长度系数
    • 分子\((u_i, v_l)\)\(u_i\)\(v_l\)的内积,衡量两个元素的“重叠程度”;
    • 分母\((v_l, v_l) = \|v_l\|^2\),是\(v_l\)的范数平方,做归一化。
  3. 投影向量\(\frac{(u_i, v_l)}{(v_l, v_l)} v_l\):这是\(u_i\)\(v_l\)方向上的完整投影向量。
  4. 相减得到\(v_i\):把\(u_i\)中,和所有已正交的\(v_1,\dots,v_{i-1}\)重叠的投影部分全部减掉,剩下的部分就和所有\(v_1,\dots,v_{i-1}\)都正交。

三、几何意义:从二维/三维空间直观理解

我们用最熟悉的三维欧几里得空间举例,把抽象的公式变成直观的几何操作:

  1. 二维平面(2个线性无关向量)

    • 给定两个不共线的向量\(u_1,u_2\),要把它们变成正交的\(v_1,v_2\)
    • 第一步:\(v_1=u_1\),固定第一个向量。
    • 第二步:从\(u_2\)中减去它在\(v_1\)上的投影,剩下的\(v_2\)就和\(v_1\)垂直。
      这就是我们中学学的“把倾斜向量分解为垂直分量”,完全对应递推公式。
  2. 三维空间(3个线性无关向量)

    • 给定三个不共面的向量\(u_1,u_2,u_3\)
    • 前两步和二维一致,得到正交的\(v_1,v_2\)
    • 第三步:从\(u_3\)中,减去它在\(v_1\)上的投影,再减去它在\(v_2\)上的投影,剩下的\(v_3\)就同时和\(v_1,v_2\)都垂直,得到三维空间的正交基。

更高维的空间,逻辑完全一致:每一步都消除当前元素和已正交元素的所有重叠分量,最终得到两两正交的组。


四、定理的严谨证明(数学归纳法)

教材只给出了公式,我们用数学归纳法严格证明:按公式得到的\(\{v_1,\dots,v_k\}\)一定两两正交。

步骤1:基例验证(i=1)

\(i=1\)时,只有\(v_1\),不存在正交性问题,基例成立。

步骤2:归纳假设

假设前\(i-1\)个元素\(v_1,v_2,\dots,v_{i-1}\)已经两两正交,即对任意\(1\leq p < q \leq i-1\),都有\((v_p, v_q)=0\)

步骤3:归纳递推(证明\(v_i\)和所有\(v_1,\dots,v_{i-1}\)正交)

任取\(1\leq l \leq i-1\),计算内积\((v_i, v_l)\),将\(v_i\)的递推公式代入:

\[\begin{align*} (v_i, v_l) &= \left( u_i - \sum_{m=1}^{i-1} \frac{(u_i, v_m)}{(v_m, v_m)} v_m ,\ v_l \right) \\ &= (u_i, v_l) - \sum_{m=1}^{i-1} \frac{(u_i, v_m)}{(v_m, v_m)} \cdot (v_m, v_l) \end{align*} \]

根据归纳假设,当\(m \neq l\)时,\((v_m, v_l)=0\),求和项中只有\(m=l\)的项非零,因此:

\[\begin{align*} (v_i, v_l) &= (u_i, v_l) - \frac{(u_i, v_l)}{(v_l, v_l)} \cdot (v_l, v_l) \\ &= (u_i, v_l) - (u_i, v_l) = 0 \end{align*} \]

\(v_i\)和所有\(v_1,\dots,v_{i-1}\)都正交。

由数学归纳法,对所有\(1\leq i \leq k\)\(\{v_1,\dots,v_k\}\)两两正交,定理得证。


五、核心性质补充

  1. 线性无关性保持:正交组一定是线性无关组。
    证明:若\(\sum_{i=1}^k a_i v_i = 0\),两边和\(v_j\)做内积,得\(a_j (v_j, v_j) = 0\)。因\(v_j \neq 0\)(原组线性无关),故\(a_j=0\),所有系数为0,线性无关。

  2. 张成空间不变\(\text{span}\{v_1,v_2,\dots,v_k\} = \text{span}\{u_1,u_2,\dots,u_k\}\)
    正交化过程只是对原元素做线性组合,没有引入新元素,也没有丢失原元素的信息,生成的子空间完全一致。

  3. 单位化扩展:对正交组\(\{v_i\}\),令\(e_i = \frac{v_i}{\|v_i\|} = \frac{v_i}{\sqrt{(v_i,v_i)}}\),则\(\{e_1,\dots,e_k\}\)标准正交组(两两正交,且每个元素的范数为1)。


六、经典实例:多项式空间的正交化

我们结合上一节的函数内积,用一个具体例子演示正交化的完整过程,这也是后续正交多项式、最佳平方逼近的基础。

:在多项式空间\(\mathcal{P}_2\)中,取基\(\{u_1,u_2,u_3\}=\{1,x,x^2\}\),定义内积为\((f,g)=\int_{-1}^1 f(x)g(x)dx\),用格拉姆-施密特正交化构造正交基。

步骤1:构造\(v_1\)

\[v_1 = u_1 = 1 \]

计算内积:\((v_1,v_1) = \int_{-1}^1 1\cdot1 dx = 2\)

步骤2:构造\(v_2\)

\[v_2 = u_2 - \frac{(u_2,v_1)}{(v_1,v_1)} v_1 \]

计算内积:\((u_2,v_1) = \int_{-1}^1 x\cdot1 dx = 0\)(奇函数在对称区间积分)
因此:\(v_2 = x - 0 = x\)
计算内积:\((v_2,v_2) = \int_{-1}^1 x^2 dx = \frac{2}{3}\)

步骤3:构造\(v_3\)

\[v_3 = u_3 - \frac{(u_3,v_1)}{(v_1,v_1)} v_1 - \frac{(u_3,v_2)}{(v_2,v_2)} v_2 \]

计算内积:

  • \((u_3,v_1) = \int_{-1}^1 x^2\cdot1 dx = \frac{2}{3}\)
  • \((u_3,v_2) = \int_{-1}^1 x^2\cdot x dx = \int_{-1}^1 x^3 dx = 0\)

代入得:

\[v_3 = x^2 - \frac{2/3}{2} \cdot 1 - 0 = x^2 - \frac{1}{3} \]

结果验证

最终得到正交基\(\{1, x, x^2-\frac{1}{3}\}\),两两正交,这就是著名的勒让德正交多项式的前三项,完美验证了方法的有效性。


七、应用场景与易错点提醒

7.1 核心应用场景

  1. 数值分析:构造正交多项式,解决最佳平方逼近、曲线拟合问题,避免法方程组的病态性;
  2. 线性代数:实现矩阵的QR分解,是求解线性方程组、特征值问题的核心算法;
  3. 信号处理:构造正交基,是傅里叶分析、小波分析、信号去噪的基础;
  4. 机器学习:主成分分析(PCA)中正交化特征向量,实现数据降维。

7.2 高频易错点(多年教学经验总结)

  1. 公式项写错:递推公式中,投影的内积是\((u_i, v_l)\),不是\((u_i, u_l)\);分母是\((v_l, v_l)\),不是\((u_l, u_l)\)。必须是减去在已正交化的\(v_l\)上的投影,不是原元素\(u_l\)
  2. 忽略前提条件:正交化的前提是原组线性无关。若原组线性相关,正交化过程中会出现\(v_i=0\),无法得到正交基。
  3. 内积定义不明确:不同的内积(不同区间、不同权函数),正交化的结果完全不同。计算前必须先明确内积的定义。
  4. 正交≠单位正交:正交只要求两两内积为0,不要求范数为1;单位正交需要额外做归一化,二者不能混淆。

3.1.4 最佳逼近 深度讲解

各位同学,我们前面用了四节课的时间,搭建了线性空间、范数、内积、正交化这一整套数学工具,今天我们就把这些工具落地,解决函数逼近最核心的问题:对于给定的连续函数,怎么在指定的函数空间里,找到“最好”的那个逼近函数

我们开篇就讲过,插值法要求曲线严格穿过所有数据点,不适合带误差的观测数据;而函数逼近,就是放弃“严格过点”的要求,转而追求整个区间上的整体误差最小。而“最佳”的定义,完全由我们之前讲的范数决定——选不同的范数,就对应不同的“最佳逼近”准则,也就有不同的求解方法和应用场景。


一、最佳逼近的通用定义

1.1 问题背景

给定闭区间上的连续函数\(f(x) \in C[a,b]\),我们选定一个有限维的线性子空间\(\Phi\)(通常由一组线性无关的基函数张成):

\[\Phi = \text{span}\{\varphi_0(x), \varphi_1(x), \dots, \varphi_n(x)\} \]

最常见的子空间就是次数不超过n的多项式空间\(\mathcal{P}_n\),对应的基函数是\(\{1,x,x^2,\dots,x^n\}\)

1.2 最佳逼近的严格定义

若存在\(p^*(x) \in \Phi\),使得误差的范数满足:

\[\| f(x) - p^*(x) \| = \min_{p(x) \in \Phi} \| f(x) - p(x) \| \]

则称\(p^*(x)\)\(f(x)\)在子空间\(\Phi\)中的最佳逼近函数;当\(\Phi = \mathcal{P}_n\)时,称\(p^*(x)\)最佳逼近多项式

✅ 核心解读:

  1. “最佳”的本质:在整个子空间里,找一个让误差范数最小的函数,没有任何其他函数能比它的误差更小。
  2. 范数的决定性作用:范数是衡量误差大小的“标尺”,选不同的标尺,就会得到不同的最佳逼近函数。
  3. 存在性保证:对于有限维线性子空间,最佳逼近一定存在。因为范数是关于系数的连续函数,有限维空间的有界闭集是紧集,连续函数在紧集上一定能取到最小值。

二、两类核心的最佳逼近

在数值分析中,最常用的是两种范数对应的最佳逼近:∞-范数对应的最佳一致逼近,和2-范数对应的最佳平方逼近,我们分别详细讲解。

2.1 最佳一致逼近(极小极大逼近/切比雪夫逼近)

1. 定义

当我们取范数为∞-范数(最大范数)时,最佳逼近的定义为:

\[\| f(x) - p^*(x) \|_\infty = \min_{p \in \mathcal{P}_n} \max_{a \leq x \leq b} |f(x) - p(x)| \]

满足该式的\(p^*(x)\),称为\(f(x)\)\([a,b]\)上的最佳一致逼近多项式

2. 核心本质

最佳一致逼近的核心是让整个区间上的最大误差最小化,也就是我们常说的“最坏情况最优”。它不追求某个局部的误差最小,而是保证在整个区间\([a,b]\)上,误差的最大值尽可能小,让误差在整个区间上均匀分布,因此也叫一致逼近

3. 特点与应用场景

  • 优点:严格控制整个区间的误差上限,逼近效果均匀,不会出现局部误差过大的情况;
  • 缺点:求解难度大,需要用到切比雪夫逼近定理,计算复杂度高;
  • 典型应用:对误差上限有严格要求的工程场景,比如工业控制系统、精密仪器的函数计算、计算机中的数学库函数实现(比如sin、cos函数的计算),要求整个定义域内的误差都不超过预设的精度阈值。

2.2 最佳平方逼近

1. 定义

当我们取范数为2-范数(欧几里得范数)时,最佳逼近的定义为:

\[\| f(x) - p^*(x) \|_2^2 = \min_{p \in \mathcal{P}_n} \int_a^b \rho(x) \left[ f(x) - p(x) \right]^2 dx \]

其中\(\rho(x)\)是我们之前讲的权函数,满足非负、可积的要求,默认取\(\rho(x) \equiv 1\)。满足该式的\(p^*(x)\),称为\(f(x)\)\([a,b]\)上的最佳平方逼近多项式

2. 核心本质

最佳平方逼近的核心是让整个区间上的误差平方积分最小化,也就是“整体平均误差最优”。它不纠结于某个单点的最大误差,而是让整个区间上的误差总和最小,追求整体的拟合效果最优。

3. 特点与应用场景

  • 优点:和内积直接挂钩,求解过程可以转化为线性方程组(法方程组),计算简单;如果使用正交基函数,还能进一步简化计算,避免方程组的病态问题;
  • 缺点:无法严格控制单点的最大误差,可能出现个别点的误差稍大的情况;
  • 典型应用:数据处理、统计建模、信号滤波、有限元分析等场景,关注整体的拟合效果,允许局部有小范围的误差波动。

2.3 离散版本:最小二乘拟合

在实际工程和实验中,我们很少能拿到连续的函数表达式,更多的是一组带误差的离散观测数据:在区间\([a,b]\)上的m+1个节点\(a \leq x_0 < x_1 < \dots < x_m \leq b\),对应的观测值\(f_i = f(x_i)\)\(i=0,1,\dots,m\))。

针对离散数据,我们把连续的积分转化为离散的求和,就得到了最小二乘拟合的定义:

\[\| f - P^* \|_2^2 = \min_{P \in \Phi} \sum_{i=0}^m \left[ f_i - P(x_i) \right]^2 \]

满足该式的\(P^*(x)\),称为\(f(x)\)最小二乘拟合函数

✅ 核心解读:

  1. 本质:最小二乘拟合是离散形式的最佳平方逼近,把连续的积分误差,换成了离散点的误差平方和,核心目标都是让平方误差最小。
  2. 带权扩展:如果不同观测点的可信度不同,可以引入权系数\(\omega_i > 0\),定义带权最小二乘:\(\min \sum_{i=0}^m \omega_i \left[ f_i - P(x_i) \right]^2\),权重越大,该点的拟合优先级越高。
  3. 应用场景:这是实际中最常用的拟合方法,实验数据处理、回归分析、机器学习的线性回归、曲线拟合,本质都是最小二乘拟合。

三、三类逼近方法的核心对比

为了让大家更清晰地区分,我们用表格整理三类方法的核心差异:

逼近类型 所用范数 误差核心定义 核心目标 适用场景 求解特点
最佳一致逼近 ∞-范数 区间上的最大误差 最坏情况最优,误差均匀最小 精密计算、误差上限严格控制的工程场景 求解复杂,需切比雪夫定理
最佳平方逼近 2-范数(连续) 误差平方的积分 整体平均误差最优 连续函数的整体拟合、信号处理 转化为法方程组,正交基可简化计算
最小二乘拟合 2-范数(离散) 离散点的误差平方和 观测数据的整体拟合误差最小 实验数据拟合、回归分析、线性建模 求解简单,线性回归的核心方法

四、内容总结与前后知识衔接

这一节的内容,是我们前面所有知识点的最终落脚点,整个逻辑链条完全闭环:

  1. 线性空间:定义了我们找逼近函数的“范围”——有限维子空间\(\Phi\),用基函数可以表示任意逼近函数;
  2. 范数:定义了“最佳”的衡量标准,不同范数对应不同的逼近准则;
  3. 内积与正交化:为最佳平方逼近提供了核心求解工具,用正交基可以大幅简化计算,避免法方程组的病态问题;
  4. 最佳逼近:最终解决了“怎么找最好的逼近函数”的核心问题,是整个函数逼近理论的核心目标。

最后给大家强调一个最关键的区别:插值是“严格过点”,逼近是“整体最优”。当你的数据带有测量误差时,强行插值会放大误差,而最佳逼近(尤其是最小二乘拟合)能平滑掉噪声,得到更符合真实规律的函数,这也是我们这一章和上一章插值法的核心区别。

posted on 2026-02-18 07:40  Indian_Mysore  阅读(0)  评论(0)    收藏  举报

导航