3.1函数逼近的基本概念授课
3.1 函数逼近的基本概念 深度讲解
今天我们来系统拆解数值分析中函数逼近的基础概念。我会从「问题起源→核心工具→理论基石→通用框架」四个层面,把每个知识点讲透,同时帮大家理清知识点之间的逻辑关联,避开学习中最容易踩的坑。
一、开篇:我们为什么要学函数逼近?
在学习这一章之前,我们上一章刚学了插值法。插值的核心要求是:构造的多项式必须严格经过所有给定的节点,也就是在节点上,插值多项式和被插值函数的函数值完全相等。
但在实际工程、实验场景中,我们拿到的函数值数据,几乎都带有测量误差、随机噪声。比如你做实验测出来的一组(x,y),y本身就不是真实的函数值,只是一个近似值。这时候如果强行让插值曲线严格穿过这些带误差的点,反而会把噪声、误差放大,得到的曲线和真实的函数规律偏差极大,完全失去了近似的意义。
这时候,我们就需要换一个思路:不要求曲线严格过所有点,而是找一个形式简单的函数,在整个区间上,和真实函数(或观测数据)的整体误差最小。这就是函数逼近(也叫曲线拟合)要解决的核心问题。
要解决这个问题,我们首先要回答两个最根本的问题:
- 我们用来逼近的函数,和被逼近的函数,它们属于什么数学对象?在什么框架下研究?—— 这就是我们要讲的线性空间。
- 怎么衡量两个函数的“接近程度”?怎么定义“误差最小”?—— 这就是后续要讲的范数、内积,也是函数逼近的度量标准。
这就是教材先讲线性空间的原因:先搭建我们研究的数学框架,再定义度量规则,最后才能求解“最优逼近”的问题。
二、核心基础:线性空间
2.1 线性空间的严格定义
线性空间,本质上是一个对加法和数乘运算封闭、且满足8条运算律的集合。我们把它拆解成最核心的两个部分:
1. 两个核心运算(封闭性是核心)
设V是一个非空集合,F是一个数域(我们课程里只用到实数域R或复数域C),定义两个运算:
- 加法:对任意两个元素\(x,y \in V\),它们的和\(x+y\)仍然属于V(对加法封闭)
- 数乘:对任意元素\(x \in V\),任意数\(\alpha \in F\),它们的数乘\(\alpha x\)仍然属于V(对数乘封闭)
2. 8条运算律(运算必须满足的规则)
加法4条:
- 交换律:\(x+y = y+x\)
- 结合律:\((x+y)+z = x+(y+z)\)
- 存在零元:V中存在唯一的零元素\(0\),对任意\(x \in V\),都有\(x+0=x\)
- 存在负元:对任意\(x \in V\),存在唯一的负元素\(-x \in V\),使得\(x+(-x)=0\)
数乘4条:
- 数乘结合律:\(\alpha(\beta x) = (\alpha\beta)x\)
- 数乘对元素加法的分配律:\(\alpha(x+y)=\alpha x+\alpha y\)
- 数的加法对数乘的分配律:\((\alpha+\beta)x=\alpha x+\beta x\)
- 单位元:\(1\cdot x = x\)
只有同时满足「加法、数乘封闭」+「8条运算律」,集合V才是数域F上的线性空间。教材里的通俗描述,核心就是“运算结果仍然在集合中”,本质就是封闭性+运算规则。
2.2 我们课程中3个核心的线性空间(必须吃透)
线性空间是一个很抽象的概念,但我们数值分析里,只需要重点掌握3个和函数、计算相关的线性空间,所有的逼近问题都在这几个空间里展开。
例子1:连续函数空间 \(C[a,b]\) 与 \(C^n[a,b]\)
-
定义:\(C^n[a,b]\) 是闭区间\([a,b]\)上,所有具有n阶连续导数的实值(或复值)函数构成的集合。
-
为什么是线性空间:
- 加法封闭:如果\(f(x),g(x)\)都有n阶连续导数,那么\(f(x)+g(x)\)的n阶导数是\(f^{(n)}(x)+g^{(n)}(x)\),两个连续函数相加仍然连续,因此\(f+g \in C^n[a,b]\)。
- 数乘封闭:对任意实数\(\alpha\),\(\alpha f(x)\)的n阶导数是\(\alpha f^{(n)}(x)\),仍然连续,因此\(\alpha f \in C^n[a,b]\)。
- 8条运算律天然满足:零元就是恒等于0的函数,负元就是\(-f(x)\),函数的加法和数乘天然符合交换律、结合律等规则。
-
特殊情况:当\(n=0\)时,\(C^0[a,b]\)就简记为\(C[a,b]\),也就是闭区间\([a,b]\)上所有连续函数构成的集合。这是我们函数逼近最核心的研究空间——我们要逼近的目标函数,几乎都属于\(C[a,b]\)。
例子2:多项式空间 \(\mathcal{P}_n\)
-
定义:所有次数不超过n的一元多项式构成的集合。
❗ 这里必须重点强调:是「不超过n次」,不是「恰好n次」!这是90%的学生都会踩的坑。
如果是“恰好n次的多项式”,对加法不封闭:比如\(p(x)=x^n+1\),\(q(x)=-x^n+2\),相加后\(p+q=3\),是0次多项式,不属于“恰好n次的多项式集合”,因此不构成线性空间。只有“次数≤n”的集合,才是线性空间。 -
为什么是线性空间:
- 加法封闭:两个次数≤n的多项式相加,最高次项不会超过n,结果仍然属于\(\mathcal{P}_n\)。
- 数乘封闭:数乘一个次数≤n的多项式,次数不会升高,结果仍然属于\(\mathcal{P}_n\)。
- 运算律天然满足:零元是零多项式,负元是\(-p(x)\),符合所有运算规则。
-
和上一章的关联:上一章的插值法,本质就是用\(\mathcal{P}_n\)中的多项式,去近似\(C[a,b]\)中的连续函数,只是插值要求“节点处函数值严格相等”,而我们这一章的逼近,要求“整体误差最小”。
例子3:向量/矩阵空间 \(\mathbb{R}^n\) / \(\mathbb{R}^{m\times n}\)
这是大家线性代数里最熟悉的线性空间:
- \(\mathbb{R}^{m\times n}\):所有m行n列的实矩阵构成的集合,按矩阵加法和数乘,构成线性空间。
- 特例:当\(m=1\)时,就是1行n列的行向量,也就是n维实向量空间\(\mathbb{R}^n\)。
这个空间的意义在于:我们后面会把函数空间里的元素,通过“基”和“坐标”,和\(\mathbb{R}^n\)里的向量一一对应,把抽象的函数问题,转化为我们熟悉的向量、矩阵问题来求解。
三、线性空间的核心结构:线性相关/无关、基、维数、坐标
有了线性空间,我们接下来要搞清楚:这个空间的“骨架”是什么?怎么把空间里的抽象元素,变成我们能计算的具体数字?这就要靠线性相关/无关、基、维数、坐标这几个核心概念。
3.1 线性相关与线性无关
这是定义基的基础,我们先给严谨定义,再给大白话解释。
设V是数域F上的线性空间,有一组元素\(x_1,x_2,\dots,x_n \in V\):
-
线性相关:如果存在不全为0的数\(\alpha_1,\alpha_2,\dots,\alpha_n \in F\),使得
\[\alpha_1x_1 + \alpha_2x_2 + \dots + \alpha_nx_n = 0 \]就称这组元素线性相关。
✅ 大白话:这组元素里,至少有一个元素,可以被其他元素线性表示出来,也就是“有多余的元素”,不是互相独立的。
❗ 易错提醒:是“不全为0”,不是“全不为0”!只要有一个系数不是0就满足条件,不是所有系数都不能为0。 -
线性无关:如果上面的等式,只有当\(\alpha_1=\alpha_2=\dots=\alpha_n=0\)时才成立,就称这组元素线性无关。
✅ 大白话:这组元素里,没有任何一个能被其他元素线性表示,每个元素都是“独立的”,没有冗余。
3.2 基、维数、坐标
这三个概念,是把抽象线性空间和我们熟悉的数值计算连接起来的桥梁。
1. 定义
如果线性空间V中,能找到n个线性无关的元素\(x_1,x_2,\dots,x_n\),使得V中任意一个元素x,都能被这n个元素线性表示:
那么:
- 这组元素\(\{x_1,x_2,\dots,x_n\}\),叫做V的一组基(相当于这个空间的“坐标系”);
- 基中元素的个数n,叫做线性空间V的维数,记为\(\dim V = n\),称V是n维线性空间;
- 这组系数\((\alpha_1,\alpha_2,\dots,\alpha_n)\),叫做元素x在这组基下的坐标。
2. 两个核心性质
- 基不唯一,维数唯一:同一个线性空间,可以有无数组不同的基,但不管哪组基,基中元素的个数(维数)是固定的,是线性空间的固有属性。
- 基固定时,坐标唯一:对于给定的一组基,一个元素的坐标是唯一的,这样我们就能把抽象的元素,和唯一的一组数(坐标)一一对应起来。
3.3 对应核心例子,吃透基与维数
我们还是用之前的3个核心线性空间,把基、维数、坐标对应起来,大家就能立刻理解。
例子1:n维向量空间\(\mathbb{R}^n\)
- 标准基:\(\{e_1,e_2,\dots,e_n\}\),其中\(e_1=(1,0,\dots,0), e_2=(0,1,\dots,0), \dots, e_n=(0,\dots,0,1)\)。
- 线性无关性:只有全0的系数,才能让它们的线性组合等于零向量,因此线性无关。
- 维数:\(\dim \mathbb{R}^n = n\),和我们的认知完全一致。
- 坐标:任意向量\(x=(x_1,x_2,\dots,x_n) \in \mathbb{R}^n\),都能表示为\(x = x_1e_1 + x_2e_2 + \dots + x_ne_n\),因此它在标准基下的坐标,就是它本身\((x_1,x_2,\dots,x_n)\)。
例子2:多项式空间\(\mathcal{P}_n\)
-
标准基:\(\{1, x, x^2, \dots, x^n\}\)。
先验证线性无关:假设\(\alpha_0\cdot1 + \alpha_1\cdot x + \dots + \alpha_n\cdot x^n = 0\)(零多项式,即对所有x都等于0)。一个多项式是零多项式,当且仅当它的所有系数都为0,因此只有\(\alpha_0=\alpha_1=\dots=\alpha_n=0\)时等式成立,这组元素线性无关。 -
❗ 重点提醒:维数\(\dim \mathcal{P}_n = n+1\)!
基里有n+1个元素,因此维数是n+1,不是n!比如\(\mathcal{P}_1\)(一次多项式\(ax+b\))的维数是2,\(\mathcal{P}_0\)(常数多项式)的维数是1,这是考试里最常考的易错点。 -
坐标:任意多项式\(p(x)=a_0 + a_1x + \dots + a_nx^n \in \mathcal{P}_n\),在标准基下的坐标就是\((a_0,a_1,\dots,a_n)\)。
-
和上一章插值的关联:
上一章的拉格朗日插值基函数\(\{l_0(x),l_1(x),\dots,l_n(x)\}\)、牛顿插值基函数\(\{1,\omega_1(x),\dots,\omega_n(x)\}\),都是\(\mathcal{P}_n\)的一组基!
原因很简单:它们有n+1个线性无关的元素,且任意次数≤n的多项式,都能表示为它们的线性组合(拉格朗日插值多项式、牛顿插值多项式)。这就是为什么它们叫“基函数”——它们本身就是多项式空间的一组基。
而且:多项式在拉格朗日基下的坐标,就是节点处的函数值;在牛顿基下的坐标,就是对应的各阶均差,完美对应上一章的内容。
例子3:连续函数空间\(C[a,b]\)
教材里明确说明:\(C[a,b]\)是无限维线性空间。
原因很简单:我们能在里面找到任意多个线性无关的元素,比如\(\{1,x,x^2,\dots,x^n,\dots\}\),不管你取多少个,这组元素都是线性无关的,因此它没有有限个元素组成的基,是无限维的。
而\(\mathcal{P}_n\)是\(C[a,b]\)的有限维子空间——\(\mathcal{P}_n\)里的所有元素都属于\(C[a,b]\),且本身也是线性空间。
四、函数逼近的理论基石:魏尔斯特拉斯逼近定理
现在我们有了一个核心问题:\(C[a,b]\)是无限维的,\(\mathcal{P}_n\)是有限维的,我们用有限维的多项式,能不能逼近无限维空间里的任意连续函数?能不能让误差要多小有多小?
魏尔斯特拉斯(Weierstrass)逼近定理,完美回答了这个问题,给了我们肯定的答案,是整个函数逼近的理论基础——它告诉我们:用多项式逼近闭区间上的连续函数,是完全可行的。
4.1 定理内容
定理3.1 设\(f(x) \in C[a,b]\)(即\(f(x)\)在闭区间\([a,b]\)上连续),则对任意给定的\(\varepsilon>0\)(无论\(\varepsilon\)多小),总存在一个代数多项式\(p(x)\),使得
✅ 大白话翻译:只要\(f(x)\)是闭区间上的连续函数,我们总能找到一个多项式,让它在整个区间上,和\(f(x)\)的最大误差,比你给的任意小的正数\(\varepsilon\)还要小。也就是,多项式可以一致逼近闭区间上的任意连续函数,精度可以任意控制。
4.2 定理的核心意义
- 理论意义:彻底解决了“能不能逼近”的问题,证明了闭区间上的连续函数,都可以用多项式任意精度地近似,给了函数逼近的理论底气。
- 实际意义:告诉我们,无论多复杂的连续函数,我们都能用形式简单的多项式来近似,而且精度可以按需控制,这是数值计算中用多项式近似复杂函数的根本依据。
4.3 构造性证明:伯恩斯坦多项式
魏尔斯特拉斯定理最初的证明是存在性证明——只说了“存在这样的多项式”,但没说怎么找。1912年,伯恩斯坦给出了一个构造性证明,直接把满足要求的多项式构造了出来,这就是伯恩斯坦多项式。
1. 定义
对于\([0,1]\)区间上的连续函数\(f(x)\),它的n次伯恩斯坦多项式为:
其中\(\binom{n}{k} = \frac{n!}{k!(n-k)!}\)是二项式组合数。
2. 核心性质
- 它是一个次数不超过n的多项式,即\(B_n(f,x) \in \mathcal{P}_n\);
- 一致收敛性:\(\lim_{n\to\infty} B_n(f,x) = f(x)\),且这个收敛在\([0,1]\)上是一致收敛的,也就是整个区间上都同步收敛,不是只在某个点收敛;
- 导数收敛性:如果\(f(x)\)有m阶连续导数,那么\(B_n(f,x)\)的m阶导数,也一致收敛到\(f(x)\)的m阶导数,不仅函数值收敛,导数也同步收敛。
3. 优缺点
- 优点:理论意义重大,给出了魏尔斯特拉斯定理的构造性证明,形式对称,性质优良;
- 缺点:收敛速度极慢!要达到很高的精度,n需要取到非常大,计算量急剧上升,因此实际工程计算中几乎不会使用,它的价值主要在理论层面。
五、函数逼近的通用框架
多项式只是函数逼近的一种选择,我们可以用更一般的函数组来做逼近,这就是教材里给出的通用框架,也是后面傅里叶变换、正交逼近的基础。
5.1 通用逼近框架
我们在\(C[a,b]\)中,选取一组线性无关的函数\(\{\varphi_0(x), \varphi_1(x), \dots, \varphi_n(x)\}\),用它们张成一个子空间:
也就是说,\(\Phi\)里的任意元素\(\varphi(x)\),都可以表示为这组基函数的线性组合:
此时,函数逼近的核心问题就转化为:
对任意\(f(x) \in C[a,b]\),在子空间\(\Phi\)中,找到一个元素\(\varphi^*(x)\),使得\(f(x)-\varphi^*(x)\)在某种度量意义下的误差最小。
5.2 经典例子:傅里叶级数
教材里举的傅里叶级数,就是这个框架最经典的应用,也是后面快速傅里叶变换的基础。
对于周期函数,我们不用多项式,而是用三角函数系:
这组函数是线性无关的,而且是正交的(后面会讲),用它们张成的子空间去逼近周期函数,效果远好于多项式,这就是傅里叶分析的核心。
六、内容总结与后续铺垫
今天我们把3.1节的内容完整拆解了一遍,整个逻辑链条非常清晰:
- 问题起源:插值不适合带误差的数据,需要整体近似的函数逼近;
- 研究框架:线性空间——定义了我们研究的函数、向量所在的空间,以及运算规则;
- 空间结构:线性相关/无关、基、维数——把抽象的函数,转化为可计算的坐标,打通了函数空间和向量空间的壁垒;
- 理论基础:魏尔斯特拉斯定理——证明了多项式可以任意精度逼近连续函数,解决了“能不能逼近”的问题;
- 通用框架:用任意线性无关的基函数张成子空间做逼近,为后续正交逼近、傅里叶变换做了铺垫。
下一部分,我们就要解决本节课留下的核心问题:怎么定义“误差最小”? 也就是线性空间中的范数、内积,有了度量标准,我们才能真正求解“最优逼近函数”。
学习避坑指南(多年教学经验总结)
- 牢记\(\mathcal{P}_n\)的维数是\(n+1\),不是n,这是期末必考的易错点;
- 线性相关的定义是“不全为0”,不是“全不为0”,不要搞反;
- 魏尔斯特拉斯定理的适用条件是「闭区间上的连续函数」,开区间、不连续函数不适用;
- 伯恩斯坦多项式收敛极慢,实际计算不要硬用,它的核心价值是理论证明;
- 基不唯一,但维数是线性空间的固有属性,不会随基的选择改变。
3.1.2 范数与赋范线性空间 深度讲解
各位同学,我们上一节课搭建了线性空间这个研究框架,解决了“函数逼近的研究对象在哪里”的问题;这一节课的范数,就是解决函数逼近最核心的底层问题:怎么衡量线性空间中元素的“大小”?怎么定义两个元素之间的“距离”?怎么量化“逼近误差”?
没有范数,我们就没法说“两个函数有多接近”,更没法找“误差最小的逼近函数”。可以说,范数就是整个数值分析、函数逼近的“度量标尺”。
一、范数的本质:向量长度的推广
我们先从最熟悉的场景入手:三维空间\(\mathbb{R}^3\)里的一个向量\(\boldsymbol{x}=(x,y,z)\),它的长度是\(\sqrt{x^2+y^2+z^2}\),这个长度有三个非常直观的性质:
- 长度非负:只有零向量的长度是0,其他向量长度都大于0;
- 伸缩不变:把向量放大\(\alpha\)倍,长度也放大\(|\alpha|\)倍;
- 三角不等式:两个向量相加的长度,不超过两个向量长度的和(两点之间直线最短)。
范数,就是把这三个核心性质抽象出来,推广到任意线性空间上,用来衡量线性空间中任意元素“大小”的数学工具。
二、范数的严格定义与赋范线性空间
2.1 定义拆解
定义3.1 设\(V\)是数域\(F\)上的线性空间,对任意的\(x \in V\),若存在唯一实数\(\|x\|\)与之对应,且满足以下3个条件:
- 正定性:\(\|x\| \geq 0\),当且仅当\(x=0\)(线性空间的零元)时,\(\|x\|=0\);
- 齐次性:\(\|\alpha x\| = |\alpha| \cdot \|x\|\),其中\(\alpha \in F\)(数域中的数);
- 三角不等式(三角不等式):\(\|x+y\| \leq \|x\| + \|y\|\),对任意\(x,y \in V\)成立。
则称\(\|\cdot\|\)是线性空间\(V\)上的一个范数,装备了范数的线性空间\(V\),就叫做赋范线性空间。
2.2 三个条件的核心意义(缺一不可)
我给大家拆解每个条件的作用,为什么必须同时满足这三个条件,才能叫“范数”:
- 正定性:这是“大小”的根本属性——没有大小为负的元素,只有“不存在”的零元,大小才是0。如果去掉“当且仅当x=0时||x||=0”,就退化成了“半范数”,不能唯一衡量元素的大小。
- 齐次性:保证了元素的“伸缩”和“大小的伸缩”是同步的。比如你把函数放大2倍,它的“大小”也应该放大2倍,而不是其他倍数,符合我们对“长度”的直观认知。
❗ 易错提醒:这里的\(|\alpha|\)是数的绝对值(复数的模),不是范数,不要和范数符号搞混。 - 三角不等式:这是范数最核心的性质,也叫“次可加性”。它保证了“两个元素合起来的大小,不会超过各自大小的和”,对应我们常说的“两点之间直线最短”,是定义距离、极限、收敛的基础。
三、两类核心空间的常用范数
我们数值分析中,最核心的就是n维向量空间\(\mathbb{R}^n\)和连续函数空间\(C[a,b]\),我们分别讲解它们的常用范数,大家会发现,这两类范数是完全对应的——离散的向量对应求和,连续的函数对应积分。
3.1 n维向量空间\(\mathbb{R}^n\)的常用范数
对任意n维向量\(\boldsymbol{x}=(x_1,x_2,\dots,x_n)^T \in \mathbb{R}^n\),我们有3种最常用的范数,它们都是p-范数的特例。
1. 统一形式:p-范数
当\(p\)取1、2、\(+\infty\)时,就得到我们最常用的3种范数。
2. 1-范数(和范数)
✅ 直观意义:向量所有分量的绝对值之和,也叫“曼哈顿距离”——就像在城市里走方格路,横向纵向走的总路程。
3. 2-范数(欧几里得范数)
✅ 直观意义:我们最熟悉的向量长度,二维、三维空间里的直线距离,就是2-范数,也是线性代数里最常用的范数。
4. ∞-范数(最大范数/无穷范数)
✅ 直观意义:向量所有分量中,绝对值最大的那个值。当\(p\to+\infty\)时,p-范数就会收敛到∞-范数,因为绝对值最大的分量,在p次方求和中会占据主导地位。
举个例子,算一算
给定向量\(\boldsymbol{x}=(1,-2,3)^T\),计算三种范数:
- 1-范数:\(\|\boldsymbol{x}\|_1 = |1| + |-2| + |3| = 6\)
- 2-范数:\(\|\boldsymbol{x}\|_2 = \sqrt{1^2 + (-2)^2 + 3^2} = \sqrt{14} \approx 3.7417\)
- ∞-范数:\(\|\boldsymbol{x}\|_\infty = \max\{|1|,|-2|,|3|\} = 3\)
大家可以看到,同一个向量,用不同的范数,算出来的“大小”是不一样的,但它们都是合法的范数,只是度量的“尺子”不一样。
3.2 连续函数空间\(C[a,b]\)的常用范数
对任意连续函数\(f(x) \in C[a,b]\),我们对应向量范数,定义3种常用范数,本质就是把“离散分量的求和”推广为“连续区间的积分”。
1. ∞-范数(一致范数/最大范数)
✅ 直观意义:函数在闭区间\([a,b]\)上的最大绝对值。因为\(f(x)\)是闭区间上的连续函数,一定能取到最大值,所以这里用\(\max\),不用上确界\(\sup\)。
✅ 逼近意义:我们上一节课讲的魏尔斯特拉斯定理,就是用这个范数定义误差——\(\|f-p\|_\infty < \varepsilon\),就是整个区间上的最大误差都小于\(\varepsilon\),也叫“一致逼近”。
2. 1-范数(积分范数)
✅ 直观意义:函数绝对值在区间上的积分,也就是函数曲线和x轴围成的总面积,衡量的是函数在整个区间上的“累计大小”。
3. 2-范数(欧几里得范数/均方范数)
✅ 直观意义:函数平方的积分开根号,衡量的是函数在区间上的“均方大小”,也是后面最小二乘逼近、傅里叶分析的核心范数。
验证:函数范数满足范数的三个条件
我们以∞-范数为例,简单验证它符合范数定义:
- 正定性:\(|f(x)| \geq 0\),因此\(\max|f(x)| \geq 0\);若\(\max|f(x)|=0\),则\(f(x)\)在整个区间上恒为0,即零元,满足正定性。
- 齐次性:\(\|\alpha f\|_\infty = \max|\alpha f(x)| = |\alpha| \max|f(x)| = |\alpha| \|f\|_\infty\),满足齐次性。
- 三角不等式:\(\|f+g\|_\infty = \max|f(x)+g(x)| \leq \max(|f(x)|+|g(x)|) \leq \max|f(x)| + \max|g(x)| = \|f\|_\infty + \|g\|_\infty\),满足三角不等式。
1-范数和2-范数的验证思路完全一致,大家可以课后自己推导,核心就是利用积分的不等式性质。
四、范数的几何意义:\(\mathbb{R}^2\)中的单位球
教材里的图3-1,给了我们最直观的范数几何解释:在\(\mathbb{R}^2\)平面上,所有范数等于1的向量,构成的封闭曲线,就是该范数下的“单位球”。
我们逐个看:
- p=1(1-范数):单位球是一个菱形,方程是\(|x_1| + |x_2| = 1\)。
- p=2(2-范数):单位球是我们最熟悉的单位圆,方程是\(x_1^2 + x_2^2 = 1\)。
- p=4:单位球是一个圆角正方形,介于圆和正方形之间。
- p→∞(∞-范数):单位球是一个正方形,方程是\(\max\{|x_1|,|x_2|\}=1\)。
核心结论
- 不同的范数,就是不同的“度量规则”,对“长度为1”的定义不同,因此单位球的形状不同;
- 随着p从1增大到∞,单位球从菱形,逐渐变圆,再逐渐变成正方形,是一个连续的变化过程;
- 无论形状怎么变,单位球都是关于原点对称的凸集,这是范数三个条件的必然结果,也是范数的几何特征。
五、范数的核心应用:向量序列的收敛性
有了范数,我们就能定义线性空间中的“极限”和“收敛”,这是迭代法、数值计算的核心基础。
5.1 向量序列的收敛定义
定义3.2 设\(\{\boldsymbol{x}^{(k)}\}\)是\(\mathbb{R}^n\)中的向量序列,\(\boldsymbol{x}^* \in \mathbb{R}^n\),记\(\boldsymbol{x}^{(k)}=(x_1^{(k)},x_2^{(k)},\dots,x_n^{(k)})^T\),\(\boldsymbol{x}^*=(x_1^*,x_2^*,\dots,x_n^*)^T\)。如果对每个分量\(i=1,2,\dots,n\),都有
就称向量序列\(\{\boldsymbol{x}^{(k)}\}\)按分量收敛于\(\boldsymbol{x}^*\),记为\(\lim_{k\to\infty} \boldsymbol{x}^{(k)} = \boldsymbol{x}^*\)。
5.2 用范数判断收敛
按分量收敛,需要逐个检查每个分量,很麻烦。有了范数,我们可以用一个数来判断收敛:
向量序列按分量收敛,等价于\(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0\),其中\(\|\cdot\|\)是\(\mathbb{R}^n\)上的任意范数。
这就是范数的强大之处:把n个分量的收敛问题,转化为一个非负数的极限问题。
我们看教材里的例3.1,就是最典型的应用:
用迭代法同时求\(\sqrt{2},\sqrt{3},\sqrt{5}\),把三个迭代过程拼成一个三维向量\(\boldsymbol{x}_k\),初始值\(\boldsymbol{x}_0=(1,1,1)^T\)。
我们不需要逐个看每个分量的收敛情况,只需要计算相邻两次迭代的差的∞-范数\(\|\boldsymbol{x}_{k+1}-\boldsymbol{x}_k\|_\infty\),只要这个值趋近于0,就说明三个分量都收敛了。
因为∞-范数是分量的最大值,最大的分量都趋近于0了,所有分量自然都趋近于0,这就是∞-范数在迭代收敛判断中最常用的原因——计算简单,判断方便。
5.3 有限维空间的范数等价性
这里给大家补充一个核心结论(教材后续会讲到):有限维线性空间(比如\(\mathbb{R}^n\))上的所有范数,都是等价的。
等价的意思是:对\(\mathbb{R}^n\)上的任意两种范数\(\|\cdot\|_a\)和\(\|\cdot\|_b\),一定存在两个正数\(c_1,c_2>0\),使得对任意\(\boldsymbol{x} \in \mathbb{R}^n\),都有
这个结论的意义非常重大:在有限维空间中,用任何范数判断收敛,结果都是一样的。一个序列在1-范数下收敛,在2-范数、∞-范数下也一定收敛,不会出现“用这个范数收敛,用那个范数不收敛”的情况。
六、范数的连续性定理(定理3.2)
6.1 定理内容
定理3.2 设非负函数\(N(\boldsymbol{x})=\|\boldsymbol{x}\|\)是\(\mathbb{R}^n\)上的任意一个向量范数,则\(N(\boldsymbol{x})\)是\(\boldsymbol{x}\)的分量\(x_1,x_2,\dots,x_n\)的连续函数。
简单说:范数是连续函数。当向量\(\boldsymbol{x}\)的变化很小时,范数的变化也很小,不会出现突变。
6.2 证明过程拆解
这个证明是范数性质的经典应用,我给大家一步步拆解,每一步都讲清楚用了什么性质:
第一步:把向量用标准基展开
设\(\mathbb{R}^n\)的标准基为\(\boldsymbol{e}_1,\boldsymbol{e}_2,\dots,\boldsymbol{e}_n\),其中\(\boldsymbol{e}_i\)是第i个分量为1,其余为0的单位向量。
对任意两个向量\(\boldsymbol{x},\boldsymbol{y} \in \mathbb{R}^n\),可以表示为:
第二步:用三角不等式推导范数差的上界
我们要证明:当\(\boldsymbol{x} \to \boldsymbol{y}\)时,\(N(\boldsymbol{x}) \to N(\boldsymbol{y})\),也就是\(|N(\boldsymbol{x}) - N(\boldsymbol{y})| \to 0\)。
首先,利用三角不等式:
移项得:\(\|\boldsymbol{x}\| - \|\boldsymbol{y}\| \leq \|\boldsymbol{x}-\boldsymbol{y}\|\)
同理,把\(\boldsymbol{x}\)和\(\boldsymbol{y}\)互换,得:\(\|\boldsymbol{y}\| - \|\boldsymbol{x}\| \leq \|\boldsymbol{y}-\boldsymbol{x}\| = \|\boldsymbol{x}-\boldsymbol{y}\|\)
两个式子合起来,就得到范数的一个核心性质:
这个式子也叫范数的Lipschitz连续性,是证明连续性的核心。
第三步:对\(\|\boldsymbol{x}-\boldsymbol{y}\|\)进行放缩
把\(\boldsymbol{x}-\boldsymbol{y}\)用基展开,再用三角不等式放缩:
这里用了范数的齐次性和三角不等式,把和的范数拆成了范数的和。
第四步:用∞-范数控制,完成证明
我们知道,\(|x_i - y_i| \leq \|\boldsymbol{x}-\boldsymbol{y}\|_\infty\)(∞-范数是最大分量),因此:
令常数\(c = \sum_{i=1}^n \|\boldsymbol{e}_i\|\)(c是一个固定的正数,和\(\boldsymbol{x},\boldsymbol{y}\)无关),就得到:
当\(\boldsymbol{x} \to \boldsymbol{y}\)时,\(\|\boldsymbol{x}-\boldsymbol{y}\|_\infty \to 0\),因此\(| N(\boldsymbol{x}) - N(\boldsymbol{y}) | \to 0\),即\(N(\boldsymbol{x})\)是连续函数。
七、内容总结与易错点提醒
7.1 内容总结
这一节的内容,核心就是给线性空间装上“度量标尺”,整个逻辑链条是:
- 本质:范数是向量长度的推广,用来衡量线性空间中元素的大小;
- 定义:满足正定性、齐次性、三角不等式的实值函数,就是范数;
- 核心例子:\(\mathbb{R}^n\)上的1、2、∞-范数,\(C[a,b]\)上对应的三种范数;
- 几何意义:不同范数对应不同形状的单位球,都是凸集;
- 核心应用:定义向量序列的收敛性,把多分量收敛转化为单个数的极限;
- 关键性质:范数是连续函数,有限维空间上所有范数等价。
7.2 多年教学经验总结的易错点
- 范数不唯一:同一个线性空间,可以定义无数种合法的范数,不是只有教材里的三种,只要满足三个条件,就是范数;
- 函数范数的定义域:\(C[a,b]\)上的范数,是定义在闭区间上的,只有闭区间上的连续函数,才能保证取到最大值,∞-范数才能用\(\max\);
- 齐次性的绝对值:齐次性里的\(|\alpha|\)是数的绝对值/模,不是范数,很多同学会在这里写错符号;
- 三角不等式的方向:是\(\|x+y\| \leq \|x\| + \|y\|\),不要写反方向;
- 收敛性的等价性:只有有限维空间的范数是等价的,无限维空间(比如\(C[a,b]\))上的范数不等价,用不同范数判断收敛,结果可能不一样,这是后续学习要注意的。
下一节课,我们会在范数的基础上,引入内积,给线性空间装上“角度”的概念,为后面的正交逼近、最小二乘法打下基础。
定理3.3-3.4 向量范数等价性与收敛性 深度讲解
各位同学,我们上一节课讲了范数的定义,大家会发现一个问题:同一个向量,用不同的范数算出来的“大小”数值是不一样的。那会不会出现这种情况:一个向量序列,在1-范数下是收敛的,换2-范数就不收敛了?我们做数值计算的时候,到底该选哪个范数?
今天这两个定理,就彻底解决了这个核心问题——在有限维空间里,范数的选择不影响收敛性,所有范数都是“等价”的。这是数值分析中迭代法、误差分析的核心理论基础,也是考试的重点和难点,我会把定理的本质、证明逻辑、应用场景和易错点全部讲透。
一、定理3.3 向量范数的等价性
1.1 定理内容与核心本质
定理3.3 设\(\|\cdot\|_s\)、\(\|\cdot\|_t\)是\(\mathbb{R}^n\)上的任意两种向量范数,则存在正数\(c_1,c_2>0\),使得对所有的\(\boldsymbol{x} \in \mathbb{R}^n\),都有
✅ 大白话翻译:
在n维实向量空间里,不管你用哪种范数衡量向量的大小,它们之间永远只差一个固定的常数倍。不会出现“一个范数下向量无限大,另一个范数下却趋近于0”的情况,所有范数对“向量大小”的度量,本质是相容的。
✅ 核心逻辑补充:
范数的等价性具有传递性:如果\(\|\cdot\|_a\)和\(\|\cdot\|_b\)等价,\(\|\cdot\|_b\)和\(\|\cdot\|_c\)等价,那么\(\|\cdot\|_a\)和\(\|\cdot\|_c\)一定等价。
因此,我们只需要证明「任意范数和∞-范数等价」,就能推广到「任意两种范数之间等价」——这就是教材里“只要就\(\|\boldsymbol{x}\|_t\)和\(\|\boldsymbol{x}\|_\infty\)证明成立即可”的根本原因。
1.2 证明过程逐行拆解
这个证明的核心是利用数学分析中的最值定理:有界闭集(紧集)上的连续函数,一定能取到最大值和最小值。我把每一步的逻辑和依据都讲清楚,大家就能完全看懂。
步骤1:不等式变形,转化问题
我们要证明的是:对任意\(\boldsymbol{x} \in \mathbb{R}^n\),有\(c_1 \|\boldsymbol{x}\|_\infty \leq \|\boldsymbol{x}\|_t \leq c_2 \|\boldsymbol{x}\|_\infty\)。
- 当\(\boldsymbol{x}=\boldsymbol{0}\)时,不等式两边都是0,显然成立;
- 当\(\boldsymbol{x} \neq \boldsymbol{0}\)时,\(\|\boldsymbol{x}\|_\infty > 0\),我们把不等式两边同时除以\(\|\boldsymbol{x}\|_\infty\),得到:\[c_1 \leq \frac{\|\boldsymbol{x}\|_t}{\|\boldsymbol{x}\|_\infty} \leq c_2 \]令\(\boldsymbol{y} = \frac{\boldsymbol{x}}{\|\boldsymbol{x}\|_\infty}\),则\(\|\boldsymbol{y}\|_\infty = 1\),不等式就转化为:证明在集合\(S=\{\boldsymbol{x} \mid \|\boldsymbol{x}\|_\infty = 1\}\)上,函数\(f(\boldsymbol{x})=\|\boldsymbol{x}\|_t\)的最大值和最小值都是正的常数。
步骤2:分析集合\(S\)的性质
集合\(S = \{\boldsymbol{x} \mid \|\boldsymbol{x}\|_\infty = 1\}\),也就是\(\mathbb{R}^n\)中,所有分量的绝对值的最大值为1的向量构成的集合。
- 它是有界集:所有分量都满足\(|x_i| \leq 1\),向量不会无限延伸;
- 它是闭集:包含了所有边界点,是一个封闭的集合。
在数学分析中,\(\mathbb{R}^n\)中的有界闭集也叫紧集,它有一个核心性质:紧集上的连续函数,一定能取到最大值和最小值(魏尔斯特拉斯最值定理)。
步骤3:证明\(f(\boldsymbol{x})=\|\boldsymbol{x}\|_t\)是\(S\)上的连续函数
上一节课的定理3.2已经证明:\(\mathbb{R}^n\)上的任意向量范数,都是向量分量的连续函数。
因此\(f(\boldsymbol{x})=\|\boldsymbol{x}\|_t\)在有界闭集\(S\)上是连续函数,根据最值定理,一定存在\(\boldsymbol{x}',\boldsymbol{x}'' \in S\),使得:
步骤4:证明\(c_1,c_2>0\)
- 首先,\(c_2 \geq c_1\),因为最大值一定大于等于最小值;
- 其次,\(\boldsymbol{x}' \in S\),所以\(\|\boldsymbol{x}'\|_\infty = 1\),说明\(\boldsymbol{x}'\)不是零向量;
- 根据范数的正定性,非零向量的范数一定大于0,因此\(f(\boldsymbol{x}')=\|\boldsymbol{x}'\|_t > 0\),即\(c_1>0\)。
由此我们得到:对所有\(\boldsymbol{y} \in S\),都有\(0 < c_1 \leq f(\boldsymbol{y}) \leq c_2\)。
步骤5:推广到所有\(\boldsymbol{x} \in \mathbb{R}^n\)
对任意非零向量\(\boldsymbol{x} \in \mathbb{R}^n\),令\(\boldsymbol{y} = \frac{\boldsymbol{x}}{\|\boldsymbol{x}\|_\infty}\),则\(\boldsymbol{y} \in S\),因此:
根据范数的齐次性,\(\left\| \frac{\boldsymbol{x}}{\|\boldsymbol{x}\|_\infty} \right\|_t = \frac{\|\boldsymbol{x}\|_t}{\|\boldsymbol{x}\|_\infty}\),代入不等式后两边同乘\(\|\boldsymbol{x}\|_\infty\),就得到:
对所有\(\boldsymbol{x} \in \mathbb{R}^n\)成立,证明完毕。
1.3 关键注意事项:不能推广到无穷维空间
教材里特别强调:定理3.3仅适用于有限维线性空间,无穷维空间不成立。这是考试中最常考的判断题,我给大家举一个反例,大家就能立刻理解。
反例:连续函数空间\(C[0,1]\)(无穷维空间)上的1-范数和∞-范数,不等价。
取函数序列\(f_n(x) = x^n\),\(x \in [0,1]\):
- ∞-范数:\(\|f_n\|_\infty = \max_{0\leq x\leq1} |x^n| = 1\),对所有n都成立;
- 1-范数:\(\|f_n\|_1 = \int_0^1 |x^n| dx = \frac{1}{n+1}\),当\(n\to\infty\)时,\(\|f_n\|_1 \to 0\)。
如果两个范数等价,应该存在\(c_1>0\),使得\(c_1 \|f_n\|_\infty \leq \|f_n\|_1\),也就是\(c_1 \cdot 1 \leq \frac{1}{n+1}\)。但当n足够大时,\(\frac{1}{n+1}\)可以小于任意正数\(c_1\),不等式不可能成立,因此无穷维空间的范数不等价。
二、定理3.4 范数等价性的核心应用:向量序列的收敛性
2.1 定理内容与本质
定理3.4 向量序列\(\{\boldsymbol{x}^{(k)}\}\)按分量收敛于\(\boldsymbol{x}^*\),当且仅当对\(\mathbb{R}^n\)上的任意一种范数\(\|\cdot\|\),都有\(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0\),即:
✅ 大白话翻译:
在有限维空间里,向量序列的收敛性,和范数的选择完全无关。只要在一种范数下误差趋近于0,那么在所有范数下误差都会趋近于0;按分量收敛,等价于任意范数下的范数收敛。
这就是这个定理的核心价值:我们做数值计算的时候,不用纠结选哪个范数,哪个范数计算方便,就用哪个,完全不用担心收敛性出问题。
2.2 证明过程拆解
这个证明是定理3.3的直接应用,逻辑非常清晰,分为两步:
步骤1:证明按分量收敛 ⇨ ∞-范数收敛
按分量收敛的定义是:对每个分量\(i=1,2,\dots,n\),都有\(\lim_{k\to\infty} x_i^{(k)} = x_i^*\),也就是\(\lim_{k\to\infty} |x_i^{(k)} - x_i^*| = 0\)。
而∞-范数的定义是\(\|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty = \max_{1\leq i\leq n} |x_i^{(k)} - x_i^*|\),最大值趋近于0,当且仅当所有分量都趋近于0,因此:
步骤2:用范数等价性推广到任意范数
对\(\mathbb{R}^n\)上的任意一种范数\(\|\cdot\|\),根据定理3.3,存在正数\(c_1,c_2>0\),使得:
根据数列极限的夹逼准则:
- 若\(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty = 0\),则不等式右边\(c_2 \cdot 0 = 0\),左边\(c_1 \cdot 0 = 0\),因此中间的\(\|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|\)也趋近于0;
- 反过来,若\(\lim_{k\to\infty} \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\| = 0\),则左边\(c_1 \|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty \leq 0\),而范数具有非负性,因此\(\|\boldsymbol{x}^{(k)} - \boldsymbol{x}^*\|_\infty\)也必须趋近于0。
由此我们得到:
结合步骤1的等价性,就完成了定理的证明。
2.3 实际工程意义
这个定理是数值计算中迭代法收敛判断的核心依据,我给大家举一个最常见的例子:
我们用迭代法解线性方程组,或者求平方根、非线性方程的根时,不需要逐个检查每个分量的收敛情况,只需要计算相邻两次迭代的误差向量的∞-范数\(\|\boldsymbol{x}_{k+1} - \boldsymbol{x}_k\|_\infty\),只要这个值小于我们设定的精度(比如\(10^{-6}\)),就可以判定迭代收敛,停止计算。
原因很简单:
- ∞-范数计算最方便,只需要找分量的最大值,不需要求和、开平方;
- 根据定理3.4,∞-范数收敛,就意味着按分量收敛,也意味着1-范数、2-范数都收敛,完全不用担心精度问题。
教材里的例3.1就是最典型的应用:同时求\(\sqrt{2},\sqrt{3},\sqrt{5}\)的迭代,我们只需要计算\(\|\boldsymbol{x}_{k+1}-\boldsymbol{x}_k\|_\infty\),只要它趋近于0,就说明三个分量都收敛了,不需要逐个判断。
三、核心总结与易错点提醒
3.1 内容总结
- 定理3.3:有限维空间\(\mathbb{R}^n\)上的任意两种范数都是等价的,它们之间只差固定的正的常数倍,无穷维空间不满足这个性质;
- 定理3.4:有限维空间中,向量序列的按分量收敛,等价于任意范数下的范数收敛,收敛性和范数的选择无关;
- 核心价值:给了我们选择范数的自由,在数值计算中,优先选择计算方便的范数(通常是∞-范数),不用担心里程碑收敛性的问题。
3.2 多年教学经验总结的易错点
- 等价≠相等:范数等价,是指收敛性一致,不是范数的数值相等。同一个向量,不同范数的数值可以不同,只是它们之间有固定的上下界;
- 有限维限制:范数等价性仅适用于有限维线性空间,无穷维空间不成立,这是判断题、证明题的高频考点;
- 常数的固定性:等价常数\(c_1,c_2\)只和范数有关,和向量\(\boldsymbol{x}\)无关,是固定的正数,不是随向量变化的量;
- 收敛的等价性:定理3.4是“收敛性等价”,不是“收敛速度等价”。不同范数下,误差趋近于0的速度可以不同,但最终一定都会收敛。
3.1.3 内积与内积空间 深度讲解
各位同学,我们上一节课讲了范数,解决了“怎么衡量元素的大小”的问题;这一节课的内积,就是解决“怎么衡量元素之间的角度、正交性”的问题。
如果说范数是给线性空间装上了“长度标尺”,那内积就是给线性空间装上了“角度罗盘”,让我们能定义“垂直”“正交”“投影”这些几何概念,为后面的正交逼近、最小二乘法、傅里叶分析打下核心基础。
一、内积的本质:向量点积的推广
我们先从最熟悉的场景入手:三维空间\(\mathbb{R}^3\)里的两个向量\(\boldsymbol{a}=(a_1,a_2,a_3)\)和\(\boldsymbol{b}=(b_1,b_2,b_3)\),它们的点积是:
这个点积有三个核心性质:
- 对称性:\(\boldsymbol{a} \cdot \boldsymbol{b} = \boldsymbol{b} \cdot \boldsymbol{a}\);
- 线性性:\((\alpha\boldsymbol{a}+\beta\boldsymbol{b}) \cdot \boldsymbol{c} = \alpha(\boldsymbol{a} \cdot \boldsymbol{c}) + \beta(\boldsymbol{b} \cdot \boldsymbol{c})\);
- 正定性:\(\boldsymbol{a} \cdot \boldsymbol{a} \geq 0\),当且仅当\(\boldsymbol{a}=\boldsymbol{0}\)时,\(\boldsymbol{a} \cdot \boldsymbol{a}=0\)。
同时,点积还能定义向量的长度和夹角:
- 长度:\(\|\boldsymbol{a}\| = \sqrt{\boldsymbol{a} \cdot \boldsymbol{a}}\);
- 夹角:\(\cos\theta = \frac{\boldsymbol{a} \cdot \boldsymbol{b}}{\|\boldsymbol{a}\| \|\boldsymbol{b}\|}\),当\(\boldsymbol{a} \cdot \boldsymbol{b}=0\)时,\(\theta=90^\circ\),即两向量垂直。
内积,就是把这三个核心性质和几何意义,抽象推广到任意线性空间上的数学工具。
二、内积的严格定义与内积空间
2.1 定义拆解
定义3.3 设\(V\)是数域\(F\)(实数域\(\mathbb{R}\)或复数域\(\mathbb{C}\))上的线性空间,对任意\(u,v \in V\),存在唯一的数\((u,v) \in F\)与之对应,且满足以下4个条件:
- 共轭对称性:\((u,v) = \overline{(v,u)}\);
- 当\(F=\mathbb{R}\)(实数域)时,共轭就是自身,因此退化为对称性:\((u,v) = (v,u)\)。
- 线性性(对第一个变量):\((\alpha u, v) = \alpha (u, v)\),其中\(\alpha \in F\);
- 结合共轭对称性,可推出对第二个变量的共轭线性:\((u, \alpha v) = \overline{\alpha} (u, v)\)。
- 可加性:\((u + v, w) = (u, w) + (v, w)\),对任意\(u,v,w \in V\)成立;
- 正定性:\((u,u) \geq 0\),当且仅当\(u=0\)(线性空间的零元)时,\((u,u)=0\)。
则称\((u,v)\)为\(V\)上\(u\)与\(v\)的内积,定义了内积的线性空间\(V\),叫做内积空间。
2.2 核心概念:正交
如果两个元素\(u,v \in V\)满足\((u,v)=0\),就称\(u\)与\(v\)正交,记为\(u \perp v\)。
✅ 直观意义:这是三维空间中“向量垂直”概念的直接推广。在函数空间里,两个函数正交,意味着它们在整个区间上“相互抵消”,没有重叠的能量,这是正交逼近、傅里叶分析的核心。
三、核心定理:柯西-施瓦茨不等式
3.1 定理内容
定理3.5 设\(V\)是一个内积空间,对任意\(u,v \in V\),有
这就是著名的柯西-施瓦茨(Cauchy-Schwarz)不等式。
✅ 几何意义:在欧几里得空间里,它就是我们熟悉的\(|\boldsymbol{a} \cdot \boldsymbol{b}| \leq \|\boldsymbol{a}\| \|\boldsymbol{b}\|\),即“点积的绝对值不超过两个向量长度的乘积”,本质是\(\cos\theta\)的绝对值不超过1。
3.2 证明过程逐行拆解
这个证明是内积性质的经典应用,我给大家一步步拆解:
步骤1:处理特殊情况
当\(v=0\)时,\((u,v)=0\),\((v,v)=0\),不等式两边都是0,显然成立。
步骤2:构造非负二次型
当\(v \neq 0\)时,\((v,v) > 0\)(正定性)。对任意数\(\lambda \in F\),考虑内积:
根据内积的线性性和共轭对称性展开:
步骤3:选取特殊的\(\lambda\),消去交叉项
为了消去\(\lambda\)和\(\overline{\lambda}\)的交叉项,我们选取\(\lambda = -\frac{(u,v)}{(v,v)}\),代入上式:
- \(\lambda (v,u) = -\frac{(u,v)}{(v,v)} \cdot \overline{(u,v)} = -\frac{|(u,v)|^2}{(v,v)}\)
- \(\overline{\lambda} (u,v) = -\frac{\overline{(u,v)}}{(v,v)} \cdot (u,v) = -\frac{|(u,v)|^2}{(v,v)}\)
- \(|\lambda|^2 (v,v) = \frac{|(u,v)|^2}{(v,v)^2} \cdot (v,v) = \frac{|(u,v)|^2}{(v,v)}\)
代入后,非负二次型变为:
化简得:
两边同乘\((v,v) > 0\),就得到:
证明完毕。
四、内积导出的范数:内积空间是特殊的赋范线性空间
内积空间是“自带范数”的,我们可以直接从内积导出范数:
4.1 验证范数的三个条件
- 正定性:\(\|u\| = \sqrt{(u,u)} \geq 0\),当且仅当\(u=0\)时,\((u,u)=0\),即\(\|u\|=0\),满足正定性;
- 齐次性:\(\|\alpha u\| = \sqrt{(\alpha u, \alpha u)} = \sqrt{|\alpha|^2 (u,u)} = |\alpha| \sqrt{(u,u)} = |\alpha| \|u\|\),满足齐次性;
- 三角不等式:\(\|u + v\| \leq \|u\| + \|v\|\),这个不等式可以由柯西-施瓦茨不等式直接推出。
4.2 三角不等式的证明
我们从\((\|u\| + \|v\|)^2\)入手:
两边开方,就得到三角不等式\(\|u + v\| \leq \|u\| + \|v\|\)。
五、核心例子:\(\mathbb{R}^n\)与\(C[a,b]\)上的内积
5.1 \(\mathbb{R}^n\)与\(\mathbb{C}^n\)中的内积
1. 标准内积(不带权)
对\(\boldsymbol{x}=(x_1,x_2,\dots,x_n)^T, \boldsymbol{y}=(y_1,y_2,\dots,y_n)^T \in \mathbb{R}^n\),标准内积定义为:
由此导出的范数,就是我们熟悉的2-范数:
2. 带权内积(加权内积)
如果给定正实数序列\(\omega_i > 0\)(\(i=1,2,\dots,n\)),称为权系数,则可以定义带权内积:
相应的范数为:
✅ 直观意义:权系数\(\omega_i\)表示对第\(i\)个分量的“重视程度”,\(\omega_i\)越大,这个分量在范数和内积中的权重就越高。当\(\omega_i=1\)时,就退化为标准内积。
3. 复向量空间\(\mathbb{C}^n\)中的带权内积
对\(\boldsymbol{x},\boldsymbol{y} \in \mathbb{C}^n\),为了满足共轭对称性,内积定义为:
其中\(\overline{y_i}\)是\(y_i\)的共轭复数。
5.2 \(C[a,b]\)中的内积:权函数与带权内积
在连续函数空间\(C[a,b]\)中,我们把“离散求和”推广为“连续积分”,定义内积前,需要先定义权函数。
1. 权函数的定义
定义3.4 设\([a,b]\)是有限或无限区间,非负函数\(\rho(x)\)满足:
- 积分\(\int_a^b x^k \rho(x) dx\)存在且有限(\(k=0,1,\dots\));
- 对\([a,b]\)上的非负连续函数\(g(x)\),如果\(\int_a^b g(x)\rho(x)dx=0\),则\(g(x) \equiv 0\)。
则称\(\rho(x)\)为\([a,b]\)上的一个权函数。
2. \(C[a,b]\)中的带权内积
对\(f(x),g(x) \in C[a,b]\),权函数\(\rho(x)\)给定,定义带权内积:
由此导出的范数为:
✅ 最常用的特例:当\(\rho(x) \equiv 1\)时,就是标准内积和标准2-范数:
六、内容总结与易错点提醒
6.1 内容总结
- 本质:内积是向量点积的推广,给线性空间定义了“角度”和“正交性”,内积空间是自带范数的特殊赋范线性空间;
- 定义:满足共轭对称性、线性性、可加性、正定性的二元函数,就是内积;
- 核心定理:柯西-施瓦茨不等式,是内积空间中最基本的不等式,也是证明三角不等式的关键;
- 核心例子:\(\mathbb{R}^n\)中的标准内积、带权内积,\(C[a,b]\)中的带权内积,是我们后续学习的核心工具;
- 几何意义:正交是垂直的推广,内积导出的范数是长度的推广,内积空间是“可度量、可正交”的线性空间。
6.2 多年教学经验总结的易错点
- 共轭对称性:在复数域上,内积是共轭对称的,不是对称的,\((u,v) = \overline{(v,u)}\),很多同学会忽略共轭符号,导致错误;
- 线性性:内积对第一个变量是线性的,对第二个变量是共轭线性的,不是双线性的,这是复数域内积和实数域内积的重要区别;
- 权函数的非负性:权函数\(\rho(x)\)必须是非负的,且不能在区间上恒为0,否则会破坏内积的正定性;
- 内积导出范数的唯一性:由内积导出的范数,必须满足平行四边形法则\(\|u+v\|^2 + \|u-v\|^2 = 2\|u\|^2 + 2\|v\|^2\),不是所有范数都能由内积导出(比如1-范数、∞-范数就不能)。
下一节课,我们会利用内积和正交性,进入函数逼近的核心——最佳平方逼近,这是最小二乘法、傅里叶分析的直接应用。
格拉姆-施密特(Gram-Schmidt)正交化方法 深度讲解
各位同学,我们上一节课讲了内积和正交的概念,大家已经知道:正交基是线性空间中性质最好的一组基——用正交基计算坐标、内积、投影时,不会出现交叉项,计算量大幅降低,还能避免数值计算中的病态问题。
但我们实际拿到的基,往往是普通的线性无关组(比如多项式空间的\(\{1,x,x^2,\dots\}\)),不是正交的。今天要讲的格拉姆-施密特正交化,就是内积空间中最核心、最通用的方法:它能把任意一组线性无关的元素,转化为一组两两正交的元素,且不改变原元素张成的子空间。
一、方法的核心本质
格拉姆-施密特正交化的本质,是逐次投影相减法:
对每一个新的元素,我们减去它在所有已经正交化的元素上的投影,剩下的部分就和之前所有的正交元素都垂直(正交)。
这个过程,就像把一组互相倾斜的坐标轴,一步步掰成互相垂直的坐标轴,同时保证坐标轴张成的空间完全不变。
二、定理3.6 内容与逐行拆解
2.1 定理完整内容
定理3.6 设\(\{u_1,u_2,\dots,u_k\}\)是内积空间\(V\)中的一组线性无关元素,按如下递推公式构造元素:
则\(\{v_1,v_2,\dots,v_k\}\)是一组两两正交的元素。
推论:若\(\{u_1,u_2,\dots,u_n\}\)是\(V\)的一组基,则按上述方法得到的\(\{v_1,v_2,\dots,v_n\}\)是\(V\)的一组正交基;若再将每个\(v_i\)单位化(除以自身范数),则得到\(V\)的标准正交基。
2.2 公式核心项解读
我们把递推公式的核心项拆开,大家就能立刻理解:
- 初始项\(v_1=u_1\):第一个元素直接保留,作为正交组的第一个基准元素。
- 投影系数\(\frac{(u_i, v_l)}{(v_l, v_l)}\):这是\(u_i\)在\(v_l\)上的投影长度系数。
- 分子\((u_i, v_l)\)是\(u_i\)和\(v_l\)的内积,衡量两个元素的“重叠程度”;
- 分母\((v_l, v_l) = \|v_l\|^2\),是\(v_l\)的范数平方,做归一化。
- 投影向量\(\frac{(u_i, v_l)}{(v_l, v_l)} v_l\):这是\(u_i\)在\(v_l\)方向上的完整投影向量。
- 相减得到\(v_i\):把\(u_i\)中,和所有已正交的\(v_1,\dots,v_{i-1}\)重叠的投影部分全部减掉,剩下的部分就和所有\(v_1,\dots,v_{i-1}\)都正交。
三、几何意义:从二维/三维空间直观理解
我们用最熟悉的三维欧几里得空间举例,把抽象的公式变成直观的几何操作:
-
二维平面(2个线性无关向量)
- 给定两个不共线的向量\(u_1,u_2\),要把它们变成正交的\(v_1,v_2\)。
- 第一步:\(v_1=u_1\),固定第一个向量。
- 第二步:从\(u_2\)中减去它在\(v_1\)上的投影,剩下的\(v_2\)就和\(v_1\)垂直。
这就是我们中学学的“把倾斜向量分解为垂直分量”,完全对应递推公式。
-
三维空间(3个线性无关向量)
- 给定三个不共面的向量\(u_1,u_2,u_3\)。
- 前两步和二维一致,得到正交的\(v_1,v_2\)。
- 第三步:从\(u_3\)中,减去它在\(v_1\)上的投影,再减去它在\(v_2\)上的投影,剩下的\(v_3\)就同时和\(v_1,v_2\)都垂直,得到三维空间的正交基。
更高维的空间,逻辑完全一致:每一步都消除当前元素和已正交元素的所有重叠分量,最终得到两两正交的组。
四、定理的严谨证明(数学归纳法)
教材只给出了公式,我们用数学归纳法严格证明:按公式得到的\(\{v_1,\dots,v_k\}\)一定两两正交。
步骤1:基例验证(i=1)
当\(i=1\)时,只有\(v_1\),不存在正交性问题,基例成立。
步骤2:归纳假设
假设前\(i-1\)个元素\(v_1,v_2,\dots,v_{i-1}\)已经两两正交,即对任意\(1\leq p < q \leq i-1\),都有\((v_p, v_q)=0\)。
步骤3:归纳递推(证明\(v_i\)和所有\(v_1,\dots,v_{i-1}\)正交)
任取\(1\leq l \leq i-1\),计算内积\((v_i, v_l)\),将\(v_i\)的递推公式代入:
根据归纳假设,当\(m \neq l\)时,\((v_m, v_l)=0\),求和项中只有\(m=l\)的项非零,因此:
即\(v_i\)和所有\(v_1,\dots,v_{i-1}\)都正交。
由数学归纳法,对所有\(1\leq i \leq k\),\(\{v_1,\dots,v_k\}\)两两正交,定理得证。
五、核心性质补充
-
线性无关性保持:正交组一定是线性无关组。
证明:若\(\sum_{i=1}^k a_i v_i = 0\),两边和\(v_j\)做内积,得\(a_j (v_j, v_j) = 0\)。因\(v_j \neq 0\)(原组线性无关),故\(a_j=0\),所有系数为0,线性无关。 -
张成空间不变:\(\text{span}\{v_1,v_2,\dots,v_k\} = \text{span}\{u_1,u_2,\dots,u_k\}\)。
正交化过程只是对原元素做线性组合,没有引入新元素,也没有丢失原元素的信息,生成的子空间完全一致。 -
单位化扩展:对正交组\(\{v_i\}\),令\(e_i = \frac{v_i}{\|v_i\|} = \frac{v_i}{\sqrt{(v_i,v_i)}}\),则\(\{e_1,\dots,e_k\}\)是标准正交组(两两正交,且每个元素的范数为1)。
六、经典实例:多项式空间的正交化
我们结合上一节的函数内积,用一个具体例子演示正交化的完整过程,这也是后续正交多项式、最佳平方逼近的基础。
例:在多项式空间\(\mathcal{P}_2\)中,取基\(\{u_1,u_2,u_3\}=\{1,x,x^2\}\),定义内积为\((f,g)=\int_{-1}^1 f(x)g(x)dx\),用格拉姆-施密特正交化构造正交基。
步骤1:构造\(v_1\)
计算内积:\((v_1,v_1) = \int_{-1}^1 1\cdot1 dx = 2\)
步骤2:构造\(v_2\)
计算内积:\((u_2,v_1) = \int_{-1}^1 x\cdot1 dx = 0\)(奇函数在对称区间积分)
因此:\(v_2 = x - 0 = x\)
计算内积:\((v_2,v_2) = \int_{-1}^1 x^2 dx = \frac{2}{3}\)
步骤3:构造\(v_3\)
计算内积:
- \((u_3,v_1) = \int_{-1}^1 x^2\cdot1 dx = \frac{2}{3}\)
- \((u_3,v_2) = \int_{-1}^1 x^2\cdot x dx = \int_{-1}^1 x^3 dx = 0\)
代入得:
结果验证
最终得到正交基\(\{1, x, x^2-\frac{1}{3}\}\),两两正交,这就是著名的勒让德正交多项式的前三项,完美验证了方法的有效性。
七、应用场景与易错点提醒
7.1 核心应用场景
- 数值分析:构造正交多项式,解决最佳平方逼近、曲线拟合问题,避免法方程组的病态性;
- 线性代数:实现矩阵的QR分解,是求解线性方程组、特征值问题的核心算法;
- 信号处理:构造正交基,是傅里叶分析、小波分析、信号去噪的基础;
- 机器学习:主成分分析(PCA)中正交化特征向量,实现数据降维。
7.2 高频易错点(多年教学经验总结)
- 公式项写错:递推公式中,投影的内积是\((u_i, v_l)\),不是\((u_i, u_l)\);分母是\((v_l, v_l)\),不是\((u_l, u_l)\)。必须是减去在已正交化的\(v_l\)上的投影,不是原元素\(u_l\)。
- 忽略前提条件:正交化的前提是原组线性无关。若原组线性相关,正交化过程中会出现\(v_i=0\),无法得到正交基。
- 内积定义不明确:不同的内积(不同区间、不同权函数),正交化的结果完全不同。计算前必须先明确内积的定义。
- 正交≠单位正交:正交只要求两两内积为0,不要求范数为1;单位正交需要额外做归一化,二者不能混淆。
3.1.4 最佳逼近 深度讲解
各位同学,我们前面用了四节课的时间,搭建了线性空间、范数、内积、正交化这一整套数学工具,今天我们就把这些工具落地,解决函数逼近最核心的问题:对于给定的连续函数,怎么在指定的函数空间里,找到“最好”的那个逼近函数。
我们开篇就讲过,插值法要求曲线严格穿过所有数据点,不适合带误差的观测数据;而函数逼近,就是放弃“严格过点”的要求,转而追求整个区间上的整体误差最小。而“最佳”的定义,完全由我们之前讲的范数决定——选不同的范数,就对应不同的“最佳逼近”准则,也就有不同的求解方法和应用场景。
一、最佳逼近的通用定义
1.1 问题背景
给定闭区间上的连续函数\(f(x) \in C[a,b]\),我们选定一个有限维的线性子空间\(\Phi\)(通常由一组线性无关的基函数张成):
最常见的子空间就是次数不超过n的多项式空间\(\mathcal{P}_n\),对应的基函数是\(\{1,x,x^2,\dots,x^n\}\)。
1.2 最佳逼近的严格定义
若存在\(p^*(x) \in \Phi\),使得误差的范数满足:
则称\(p^*(x)\)是\(f(x)\)在子空间\(\Phi\)中的最佳逼近函数;当\(\Phi = \mathcal{P}_n\)时,称\(p^*(x)\)为最佳逼近多项式。
✅ 核心解读:
- “最佳”的本质:在整个子空间里,找一个让误差范数最小的函数,没有任何其他函数能比它的误差更小。
- 范数的决定性作用:范数是衡量误差大小的“标尺”,选不同的标尺,就会得到不同的最佳逼近函数。
- 存在性保证:对于有限维线性子空间,最佳逼近一定存在。因为范数是关于系数的连续函数,有限维空间的有界闭集是紧集,连续函数在紧集上一定能取到最小值。
二、两类核心的最佳逼近
在数值分析中,最常用的是两种范数对应的最佳逼近:∞-范数对应的最佳一致逼近,和2-范数对应的最佳平方逼近,我们分别详细讲解。
2.1 最佳一致逼近(极小极大逼近/切比雪夫逼近)
1. 定义
当我们取范数为∞-范数(最大范数)时,最佳逼近的定义为:
满足该式的\(p^*(x)\),称为\(f(x)\)在\([a,b]\)上的最佳一致逼近多项式。
2. 核心本质
最佳一致逼近的核心是让整个区间上的最大误差最小化,也就是我们常说的“最坏情况最优”。它不追求某个局部的误差最小,而是保证在整个区间\([a,b]\)上,误差的最大值尽可能小,让误差在整个区间上均匀分布,因此也叫一致逼近。
3. 特点与应用场景
- 优点:严格控制整个区间的误差上限,逼近效果均匀,不会出现局部误差过大的情况;
- 缺点:求解难度大,需要用到切比雪夫逼近定理,计算复杂度高;
- 典型应用:对误差上限有严格要求的工程场景,比如工业控制系统、精密仪器的函数计算、计算机中的数学库函数实现(比如sin、cos函数的计算),要求整个定义域内的误差都不超过预设的精度阈值。
2.2 最佳平方逼近
1. 定义
当我们取范数为2-范数(欧几里得范数)时,最佳逼近的定义为:
其中\(\rho(x)\)是我们之前讲的权函数,满足非负、可积的要求,默认取\(\rho(x) \equiv 1\)。满足该式的\(p^*(x)\),称为\(f(x)\)在\([a,b]\)上的最佳平方逼近多项式。
2. 核心本质
最佳平方逼近的核心是让整个区间上的误差平方积分最小化,也就是“整体平均误差最优”。它不纠结于某个单点的最大误差,而是让整个区间上的误差总和最小,追求整体的拟合效果最优。
3. 特点与应用场景
- 优点:和内积直接挂钩,求解过程可以转化为线性方程组(法方程组),计算简单;如果使用正交基函数,还能进一步简化计算,避免方程组的病态问题;
- 缺点:无法严格控制单点的最大误差,可能出现个别点的误差稍大的情况;
- 典型应用:数据处理、统计建模、信号滤波、有限元分析等场景,关注整体的拟合效果,允许局部有小范围的误差波动。
2.3 离散版本:最小二乘拟合
在实际工程和实验中,我们很少能拿到连续的函数表达式,更多的是一组带误差的离散观测数据:在区间\([a,b]\)上的m+1个节点\(a \leq x_0 < x_1 < \dots < x_m \leq b\),对应的观测值\(f_i = f(x_i)\)(\(i=0,1,\dots,m\))。
针对离散数据,我们把连续的积分转化为离散的求和,就得到了最小二乘拟合的定义:
满足该式的\(P^*(x)\),称为\(f(x)\)的最小二乘拟合函数。
✅ 核心解读:
- 本质:最小二乘拟合是离散形式的最佳平方逼近,把连续的积分误差,换成了离散点的误差平方和,核心目标都是让平方误差最小。
- 带权扩展:如果不同观测点的可信度不同,可以引入权系数\(\omega_i > 0\),定义带权最小二乘:\(\min \sum_{i=0}^m \omega_i \left[ f_i - P(x_i) \right]^2\),权重越大,该点的拟合优先级越高。
- 应用场景:这是实际中最常用的拟合方法,实验数据处理、回归分析、机器学习的线性回归、曲线拟合,本质都是最小二乘拟合。
三、三类逼近方法的核心对比
为了让大家更清晰地区分,我们用表格整理三类方法的核心差异:
| 逼近类型 | 所用范数 | 误差核心定义 | 核心目标 | 适用场景 | 求解特点 |
|---|---|---|---|---|---|
| 最佳一致逼近 | ∞-范数 | 区间上的最大误差 | 最坏情况最优,误差均匀最小 | 精密计算、误差上限严格控制的工程场景 | 求解复杂,需切比雪夫定理 |
| 最佳平方逼近 | 2-范数(连续) | 误差平方的积分 | 整体平均误差最优 | 连续函数的整体拟合、信号处理 | 转化为法方程组,正交基可简化计算 |
| 最小二乘拟合 | 2-范数(离散) | 离散点的误差平方和 | 观测数据的整体拟合误差最小 | 实验数据拟合、回归分析、线性建模 | 求解简单,线性回归的核心方法 |
四、内容总结与前后知识衔接
这一节的内容,是我们前面所有知识点的最终落脚点,整个逻辑链条完全闭环:
- 线性空间:定义了我们找逼近函数的“范围”——有限维子空间\(\Phi\),用基函数可以表示任意逼近函数;
- 范数:定义了“最佳”的衡量标准,不同范数对应不同的逼近准则;
- 内积与正交化:为最佳平方逼近提供了核心求解工具,用正交基可以大幅简化计算,避免法方程组的病态问题;
- 最佳逼近:最终解决了“怎么找最好的逼近函数”的核心问题,是整个函数逼近理论的核心目标。
最后给大家强调一个最关键的区别:插值是“严格过点”,逼近是“整体最优”。当你的数据带有测量误差时,强行插值会放大误差,而最佳逼近(尤其是最小二乘拟合)能平滑掉噪声,得到更符合真实规律的函数,这也是我们这一章和上一章插值法的核心区别。
posted on 2026-02-18 07:40 Indian_Mysore 阅读(0) 评论(0) 收藏 举报
浙公网安备 33010602011771号