噫!我何时竟成了不通数理之鲁钝之人哉?
已完结。后编待定。渲染成答辩全是因为你们不会肉眼编译 LaTeX 的锅,本人不承担任何责任。
多元函数:依赖有限且多于一个连续变量的函数。\(U\subseteq\R^n\to\R\)。
多元映射:像空间维数大于一。
球映射:从固定的经平面开始逆时针旋转角度;从北极点向南旋转角度。
球面摆:像空间是 \(\mathbb S^2\times\R^3\),其中 \(\mathbb S^2\) 是球面坐标,\(\R^3\) 是切平面上向量(只有两维)
总之,可引入坐标使得映射是 \(F:A\to B\),\(A\sube\R^m\),\(B\sube\R^n\)。
多元的极限。
多元的连续。
多元的微分:用关于 \(\mathbf x-\mathbf x_0\) 的简单形式近似。
距离:满足正定性(距离大于等于零,等于零当且仅当相等)、对称性(交换不变)、三角形不等式的任何函数 \(d:M\times M\to\R\)。
线性空间中距离:满足平移不变性。
\(\Vert\cdot\Vert\):范数。
范数的性质:
- 正定性:大于等于零,等于零仅当 \(\bf x=0\)。
- 正齐次性:\(\Vert\lambda\mathbf x\Vert=|\lambda|\Vert\mathbf x\Vert\)。
- 三角形不等式。
范数确定平移不变距离。
蓝色是仅与基有关的常数。因此可得两组范数,即无穷范数 \(\Vert x\Vert_\infty=\max|x^i|\),1-范数 \(\Vert x\Vert_1=\sum|x^i|\)。
易知,存在常数 \(M\) 使得对于任何范数,都有 \(\Vert\mathbf x\Vert\leq M\Vert\mathbf x\Vert_\infty\),即若在无穷范数下接近则在任何范数下接近。
\(p\)-范数 \(\|\bf x\|_p=\sqrt[p]{\sum|x^i|^p}\)。仅在 \(p\geq1\) 时,\(p\)-范数是合法的范数(否则不满足三角形不等式)
集合有界,若存在 \(M\) 使得 \(\forall \bf x\in A\) 都有 \(\|\bf x\|<M\)。
数列有界,若存在 \(M\) 使得 \(\forall\bf x_n\) 都有 \(\|\bf x_n\|<M\)。
内积:\(B(x,y):\mathbb M^2\to\R\)。
- 对称性。
- 双线性性。
- 正定性:自内积恒非负;\(B(\bf x,\bf x)=0\) 当且仅当 \(\bf x=0\)。
可使用 \(x\cdot y\) 或 \(<x,y>\)。
任一内积可得到欧几里得范数 \(\|\bf x\|=\sqrt{\bf x\cdot\bf x}\)。
满足 Cauchy-Schwarz 不等式 \(|\bf x\cdot\bf y|\leq\|\bf x\|\|\bf y\|\)。
等号成立当且仅当共线。
某些范数可由适当内积得到;但是事实上 \(p\)-范数中只有 \(2\)-范数可以由内积得到。一个范数能被内积得到,当且仅当其满足广义勾股定理(平行四边形法则):
开球 \(B_r(\bf x_0)\):距 \(\bf x_0\) 小于 \(r>0\) 的元素集合。
邻域:包含任意正半径开球的集合。
开集:是其中每个点邻域的集合。易验证开球是开集。
\(\bf x_0\) 是 \(A\) 的聚点,当且仅当 \(\forall\epsilon>0\),都存在 \(\bf x\in A\) 使得 \(0<\|\bf x-\bf x_0\|<\epsilon\)。(但是,\(\bf x_0\) 自身不一定要属于 \(A\))
闭集:任意聚点属于 \(A\) 的集合。
点列极限:若 \(\lim\limits_{n\to+\infty}\bf x_n=\bf x\),则 \(\lim\limits_{n\to+\infty}\|\bf x_n-\bf x\|=0\)。
Cauchy 列:\(\forall\epsilon>0\),\(\exists N\) 使得 \(\forall i,j\geq N\) 都有 \(\|\bf x_i-\bf x_j\|<\epsilon\)。
令 \(f:(A\in V)\to W\),则 \(\lim\limits_{\bf x\to\bf x_0}f(\bf x)=L\),若:
- \(\bf x_0\) 是 \(A\) 聚点。
- \(\forall\epsilon>0\),存在 \(\delta>0\) 使得 \(\forall\bf x\in A\),\(0<\|\bf x-\bf x_0\|<\delta\to\|f(\bf x)-L\|<\epsilon\)。
\(f(\bf x)\) 在 \(\bf x_0\) 处连续,若:
\(\|f(\bf x)-f(\bf x_0)\|<\epsilon\)。
在聚点处连续,当且仅当 \(\lim\limits_{\bf x\to\bf x_0}f(\bf x)=f(\bf x_0)\);
对于有限线性空间 \(V\) 和范数 \(\|\cdot\|\):
- 其是完备的,若 Cauchy 列收敛。
- 任何有界点列均收敛。(每维分别列紧性)
- \(\|\cdot\|\) 与无穷范数等价。(进而,任意两范数等价)
\(\|\cdot\|<M\|\cdot\|_\infty\) 易证;如何证下界?
反证,即 \(\forall n\),存在 \(\bf x_n\) 使得 \(\|\bf x_n\|_\infty<n\|\bf x_n\|\)。
记 \(\bf y_n=\dfrac{\bf x_n}{\|\bf x_n\|_\infty}\),则 \(\|\bf y_n\|_\infty=1\),\(\|\bf y_n\|<\dfrac1n\)。
\(\bf y_n\) 在 \(\|\cdot\|_\infty\) 下有收敛子列,不妨令其收敛至 \(\bf y\),则 \(\lim\limits_{k\to+\infty}\|\bf y-\bf y_{n_k}\|=0\)。
\(\|\bf y\|_\infty\geq\|\bf y_{n_k}\|_\infty-\|\bf y-\bf y_{n_k}\|_\infty=1-(\to0)\),因此 \(\|\bf y\|_\infty\geq1\)。
\(\|\bf y\|\leq\|\bf y_{n_k}\|+\|\bf y_{n_k}-\bf y\|\leq\dfrac1n+C\times\|\bf y_{n_k}-\bf y_n\|_\infty\to0\),也即 \(\|\bf y\|=0\),则 \(\bf y=\bf 0\),与前提矛盾。
连通集:\(\forall P,Q\in A\),存在连续映射 \(\phi:[0,1]\to A\) 使得 \(\phi(0)=P,\phi(1)=Q\)。
连续函数把连通集映到连通集。(原因:\(\phi\) 连续;\(f\) 连续;连续的复合连续)
连续函数把有界闭集映到有界闭集。
- 证明需要:任意点列都有收敛于集合内点的子列的集合 等价于 有界闭集 的 引理。
- 右推左易得;左推右,有界考虑反证:若无界则可构造 \(\|\bf x_n\|>n\),其任意子列都无界,进而无收敛子列。闭集考虑反证:若非闭集,则存在一敛于集合外点的数列,其任意子列均收敛,且极限与母列同,进而全体子列均敛于外点。
一致连续:\(\forall\epsilon,\exists\delta,\forall\|\bf x-\bf y\|<\delta,\|f(\bf x)-f(\bf y)\|<\epsilon\)。
有界闭集上连续函数一致连续:反证,则存在 \(\epsilon\) 使得对于一切 \(n\),存在 \(\bf x_n,\bf y_n\) 有 \(\|\bf x_n-\bf y_n\|<\dfrac1n\) 且 \(\|f(\bf x_n)-f(\bf y_n)\|>\epsilon\)。因为有界闭所以不妨认为 \(\bf x_n\) 收敛至 \(\bf a\in A\),则 \(\bf y_n\) 亦收敛至 \(\bf a\),与二者 \(f\) 差 \(\geq\epsilon\) 互斥。
含参积分对参数的连续性:对于闭集 \(A\),若 \(f:[a,b]\times A\to\R\) 连续,令 \(g(\bf y)=\int_a^bf(x,\bf y)\d x\) ,则 \(g(\bf y)\) 连续。
也即,\(\lim\limits_{\bf y\to\bf y_0}\int_a^bf(x,\bf y)\d x=\int_a^bf(x,\bf y_0)\d x=\int_a^b\lim\limits_{\bf y\to\bf y_0}f(x,\bf y)\d x\)、
证明:首先可选取适当范数使得对于一切 \(x\in[a,b]\) 与 \(\bf y,\bf y_0\in A\) 都有 \(\|(x,\bf y)-(x,\bf y_0)\|_{[a,b]\times A}=\|\bf y-\bf y_0\|_A\),然后取开球 \(B_1(\bf y_0)\) 中的全体 \(\bf y\),\([a,b]\times B_1(\bf y_0)\) 为定义域,则其有界,\(f\) 在其上一致连续;进而 \(\forall\epsilon>0\),都存在 \(\delta>0\) 使得 \(\forall\bf y\in A\) 满足 \(\|\bf y-\bf y_0\|_A<\delta\) 都有 \(|f(x,\bf y)-f(x,\bf y_0)|<\epsilon\)。
一元函数,只要左右极限相等则双侧极限存在;
多元函数,沿所有直线方向极限不一定等,若不等则极限不存在;(例:\(\dfrac{xy}{x^2+y^2}\))
进一步,就算沿所有直线方向极限均相等,极限也不一定存在;(例:\(\dfrac{x^2y}{x^4+y^2}\))
各个方向趋于极限速率可能不同,进而极限不一定存在(无穷多个方向,趋于极限的速度可能下确界为零)
分子分母就算阶算出来是无穷小,实际上也可能发散;(例:\(\dfrac{xy}{x+y}\))
最直观的例子:\(f(x,y)\),在抛物线 \(y=x^2\) 除原点外处为 \(1\),其余位置为零。
- 沿抛物线方向无极限。
- 非抛物线方向有极限 \(0\)。
- 任意过原点直线方向有极限 \(0\)。
- \(\lim\limits_{x\to0}\lim\limits_{y\to 0}f(x,y)=\lim\limits_{y\to0}\lim\limits_{x\to 0}f(x,y)=0\)。(两种累次极限均为 \(0\))
- 但是极限不存在。
相反,多个函数同时变化的极限叫做(重)极限。重极限和累次极限没有必然关系(但是若它们均存在,则必相等)
分析极限可从等高线入手降维。若某点附近有不等的等高线则极限不存在。
\(x^y\) 极限分析:用等高线 \(x^y=k\),即 \(y=\dfrac{\ln k}{\ln x}\) 分析,可以发现 \(0\) 附近有多条等高线,因此 \(0\) 处极限不存在。
但是,如果定义域确定为 \(|y|\leq Cx^\alpha\),其中 \(C\) 是非负常数、\(\alpha>0\),则极限存在。这是因为:
而 \(x^\alpha\ln x\to0\),于是 \(x^y\to1\)。
无穷小量:\(\lim\limits_{\bf x\to\bf a}\|f(\bf x)\|=0\)。
渐进上界:当 \(\bf x\to\bf a\) 时有 \(f=O(g)\),如果存在 \(\bf a\) 的邻域 \(U\),使得 \((U\cap A)\setminus\{\bf a\}\) 中都有 \(\|f(\bf x)\|<M\|g(\bf x)\|\)。
- 注意,此时仅要求 \(f,g\) 定义域相同,它们的值域可以是不同维度的!
严格上界:如果 \(\forall\epsilon\) 都存在 \(U_\epsilon\) 使得 \(\|f(\bf x)\|<\epsilon\|g(\bf x)\|\)。
如果当 \(x\to\bf a\) 时,\(f(\bf x)-\bf L=o(1)\),则 \(\lim\limits_{\bf x\to\bf a}f(\bf x)=\bf L\)。
\(f\) 在 \(\bf x_0\) 处连续 \(\Leftrightarrow\) \(f(\bf x)=f(\bf x_0)+o(1)\)。
同阶:\(f=O(g)\) 且 \(g=O(f)\)。
另一种定义:\(\lim\limits_{\bf x\to\bf x_0}\dfrac{\|f(\bf x)\|}{\|g(\bf x)\|}=C\neq0\)。
但是这种定义不好。例:\(\dfrac{ax^2+2bxy+cy^2}{x^2+y^2}\)。极坐标换元得到 \(\dfrac{a-c}2\cos2\theta+b\sin2\theta+\dfrac{a+c}2\),则当且仅当 \(b=0,a=c\) 时上述极限存在。
但是我们应认为,椭圆和圆在原点处应同阶。因此这样定义不好。
如何验证其是否同阶?
\(ax^2+2bxy+cy^2\) 与 \(x^2+y^2\) 同阶,当且仅当 \(b^2<ac\),即其是椭圆。
原因:\(|ax^2+2bxy+cy^2|\leq|a|x^2+|2b||xy|+|c|y^2\);而 \(|2b||xy|\leq|b|(x^2+y^2)\),于是 \(|ax^2+2bxy+cy^2|\leq(|a|+|b|+|c|)(x^2+y^2)\)。
与此同时,当 \(b^2<ac\) 时,令 \(\epsilon=\dfrac{ac-b^2}{a+c}\),则 \(b^2<(a-\epsilon)(a+\epsilon)\),于是 \(|ax^2+2bxy+cy^2|\geq ax^2-2|b||xy|+cy^2=(a-\epsilon)x^2-2|b||xy|+(c-\epsilon)y^2+\epsilon(x^2+y^2)\geq\epsilon(x^2+y^2)\)。
于是,当 \(b^2<ac\) 时,二者同阶。
相反,可以使用 \(|\dfrac{ax^2+2bxy+cy^2}{x^2+y^2}|=|\dfrac{a-c}2\cos2\theta+b\sin2\theta+\dfrac{a+c}2|=|\sqrt{(\dfrac{a-c}2)^2+b^2}\cos(2\theta+\phi)+\dfrac{a+c}2|\)。
当且仅当 \(\dfrac{a+c}2-\sqrt{(\dfrac{a-c}2)^2+b^2}\leq0\leq\dfrac{a+c}2+\sqrt{(\dfrac{a-c}2)^2+b^2}\) 时,其最小值为零,也即 \(b^2\geq ac\)。
也即,如果 \(b^2\geq ac\),二者显然不可能同阶。
换句话说,我们认为两个函数同阶,其实是 \(\dfrac{\|f(\bf x)\|}{\|g(\bf x)\|}\in[l,r]\),其中 \(l>0\)。
事实上,\(axu+b(xv+yu)+cyv\) 是 \(\R^2\) 上 \((x,y)\) 与 \((u,v)\) 间内积,因此其有对应范数,该范数与欧几里得范数显然等价。范数等价则说明其在 \(\to(0,0)\) 时同阶。
线性函数总是连续的:即满足 \(L(\lambda\bf x+\mu\bf y)=\lambda L(\bf x)+\mu L(\bf y)\) 的 \(L\) 是连续函数。
于是 \(\|L(\bf x)-L(\bf y)\|\leq M\|\bf x-\bf y\|\)。因此,其一致连续。
连续函数复合连续。
笛卡尔积空间 \(V_1\times V_2:\bf x_1\times\bf x_2\mapsto(\bf x_1,\bf x_2)\) 上有范数 \(\|(\bf x_1,\bf x_2)\|=\max(\|\bf x_1\|,\|\bf x_2\|)\)。
投影映射 \(\pi_k:V_1\times V_2\to V_k,(\bf x_1,\bf x_2)\mapsto\bf x_k\) 是线性映射,进而是连续映射。
一元连续函数 \(f(x)\) 强行看成多元函数 \(g(x,y,z)\),则其仍连续,因为 \((x,y,z)\to x\to f(x)\) 是连续映射复合。
\(\max:\R^m\to\R,\min:\R^m\to\R\) 都是连续函数,因为 \(\max(x,y)=\dfrac{x+y}2+|\dfrac{x-y}2|\)。
所有双线性映射都是连续映射,分析类似线性映射的分析。
多重线性映射也连续,且存在常数 \(M\) 使得 \(L(\bf x_1,\dots,\bf x_m)\leq M\|\bf x_1\|\|\bf x_2\|\dots\|\bf x_m\|\)。
全体 \(n\times m\) 矩阵,可以看成 \(\R^m\times\R^m\dots\times\R^m\)。行列式是 \(m\)-重线性映射,因此行列式是连续函数。
可逆矩阵集合是开集。这是因为,可逆矩阵等价于行列式非零矩阵,又由行列式连续性可知对于可逆矩阵 \(A\),对于任意小的 \(\delta\),存在 \(B\) 使得 \(\|B\|<\delta\) 且 \(\|\det(A+B)-\det(A)\|<\dfrac12\|\det A\|\),因此 \(A+B\) 可逆。
可逆矩阵集合不是联通集合,因为对于两个行列式异号的 \(A,B\),任意连续 \(\phi:[0,1]\to\R^{m\times n}\),则 \(\phi\times\det\) 跨零且连续则不合法。
但是,正可逆矩阵集合和负可逆矩阵集合是否联通呢?
压缩不动点定理:如果 \(f:A\to A\) 满足:
- \(f(A)\subseteq A\);
- 存在 \(\lambda\in(0,1)\) 满足 \(\|f(\bf x)-f(\bf y)\|\leq\lambda\|\bf x-\bf y\|\);
- \(A\) 是闭集。
则存在唯一的 \(\bf x^*\) 满足 \(f(\bf x^*)=\bf x^*\),且任意 \(\bf x\) 都满足 \(\|f^n(\bf x)-\bf x^*\|\leq\dfrac{\lambda^n}{1-\lambda}\|f(\bf x)-\bf x\|\)。
易证迭代列是 Cauchy 列。分析 \(\|f(\bf x_n)-\bf x_n\|\) 可得 \(f(\bf x^*)=\bf x^*\)。若存在 \(\bf x^\#\) 满足 \(f(\bf x^\#)=\bf x^\#\) 可导出 \(\bf x^\#=\bf x^*\)。
压缩不动点定理亦可分析逆矩阵函数的连续性。
在 \(\mathcal M_m\) 上定义算子范数 \(\|A\|=\max\limits_{\bf v\in\R^m,\|\bf v\|=1}\|A\bf v\|\)(其可被看作 最大拉伸比例)。其满足 \(\|AB\|\leq\|A\|\|B\|\),这是因为 \(\|AB\bf v\|\leq\|A\|\|B\bf v\|\leq\|A\|\|B\|\|\bf v\|\)。算子范数由向量对应的范数唯一确定,因此通过选择合适的向量范数,可以对算子范数更好地分析。
对于 \(B\in\mathcal M_m\),若 \(\|B\|<1\),则 \(I-B\) 可逆,且 \(\|(I-B)^{-1}-I\|\leq\dfrac{\|B\|}{1-\|B\|}\)。也即,矩阵的逆应在单位矩阵对称点附近。
考虑令逆为 \(I+C\),则 \((I-B)(I+C)=I\),进而 \(C=B+BC\),这是一个不动点方程。于是令 \(f(C)=B+BC\),则 \(\|f(C_1)-f(C_2)\|\leq\|B\|\|C_1-C_2\|\),是压缩映射,因此不动点 \(C\) 唯一。
取迭代初值为 \(0\) 可知 \(C\) 与 \(0\) 的相近性。
因为 \(\|C-B\|=\|BC\|\leq\|B\|\|C\|\leq\dfrac{\|B^2\|}{1-\|B\|}\),所以 \((I-B)^{-1}=I+B+o(B),\|B\|\to0\)。
上述分析基于单位矩阵 \(I\) 周围分析。如果基于任意可逆矩阵 \(A\) 周围分析,则考虑 \(A+B\),当 \(\|B\|<\dfrac1{\|A^{-1}\|}\) 时,其可逆。
因为,\(\|A^{-1}B\|<1\),则 \(I+A^{-1}B\) 可逆,则 \(A(I+A^{-1}B)=A+B\) 可逆。分析可得 \(\|(A-B)^{-1}-A^{-1}\|\leq\dfrac{\|B\|\|A^{-1}\|^2}{1-\|A^{-1}\|\|B\|}\)。因此,逆函数是连续函数。
\((A+B)^{-1}=A^{-1}-A^{-1}BA^{-1}+o(B)\)。
事实上,\(A^{-1}BA^{-1}\) 可以被看作是在 \(A\) 处的“微分”。假如 \(A\) 是 \(1\times1\) 矩阵(实数),则该微分就是 \(-\dfrac1{x_0^2}x\)。
任给 \(B\),若 \(\|B\|<1\),则 \((I-B)\) 可逆,且 \((I-B)^{-1}=I+B+B^2+\dots\)。
记 \(K_n=1+B+\dots+B^n\),则易知 \(K_n\) 是 Cauchy 列进而收敛。因为 \(K_{n+1}=K_nB+I\),则 \(K=BK+I\),也即 \(K=(I-B)^{-1}\)。
同理,\((A+B)^{-1}=A^{-1}(I+BA^{-1})^{-1}=A^{-1}(I-BA^{-1}+(BA^{-1})^2-\dots)\)。
对于非空开集 \(A\),称其在 \(\bf a\) 处可微,若存在线性映射 \(L\) 使得 \(f(\bf a+\bf x)=f(\bf x)+L\bf x+o(\bf x)\),\(\|\bf x\|\to0\),即 \(\lim\dfrac{\|f(\bf a+\bf x)-f(\bf x)-L\bf x\|}{\|\bf x\|}=0\)。
记 \(\D f(\bf a)=L\),即 \(f\) 在 \(\bf a\) 处微分是 \(L\)。
若 \(f\) 是函数(即 \(f:A\to\R\)),则可写作 \(\d f\)。
多元函数及其微分的等高线在 \(\bf a\) 处是相切的。
常映射的微分是 \(\bf 0\)。
线性映射的微分处处是其自身。
双线性映射(即类似两个线性映射乘积)的微分 \(\D B(\bf a,\bf b)(\bf x,\bf y)\),考虑 \(B(\bf a+\bf x,\bf b+\bf y)=B(\bf a,\bf b)+B(\bf a,\bf y)+B(\bf x,\bf b)+B(\bf x,\bf y)\) ,而 \(\|B(\bf x,\bf y)\|\leq M\|\bf x\|\|\bf y\|\leq M'\|(\bf x,\bf y)\|^2=o(\|(\bf x,\bf y)\|)\)。于是 \(\D B(\bf a,\bf b)(\bf x,\bf y)=B(\bf a,\bf y)+B(\bf x,\bf b)\),此乃 Leibniz 公式。
内积是双线性函数,因此 \(\d\lang*,*\rang(\bf a,\bf b)(\bf x,\bf y)=\lang\bf a,\bf y\rang+\lang\bf x,\bf b\rang\)。
\(\R^3\) 中向量的叉积 \(\bf x\times\bf y\) 是双线性函数(结果是垂直于 \(\bf x,\bf y\) 的向量,构成右手系),则映射 \(f(\bf x,\bf y)=\bf x\times\bf y\) 的微分 \(\D f(\bf x,\bf y)=\bf x\times\bf b+\bf a\times\bf y\)。
类似,多重线性映射 \(\D L_m(\bf a)(\bf x)=\sum\limits_{i=1}^m L(\bf a_1,\dots,\bf x_i,\dots,\bf a_m)\)。
考虑线性常微分方程组 \(\dfrac\d{\d t}\bf y(t)=A(t)\bf y(t)\),
取可逆的解矩阵 \(Y(t)\)(即基本解矩阵),则 \(\dfrac\d{\d t}Y(t)=A(t)Y(t)\),
于是对于固定的 \(s\),\(Y(s+t)=Y(s)+Y'(t)t+o(t)=Y(s)+tA(s)Y(s)+o(t),t\to0\)。
则 \(Y(s+t)Y(s)^{-1}=I_m+tA(s)+o(t)\),\(\det(Y(s+t)Y(s)^{-1})=\dots\)
于是,\(\left.\dfrac\d{\d t}Y(s+t)\right|_{t=0}=\dots\)
反正就是 Liouville 定理。
\(\D\text{inv}(A)(B)=-A^{-1}BA^{-1}\)。
链锁法则:令 \(A,B\) 是非空开集,且 \(A\in V,B\in W\),令 \(f:A\to W,g:B\to Z\),若 \(f\) 在 \(a\) 处可微,\(g\) 在 \(b=f(a)\) 处可微,则 \(g\circ f\) 在 \(a\) 处可微,且 \(\D(g\circ f)(a)=\D g(b)\circ\D f(a)=\D g(f(a))\circ\D f(a)\)。
考虑内积范数 \(\|\bf x\|=\sqrt{\lang\bf x,\bf x\rang}\)。
当 \(\bf x\neq\bf 0\) 时,内积范数可微。
也可以使用朴素分析。
\(\sum x_iu_i\) 是 \(\Theta(\|\bf u\|)\)。\(\sum u_i^2\geq\dfrac1n(\sum u_i)^2=\Theta(\|\bf u^2\|)\)。
因此原式就是 \(\|\bf x\|(1+\dfrac1{\|\bf x^2\|}\lang\bf x,\bf u\rang+o(\|\bf u\|))\)。
线性映射 \(L\) 的对偶 \(L^T\) 也是线性映射,满足 \(\lang\bf x,L\bf y\rang=\lang L^T\bf x,\bf y\rang\)。
对于映射 \(f:\R\to W\),若极限 \(\lim\limits_{t\to0}\dfrac{f(x+t)-f(x)}t\) 存在则记为 \(f'(x)\)。易知 \(\D f(x)=f'(x)t\),也即 \(f(x+t)=f(x)+f'(x)t+o(t),t\to0\)。
若 \(f(x)\) 是参数曲线,则 \(f'(x)\) 就是切向量。
对于内积空间 \(V\),任何线性函数 \(L:V\to\R\) 都可以表述为内积形式,即存在 \(\bf b\) 使得 \(L(\bf x)=\lang\bf b,\bf x\rang\),\(\bf b\) 称作该线性函数的 梯度。
首先,\(L\equiv0\Leftrightarrow\bf b=0\),否则,则满足 \(\bf b\in(\ker L)^\perp\),其中 \(\ker L\) 是映射的核(映到 \(0\) 的元素集合),且 \(L(\bf b)=\|\bf b\|^2\)。
\(\ker L\) 就是 \(L\) 对应矩阵的零空间 \(\text N(L)\),当 \(L\not\equiv0\) 时 \(\text N(L)\neq V\),进而其存在非仅含零元素的正交空间 \((\ker L)^\perp\)。
对于非零的 \(\bf b_1,\bf b_2\in(\ker L)^\perp\),可以伸缩使得 \(L(\bf b_1)=L(\bf b_2)=1\),考虑 \(\bf b_1-\bf b_2\);因为正交核空间是线性空间,所以 \(\bf b_1-\bf b_2\in(\ker L)^\perp\);\(L(\bf b_1-\bf b_2)=0\),所以 \(\bf b_1-\bf b_2\in\ker L\);所以 \(\bf b_1-\bf b_2=\bf 0\),也即 \(\bf b_1=\bf b_2\)。这意味着 \((\ker L)^\perp\) 是一维空间,在其中寻找满足 \(L(\bf b)=\|\bf b\|^2\) 的 \(\bf b\) 即可。声称,\(\bf b=\dfrac{\bf b_1}{\|\bf b_1\|^2}\)。
记 \(\bf u=\bf x-L(\bf x)\bf b_1\),则 \(L(\bf u)=L(\bf x)-L(\bf x)L(\bf b_1)=0\),即 \(\bf u\in\ker L\)。
(\(\bf b_1,\bf u\) 在正交的空间中,其内积恒为零)
我们认为,向量总是列向量。进而,向量到实数的线性变换则是行向量,行向量列向量相乘得到 \(1\times 1\) 向量,即实数。
而,把线性变换行向量转置后得到的列向量,则可以被看作该线性变换的梯度。
微分是线性变换,因此可以使用微分的梯度来优雅地描述之。\(\d f(\bf a)\) 的梯度称为 \(f\) 在 \(\bf a\) 处的梯度,记作 \(\operatorname{grad}f(\bf a)\) 或 \(\nabla f(\bf a)\)。
梯度与内积有关,选择的内积不同得到的梯度也不同。
微分与范数无关,选择的范数不同不影响微分。导数同理。
导数属于像空间,梯度属于定义域,微分架起桥梁。
对角占优矩阵:矩阵相关微分的应用。
称一个矩阵是对角占优的,如果 \(\forall i\) 都有 \(|a_{i,i}|>\sum\limits_{j\neq i}|a_{i,j}|\)。对角占优矩阵都是可逆的。
令 \(A=D+K\),其中 \(D\) 是对角线(显然可逆),\(K\) 是偏移量。则 \(A=D(I+D^{-1}K)\),且 \(\|D^{-1}K\|<1\),因此 \(A\) 可逆。
要分析 \(\|D^{-1}K\|\) 的算子范数,寻找合适的向量范数即可。选择范数为无穷范数,则算子范数即为 每一行中所有元素和 绝对值的最大值。而 \(D^{-1}K\) 恰满足每行该值总小于 \(1\)。
方向导数
对于非空开集 \(A\in V\) 和 \(\bf a\in A,\bf v\in V\),过 \(\bf a\) 点的直线可以看作一元映射 \(g(t)=f(\bf a+t\bf v)\),若存在极限 \(g'(0)=\lim\limits_{t\to0}\dfrac{f(\bf a+t\bf v)-f(\bf a)}t\),则记该极限为 \(\part_\bf vf(\bf a)\),称为在 \(\bf a\) 处沿向量 \(\bf v\) 的导数。
若 \(\bf v\) 是单位向量,则可称其为沿 \(\bf v\) 方向的方向导数。
\(\part_{\lambda\bf v}f(\bf a)=\lambda\part_\bf vf(\bf a)\)。
若 \(f\) 在 \(\bf a\) 处可微,则对于过 \(\bf a\) 的可微曲线 \(\gamma\)(\(\gamma(0)=\bf a,\gamma'(0)=\bf v\)),则 \(f(\gamma(t))\) 关于 \(t\) 可导,且由链锁法则得到
因此,当 \(f\) 在 \(\bf a\) 处可微时,\(f\) 沿每个向量 \(\bf v\) 都有导数,且导数 \(\part_\bf vf(\bf a)\) 关于 \(\bf v\) 线性。
反之,若其不关于 \(\bf v\) 线性,则显然不可微。
例:\(f(x,y)=\dfrac{x^3+y^3}{x^2+y^2}\)。\(f(tx,ty)=t\dfrac{x^3+y^3}{x^2+y^2}\),则 \(\part_{(x,y)}f(0,0)=\dfrac{x^3+y^3}{x^2+y^2}\)。于是,\(\part_{(0,1)}f(0,0)=\part_{(1,0)}f(0,0)=\part_{1,1}f(0,0)=1\),其并非线性。
那么,如果沿所有方向都有方向导数,且方向导数关于 \(\bf v\) 线性,是否可微呢?
不是。进一步,其甚至不一定连续。
考虑构造一个函数,其在 \([0,\alpha)\) 上为 \(1\),\((\alpha,\beta)\) 平滑下降,\((\beta,+\infty)\) 为零。则只要 \(0<\alpha<\beta\),则在 \(0\) 处导数就为 \(0\)。然后,在原点处绕一圈,每个方向的函数值都是上述函数,只不过 \(\alpha\) 的值随着环绕不断趋于 \(0\)。此时,在原点的任意近的邻域里,都同时存在 \(1\) 的函数值和 \(0\) 的函数值,故其甚至不连续。
对于曲面 \(S\) 上的 \(f\),也可以针对曲线 \(\gamma(t)\) 定义方向导数 \(\part_{\bf v}f(\bf a)=(f\circ\gamma)'(0)\)。
这可以用来衡量地球上陡峭程度,需要弧长参数化:\(\lim\limits_{l\to0}\dfrac{f(P(l))-f(P(0))}l\)。
例:考虑球极坐标系下单位球面上函数 \(r=r(\varphi,\theta)\),其中 \(\varphi\) 是经度,\(\theta\) 是数学纬度(自北极旋转角度)。
如果沿经线移动单位弧长 \(t\),则纬度变化量即为 \(t\)(因为是单位球),于是 \(\left.\dfrac\d{\d t}r(\varphi_0,\theta_0+t)\right|_{t=0}=r_\theta(\varphi_0,\theta_0)\)(意为对 \(\theta_0\) 求偏导)
而沿经线移动经度 \(\varphi\) 弧长为 \(\varphi\sin\theta\),\(\lim\limits_{\Delta\varphi\to0}\dfrac{\Delta r}{\Delta\varphi\sin\theta}=\dfrac1{\sin\theta_0}r_{\varphi}(\varphi_0,\theta_0)\)。
若 \(f\) 是内积空间上可微函数,则有:
最后一个不等号来自 Cauchy-Schwarz 不等式,当且仅当 \(\bf v\) 和 \(\nabla f(\bf a)\) 共线时取等号。
因此,\(f\) 沿梯度方向增长最快,且最大变化率等于梯度范数。
在 \(V\) 中引入正交坐标系,则 \(f:V\to\R\) 成为 \(m\) 元函数 \(f(x^1,x^2,\dots,x^m)\)。
只让一个坐标变化,其余不变,得到偏导数 \(f_{x^k}'(\bf x)=\lim\limits_{t\to0}\dfrac{f(x^1,\dots,x^k+t,\dots,x^m)-f(x^1,\dots,x^m)}t\)。其中导数符号 \('\) 可以被省略。
也记成
某些学科也有如下描述
表明 \(u\) 是关于 \(x,y,z\) 三个变量的函数,此时求导仅仅是关于 \(x\) 一维求偏导;在给定 \(y,z\) 不变时,对 \(x\) 求偏导。
若 \(f\) 可微,则
因此 \(\d f(\bf x)\) 可以写成行向量 \((f_{x^1}(\bf x),f_{x^2}(\bf x),\dots,f_{x^m}(\bf x))\)。
同理,梯度在笛卡尔坐标系下(基底单位正交)则可以写成列向量 \(\nabla f(\bf x)=\begin{pmatrix}f_{x^1}(\bf x)\\f_{x^2}(\bf x)\\\vdots\\f_{x^m}(\bf x)\end{pmatrix}\)
一般地,如果并非单位正交基 \(\bf e^1,\dots,\bf e^m\) 而仅仅是线性无关,则令 \(\nabla f(\bf x)=c^1\bf e^1+\dots+c^m\bf e^m\),则 \(f_{x^j}(\bf x)=\lang\nabla f(\bf x),\bf e^j\rang=\sum\limits_{i=1}^mc^i\lang\bf e^i,\bf e^j\rang=\sum\limits_{i=1}^mc^ig_{i,j}\),其中 \(g_{i,j}=\lang\bf e^i,\bf e^j\rang\) 称为度量矩阵。则梯度为 \(G^{-1}\times\begin{pmatrix}f_{x^1}(\bf x)\\f_{x^2}(\bf x)\\\vdots\\f_{x^m}(\bf x)\end{pmatrix}\)。
易知,在平面笛卡尔坐标系下,\(\d f(x,y)=(f_x(x,y),f_y(x,y))\)。
然后,对于投影函数 \((x,y)\mapsto x\) 和 \((x,y)\mapsto y\),传统上可以用函数值表示函数,因此直接有 \(\d x\) 和 \(\d y\) 这样的符号。若 \(\bf v=\xi\bf e_1+\eta\bf e_2\),有 \(\d x(\bf v)=\xi,\d y(\bf v)=\eta\)。
是不是有点抽象?其实它省略了一些不该省的东西。全称是 \(\d x(x,y)(\bf v)=\xi,\d y(x,y)(\bf v)=\eta\)。
\(\d f(x,y)(\bf v)=f_x(x,y)\xi+f_y(x,y)\eta=f_x(x,y)\d x(x,y)\xi+f_y(x,y)\d y(x,y)\eta\)。省略一些可以省略的东西后,得到 \(\d f=f_x\d x+f_y\d y\)。
考虑极坐标系(\([r,\theta]\) 表示极坐标,\((r\cos\theta,r\sin\theta)\) 表示笛卡尔坐标),则 \(\bf e_r=\part_r\bf x=(\cos\theta,\sin\theta),\bf e_\theta=\part_\theta\bf x=(-r\sin\theta,r\cos\theta)\) 为 \(\bf x\) 处一对向量,其构成平面基底。\(\{\bf e_r,\bf e_\theta\}\) 对应的 \(g=\begin{bmatrix}1&0\\0&r^2\end{bmatrix}\)。若 \(\nabla f(\bf x)=[c^1,c^2]\),则 \(\nabla f(\bf x)=(c^1\cos\theta-c^2r\sin\theta,c^1\sin\theta+c^2r\sin\theta)\)。
\(f_r=c^1,f_\theta=c^2r^2\)。\(\nabla f(\bf x)=[c^1,c^2]=[f_r,\dfrac1{r^2}f_\theta]=(f_r\cos\theta-\dfrac1rf_\theta\sin\theta,f_r\sin\theta+\dfrac1rf_\theta\sin\theta)=(f_x,f_y)\)
解得 \(f_r=f_x\cos\theta+f_y\sin\theta=\dfrac{xf_x+yf_y}{\sqrt{x^2+y^2}}\),\(f_\theta=rf_y\cos\theta-rf_x\sin\theta=xf_y-yf_x\)。
因为 \(x=r\cos\theta,y=r\sin\theta\),所以 \(\d x,\d y\) 可以用 \(\d r,\d\theta\) 表出,经验证有 \(\d f=f_x\d x+f_y\d y=f_r\d r+f_\theta\d\theta\)。
在任何线性无关坐标系 \(x^1,\dots,x^m\) 下,总有 \(\d f=\sum f_{x^k}\d x^k\),前者称为全微分,后者称作偏微分。
偏导数就是偏微分系数。
另一种写法是,\(\dfrac\d{\d t}f(\bf x(t))=\sum\bf x'(t)\dfrac\part{\part x^k}f(\bf x(t))\)
若 \(V\) 有坐标系 \(x\),\(W\) 有坐标系 \(y\),那么对于 \(V\supseteq A\to W\),\(\bf y=f(\bf x)\) 可以写成函数
\(\bf y\) 可微当且仅当所有的 \(f^i\) 均可微。
\(f\) 的微分 \(\D f(\bf x)\) 可以通过这些函数的微分表示为矩阵 \(J f(\bf x)=\left(\dfrac{\part f^i}{\part x^j}(\bf x)\right)_{n\times m}\),其中第 \(i\) 行对应某个自变量 \(y^i\),第 \(j\) 列对应因变量 \(x^j\)。这被称作 Jacobi 矩阵。它的行列式称作 Jacobi 行列式或 Jacobian。
\(Jf(\bf x)\times\bf v=\d f(\bf x)(\bf v)\)。
\(J(g\circ f)(\bf x)=Jg(f(\bf x))\times Jf(\bf x)\)。
例:对 \(z=f(x,\dfrac y{x^2})\) 求偏导。
考虑使用中间变量 \(u=x,v=\dfrac y{x^2}\),则 \(z=f(u,v)\)。
\(z_x=z_uu_x+z_vv_x=f_u(u,v)+f_v(u,v)\times(-2\times\dfrac y{x^3})=f_u(u,v)\dfrac y{x^2}-2\dfrac y{x^3}f_v(u,v)\)。
\(z_y=z_uu_y+z_vv_y=\dfrac1{x^2}f_v(u,v)\)。
或者,使用 Jacobi 矩阵法。
Jacobi 矩阵法还有更多用处。
对于 \(u=u(x,y)\) 考虑其关于 \(r,\theta\) 的偏导。
若 \(\bf z=g(\bf y),\bf y=f(\bf x)\),
则
:一阶微分的形式不变性。
本质:一阶微分是与坐标系选取无关的几何概念。
梯度也是与坐标系选取无关的集合概念;只不过梯度在不同坐标系下表示不一样罢了。
上述 \(z=f(x,\dfrac y{x^2})\),可以先把 \(\d z\) 用 \(\d u,\d v\) 基底展开,再把 \(\d u,\d v\) 用 \(\d x,\d y\) 基底展开,
偏导数不意味着微分存在。添加什么样的信息,可以由偏导数导出微分?
考虑使用折线逼近。
如果它可微,我们希望凑出 \(f_1(a,b)x+f_2(a,b)y+o((x,y))\) 的形式。
二者差了一个 \(y(f_2(a+x,b+\eta)-f_2(a,b))\) 的形式。
因此,若 \(f_1(a,b)\) 存在,\(f_2(a,b)\) 在邻域中存在且在 \((a,b)\) 处连续,上式就是 \(o(y)\),整个柿子就成立。
多维的时候,一维存在、其余维都在邻域中连续,即可。为了对称,一般来说使用的是所有维都在邻域中连续。
\(\scr C^1\) 函数:\(f\) 在 \(A\) 上每个点都存在所有一阶偏导,且都连续。
\(\scr C^K\) 函数:每个点都存在所有一阶偏导,且都是 \(\scr C^{K-1}\) 阶函数。
\(\scr C^\infty\) 函数:是任意 \(\scr C^K\) 函数。
偏连续:在其它变量固定,一个变量可变时,连续。
类似可以分析,若关于一个变量偏连续、关于其他变量在邻域中存在有界偏导,则 \(f\) 在 \(\bf a\) 处连续。
例:关于 \(x\) 偏连续。
高阶偏导数,即为偏导函数的偏导数(因为偏导函数的值域和原始函数的值域相同)。
\(f_{k_1,\dots,k_r}=\dfrac{\part^rf}{\part x^{k_r}\dots\part x^{k_1}}=\dfrac\part{\part x^{k_r}}\dots\dfrac\part{\part x^{k_1}}f\)。也即,从左向右依次求导(展开是从右往左)
也可以写成 \(\part_{k_r,\dots,k_1}f\) 或 \(\part_{k_r,\dots,k_1}^rf\)。例如 \(\part_{xy}f\)、\(\part_{xy}^2f\)、\(\part_x\part_yf\) 其实都是一个东西。
\(m\) 元函数上 \(r\) 阶偏导有 \(m^r\) 个。
Clairaut 定理:对于一组 \(k_1,\dots,k_r\),若对任意排列 \(\sigma\),\(f_{k_{\sigma_1},\dots,k_{\sigma_r}}\) 都连续,则它们的值都相等。(此时,求导与顺序无关)。
此时,对 \(m\) 元函数,可以考虑 \(f^{(\alpha_1,\dots,\alpha_m)}=\left(\dfrac\part{\part x^m}\right)^{\alpha_m}\dots\left(\dfrac\part{\part x^1}\right)^{\alpha_1}f\)。
求一维波动方程 \(u=u(t,x)\) 满足 \(u_{tt}=u_{xx}\) 的解。(\(u_{tt}\):关于 \(t\) 求二阶偏导;\(u_{xx}\):关于 \(x\) 求)
\(u_{tt}-u_{xx}=\left(\dfrac\part{\part t}-\dfrac\part{\part x}\right)\left(\dfrac\part{\part t}+\dfrac\part{\part x}\right)u=0\)。
因此可以转成方程组
此时,考虑 \(\dfrac\d{\d t}v(t,-t+C)\),其等于 \(v_1(t,-t+C)-v_2(t,-t+C)=0\),所以 \(x=-t+C\) 为常值线,即 \(v(t,x)=v(0,x+t)\)。
特征线法:对于一阶偏微分方程 \(\sum A_k(\bf x)\dfrac{\part z}{\part x^k}=B(\bf x)\),构造曲线 \(\bf x=\bf x(t)\),使得 \(\bf x'(t)=\bf A(\bf x(t))\),其中 \(\bf A(\bf x)=\begin{bmatrix}A_1(\bf x)\\\vdots\\A_m(\bf x)\end{bmatrix}\)。则上式可以变成 \(\dfrac\d{\d t}z(\bf x(t))=B(\bf x(t))\)。于是 \(z(\bf x(t))=z(\bf x_0)+\int_{0}^tB(\bf x(s))\d s\)。
在上述例子中,\(A_t=1,A_x=-1\),也即 \(t'=1,x'=-1\),则 \(\bf x(t)\) 为一切 \(x=x_0-t\)。
考虑对于一切 \(f\in\scr C^1\),令 \(v(t,x)=f(t+x)\),易验证 \(\left(\dfrac\part{\part t}-\dfrac\part{\part x}\right)v=0\)。也即,\(v\) 的全体解即为 \(v(t,x)=f(t+x)\)。
考虑 \(u_t+u_x=f(t+x)\)。沿着特征线 \(x=t+C\),\(\dfrac\d{\d t}u(t,t+C)=u_1(t,t+C)+u_2(t,t+C)=f(2t+C)\)。\(u(t,t+C)=u(0,C)+\int_0^tf(2s+C)\d s\)。
也即,\(u(t,x)=f(x-t)+\int_0^t(2s+(x-t))\d s=F(x-t)+G(x+t)\)。这样的解是行波解:其由两相向而行的波构成。
若:弦两端固定,即 \(u(t,0)=u(t,L)=0\),带入该信息可以得到存在 \(2L\) 周期函数 \(g\) 使得 \(u(t,x)=G(t+x)-G(t-x)\)。
另解:强行令其是独立的 \(u(t,x)=U(x)V(t)\),则 \(U''(x)V(t)=U(x)V''(t)\),即 \(\dfrac{U''(x)}{U(x)}=\dfrac{V''(t)}{V(t)}=常数\lambda\)。解 \(U''(x)-\lambda U(x)=0\) 和 \(V''(t)-\lambda V(t)=0\)。
若 \(\lambda>0\) 解为指数函数。\(\lambda=0\) 解为一次函数。\(\lambda<0\) 解为三角函数。我们希望振动函数是周期函数,因此仅考虑 \(\lambda<0\),于是令 \(\lambda=-\omega^2\),则解为 \(V(t)=A_1\cos(\omega t)+A_2\sin(\omega_t),U(x)=B_1\cos(\omega x)+B_2\sin(\omega x)\)。和差化积后,得到公式 \(u(t,x)=A\cos(\omega t+\varphi_1)\cos(\omega t+\varphi_2)\);再积化和差,得到 \(K_1\cos(\omega(x+t)+\theta_1)+K_2\cos(\omega(x-t)+\theta_2)\)。这样的解是驻波解,因为若 \(\omega x=2k\pi\),则 \(U(x)=0\),也即存在恒为零处。
驻波解是行波解的一部分。
Laplace 算子 \(\Delta u=u_{xx}+u_{yy}\)。
按照前文分析,有 \(u_x=\cos\theta u_r-\dfrac1r\sin\theta u_\theta,u_y=\sin\theta u_r+\dfrac1r\cos\theta u_\theta\)。
这里的 \(u\) 是一切可微函数。因此,其也可以写成算子式 \(\part_x=\cos\theta\part_r-\dfrac1r\sin\theta\part_\theta,\part_y=\sin\theta\part_r+\dfrac1r\cos\theta\part_\theta\):等号两边的算子作用于同一个函数后结果相同。
因此,\(u_{xx}=\part_x\part_xu=(\cos\theta\part_r-\dfrac1r\sin\theta\part_\theta)^2u\)。整理式子拆开来,得到 \(\cos^2\theta u_{rr}-\dfrac{2\sin\theta\cos\theta}ru_{r\theta}+\dfrac{\sin^2\theta}{r^2}u_{\theta\theta}+\dfrac{\sin^2\theta}ru_r\)。
\(u_{yy}\) 同理。整理得到 \(\Delta u=u_{xx}+u_{yy}=u_{rr}+\dfrac1{r^2}u_{\theta\theta}+\dfrac1r{u_r}\)。
使用分离变量法解 \(\Delta u=u_{rr}+\dfrac1{r^2}u_{\theta\theta}+\dfrac1r{u_r}\) 的解。
如何有 \(\part_{xy}=\part_{yx}\)(Clairaut 定理的证明)?
考虑 \(g(x,y)=\int_a^bf(x,y,z)\d z\)。猜测,\(g_x(x,y)=\int_a^bf_x(x,y,z)\d z\),也即 \(\dfrac\part{\part x}\int_a^bf(x,y,z)\d z=\int_a^b\dfrac\part{\part x}f(x,y,z)\d z\)(积分与偏导的交换性)
对于任意小的 \(\epsilon\),存在 \(\delta_\epsilon\) 使得 \(x\) 的 \(\delta_\epsilon\)-邻域中的 \(f_x(x+t,y,z)\) 与 \(f_x(x,y,z)\) 差不超过 \(\epsilon\)。此时,对于 \(|h|<\delta_\epsilon\)上式 \(\leq\epsilon(b-a)|h|\)。
因此上式是 \(o(h)\) 的。前提:\(f_x(x,y,z)\) 关于 \(x\) 的一致连续性,在 \(z\) 维变动时存在。(\(\forall\epsilon\),存在 \(\delta_\epsilon\) 使得 \(((x-\delta,x+\delta),y,(a,b))\) 内元素关于 \((x,y,z)\) 临近)
只要 \(f_x\) 在 \([\alpha,\beta]\times[\lambda,\mu]\times[a,b]\) 连续(进而因为有界所以一致连续),且 \(f,f_x,f_y\in\scr C\),则 \(g_x=\int f_x(x,y,z)\d z\) 且 \(g_y=\int f_y(x,y,z)\d z\),且二者均连续。进而,\(g\) 在 \((\alpha,\beta)\times(\lambda,\mu)\) 上可微。
数学归纳法可知,若 \(f\in\scr C^r[\alpha,\beta]\times[\lambda,\mu]\times[a,b]\),则 \(g\in\scr C^r[\alpha,\beta]\times[\lambda,\mu]\times[a,b]\),且 \(\dfrac{\part^k}{(\part x)^i(\part y)^j}\int_a^bf(x,y,z)\d z=\int_a^b\dfrac{\part^k}{(\part x)^i(\part y)^j}f(x,y,z)\d z\),其中 \(i+j=k\leq r\)。
例:若 \(u,v,f\in\scr C^1\),\(F(y)=\int_{u(y)}^{v(y)}f(x,y)\d x\),求 \(F'(y)\)。
记 \(G(u,v,y)=\int_u^vf(x,y)\d x\)。则:
- \(G_u(u,v,y)=-f(u,y)\)。
- \(G_v(u,v,y)=f(v,y)\)。
- \(G_y(u,v,y)=\int_u^vf_y(x,y)\d x\)。
三者都连续,故 \(G\) 可微。
讨论 \(F(x)=\begin{cases}\dfrac{e^x-1}x&(x\neq0)\\1&(x=0)\end{cases}\) 的可微性。
一种做法是用 \(e^x\) 的级数展开:但是我们目前还不会级数。
还有做法是 \(F(x)=\dfrac1x\int_0^xe^t\d t=\int_0^1e^{xs}\d s\)。此式在 \(x=0\) 亦成立。
\(f(t,x)=e^{xt}\) 是 \(\scr C^\infty\) 函数,因此 \(F\) 作为 \(f\) 的含参积分是 \(\scr C^\infty\) 函数。
求 \(\int_0^1\dfrac{x^b-x^a}{\ln x}\d x\)。
上式等于 \(f(x,b):=\int_a^bx^t\d t=\dfrac{x^b-x^a}{\ln x}\)(认为 \(f(0,b)=0\))。记 \(F(b)=\int_0^1\dfrac{x^b-x^a}{\ln x}\d x\)。
\(f_b(x,b)=x^b\),则 \(f\) 和 \(f_b\) 在 \([0,+\infty)\times[0,+\infty)\) 上连续,因此 \(F\) 可微,且 \(F'(b)=\int_0^1f_b(x,b)\d x=\int_0^1x^b\d x=\dfrac1{b+1}\)。
易知 \(F(a)=0\),于是 \(F=\int_a^bF'(t)\d t=\int_a^b\dfrac1{t+1}\d t=\ln(b+1)-\ln(a+1)\)。
累次积分换序:若 \(f\in\scr C[a,b]\times[c,d]\),则 \(\int_a^b\int_c^df(x,y)\d y\d x=\int_c^d\int_a^bf(x,y)\d x\d y\)。
证明方法:当成变上限积分,并证明差的微分为零。
有这个结论即有 \(\int_0^1\dfrac{x^b-x^a}{\ln x}\d x=\int_0^1\int_a^bx^t\d t\d x=\int_a^b\int_0^1x^t\d x\d t=\int_a^b\dfrac1{t+1}\d t\)。
泰勒展开!!!
回忆其方向导数的定义,我们可以先在某个方向上泰勒展开。即,若 \(f\in\scr C^r\),\(g(t)=f(\bf x_0+t\bf v)\),则考虑 Taylor 展开有 \(g(t)=\sum\limits_{i=0}^rg'(0)\dfrac{t^i}{i!}+o(t^r)\)。
首先,\(g'(t)=\d f(\bf x_0+t\bf v)(\bf v)=\sum\limits_{i=1}^mf_i(\bf x_0+t\bf v)v^i\)。
然后,\(g''(t)=\sum\limits_{i=1}^m\sum\limits_{j=1}^mf_{ji}(\bf x_0+t\bf v)v^iv^j\)。
于是,归纳可得,\(f(\bf x_0+t\bf v)=\sum\limits_{i=0}^r\dfrac{t^i}{i!}\sum\limits_{j_1,j_2,\dots,j_i\in\{1,2,\dots,m\}}f_{j_1j_2\dots j_i}(\bf x_0)v^{j_i}v^{j_{i-1}}\dots v^{j_1}+o(t^r)\)。
对于任意 \(\bf v\),令 \(\bf v=\|\bf v\|\bf w\),其中 \(\bf w\) 为某单位向量。则
这是错的!对于在一条线上的 \(\bf v\),这确实是成立的!但是不同方向的 \(\bf v\) 逼近的速率不同,可以构造环绕一圈趋近速率不同的模式。
正确的做法是,使用 Lagrange 余项。
其中 \(\xi\in(0,1)\)。
那是 Lagrange 余项的标准态。当 \(f\in\scr C^r\) 时,偏导之间可以交换顺序,因此也有
但是,又有上式等于
当偏导连续时,差项是随着 \(\|\bf v\|\to0\) 也 \(\to0\) 的,因此是 \(o(1)\)(这个 \(o(1)\) 对一切方向的 \(\bf v\) 因为连续所以可以共用 \(\delta\)) ;\(\prod v^{\alpha_i}\) 是 \(o(\|\bf v\|^r)\);对 \(\Sigma\) 的方案数统计后,可以得到最后一项整体是 \(o(\|\bf v\|)\)。
因此有 Peano 余项的标准态
\(\scr C^r\) 阶函数的 Taylor 多项式满足 \(f(\bf x_0+\bf v)=P(\bf v)+o(\|\bf v\|^r)\) 的 \(P\) 是唯一的。
原因:若其同时是 \(P(\bf v)+o(\|\bf v\|^r)\) 和 \(Q(\bf v)+o(\|\bf v\|^r)\),则显然 \(P(\bf v)-Q(\bf v)=o(\|\bf v\|^r)\)。
若 \(P(\bf v)-Q(\bf v)\neq0\),则可以取最小次数 \(k\) 使得二者次数不超过 \(k\) 的部分 \(p,q\) 不等。则 \(p,q\) 应齐次。
对于任意单位向量 \(\bf w\),取 \(\bf u=t\bf w\),则 \(p(\bf u)-q(\bf u)=o(\|u\|^k)=o(t^k)\)。而因为 \(p,q\) 均是齐次 \(k\) 次多项式,所以 \(p(\bf u)-q(\bf u)=t^k(p(\bf w)-q(\bf w))\)。若 \(t^k(p(\bf w)-q(\bf w))=o(t^k)\),仅可能 \(p(\bf w)-q(\bf w)=0\)。产生矛盾。因此 \(P=Q\)。
将原函数表示为简单函数(例如一元函数等)的复合,可以较好处理 Taylor 展开。
但是,用多项式逼近不一定是一个好的选择:因为高维时多项式有多种系数的组合方式。
极值点处必有 \(\d f(\bf x_0)=0\)。(一阶微分为零的点称为临界点)(即为 Fermat 引理)
要想研究临界点是否是极值点,就需要对二次微分加以分析。
二阶微分与二阶偏导有关。这是一个二次型 \(\sum\limits_{i=1}^m\sum\limits_{j=1}^mf_{ij}(\bf x_0)v^jv^i\)。
其系数矩阵 \((f_{i,j}(\bf x_0))_{m\times m}\) 被称作在 \(\bf x_0\) 处的 Hesse 矩阵,记作 \(H_f(\bf x_0)\)。Hesse 矩阵是对称矩阵。
- 实对称矩阵可以对角化,且特征值都是实数。
- 若其正定或负定(指特征值均为正或均为负),则满足如下性质:
- 若是正定,则顺序主子式均为正(负定则负正交替)(顺序主子式指左上角 \(i\times i\) 矩阵的行列式)
- 正定有 \(\forall\bf v\neq\bf 0,\bf v^TH\bf v>0\)。(负定则 \(<0\))
对于临界点,若其有负特征值则非极小值,有正特征值则非极大值。
对于特征向量 \(\bf v\),令其有负特征值 \(\lambda\)。
因此,正定 Hesse 矩阵对应着严格极小值,负定 Hesse 矩阵对应着严格极大值。对于可逆(即无零特征值)的 Hesse 矩阵,若其既非正定亦非负定,则其既非极大又非极小,此时称之为鞍点。
退化临界点,即 Hesse 矩阵有零特征值的临界点。
对于二阶对称矩阵 \(H=\begin{bmatrix}\alpha&\beta\\\beta&\gamma\end{bmatrix}\):
- 正定:\(\alpha>0,\alpha\gamma>\beta^2\);
- 负定:\(\alpha<0,\alpha\gamma>\beta^2\);
- 退化:\(\alpha\gamma=\beta^2\);
- 非退化、非正定、非负定:\(\alpha\gamma<\beta^2\)。
求全局最值的方法:
- 在 \(x^1,\dots,x^{m-1}\) 均固定时,考虑 \(f_m\),分析其最值,记其最值为 \(g(x^1,\dots,x^{m-1})\)。
- 对 \(g\) 重复上述操作。
最小二乘法:给定数据 \((x_1,y_1,z_1),\dots,(x_n,y_n,z_n)\),寻找最优的 \(a,b,c\) 使得线性函数 \(z=ax+by+c\) 能够最好地反映数据的关系。其中,\(x,y\) 称作解释变量(自变量)、\(z\) 称作被解释变量(因变量)。
度量方法:\(g(a,b,c)=\dfrac1n\sum|z_k-ax_k-by_k-c|^2\),即均方误差。最小化 \(g(a,b,c)\)。
为什么要平方?因为平方比没平方要更可微一些。
- 因为当 \(|a|+|b|+|c|\to\infty\) 时 \(g\to+\infty\),所以必存在 \(\min\)。
试问:为何满足上述条件的 \(g\) 有 \(\min\)?
取 \(g(\bf x_0)\)。存在 \(R\),使得 \(\forall\|\bf x\|>R\) 都有 \(g(\bf x)>g(\bf x_0)\)。取集合 \(S:\|\bf x\|\leq R\),则其有界闭且连续,有 \(g(\bf y)\) 为 \(\min\)。则 \(g(\bf y)\leq g(\bf x_0)<g(外侧)\),且 \(g(\bf y)\leq g(内侧)\)。
- 微积分分析法:
进而,最小值必为极小值。此有 \(g_a=g_b=g_c=0\)。
由 \(g_c=0\) 解得 \(c\) 并带入 \(a,b\) 两式,最后得到:
写成矩阵的形式有 \(A=\begin{bmatrix}x_1&y_1&1\\x_2&y_2&1\\\vdots&\vdots&\vdots\\x_n&y_n&1\end{bmatrix}\),\(\bf b=\begin{bmatrix}z_1\\z_2\\\vdots\\z_n\end{bmatrix}\),则 \(A^TA\begin{bmatrix}a\\b\\1\end{bmatrix}=A^T\bf b\)。
- 线代分析法:
记 \(A\) 的列向量为 \(\bf a_1,\bf a_2,\bf a_3\),则目标是取 \(a,b,c\) 使得 \(\|(\bf a^*:=a\bf a_1+b\bf a_2+c\bf a_3)-\bf b\|_2\) 最小。\(\bf a^*\) 在 \(\bf a_1,\bf a_2,\bf a_3\) 张成的空间 \(W\) 内。当且仅当 \(\bf a^*-\bf b\perp W\),即 \(\lang\bf a_k,\bf a^*-\bf b\rang=0,k=1,2,3\),上式取得最小值。进而,即有 \(A^T(A\begin{bmatrix}a\\b\\c\end{bmatrix}-\bf b)=0\)。
当且仅当 \(\bf a_1,\bf a_2,\bf a_3\) 线性无关(此时 \(A^TA\) 可逆),上述方程组有唯一解。
研究拟合是否好的指标:\(\dfrac{\|\bf a^*\|^2}{\|\bf b\|^2}=1-\dfrac{\|\bf a^*-\bf b\|}{\|\bf b\|^2}\) 是否接近 \(1\)(该指标被称作 \(R^2\))。
例:猜测公式是 \(Q=ah^2+bh\),所以取数据组为 \(\{h_i^2,h_i,Q_i\}\)。
\(c\) 其实对应了最后的全 \(1\) 向量,本模型中没有 \(c\),所以只需两个向量即可。
进一步,此等最小二乘方法可以解决一切 \(z_i=\sum_ja_jx_{i,j}\),寻找最优的 \(\{a\}\) 的目标.
其实就是求解方程组 \(A^T(A\bf a-\bf b)=\bf 0\),目标是解得答案数组 \(\bf a\)。
可以转成线性回归的模型:
- 指数 \(y_i=Ca^{x_i}\),取 \(\ln\) 后变成 \(\ln y_i=\ln C+x_i\ln a\)。
- 对数 \(y_i=\ln(ax+b)\),取 \(\exp\) 后变成 \(e^{y_i}=ax+b\)。进一步,\(\ln\) 中是任何多项式均可。
- 幂函数 \(y_i=ax_i^b\),取 \(\ln\) 后变成 \(\ln y_i=\ln a+b\ln x_i\)。
- Logistic 曲线:\(y_i=\dfrac1{1+Ce^{-ax}}\),\(-\ln y_i-1=\ln C-ax\).
梯度下降法:引入时间参数 \(t\),对于曲线 \(\bf x(t)\),考虑微分方程 \(\dot{\bf x}=-\nabla f(\bf x)\):梯度方向的相反处,为函数值下降最快的方向。解曲线 \(\bf x(t)\) 被称作 负梯度流。
考虑负梯度流 \(\bf x(t)\),易知 \(\dfrac{\d}{\d t}f(\bf x(t))=-\|\nabla f(\bf x(t))\|^2\leq0\),则函数值沿 \(f\) 单降。
考虑若其收敛于 \(\bf x^*\),则 \(\bf x(t)=\bf x^*\) 应为一合法解,将该 \(\bf x\) 代入方程,得到 \(\bf 0=-\nabla f(\bf x^*)\),梯度为零即意味着 \(\d f(\bf x^*)=\bf 0\),因此 \(\bf x^*\) 即为临界点。
如何考察 \(\bf x^*\) 的性质呢?考虑在右侧使用线性化以近似方程(也即将右侧替换为 \(\bf x^*\) 处的 Taylor 展开,但仅多展开一项),得到 \(\dot{\bf x}=-H_f(\bf x^*)\bf x\)。若 \(H_f(\bf x^*)\) 正定,则所有 \(\dot{\bf x}\) 均指向 \(\bf x^*\),与 Hessian 矩阵理论结论相同。
事实上,考虑
引理:若 \(A\) 正定,则 \(\bf v^TA\bf v\geq\lambda _1\|\bf v\|^2\)(这里范数仍是 \(2\)-范数)(其中 \(\lambda_1\) 是 \(A\) 最小特征值),因为 \(\bf v^TA\bf v=(\sum a_i\bf x_i^T)A(\sum a_i\bf x_i)=\sum a_ia_j\bf x_i^TA\bf x_j\)。若 \(i\neq j\),则 \(\bf x_i^TA\bf x_j=\lambda_j(\bf x_i\cdot\bf x_j)=0\),因此又有 \(\bf v^TA\bf v=\sum_ia_i^2\bf x_i^TA\bf x_i=\sum_ia_i^2\lambda_i\|\bf x_i\|^2\geq\lambda\|\bf x\|^2\)。
于是在上述式子中引用该引理,得到
存在邻域使得上式 \(\leq -\lambda_1\|\bf x-\bf x^*\|^2\)。也即,令 \(f(t)=\|\bf x(t)-\bf x^*\|^2\),则 \(f'(t)\leq-\lambda_1f(t)\),且因 \(f\) 恒正所以类似微分方程解法可得 \(f(t)\leq f(0)e^{-\lambda_1t}\),也即 \(\|\bf x(t)-\bf x^*\|^2\leq\|\bf x(0)-\bf x^*\|^2e^{-\lambda_1t}\)。
所有被 \(\bf x^*\) 吸引的点构成 \(\bf x^*\) 的吸引邻域。
离散方法:最速下降法。在 \(\bf x_n\) 处沿负梯度 \(\bf v_n=-\nabla f(\bf x_n)\) 前进,直到沿 \(\bf v_n\) 方向函数不再下降,此时到达 \(\bf x_{n+1}\)。也即,\(\bf x_{n+1}=\bf x_n+t^*\bf v_n\),满足 \(f(\bf x_n+t^*\bf v_n)=\min\limits_t f(\bf x_n+t\bf v_n)\)。
为估算 \(t^*\),使用 Taylor 展开:
后者在 \(t=\dfrac{\|\bf v_n\|^2}{\bf v_n^TH_f(\bf x_n)\bf v_n^T}\) 处取得 \(\min\)。
因此
梯度总与等高线(高位是等势面)垂直;因此最速下降是沿着梯度直到与某条等高线/等势面相切,此时再换新梯度,与等高线/等势面垂直。因此,最速下降走的是折线,相邻折线段垂直。
倘若等高线是圆/等势面是球,那么梯度将会直指圆心,此时最速下降将会非常快。反之,如果是很扁的椭圆/椭球,则下降速率会非常缓慢。因此,下降速率与 \(\operatorname{cond}H_f(\bf x^*)=\dfrac{|\lambda|_{\max}}{|\lambda|_{\min}}\) 有关:越大则等高线越扁,下降越慢;越接近 \(1\) 则下降越快。
Newton 法:求 \(f\) 的临界点,即求解方程组 \(F(\bf x):=\nabla f(\bf x)=\bf 0\)。
在近似解 \(\bf x_n\) 处 Taylor 展开,有 \(F(\bf x_{n+1})=F(\bf x_n)+JF(\bf x_n)\bf v_n+o(\bf v_n)\),其中 \(\bf v_n=\bf x_{n+1}-\bf x_n\)。\(F(\bf x_n)\) 的 Jacobi 矩阵就是 \(f(\bf x_n)\) 的 Hesse 矩阵。
当 \(\bf x_n\) 靠近非退化临界点时,\(H_f(\bf x_n)\) 可逆,因此有近似迭代
思想:在局部用线性方程替代非线性方程。
但是实际应用要算 \(JF(\bf x_n)^{-1}\),计算量很大!
所以可以尝试用常矩阵或预先设计好的矩阵 \(B_n\) 来替代之,得到拟 Newton 法 \(\bf x_{n+1}=\bf x_n-B_nF(\bf x_n)\)。
凸集:任两点连线上点仍在集合内的集合。
凸集 \(K\) 上可以定义凸函数 \(K\to\R\),如果 \(\forall\bf x,\bf y\in K\),\(\forall t\in[0,1]\),\(f((1-t)\bf x+t\bf y)\leq(1-t)f(\bf x)+tf(\bf y)\)。若等号当且仅当 \(t\in\{0,1\}\) 时成立,则称作严格凸。
范数是凸函数;范数小于等于/小于某值的元素集合构成凸集。事实上,对于凸函数 \(f(\bf x)\),\(\{\bf x|f(\bf x)\leq C\}\) 是凸集。
若 \(K\) 是线性空间 \(V\) 内的含 \(\bf 0\) 凸集,满足:
-
对称性:\(\bf x\in K\Rightarrow-\bf x\in K\)。
-
吸收性:\(\forall x\in V,\exists\lambda>0\) 使得 \(\lambda^{-1}\bf x\in K\)。
-
若 \(\bf x\) 满足 \(\forall\lambda>0\) 都有 \(\lambda^{-1}\bf x\in K\) 则 \(\bf x=\bf 0\)。
-
也即,其在原点出发任意方向上均在有限长度属于 \(K\),之后不属于 \(K\)。
此时则 \(K\) 的 Minkowski 泛函 \(\|\bf x\|=\inf\{\lambda>0,\lambda^{-1}\bf x\in K\}\) 是 \(V\) 上一个范数。
半正定二次型 \(\bf x^TA\bf x+\bf y^TA\bf y\) 是凸函数。
\(\scr C^2\) 函数 \(f\) 的非退化极小值的凸邻域内是严格凸函数。
因为 \(H_f\) 连续,所以存在一个邻域使得上式 \(>0\)。
多元函数的凹凸性,只需要对所有的上述 \(\bf x,\bf y\) 分析,即可转成一元函数凹凸性。
若凸集上的 \(\scr C^2\) 函数 \(f\) 满足 \(H_f(\bf x)\) 总是半正定,则其凸,反之亦然;总是正定,则其严格凸,但反之不亦然(存在严格凸但并非总是正定的例子)。证明其实是前一个定理的推广。
凸函数的临界点 \(\bf x_0\) 必是最小值点。
若其严格凸,则最小值点唯一。(假设有两个最小值点则连线转成一元函数,该一元函数亦须严格凸,且有两个最小值点,但这是不可能的)
进一步,仍通过 Lagrange 余项的 Taylor 展开,得到 \(f(\bf x)\geq f(\bf x_0)+\nabla f(\bf x_0)\cdot(\bf x-\bf x_0)\),也即凸函数总在切平面上方;水平切平面意味着最小值。
Legendre 变换:对于凸函数 \(f\),Legendre 变换后得到 \(f^*\) 满足 \(f^*(\bf p)=\sup\limits_{\bf x}\{\bf p\cdot\bf x-f(\bf x)\}\)。
- 为什么有 \(\sup\)?\(-f(\bf x)\) 是凹的,线性函数是凹的也是凸的,因此 \(\bf p\cdot\bf x-f(\bf x)\) 是凹的,有 \(\sup\)。
- \(f(\nabla f(\bf x_0))=\nabla f(\bf x_0)\cdot\bf x_0-f(\bf x_0)\)。
令 \(F(\bf x)=\nabla f(\bf x)\)。若 \(f\) 严格凸则 \(JF(\bf x)\) 正定。
- 引理:\(JF(\bf x)\) 处处正定的函数可逆。
- 或者:若 \(F(\bf x_1)=F(\bf x_2)\),则令 \(g(\bf x)=f(\bf x)-F(\bf x_1)\cdot\bf x\),其严格凸。则 \(\nabla g(\bf x_i)=\nabla f(\bf x_i)-F(\bf x_1)=\bf 0\),于是 \(\bf x_1,\bf x_2\) 都是 \(g\) 临界点,于是都是 \(g\) 最小值点,于是 \(\bf x_1=\bf x_2\)。因此可逆。
因此 \(\nabla f(\bf x)\) 可逆,可以根据 \(\bf p\) 逆推出 \(\bf p=\nabla f(\bf x_0)\)。
Legendre 变换由定义又可知,\(f^*(\bf p)+f(\bf x)\geq\bf p\cdot\bf x\)。
例如,\(\dfrac{x^\alpha}\alpha\) 的 Legendre 变换得到 \(\dfrac{y^\beta}\beta\),其中 \(\dfrac1\alpha+\dfrac1\beta=1\)。因此,\(\dfrac{x^\alpha}\alpha+\dfrac{y^\beta}{\beta}\geq xy\)。(Young 不等式)
隐函数相关问题:研究方程中,某一个变量连续变化时,另一个变量是否连续变化,乃至其可微性。
也即,全局方向上,一个元素可能不是另一个元素的函数;但是在局部,一个元素就可以成为另一个元素的函数,这样的函数被称作隐函数。隐函数定理证明了隐函数的存在性,并且在原函数有较好的高阶可微性时,表明隐函数也有着同等的高阶可微性。
一元可导函数 \(y=f(x)\),在 \(f'(x_0)\neq0\) 附近存在可微反函数。
其实是在局部用线性方程来替代非线性方程:在局部用 \(y=ax+b\) 来拟合,当 \(a\neq0\) 时解唯一。
多元一次方程也可以用 \(A\bf x+\bf b\) 来拟合。
\(A\bf x+\bf b=\bf 0\) 有界当且仅当 \(-\bf b\in\scr R(A)\),其中 \(\scr R(A)\) 是 \(A\) 的列空间。当 \(A\) 的行数 \(n\) 大于 \(A\) 的秩 \(\rank A\) 时,绝大多数 \(\bf b\in\R^n\) 都是无解的。且因为 \(\rank A\leq\min(m,n)\),所以我们仅需考虑 \(n=\rank A\) 的场合。
将任意秩列向量集合抽出来作 \(A'\),剩下的向量作 \(B\),则方程变为 \(A'\bf x+B\bf y+\bf b=\bf 0\),其中 \(\bf x\) 为秩向量集合对应的变量向量,\(\bf y\) 则为其余向量,则 \(A'\) 可逆。于是可以将 \(\bf y\) 当作参数,有 \(A'\bf x=-(B\bf y+\bf b)\),则 \(\bf x=-(A')^{-1}(B\bf y+\bf b)\)。
作为特例,如果 \(\rank A=m=n\),也即 \(A\) 自身即可逆,则直接有 \(\bf x=-A^{-1}\bf b\)。
设 \(\scr C^r\) 映射 \(f:\R^m\times\R^n\to\R^n\),且已知 \(f(\bf x_0,\bf y_0)=\bf 0\) 且 \(Jf_\bf y(\bf x_0,\bf y_0)\) 可逆。则存在 \(\bf x_0\) 的邻域 \(U\) 和 \(\bf y_0\) 的邻域 \(V\) 以及 \(\scr C^r\) 映射 \(g:U\to V\) 使得 \(\forall\bf x\in U,\bf y\in V\) 都有 \(F(\bf x,\bf y)=\bf 0\Leftrightarrow\bf y=g(\bf x)\)。也即,原始函数若是 \(f:\R^{m+n}\to\R^n\),则将其一部分秩变量 \(\bf y\) 摘出后,将其余变量 \(\bf x\) 视作参数。
也即,在 \(\bf x_0\) 的邻域内,方程的解存在且唯一,且解函数的连续性与原函数的连续性相当。
推论:因为 \(f(\bf x,g(\bf x))=0\),所以 \(\D f(\bf x,g(\bf x))=\D_\bf xf(\bf x_,g(\bf x))+\D_\bf yf(\bf x,g(\bf x))=0\),而 \(\D_\bf yf(\bf x,g(\bf x))=\D f_\bf y(\bf x,g(\bf x))\D g(\bf x)\),于是 \(\D g(\bf x)=-(\D f_\bf y(\bf x,g(\bf x)))^{-1}\D_\bf xf(\bf x,g(\bf x))\)。
- 这里将 \(\D_\bf xf(\bf x,g(\bf x))\) 记作 \(f\) 对 \(\bf x\) 的偏导,\(\D f_\bf x(\bf x,g(\bf x))\) 记作 \(f\) 对 \(\bf x\) 的偏导的微分。
证明:首先考虑单一方程的场合,即方程是 \(f(x_1,\dots,x_m,y)=0\),且 \(f(\bf x_0,y_0)=0\),\(f_y(\bf x_0,y_0)\) 可逆(\(\neq0\))(不妨令其为正)。
考虑 \((\bf x_0,y_0)\) 附近的等势面,须证等势面是关于 \(\bf x_0\) 的函数。
因为偏导数的连续性,所以存在一个邻域 \(U_0\),使得邻域中所有 \(f_y(\bf x_0,y)\) 均为正。在 \(\bf x_0\) 固定时,\(f\) 值随 \(y\) 增而增,随 \(y\) 减而减,因而有唯一解。
取 \(y_1<y_0<y_2\),则 \(f(\bf x_0,y_1)<0,f(\bf x_0,y_2)>0\)。存在 \(\bf x\)-邻域使得其中所有的 \(f(\bf x,y_1)<0,f(\bf x,y_2)>0\)。因而在其中的每个 \(\bf x\) 处,因为 \(f\) 的单增性存在唯一 \(f(\bf x,y)=0\),且 \(y\in(y_1,y_2)\)。
因此,存在 \(\bf x_0\) 的邻域 \(U\subseteq U_0\) 以及 \(\delta_1\),使得 \(\forall\bf x\in U\),都存在唯一的 \(y\in[y_0-\delta_1,y_0+\delta_1]\) 且 \(f(\bf x,y)=0\)。
同时,对于任意小的 \(\delta_1\) 都可以找到 \(U\) 满足上述条件,也即 \(g(\bf x)\) 在 \(\bf x_0\) 处连续。
事实上,对于 \(U_0\) 中的所有 \(\bf x_1\),都可以令 \(\bf x_1\) 作为新 \(\bf x_0\) 展开分析,进而得到其在 \(\bf x_1\) 处连续。
通过 Taylor 展开证得可微【需要证明 \(|g(\bf x)-g(\bf x_0)|\) 被 \(\|\bf x-\bf x_0\|\) 控制】,然后用一阶微分公式归纳得到 \(\scr C^r\)。
多维的情形,设 \(f(x_1,\dots,x_m,y_1,\dots,y_n)=0\), 且方程有 \(n\) 条。若 \(f_\bf y(\bf x_0,\bf y_0)\) 可逆,通过 Gauss 消元改造方程组 \(g(\bf x,\bf y)=(F_\bf y(\bf x_0,\bf y_0))^{-1}f(\bf x,\bf y)\),则 \(g(\bf x,\bf y)=0\Leftrightarrow f(\bf x,\bf y)=0\),于是条件简化为 \(g(\bf x_0,\bf y_0)=\bf 0,g_\bf y(\bf x_0,\bf y_0)=I\)。
然后,先解最后一个变量,则 \(\part_{y^n}(\bf x_0,y^1_0,\dots,y^{n-1}_0)=1\),则 \(y^n=y^n(\bf x_0,y^1_0,\dots,y^{n-1}_0)\),令后面一坨为 \(\hat{\bf y}\),则 \(G(\bf x,\hat{\bf y},y^n(\bf x,\hat{\bf y}))=0\),也即 \(\hat G(\bf x,\hat{\bf y})=\bf0\)。不断代入即可。
逆映射定理:求 \(\bf y=H(\bf x)\) 的逆映射。其等价于求 \(H(\bf x)-\bf y=\bf 0\) 的解。
若 \(H\in\scr C^r\),且 \(H_\bf x(\bf x_0)\) 可逆,则在 \((\bf x_0,\bf y_0)\) 的邻域中存在映射 \(\bf x=g(\bf y)\) 满足 \(H(g(\bf y))=\bf y\),即为在 \((\bf x_0,\bf y_0)\) 附近的 局部 逆映射。也即,保证在 \(\bf y_0\) 附近的 \(\bf y\) 能找到对应的 \(g(\bf y)\),且 \(g(\bf y)\) 在 \(\bf x_0\) 附近,但不保证不在 \(\bf x_0\) 附近就找不到其它 \(H(g(\bf y))=\bf y\) 的 \(g(\bf y)\)。例如 \(y=x^2\),在 \((2,4)\) 附近,\(y=3.9601\) 可以找到对应的 \(x=1.99\),但是 \(x=-1.99\) 也是解,这个解无法被 \(g\) 描述。
整体微分同胚定理:对于开集 \(U\in\R^n\),\(F:U\to\R^n\) 是 \(\scr C^r\) 映射,则以下两个描述等价:
- \(V=F(U)\) 是 \(\R^n\) 中开集,且 \(F:U\to V\) 是微分同胚。(即存在 \(\scr C^r\) 逆映射 \(F^{-1}:V\to U\))
- \(F\) 是单射,且 \(\forall \bf x\in U\),\(\D F(\bf x)\) 可逆。
也即,处处线性可逆则非线性可逆。
同理,由逆映射定理可以反推隐函数定理:令 \(H(\bf x,\bf y)=(\bf x,F(\bf x,\bf y))\)。\(\D H(\bf x,\bf y)=\begin{bmatrix}I&\\JF_\bf x(\bf x,\bf y)&JF_\bf y(\bf x,\bf y)\end{bmatrix}\)。则 \(\D H(\bf x_0,\bf y_0)\) 可逆,存在局部逆映射 \(H^{-1}(\bf u,\bf v)=(P(\bf u,\bf v),Q(\bf u,\bf v))\)。则 \((\bf x,\bf 0)=(P(\bf x,\bf 0),F(P(\bf x,\bf 0),Q(\bf x,\bf 0)))\),于是 \(Q(\bf x,\bf 0)\) 就是要求的隐函数。
用压缩不动点定理证明逆映射定理:
记 \(T(\bf x,\bf y)=\bf x-\D H(\bf x_0)^{-1}[H(\bf x)-\bf y]\)。
\(H(\bf x)=\bf y\) 当且仅当 \(T(\bf x,\bf y)=\bf x\)。
\(\D_\bf xT(\bf x,\bf y)=I-\D H(\bf x_0)^{-1}\D H(\bf x)\),\(\D_\bf x(\bf x_0,\bf y_0)=0\)。
在 \(\bf x_0\) 的适当闭邻域内,\(T\) 关于 \(\bf x\) 是压缩映射,其不动点是局部逆映射。
若 \(f(\bf x)=0\),且 \(f_k\neq0\),求 \((\dfrac{\part x^1}{\part x^2})_{x^3,\dots,x^n}\dots(\dfrac{\part x^n}{\part x^1})_{x^2,\dots,x^{n-1}}\)。
\(f(x^1(x^2,\dots,x^n),x^2,\dots,x^n)=0\)。两边对 \(x^2\) 求导,得到 \(f_1(x^1(x^2,\dots,x^n),x^2,\dots,x^n)\dfrac{\part x^1}{\part x^2}+f_2(x^1,\dots,x^n)=0\),于是 \(\dfrac{\part x^1}{\part x^2}=-\dfrac{f_2(x^1,\dots,x^n)}{f_1(x^1,\dots,x^n)}\)。
隐函数定理保证 \(\dfrac{\part x^1}{\part x^2}\) 的存在。
对于方程 \(x^n+a_{n-1}x^{n-1}+\dots +a_0=0\),研究其根的性质;其可以被写作 \(F(a_0,\dots,a_{n-1},x)=0\)。已知存在一组根 \(F(a_0^*,\dots,a_{n-1}^*,x^*)=0\),且 \(F_x(a_0^*,\dots,a_{n-1}^*,x^*)\neq0\),则因为 \(F\) 是多项式,所以在附近存在 \(\scr C^{\infty}\) 函数 \(x=(a_0,\dots,a_{n-1})\),使得其是关于 \(x\) 的方程 \(F(\bf a,x)\) 的唯一解。
例:\(x^3+ax^2+bx-1=0\) 在 \((a=0,b=0,x=1)\) 附近的行为分析。
- 使用初等方法。
令 \(x=1+u\),则 \((1+u)^3+a(1+u)^2+b(1+u)-1=0\),整理得到 \(a+b+3u+o(u)=0\),也即 \(u=-\dfrac{a+b}3+o(|a|+|b|)\)。
继续通过令 \(u=-\dfrac{a+b}3+v\) 进行上述分析,可以继续往下展。这是类似手动 Taylor 展开的方法。
- 使用高等做法。
\(F(a,b,x)=x^3+ax^2+bx-1\)。
满足:\(F(0,0,1)=0,F_x(0,0,1)=3\neq0\),因此隐函数 \(x=x(a,b)\) 存在。
代入 \(F_1,F_2\) 等相关信息,可以解得 \(x_1(a,b)=-\dfrac13,x_2(a,b)=-\dfrac13\)。
然后可以继续导。
参数曲线:\(\bf x=\bf x(t)\)。
称 \(\Sigma\sube\R^n\) 是一个 \(m\) 维 \(\scr C^r\) 曲线,如果对于任意 \(P_0\in\Sigma\),存在 \(P_0\) 的开邻域 \(U\) 和 \(\R^m\) 中开集 \(V\) 和 \(\scr C^r\) 映射 \(g:V\to\R^{n-m}\) 以及 \(1\sim n\) 的排列 \(\sigma\) 使得 \((x^1,\dots,x^n)\in\Sigma\cap U\) 当且仅当 \((x^{\sigma(m+1)},\dots,x^{\sigma(n)})=g(x^{\sigma(1)},\dots,x^{\sigma(m)})\)。
也即局部看,\(\Sigma\) 是一个关于 \(m\) 元 \(\scr C^r\) 映射的图像,\(\Sigma\) 上某个点一部分坐标决定了另一部分的坐标。记 \(\dim\Sigma=m\)。
例如,\(x^2+y^2=z\),\((x_0,y_0,z_0)\) 点的 \(z_0\) 坐标可以由 \(x_0,y_0\) 决定,且 \(z_0(x_0,y_0)\) 是可微的。事实上,\(\R^3\) 上二元函数是 \(2\) 维曲面。
\(\sum x_i^2=1\) 是 \(\R^n\) 上 \(n-1\) 维曲面,因为 \(P_0\in\Sigma\) 总有 \(x_k\neq0\),于是 \(x_k=\text{sgn}(x_0^k)\sqrt{1-\sum x_i^2}\),这是 \(x_1,\dots,x_{k-1},x_{k+1},\dots,x_n\) 有关的函数。
令 \(F:U\to\R\) 是一个 \(\scr C^r\) 函数,\(U\sube\R^n\) 是开集,称 \(a\in\R\) 是 \(F\) 的正则值,若 \(F^{-1}(a)\) 非空且不含 \(F\) 的临界点。则水平集 \(F^{-1}(a)\) 是一个 \(n-1\) 维的 \(\scr C^r\) 函数。
隐函数定理会丧失一个自由度:因为非临界点存在 \(k\) 维度的偏导非零,于是 \(x_k\) 可以被表示为其余维度的函数。
\(1\) 是 \(F(\bf x)=\sum(x^i)^2\) 的一个正则值。
\(F:U\to\R^{n-m}\) 是一个 \(\scr C^r\) 函数且 \(U\) 是 \(\R^n\) 开集,称 \(\bf a\in\R^{n-m}\) 是正则值,如果 \(F^{-1}(\bf a)\) 非空且 \(\forall\bf x\in F^{-1}(\bf a)\),\(JF(\bf x)\) 满行秩【也即能取出可逆方阵】【也即方程之间不能互相表出】【满行秩是为了确实丧失自由度】,则 \(F^{-1}(\bf a)\) 是 \(m\) 维 \(\scr C^r\) 曲面。
自变量个数-方程(约束)个数=自由变量个数=曲面维数。
正则参数化曲面:\(\bf x=\bf x(\bf t)\)。要求:是单射,且 \(J\bf x(\bf t)\) 满列秩,即每个参数都不可或缺。若 \(\bf x\in\R^n,\bf t\in\R^m\),则 \(\bf x(\bf t)\) 是 \(m\) 维光滑曲面。
由逆映射定理 \(\bf x\) 中必然存在 \(m\) 个 \(\bf x^i\) 与 \(\bf t\) 间存在可逆关系,剩下 \(n-m\) 个 \(\bf x^j\) 可以(通过 \(\bf t\))表示为 \(m\) 个 \(\bf x^i\) 的线性组合。
局部来看,是 \(m\) 个 \(\bf x^i\) 提供 \(n-m\) 个 \(\bf x^j\) 的值。
描述曲面的三种方式:
- 函数图像。
- 方程组。要使用逆映射定理/隐函数定理以保证确实是曲面。
- 正则参数化曲面。
切向量:对于曲面 \(\Sigma\) 上的点 \(P_0\) 和任意曲线 \(\bf x(t)\) 满足 \(\bf x(t)\sube\Sigma\),\(\bf x(0)=P_0\),则称 \(\bf x'(0)\) 为 \(P_0\) 处的一个切向量。
所有切向量组成切空间,记作 \(T_{P_0}\Sigma\)。
\(P_0+T_{P_0}\Sigma\) 称作在 \(P_0\) 处的切平面。(如果 \(\dim\Sigma=1\),可以称作切线)
对于参数曲面 \(\bf x=f(\bf t)\),固定其它 \(t^i\) 只让某个 \(t^k\) 变化得到一条参数曲线,\(\dfrac{\part\bf f}{\part t^k}\) 是其切向量。
如果有正则性,则 \(\bf v_i=\dfrac{\part\bf f}{\part t^i}\) 全部线性无关。
存在正则性时,可以找到 \(x^1,\dots,x^m\) 使得 \(\dfrac{\part x^1,\dots,x^m}{\part t^1,\dots,t^m}\) 可逆,于是有局部可微逆映射 \(\bf t=g(x^1,\dots,x^m)\)。对于平面上任意曲线 \(\bf x(s)\),\(\bf t(s)=g(x^1(s),\dots,x^t(s))\),且 \(\bf x(s)=\bf f(\bf t(s))\)。
\(\bf x'(s)=\sum\color{blue}\dfrac{\part\bf f}{\part t^i}(\bf t(s))\color{white}\times(t^i)'(s)=\sum\xi_i\color{blue}\bf v_i\color{white}\)。也即,任意切向量都能写成线性组合。
但是,如何说明任意线性组合都是切向量呢?
对于任意 \(\xi\),令 \(x^i(t)=x^i_0+\xi^is\)(\(i=1,2,\dots,m\)),\(x^k(t)=f_k(g(x^1(s),\dots,x^m(s)))\),则 \(\bf x'(0)=\sum \xi_i\bf v_i\)。
事实上,效果是对于任意曲线,将其投影到 \(x^1,\dots,x^m\) 平面内,也即用 \(x^1,\dots,x^m\) 唯一确定曲线;而 \(x^1,\dots,x^m\) 与 \(\bf t\) 间的关系可以用隐函数定理描述。
参数方程式(显式)描述法:\(\bf F(\bf t)\),其中 \(\bf t\) 是参数。该参数方程是正则参数方程,如果 \(J\bf F(\bf t)\) 满列秩(参数方程的 Jacobi 矩阵会是一个瘦高的矩阵,满列秩即可挑选出数行 \(\bf x_S\),使得这些行与所有列构成的矩阵 \(J_{[\bf x_S,\bf t]}\) 是可逆的,于是由逆映射定理 \(\bf t\) 可以由 \(\bf x_S\) 唯一推出,然后其它维再由 \(\bf t\) 推出,因此正则参数方程是一种描述曲面的方法。
正则参数方程下的切平面方程:沿着 \(\bf t\) 的每个分量的速度向量均是切向量,且因为满列秩所以切向量全部线性无关。那么切平面就可以被写成 \(\sum\limits_i\lambda_i\dfrac{\p\bf F}{\p\bf t_i}\),也即切平面中包含全体偏导向量的线性组合。
另一种写法是,切平面中的 \(\bf x\) 须满足 \(\bf x-\bf x_0\) 可以被其余维的偏导向量组合出。当参数方程描述的空间是超平面,也即 \(\bf t\) 的维度是 \(\bf F\) 的维度恰少一时,整个矩阵 \([\bf x-\bf x_0\quad\dfrac{\p F}{\p\bf t_i}]\) 是方阵,则能被表出等价于该方阵的行列式为零。
此时,关于第一列代数余子式展开,令 \(\bf y=\bf x-\bf x_0\),则切平面是 \(\sum\bf y_i\det J F\setminus i=0\),其中后面一坨指的是从 Jacobi 矩阵中删去第 \(i\) 行并 rearrange 的矩阵,即 \(\dfrac{\p(f_{i+1},f_{i+2},\dots,f_n,f_1,\dots,f_{i-1})}{\p(t_1,\dots,t_{n-1})}\)。记该矩阵的行列式为 \(\bar J_i\),则方程直接为 \(\sum\bf y_iJ_i=0\)。超平面存在唯一的法线,该法线的法向量之一即为 \([J_1,J_2,\dots,J_n]^T\),法线方程有 \(\dfrac{y_1}{\bar J_1}=\dots=\dfrac{y_n}{\bar J_n}\)。(这种表示方式是比值法,真实意义是每两项交叉相乘的结果相等,因此分母可以为零)也有参数法 \(\bf x_0+\lambda\bar{\bf J}\)。
参数方程法还有说法是,切空间是 Jacobi 矩阵的列空间,则列空间的正交空间(即法空间)是行零空间。
正则水平集(隐式)表示法:\(\bf F(\bf x)=\bf0\)。其刻画了正则的水平集,如果 \(J\bf F(\bf x)\) 满行秩(正则水平集的 Jacobi 矩阵会是一个矮胖的矩阵,满行秩即可直接挑选若干列表出其它列)。
考虑任一条水平集上曲线,可以是 \(\bf F(\bf x(t))=\bf 0\)。对 \(t\) 求导,得到 \(\sum\p_i\bf F(\bf x_0)\bf x_i'(t)=0\)。该曲线的切向量为 \(\bf [\bf x_i'(t)]^T\),因此切向量 \(\bf x\) 被方程 \(J\bf F(\bf x_0)\bf x=\bf 0\) 描述,切向量属于零空间 \(\ker J\bf F(\bf x_0)\)。
当曲面是超平面时,\(\bf F\) 只有一维,退化为 \(f(\bf x)=\bf0\)。其切向量即满足形式 \(\sum y_i\part x_if(\bf x)=0\),其有法向量为 \(\nabla f(\bf x)=[\p x_1f\dots\p x_nf]^T\),法线方程同样可以用比值/参数表示。
当曲面不是超平面时,法空间为 \(JF(\bf x_0)\) 的行空间,即为 \(\nabla F_i(\bf x_0)\) 的线性组合。
总结:参数方程表示法,切平面是容易表示的,法向量是难以表示的;正则水平集表示法,法向量是容易表示的,切平面是难以表示的。参数方程就像那列空间,而正则水平集正是那零空间。事实上,两种方法直接在局部用线性展开即可分别变成线性的列空间与零空间。
Lagrange 乘子法:用于求曲面 \(\Sigma:\bf G(\bf x)=\bf 0\) 上 \(f(\bf x)\) 的最值的问题。
【为什么曲面不用正则参数法?因为如果曲面是 \(\bf x(\bf t)\) 的话,可以直接变成求 \(f(\bf x(\bf t))\) 在 \(\bf t\) 上的最值了!】
其中,我们希望 \(f(\bf x)\) 不止在曲面上有定义,至少在曲面的邻域上都有定义。则,如果 \(\nabla f(\bf x_0)\) 与曲面切平面上任意向量 \(\bf v\) 有 \(\nabla f\cdot\bf v\neq0\),则 \(\nabla f\) 在 \(\bf v\) 上投影有长度,沿着该方向走函数值变大,反方向则变小。这意味着,若函数取极值,则梯度必与切平面垂直。(原因?若 \(\bf v\),则存在 \(\bf x(t)\) 使得切向量为 \(\bf v\),此时 \(f(\bf x(t))'=\nabla f\cdot\bf v\)。)也即,极值点的必要条件是在切平面上无投影。
首先先考虑 \(\Sigma\) 是超曲面的场合,此时方程是 \(G(\bf x)=0\),则 \(f\) 的梯度须在法向量上,即 \(\nabla f\) 与 \(\nabla G\) 共线。一般的场合,\(\nabla f\) 要能被所有 \(\bf G\) 行的 \(\nabla \bf G_i\) 线性表出。Lagrange 乘子,就是 \(\nabla\bf G_i\) 的线性组合前的系数。
Lagrange 乘子法:令新的 \(F(\bf x,\lambda_1,\dots,\lambda_n)=f(\bf x)-\sum\lambda_i\bf G_i(\bf x)\)。当 \(\nabla_\bf x F=0\)(\(\nabla_\bf x\) 表示仅对 \(\bf x\) 中变量求梯度)时,有 \(\nabla f(\bf x)=\sum\lambda_i\nabla\bf G_i(\bf x)\)。
与此同时,原本的限制 \(\bf G_i(\bf x)=0\) 即变为 \(\dfrac{\p}{\p\lambda_i}F=0\)。
总而言之,\(F\) 的临界点(在 \(\bf x\) 中变量以及每一维 \(\lambda_i\) 上同时为零)集合包含 \(f\) 的极值点集合。
对于有界闭集,最值点必为极值点。
对于非闭或无界的场合,如果趋于边界的元素均趋于无穷,那么最小值点必为极值点。
其余场合得自行讨论!!!【即,得分析每个点究竟是极大值点还是极小值点;前述二场合直接对所有极值点不论极大极小一概求值并取最值即可】
还有对偶问题?\(g=C\) 时最值化 \(f\),等价于 \(f=\tilde C\) 时最值化 \(g\)!?!
还是看看远处的 Lagrange 乘子法的 Taylor 展开罢。
例:约束为 \(f(x,y,z)=2(xy+yz+zx),xyz=1\)。
求出驻点为 \((1,1,1)\)。令 \(x=1+\xi,y=1+\eta,z=1+\zeta\)。则 \(1=xyz=(1+\xi)(1+\eta)(1+\zeta)\)。\(f(x,y,z)=f(1+\xi,1+\eta,1+\zeta)=g(\xi,\eta,\zeta)\)。
\(\xi+\eta+\zeta+\xi\eta+\xi\zeta+\eta\zeta+\xi\eta\zeta=0\)。
代入得到 \(f(x,y,z)=6-2(\xi\eta+\xi\zeta+\eta\zeta)-4\xi\eta\zeta\quad(*)\)。
但是 \(\xi,\eta,\zeta\) 并非独立。还是要把 \(\zeta=\dfrac{-\xi-\eta-\xi\eta}{1+\xi+\eta+\xi\eta}=(-\xi-\eta-\xi\eta)(1-(\xi+\eta+\xi\eta)+o(\dots))\) 带进去,得到 \((*)=6+2(\eta^2+\xi^2+\xi\eta)+o(\|\|^2)\)。存在 \(>6\) 的邻域,因此驻点为极小值。
在驻点做 Taylor 展开,方程不用解满,因此是更泛用的。
广义含参积分:\(g(\bf x)=\int_a^\omega f(t,\bf x)\d t\)。
当 \(\omega\) 是无穷或者是 \(f\) 的瑕点(即 \(f\) 在 \(\omega\) 周围无界)时,是广义积分。
收敛:\(f\) 对于一切参数 \(\bf x\),对于一切 \(b\to\omega\) 均在 \([a,b]\) 上 Riemann 可积,且 Riemann 积分的极限收敛。【这种收敛又被称作逐点收敛,不考虑不同 \(\bf x\) 间的互动。】
研究:\(g\) 是否连续?如果连续的话,能不能把极限移进去?
是否可微?能不能移进去?是否可积?能不能……
一致收敛:称 \(g(\bf x)\) 在 \(A\) 上一致收敛,如果 \(\forall\epsilon>0\),存在 \(\omega\) 的去心邻域 \(U_\epsilon\) 使得:
- \(\forall\bf x\in A,\forall b\in U_\epsilon\),\(\left|\int_a^bf(t,\bf x)-g(\bf x)\right|<\epsilon\)。
也即,所有 \(\bf x\) 的收敛步调大致相同,\(U_\epsilon\) 与 \(\bf x\) 无关,适合所有 \(\bf x\)。
\(\int_0^{+\infty}e^{-\lambda t}\d t\) 关于 \(\lambda\) 在 \((0,+\infty)\) 上收敛,但不是一致收敛。对于任意 \(\lambda_0>0\),则在 \([\lambda_0,+\infty)\) 上一致收敛。
若 \(A\) 是开集或闭集,\(f\) 在 \([a,\omega)\times A\) 上连续且 \(g(\bf x)\) 一致收敛,则 \(g\) 连续。
证法:
\[|g(\bf x)-g(\bf x_0)|=\left|\int_b^\omega f(t,\bf x)\d t+\int_a^bf(t,\bf x)-f(t,\bf x_0)\d t-\int_b^\omega f(t,\bf x_0)\right| \\\leq\left|\int_b^\omega f(t,\bf x)\d t\right|+\int_a^b|f(t,\bf x)-f(t,\bf x_0)|\d t+\left|\int_b^\omega f(t,\bf x_0)\right| \]首先,对于 \(\epsilon\),存在足够接近 \(\omega\) 的 \(b\) 使得左右两个绝对值都小于 \(\epsilon\)。(此时 \(\bf x\) 虽然尚未决定,但是因为一致收敛所以对于一切 \(\bf x\) 均成立)
其次,对于当前的 \(b\),存在足够接近 \(\bf x_0\) 的 \(\bf x\),使得一切 \(f(t,\bf x)\) 和 \(f(t,\bf x_0)\) 均 \(\dfrac\epsilon{b-a}\)-接近。(因为 \([a,b]\) 是闭区间,然后再取 \(\bf x_0\) 的闭邻域,则连续的 \(f\) 在其上一致连续,所以可行【此处是需要开集、闭集之处:开集可以找充分小闭球,闭集可以找闭球并与闭集求交,闭集交集仍为闭集】)
累次极限换序:若两个内层极限存在,且至少一个一致收敛,则累次极限可以换序。
在此之上,若 \(A\) 就是闭区间 \([\alpha,\beta]\),也即 \(f(t,s)\) 在 \([a,\omega)\times[\alpha,\beta]\) 连续,\(g(s)\) 在 \([\alpha,\beta]\) 上一致收敛,则积分可以换序,即 \(\int_\alpha^\beta\int_a^\omega f(t,s)\d t\d s=\int_a^\omega\int_\alpha^\beta f(t,s)\d t\d s\)。
证明:首先保证右侧积分有定义。即,对于 \(b\to\omega\) 计算
\[\left|\int_a^b\int_\alpha^\beta f(t,s)\d t\d s-\int_\alpha^\beta\int_a^\omega f(t,s)\d t\d s\right| \\=\left|\int_\alpha^\beta\int_a^b f(t,s)\d t\d s-\int_\alpha^\beta\int_a^\omega f(t,s)\d t\d s\right| \\<(\beta-\alpha)\epsilon \]第一行到第二行是 Riemann 积分换序;第二行到第三行是不定积分的线性性与 \(f\) 的一致收敛性,在 \(b\) 充分接近 \(\omega\) 时每一项差都小于 \(\epsilon\)。
但是,如果 \(\alpha,\beta\) 不是有界闭的,那么上述证明便不太能说明换序。
若:
- \(f(t,s)\) 在 \([a,\omega_1)\times[\alpha,\omega_2)\) 上连续;
- 关于两维的积分分别一致收敛(即,\(\int_a^{\omega_1}f(t,s)\d s\) 在 \([\alpha,\omega_2)\) 一致收敛,另一个同理);
- 至少有一个绝对收敛。(即,\(\int_a^{\omega_1}\int_\alpha^{\omega_2}|f(t,s)|\d s\d t\) 或 \(\int_\alpha^{\omega_2}\int_a^{\omega_1}|f(t,s)|\d t\d s\) 至少一个收敛)
则 \(\int_a^{\omega_1}\int_\alpha^{\omega_2}f(t,s)\d s\d t\) 与 \(\int_\alpha^{\omega_2}\int_a^{\omega_1}f(t,s)\d t\d s\) 均收敛,且二者相等。
若 \(A\) 是开集,\(f\) 和 \(f_{x^k}\) 均连续,\(g(\bf x)\) 逐点收敛,\(g_k(\bf x)=\int_a^\omega f_{x^k}(t,\bf x)\d t\) 一致收敛【这里的一致收敛只需在每个 \(\bf x\) 的邻域内一致收敛即可,因为下面推出的连续可微都仅是单点性质】,则 \(g(\bf x)\) 关于 \(x^k\) 连续可微,且 \(g_{x^k}=\int_a^\omega f_{x^k}(t,\bf x)\d t\)。
只需证明
\[\int_a^\omega f(t,\bf x+s\bf e_k)\d t-\int_a^\omega f(t,\bf x)\d t=\int_0^s\int_ a^\omega f_{x^k}(t,\bf x+u\bf e_k)\d t\d u \]左侧可以直接变为
\[\int_a^\omega\int_0^sf_{x^k}(t,\bf x+u\bf e_k)\d u\d t=\int_0^s\int_ a^\omega f_{x^k}(t,\bf x+u\bf e_k)\d t\d u \]由换序性即证。
事实上,条件可以弱化为 \(g(\bf x)\) 在某点 \(\bf x_0\) 收敛,只需此种条件即可推出在 \(A\) 的任何有界闭子集 \(B\) 上 \(g(\bf x)\) 的一致收敛性以及 \(g\) 关于 \(x^k\) 的连续可微性。
广义积分一致收敛,当且仅当广义积分对于定义的 \(A\) 满足一致 Cauchy 条件:
- \(\forall\epsilon>0\),存在 \(\omega\) 的去心邻域 \(U_\epsilon\) 使得 \(\forall b_1,b_2\in U_\epsilon\),对于一切 \(\bf x\in A\) 都有\[\left|\int_{b_1}^{b_2}f(t,\bf x)\d t\right|<\epsilon \]即\[\left|\int_a^{b_2}f(t,\bf x)\d t-\int_a^{b_1}f(t,\bf x)\d t\right|<\epsilon \]
不一致收敛 \(\Leftrightarrow\) 不一致 Cauchy。
Weierstrass 判别法:如果 \(|g(t,\bf x)|\) 一致收敛且在 \(\omega\) 的去心邻域内 \(|f(t,\bf x)|\leq g(t,\bf x)\),则 \(f\) 一致收敛。
W-判别法适用于一致绝对收敛积分。
Dirichlet 判别法:若 \(\int_a^bf(t,\bf x)\d t\) 关于 \(b,\bf x\) 一致有界【存在一个界是共同上界】,\(g(t,\bf x)\) 关于 \(t\) 单调,\(\lim\limits_{t\to\omega}g(t,\bf x)=0\) 且关于 \(\bf x\) 一致【对于每个 \(\epsilon\) 存在一个邻域是共同差不超过 \(\epsilon\)】,则 \(\int f(t,\bf x)g(t,\bf x)\d t\) 一致收敛。
Abel 判别法:若 \(\int_a^\omega f(t,\bf x)\d t\) 一致收敛,\(g\) 单调且对 \(t,\bf x\) 一致有界,则 \(fg\) 一致收敛。
Dirichlet 积分:\(\int_0^{+\infty}\dfrac{\sin(tx)}t\d t\)。
\(\int_0^b\sin(tx)\d t\leq\dfrac2{|x|}\),则其一致有界。
\(\dfrac1t\) 单调趋于 \(0\),且对于某个 \(\delta>0\),此时关于 \(x\) 一致。
由 Dirichlet 判别法知 Dirichlet 积分在 \(\delta>0\) 时一致收敛。
然而,对于 \(x=\dfrac1n\),\(\int_{n\pi/6}^{5n\pi/6}\sin(t/n)/t\d t>\dfrac3{5\pi}\),因此其在任何 \(0\) 的邻域中均不一致收敛。
事实上,\(F(x)=\begin{cases}F(1)&(x>0)\\0&(x=0)\\-F(1)&(x<0)\end{cases}\),在 \(0\) 处不连续,所以 \(F\) 可以 不是一致收敛(但是是否真的非一致收敛还欸依靠上方分析)。
想对 \(\Gamma(\alpha)=\int_0^{+\infty}x^{\alpha-1}e^{-x}\d x\) 求导。
已知 \(\Gamma(\alpha)\) 收敛。只需证明 \(\int_0^{+\infty}x^{\alpha-1}(\ln x)^ke^{-x}\d x\),即对内层函数关于 \(\alpha\) 求 \(k\) 阶导的结果一致收敛,那么 \(\Gamma\) 就可 \(k\) 阶导。
当 \(x\to+\infty\) 时,\(|x^{\alpha-1}(\ln x)^ke^{-x}|<e^{-x/2}\),于是由 Weierstrass 判别法其收敛。
当 \(x\to0\) 时,亦有 \(|x^{\alpha-1}(\ln x)^ke^{-x}|<\dfrac1{x^{1-\epsilon}}\),则由 Weierstrass 判别法收敛。
于是 \(\Gamma\in\scr C^\infty\)。
\(\ln\Gamma\) 是凸函数(\(\Gamma\) 是对数凸函数)。
- Bohr-Mollerup 定理:满足递推性质 \(\Gamma(\alpha+1)=\alpha\Gamma(\alpha)\)、\(\Gamma(1)=1\)、对数凸性质的函数只有 Gamma 函数。
\(\Beta\) 函数:\(\Beta(\alpha,\beta)=\int_0^1t^{\alpha-1}(1-t)^{\beta-1}\d t=\dfrac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\)。
积分变换:\(\scr K[f](x)=\int_0^{+\infty}K(x,t)f(t)\d t\)。类比,\((Kf)_i=\sum K_{i,j}f_j\)。例:
- Laplace 变换(其实就是 MGF 的变换):\(\scr L[f](p)=\int_0^{+\infty}e^{-pt}f(t)\d t\)。
- 卷积:\((f*g)(p)=\int_0^{+\infty}f(p-t)g(t)\d t\)。
当 \(t\to+\infty\) 时,若 \(|f(t)|\leq Ce^{\alpha t}\) 成立,则 \(\scr L[f](p)\) 对于 \(p>\alpha\) 成立。
\(\scr L[f'](p)=-f(0)+p\scr L[f](p)\),因此 Laplace 变换把微分运算变成代数运算,把线性微分方程变成代数方程。同时,\(\scr L[f*g](p)=\scr L[f](p)\scr L[g](p)\),把卷积变成代数积。
算 Dirichlet 积分:\(\int_0^{+\infty}\dfrac{\sin t}t\d t\)。令 \(F(p)=\scr L[\dfrac{\sin t}t](p)=\int_0^{+\infty}e^{-pt}\dfrac{\sin t}t\d t\)。\(F'(p)=-\int_0^{+\infty}e^{pt}\sin t\d t=-\dfrac1{p^2+1}\)。
\(F(p)=F(0)-\arctan p\)。\(\lim\limits_{p\to+\infty} F(p)=0\Rightarrow F(0)=\dfrac\pi2=\int_0^{+\infty}\dfrac{\sin t}t\d t\)。
\(f*g=g*f\)。\((f*g)'(p)=\int_{-\infty}^{+\infty}f'(p-t)g(t)\d t\)。
就算 \(g\) 不可导,只要 \(f\in\scr C^\infty\),\(f*g\) 就是 \(\scr C^\infty\) 的。这意味着卷积可以把性质不优的函数变为性质优秀的函数。
变分法?!?!?是对某种函数的最值化。
例如测地线,是求出 \(\bf x(t)\) 满足 \(\bf x(\alpha)=P,\bf x(\beta)=Q\),且最小化 \(\bf x\) 的长度。其中,\(\bf x\) 可以是光滑曲线,也可以是满足某种限制(例如限制在球面上)的光滑曲线,即满足某种约束的曲线。
最速降线,则是满足机械能守恒,从 \(A\) 到 \(B\) 沿着 \(y=y(x)\) 以最短时间滑落至 \(B\) 点的最优方程。一通分析得到,\(\min\limits_{y(0)=0,y(a)=b}\int_0^b\dfrac{\sqrt{1+y'^2}\d x}{\sqrt{2gy}}\)。
极小旋转面:表面积最小的旋转面面积。\(\min\limits_{y(a)=y_1,y(b)=y_2}\int_a^b2\pi y\sqrt{1+y'^2}\d x\)。
归结为以下问题:
被积函数被称作 Lagrange 函数。
思路:把待求解曲线 \(\bf x(t)\) 嵌入一族曲线 \(X(t,s)\) 中(每个 \(s\) 对应一条曲线),且 \(X(t,0)=\bf x(t)\),且 \(\forall s\) 都有 \(X(a,s)=A,X(b,s)=B\)。
一个合理的嵌入,是 \(X(t,s)=\bf x(t)+s\bf y(t)\),其中 \(\bf y(a)=\bf y(b)=0\)。
令 \(F(s)=\int_a^bL(t,X(t,s),\part_t X(t,s))\d t\)。我们希望 \(F(0)\) 是最小值,也即需要 \(F'(0)=0\),即
分部积分操作第二项,最终得到 Euler-Lagrange 方程
是一个关于 \(\bf x\) 的二阶常微分方程。
欧氏空间最短线:\(L(t,\bf x,\bf y)=\|\bf y\|\)。\(L_3(t,\bf x,\bf y)=\dfrac{\bf y}{\|\bf y\|}\)。对应的 E-L 方程是
也即速度向量方向不变。于是曲线是直线段。
- 前提:曲线是二阶光滑的。
Plus-Ultra-Extended Solution of all exchanging questions:
导数、积分、极限、连续,本质都是极限。Riemann 积分是 Riemann 和的极限;如果把一组划分也看作是一个对象,划分之间的距离函数定义为最粗划分之差(滤子理论之类用以描述 Riemann 积分),那么 Riemann 积分也是定义在有距离概念空间上的极限。广义积分则是上/下限趋于某值的极限,也是极限。
因此,对于任何定义于某种距离有定义的空间上的函数 \(\bf F(\bf x,\bf y)\),如果:
- \(\lim\limits_{\bf x\to\bf x_0}\bf F(\bf x,\bf y)=\phi(\bf y)\),且该极限关于 \(\bf y\) 一致成立。
- \(\lim\limits_{\bf y\to\bf y_0}\bf F(\bf x,\bf y)=\Phi(\bf x)\)。
那么 \(\lim\limits_{\bf y\to\bf y_0}\phi(\bf y)\), \(\lim\limits_{\bf x\to\bf x_0}\Phi(\bf x)\) 存在且相等。
首先,以下分析均在 \(\bf x_0,\bf y_0\) 邻域中展开。注意因为 \(\bf x_0,\bf y_0\) 可能是广义上的“无穷”概念,所以这样的邻域不一定是有界的。不过,在偏导之类的仅有狭义定义的场合,这样的邻域是有界的,且可以是有界闭的,进而有时可以套用有界闭集上连续函数必然一致连续来削弱所求限制。
对于任何 \(\epsilon\),存在仅与 \(\epsilon\) 有关的 \(U(\epsilon)\) 使得对于一切 \(\bf y\) 都有在 \(\bf x_0\) 的 \(U(\epsilon)\)-邻域内,\(\|\bf F(\bf x,\bf y)-\Phi(\bf y)\|<\epsilon\)。
对于任何 \(\epsilon\) 和 \(\bf x_1,\bf x_2\),存在 \(V(\epsilon,\bf x_1,\bf x_2)\) 使得在 \(\bf y\) 的 \(V(\epsilon,\bf x_1,\bf x_2)\)-邻域内,\(\|\bf F(\bf x_1,\bf y)-\phi(\bf x_1)\|<\epsilon,\|\bf F(x_2,\bf y)-\phi(\bf x_2)\|<\epsilon\)。
对于 \(U(\epsilon)\)-邻域中的 \(\bf x_1,\bf x_2\),取 \(V(\epsilon,\bf x_1,\bf x_2)\)-邻域中的 \(\bf y\),则
\[\|\phi(\bf x_1)-\phi(\bf x_2)\| \\\leq\|\phi(\bf x_1)-\bf F(\bf x_1,\bf y)\|+\|\bf F(\bf x_1,\bf y)-\Phi(\bf y)\|+\|\phi(\bf x_2)-\bf F(\bf x_2,\bf y)\|+\|\bf F(\bf x_2,\bf y)-\Phi(\bf y)\| \\\leq4\epsilon \]这表明其满足 Cauchy 引理,于是有 \(\lim\limits_{\bf x\to\bf x_0}\phi(\bf x)\) 存在,可设之为 \(\bf A\)。于是,对于 \(\epsilon\),取 \(U(\epsilon)\) 中的 \(\bf x_1\),则有 \(\|\phi(\bf x_1)-\bf A\|\leq4\epsilon\)。
而,取定 \(U(\epsilon)\)-邻域中的 \(\bf x_1\),考虑 \(V(\epsilon,\bf x_1)\) 邻域中的 \(\bf y\),则
\[\|\Phi(\bf y)-\bf A\| \\\leq\|\Phi(\bf y)-\bf F(\bf x_1,\bf y)\|+\|\bf F(\bf x_1,\bf y)-\phi(\bf x_1)\|+\|\phi(\bf x_1)-\bf A\| \\\leq\epsilon+\epsilon+4\epsilon \\\leq6\epsilon \]那么 \(\lim\limits_{\bf y\to\bf y_0}\Phi(\bf y)=A=\lim\limits_{\bf x\to\bf x_0}\phi(\bf x)\),也即两极限可以换序。
Riemann 积分的一致连续比较难以定义,所以:
- Riemann 积分、极限可以换序,只要处处 Riemann 可积、函数关于 \(\bf y\) 一致连续。

浙公网安备 33010602011771号