数学分析(2)
凸函数
Df 1.1:凸区域 \(\Omega\) 上的函数为凸的当且仅当对于任意 \(x,y\in \Omega\) 和 \(\lambda\in [0,1]\),都有 \(f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda)f(y)\)。
Rmk 1.1(Jensen 不等式):若 \(f\) 是凸的,则对于任意 \(\lambda_i\in(0,1),x_i\in \Omega\),且 \(\sum_{i=1}^n \lambda_i = 1\),都有\(f(\sum_{i=1}^n \lambda_i x_i) \le \sum_{i=1}^n \lambda_i f(x_i)\)。
证明:普通函数使用归纳法。可导函数使用支撑线法。二阶可导函数使用泰勒展开。
Thm 1.1(凸性的等价表述):\(I \subseteq \mathbb{R}\) 为区间,\(f: I \to \mathbb{R}\) 实函数且是凸的当且仅当对于任意 \(x_1<x_2<x_3\),都有
证明:取合适的 \(\lambda\) 可得第一个小于等于第三个,使用糖水原理可知第二个应该在中间。
Rmk 1.2:只有开区间上的凸函数一定连续,闭区间不一定连续,例:
Thm 1.2(凸函数推局部 Lipschitz 连续):若 \(f\) 在 \((a, b)\) 上是凸的,则 \(f\) 在 \((a, b)\) 上局部 Lipschitz 连续。
思路:运用上面的不等式证明 \((f(y)-f(x))/(y-x)\) 有界即可,具体地,设定 \(0 < \delta < \frac{b-a}{4}\):
最终推得:
Thm 1.3(推广到 \(\mathbb{R}^n\)):上述定理在 \(\mathbb{R}^n\) 上成立。
归纳法,假设证明了 \(n-1\) 维情况是连续的。
一维情况的关键是把斜率值放缩到固定的两点斜率上。扩展到多维的思路是先把问题拍到一维上,考虑一条直线上的函数的斜率。问题在于如果给定固定点 \(x_0\),很难像上面一样找到固定的 \(\delta,a+\delta,a+2\delta\)。
我们的思路是找到两个“箱子”把点给框住,具体地,找到两个框住 \(x_0\) 的超方形,边长分别为 \(\delta\) 和 \(2\delta\)。超方形是 \(n-1\) 维的,所以连续函数 \(|f|\) 在超方形上存在最大值。所以在 \(x_0\) 领域里找到 \(x,y\),考虑 \(x,y\) 连成的直线与两个“箱子”的交点,两个交点的函数值和距离都被限制了,所以可证明 \(x,y\) 的斜率是有界的。
Df 1.2(中点凸):\(E \subseteq \mathbb{R}^n\) 为凸集,\(f: E \to \mathbb{R}\) 称 \(f\) 为“中点凸”当且仅当对任意 \(x, y \in E\) 有 $$f\left(\frac{x+y}{2}\right) \le \frac{1}{2}f(x) + \frac{1}{2}f(y)$$
Thm 1.4(中点凸和凸等价):若 \(f\) 是连续函数,则中点凸和凸函数等价。
若 \(f\) 为中点凸函数,任取 \(x,y\),令
下证明:若 \(\alpha, \beta \in A\),则 \((\alpha+\beta)/2 \in A\)。
记 \(\gamma = (\alpha+\beta)/2\),则:
故对于任意 \(\lambda\),使用 \(f\) 连续的性质,用中点去逼近即可。
Thm 1.5(凸函数推左右导数存在):若 \(f\) 在 \((a, b)\) 内凸,则 \((a, b)\) 内的左导数 \(f'_-(x)\) 与右导数 \(f'_+(x)\) 存在,且:
证明:对任意 \(a < \xi < s < x < t < y < b\),有:
分析可知,\((f(x) - f(s))/(x - s)\) 关于 \(s \in (\xi, x)\) 单调递增且有上界,故极限存在。
推论:\(f\) 在 \((a,b)\) 上的不可导点至多可列。
Thm 1.6(支撑线):函数 \(f: (a, b) \to \mathbb{R}\) 是凸函数,当且仅当对于定义域内的任意一点 \(x_0 \in (a, b)\),都存在一个常数 \(k_{x_0} \in \mathbb{R}\),使得:
(充分性)假设对于任意 \(x_0\),都存在支撑直线。我们要证明凸性:\(\forall x_1, x_2 \in (a, b), \lambda \in (0, 1)\),令 \(x_\lambda = \lambda x_1 + (1-\lambda)x_2\)。
根据假设,在点 \(x_\lambda\) 处存在支撑斜率 \(k\):
利用凸组合进行加权:
(必要性)假设 \(f\) 是凸函数。已知凸函数在开区间内连续,且其右导数 \(f'_+(x)\) 是单调递增的。对于任意 \(x_0 \in (a, b)\),构造辅助函数 \(F(x) = f(x) - f(x_0) - f'_+(x_0)(x - x_0)\)。
当 \(a < x < x_0\) 时 \(F'_+(x) = f'_+(x) - f'_+(x_0) \le 0\),\(x_0 < x < b\) 时 \(F'_+(x) \ge 0\)。故 \(F(x)\) 在 \((a,x_0)\) 单调递减,\((x_0,b)\) 单调递增。
Thm 1.7 设 \(A \subseteq \mathbb{R}^n\) 为凸区域,\(f: A \to \mathbb{R}\) 为二阶连续可微函数。 \(f\) 是凸函数当且仅当其海森矩阵 \(H_f(x)\) 对所有 \(x \in A\) 均半正定。
令 \(F(t) = f(x + te)\),则
故 \(F''(0)\) 为半正定的。
Thm 1.8(Young 不等式) 设 \(p, q > 1\) 且满足 \(\frac{1}{p} + \frac{1}{q} = 1\),则对于任意 \(a, b > 0\),有:
当且仅当 \(a^p = b^q\) 时取等号。
利用 \(\ln x\) 的凸性:
推论 (Hölder 不等式)$$\sum_{n=1}^{\infty} |a_n b_n| \le \left( \sum_{n=1}^{\infty} |a_n|^p \right)^{\frac{1}{p}} \left( \sum_{n=1}^{\infty} |b_n|^q \right)^{\frac{1}{q}}$$
令 \(A = (\sum |a_n|^p)^{1/p}\) 和 \(B = (\sum |b_n|^q)^{1/q}\)。
逐项应用 Young 不等式:
求和后:
它是 Cauchy-Schwarz 不等式的推广( Cauchy-Schwarz 是 \(p=q=2\) 的情况)
Thm 1.9:凸函数的导数右侧极限等于右导数。
Lemma 1.9.1(右导数和右侧导数极限的关系) 对于 \(f\) 在区间 \((a, b)\) 上,其右导数在端点 \(a\) 处的极限满足:
证明:根据 Lagrange 中值定理
取极限 \(x\to a^+\) 即可。
注意到 \(f'(t)\) 在区间 \((a,x)\) 上单调递增且有界,故 \(\lim_{t\to a}f'(t)\) 存在,所以上下极限相等。
Taylor 定理
一元函数的 Taylor 展开
Df 2.1(泰勒多项式)设 \(f(x)\) 在 \(x_0\) 处有 \(n\) 阶导数,定义 \(n\) 次泰勒多项式 为:
Thm 2.1(带 Peano 余项的泰勒定理)若 \(f(x)\) 在 \(x_0\) 处有 \(n\) 阶导数,则存在 \(x \to x_0\) 时的高阶无穷小,使得:
设余项为 \(R_n(x) = f(x) - T_n(x)\),分母为 \(Q_n(x) = (x-x_0)^n\)。
由于 \(f\) 在 \(x_0\) 邻域内有 \(n-1\) 阶导数,我们可以连续使用 \(n-1\) 次洛必达法则:
其中 \(Q_n^{(n-1)}(x) = n \cdot (n-1) \dots 2 \cdot (x-x_0) = n!(x-x_0)\),\(R_n^{(n-1)}(x) = f^{(n-1)}(x) - T_n^{(n-1)}(x)\)。
此时原式为
Thm 2.2(带 Lagrange 余项的泰勒定理)设函数 \(f(x)\) 在闭区间 \([a, b]\) 上有 \(n\) 阶导数,在开区间 \((a, b)\) 内有 \(n+1\) 阶导数。对于任意 \(x, x_0 \in [a, b]\),至少存在一点 \(\xi\)(在 \(x\) 与 \(x_0\) 之间),使得:
令
运用 Cauchy 中值定理
也可以用习题里面的待定常数法求 \(n\) 次导。
多元函数的 Taylor 展开
Df 2.2(记号)
-
多重指标 \(\alpha\): 定义为 \(\alpha = (\alpha_1, \alpha_2, \dots, \alpha_n)\),其中每个分量 \(\alpha_i \ge 0\) 且 \(\alpha_i \in \mathbb{N}\)。
-
阶乘符号: \(\alpha! \triangleq \alpha_1! \alpha_2! \dots \alpha_n!\)
-
绝对值 (阶数): \(|\alpha| \triangleq \alpha_1 + \dots + \alpha_n\)
-
幂符号: \(x^\alpha \triangleq x_1^{\alpha_1} x_2^{\alpha_2} \dots x_n^{\alpha_n}\)
- 偏导数算子: 记 \(D^\alpha f(x_0)\) 为在点 \(x_0 = (x_1^0, \dots, x_n^0)\) 处计算的偏导数:
\[\left. \frac{\partial^{|\alpha|} f(x)}{\partial x_1^{\alpha_1} \partial x_2^{\alpha_2} \dots \partial x_n^{\alpha_n}} \right|_{x=x_0} \triangleq \frac{\partial^{|\alpha|} f(x_0)}{\partial x^\alpha} \] -
若函数 \(f(x)\) 在点 \(x_0\) 处拥有直到 \(m\) 阶的连续偏导数,则其 \(m\) 阶 Taylor 多项式 \(T_m(x)\) 定义为:
Thm 2.3(多变量函数的 Taylor 定理)设 \(D \subseteq \mathbb{R}^n\) 为凸区域,\(f:D\to \mathbb{R}\) 且 \(f \in C^{m+1}(D)\)。对于任意 \(a_0 \in D\) 及 \(x \in D\),存在 \(\theta \in (0, 1)\),使得:
令 \(\varphi(t) = f(a_0 + t(x - a_0))\),其中 \(t \in [0, 1]\),则
-
\[\varphi(1) = \varphi(0) + \frac{\varphi'(0)}{1!} + \dots + \frac{\varphi^{(m)}(0)}{m!} + \frac{\varphi^{(m+1)}(\theta)}{(m+1)!} \]
设 \(h=x-a_0\),我们有:
而:
故
代入即可。
分析余项
则
故
Thm 2.4(凸函数的等价判定条件)
-
条件 1 (一阶条件):若 \(f\) 在 \(\Omega\) 上可微,则 \(f\) 为凸函数 \(\iff \forall x, y \in \Omega, f(y) \ge f(x) + \nabla f(x) \cdot (y - x)\)。
-
条件 2 (二阶条件):若 \(f \in C^2(\Omega)\),则 \(f\) 为凸函数 \(\iff \nabla^2 f(x) = Hf(x)\)(Hessian 矩阵)是半正定的。
条件 1 必要性只需要列出式子 \(tf(y)+(1-t)f(x)\geq f(ty+(1-t)x)\),然后 Taylor 展开即可。充分性只要列两个式子然后把它们线性组合即可,不再赘述。
条件 2 可以考虑使用条件 1 证明。
(充分性)利用二阶 Taylor 展开,若 Hessian 矩阵半正定,则 \((y-x)^T Hf(\xi) (y-x) \ge 0\)。由展开式可知 \(f(y) \ge f(x) + \nabla f(x)(y-x)\),即满足一阶凸性条件,故函数为凸。
(必要性)假设存在 \(h \neq 0\) 使得 \(h^T Hf(x) h < 0\)。根据凸性,有 \(f(x+th) - [f(x) + \nabla f(x) \cdot th] \ge 0\)。对其进行二阶 Taylor 展开并除以 \(t^2\):
令 \(t\to 0^+\) 可得矛盾。
类比一维情况,一阶导数保证存在支撑线(面),二阶导数为正(半正定)
隐函数定理
Thm 3.1(隐函数定理)设 \(\Lambda \subseteq \mathbb{R}^n\) 为凸区域,\(F: \Lambda \times (a, b) \to \mathbb{R}\) 是连续可微的。若存在点 \((x_0, y_0) \in \Lambda \times (a, b)\) 满足:
-
\(F(x_0, y_0) = 0\)
-
\(F_y(x_0, y_0) \neq 0\)
则存在 \(\delta > 0\) 和 \(\eta > 0\),使得对于任意 \(x \in B_\delta(x_0)\),存在唯一的 \(y = \varphi(x) \in (y_0 - \eta, y_0 + \eta)\),满足:
-
\(F(x, \varphi(x)) = 0\) (定义了隐函数 \(\varphi: B_\delta(x_0) \to (y_0 - \eta, y_0 + \eta)\))
-
\(\varphi(x)\) 在 \(B_\delta(x_0)\) 内连续可微,且其导数为:
\[\varphi'(x) = -\frac{F_x(x, \varphi(x))}{F_y(x, \varphi(x))} \]
注:称 \(\varphi(x)\) 为 \(F(x, y) = 0\) 在 \((x_0, y_0)\) 附近的隐函数。
不妨设 \(F_y(x_0,y_0)>0\)。
由连续性和 \(F_y(x_0,y_0)>0\),可知存在 \(x\in B_{\delta}(x_0), y\in B_{\eta}(y_0)\),使得 \(F_y(x,y)>0\)。
根据条件,\(F_y(x_0,y_0-\eta)<F(x_0,y_0)=0<F(x_0,y_0+\eta)\)。
根据连续性,存在 \(\delta\) 使得 \(x\in (x_0-\delta,x_0+\delta)\) 时 \(F_y(x,y_0-\eta)<0<F(x,y_0+\eta)\)。
由于 \(F(x,y)\) 关于 \(y\) 单调递增,所以存在唯一的 \(\varphi(x)=y\in (y_0-\eta,y_0+\eta)\) 使得 \(F(x,\varphi(x))=0\)。
下证明 \(\varphi(x)\) 连续。尝试使用 Lagrange 中值定理构造 \(\varphi(x_1)-\varphi(x_2)\) 项
左边可转化为 \(|F(x_2,\varphi(x_2))-F(x_1,\varphi(x_2))|\),两边令 \(x_2\to x_1\) 可知 \(|\varphi(x_2)-\varphi(x_1)|\to 0\)。
再证可微,即找到 \(\Delta y=\varphi(x_2)-\varphi(x_1)\) 和 \(\Delta x=x_2-x_1\) 的关系,使用多元 Lagrange 中值定理
所以
由于括号内的项趋于 \(0\),所以后面是关于 \(\Delta x\) 的高阶无穷小,所以可以证明可微。
思路梳理:
- 证明 \(x_0\) 的一个领域内 \(F(x,y)\) 关于 \(y\) 递增,可证明存在零点。
- 用 Lagrange 中值定理证明连续。
- 先猜想出导函数的值,在证明余项是高阶无穷小。
Thm 3.2(多元情况下的隐函数定理)
设 \(\Omega \subseteq \mathbb{R}^n\) 及 \(D \subseteq \mathbb{R}^m\) 为区域,\(F: \Omega \times D \to \mathbb{R}^m\) 是连续可微函数。若存在点 \((x_0, y_0) \in \Omega \times D\) 满足:
-
\(F(x_0, y_0) = 0\)
-
\(\det F_y(x_0, y_0) \neq 0\)(即关于 \(y\) 的偏导数矩阵即 Jacobi 矩阵非奇异/可逆)
则存在邻域 \(B_\delta(x_0) \subseteq \Omega\) 和 \(B_\eta(y_0) \subseteq D\),使得:
- 对于任意 \(x \in B_\delta(x_0)\),存在唯一的 \(y = \varphi(x) \in B_\eta(y_0)\),满足方程组 \(F(x, \varphi(x)) = 0\)。
进一步地,该隐函数 \(\varphi(x)\) 具有以下性质:
-
连续性与可微性:函数 \(\varphi\) 在 \(B_\delta(x_0)\) 内连续可微。
-
导数公式(矩阵形式):
\[\varphi_x(x) = -(F_y(x, \varphi(x)))^{-1} F_x(x, \varphi(x)), \quad \forall x \in B_\delta(x_0) \]
由于证明较为复杂,下面仅给出思路。
证明思路梳理:
- 总体思路:对 \(x\) 找到 \(|F(x,y)|^2\) 的极小值点,此处的 \(y=\varphi(x)\) 满足 \(F(x,\varphi(x))=0\)。可以根据求导式子得到,也可以这么想:如果导数行列式非 \(0\),那么函数值在任意方向上都有变动,此时最小值只能是 \(0\)。
- 估计 \(F(x,y)\) 关于 \(y\) 的变化率:由于 \(\det F_y(x_0,y_0)>0\),函数关于 \(y\) 有变化。利用 \(\alpha=\min_{x,y,z,e}\langle F_y(x,y)e,F_y(x,z)e\rangle>0\) 衡量变化率,可以得到不等式 \(|F(x,y_1)-F(x,y_2)|^2\geq \alpha|y_1-y_2|^2\)。
- 运用连续性证明极小值不在边缘:根据上面定理可知 \(F(x_0,y)>F(x_0,y_0)=0\),根据连续性可知 \(F(x,y)>F(x,y_0)\)(在一元的情况中的情况,就是左边小于 \(0\),右边大于 \(0\),中间一定有零点)
- 用不等式证明连续:和上面如出一辙,甚至由于我们得到了不等式,可以证明 \(\varphi\) 是 Lipschitz 连续的。
- 用多元 Lagrange 中值定理证明可微:和上面如出一辙。
逆映射定理
Thm 4.1(逆映射定理)设 \(f: D \subseteq \mathbb{R}^n \to \mathbb{R}^n\) 为 \(C^k\) 映射(\(k \geq 1\)),\(x_0 \in D\)。若 \(f\) 在 \(x_0\) 处的雅可比矩阵 \(Jf(x_0)\) 可逆(即 \(\det(Jf(x_0)) \neq 0\)),则存在 \(x_0\) 的开邻域 \(U\) 和 \(y_0 = f(x_0)\) 的开邻域 \(V\),使得:
-
\(f|_U: U \to V\) 是双射。
-
逆映射 \(h = (f|_U)^{-1}\) 也是 \(C^k\) 映射。
-
对于任意 \(y \in V\),有 \(Jh(y) = [Jf(h(y))]^{-1}\)。
通过平移坐标,不妨设 \(x_0 = 0\) 且 \(f(0) = 0\)。 设 \(L = Jf(0)\),由于 \(L\) 可逆,令 \(\tilde{f}(x) = L^{-1} \circ f(x)\)。显然 \(\tilde{f}(0) = 0\) 且 \(J\tilde{f}(0) = L^{-1} \cdot Jf(0) = I_n\)(单位矩阵)。 若 \(\tilde{f}\) 在局部可逆,则 \(f = L \circ \tilde{f}\) 显然也局部可逆。因此,我们只需证明 \(f\) 满足 \(f(0)=0\) 且 \(Jf(0)=I_n\) 的情形。
设 \(g(x)=f(x)-x\),则 \(Jg(0)=0\),根据连续性,存在 \(\delta\) 使得当 \(x \in \overline{B_\delta(0)}\) 时,有 \(\|Jg(x)\| \leq \frac{1}{2}\)。
对于固定 \(y\in B_\frac{\delta}{2}(0)\),构造映射 \(\varphi:\overline{B_\delta(0)}\to \overline{B_\delta(0)}\),\(\varphi(x)=y-g(x)\),则:
- \(\varphi\) 是自身映射:\[\|\varphi(x)\| \leq \|y\| + \|g(x)\| \leq \|y\| + \|g(x) - g(0)\| \leq \frac{\delta}{2} + \frac{1}{2}\|x\| < \frac{\delta}{2} + \frac{\delta}{2} = \delta \]
- \(\varphi\) 是压缩映射:\[\|\varphi_y(x_1) - \varphi_y(x_2)\| = \|g(x_2) - g(x_1)\| \leq \frac{1}{2} \|x_1 - x_2\| \]
所以 \(\varphi\) 在 \(B_\delta(0)\)(考虑到值域不包括边缘) 上有唯一不动点 \(x_y\)。此时 \(f(x_y)=y\)。取 \(U=f^{-1}(B_{\frac{\delta}{2}}(0))\cap B_\delta(0)\) 即可。
设逆映射为 \(h\),则 \(f(x_1)=y_1,x_1=h(y_1)\)。下证明 \(h\) 是 Lipschitz 连续的
下证明 \(h\) 可微,我们有
把 \(Jf(x_0)\) 反过来
由于 \(\|x_1-x_2\|\leq 2\|y_1-y_2\|\),所以 \(Jf(x_0)^{-1}o(\|x-x_0\|)=o(\|y-y_0\|)\)。故 \(h\) 可微且导函数为 \(Jh(y_0)=Jf(x_0)^{-1}=Jf(h(y_0))^{-1}\)。
再证明 \(h\) 是 \(C^k\) 的。已经证明 \(h\) 可微,即 \(h\) 是 \(C^1\) 的,故 \(Jf\circ h\) 是 \(C^1\) 的,即 \(Jh\) 是 \(C^1\) 的,所以 \(h\) 是 \(C^2\) 的。归纳可以证明 \(h\) 是 \(C^k\) 的。
Df 4.1(正则映射) 设 \(D \subseteq \mathbb{R}^n\) 是一个开集,\(f: D \to \mathbb{R}^n\) 为 \(C^1\) 映射。若对于定义域内每一个点 \(x \in D\),其 Jacobian 矩阵 \(Jf(x)\) 都是满秩的(即 \(\det Jf(x) \neq 0\)),则称 \(f\) 为正则映射。
**Thm 4.2(正则映射的性质) **\(f:D\to \mathbb{R}^n\) 的正则映射
- 正则映射将开集映射到开集:\(\Omega\triangleq f(D)\) 是开的。
- 局部逆映射连续可微:存在从 \(\Omega\to D\) 的映射 \(f^{-1}\),\(f\circ f^{-1}(y)=y\),且 \(f^{-1}\) 是 \(\mathbb{C}^1\) 的。
任取 \(y_0 \in \Omega\),根据 \(\Omega\) 的定义,存在 \(x_0 \in D\) 使得 \(f(x_0) = y_0\)。由逆映射定理,存在 \(x_0\) 的一个邻域 \(U\) 和 \(y_0\) 的一个邻域 \(V\) 使得 \(f|_U:U\to V\) 是双射,此时 \(y_0\in V\subseteq \Omega\),故 \(y_0\) 是内点。
再证明逆映射是 \(C^1\) 的,设 \(f(x_0)=y_0,x_0=f^{-1}y_0\),则
证明过程和上面类似。
Thm 3.1(用逆映射定理证明)
只考虑 \(f:\mathbb{R}^2\to \mathbb{R}\) 的情况,其余情况用类似方法可以推广得到。
设给定方程为 \(f(x, y) = 0\),且 \(f(x_0, y_0)=0\)。为了应用逆映射定理,我们需要构造一个从 \(\mathbb{R}^2 \to \mathbb{R}^2\) 的映射 \(F\):
考虑
行列式为:\(\det JF(x, y) = \frac{\partial f}{\partial y}\neq 0\),故 \(F\) 在 \((x_0, y_0)\) 处是正则映射。
例:\(f:\mathbb{R}^2\to \mathbb{R}\),\(\frac{\partial f}{\partial y}\neq 0\),问 \(f(x,y)=f(x_0,y_0)\) 可否确定一个函数 \(y=\psi(x)\),\(f(x,\psi(x))=f(x_0,y_0)\)。
根据逆映射定理,存在 \((x_0, y_0)\) 的一个开邻域 \(U\) 和 \((x_0, c)\) 的一个开邻域 \(V\),使得存在逆映射 \(F^{-1}: V \to U\),设其形式为 \(F^{-1}(u, v) = (\varphi(u, v), \psi(u, v))\)。
故 \(\varphi(u, v) = u\),\(f(u, \psi(u, v)) = v\)。令 \(v=0\),\(\psi(x) \triangleq \psi(x, 0)\)。由于 \(F^{-1}\) 是 \(C^k\) 的,故 \(\psi(x)\) 也是 \(C^k\) 的。此时,\(y = \psi(x)\) 即为所求的隐函数。
求导易得导数公式。
几何理解:把 \((x,f(x_0,y_0))\) 的一条横线映射回 \((x,y)\),得到一条曲线 \((x,\varphi(x))\)。
切线与切平面
Df 5.1(曲线)
-
简单曲线 (Simple Curve):在 \(\mathbb{R}^n\) 中,曲线 \(\Gamma\) 由 \(\gamma(t) = (x_1(t), \dots, x_n(t))\) 参数化。\(\Gamma\) 为简单曲线 \(\iff\) \(\gamma(t_1) = \gamma(t_2) \implies t_1 = t_2\)(即曲线无自交点)。
-
可微曲线 (Differentiable Curve):曲线 \(\Gamma\) 在 \(t_0\) 处可微 \(\iff\) 各分量函数 \(x_i(t)\) 在 \(t_0\) 处均可导。
Df 5.2(切线)
-
切向量 (Tangent Vector):曲线在 \(P_0 = \gamma(t_0)\) 处的切向量为 \(\gamma'(t_0) = (x_1'(t_0), \dots, x_n'(t_0))\)。
-
切线方程:设 \(P_0 = \gamma(t_0)\),切线方程有两种常见的表达方式:
- 对称式(点向式):
\[\frac{x_1 - x_1(t_0)}{x_1'(t_0)} = \frac{x_2 - x_2(t_0)}{x_2'(t_0)} = \cdots = \frac{x_n - x_n(t_0)}{x_n'(t_0)} \]- 向量式(参数方程):
\[\mathbf{P}(t) = t \cdot \gamma'(t_0) + \gamma(t_0) \]即 \((x_1, \dots, x_n) = t(x_1'(t_0), \dots, x_n'(t_0)) + (x_1(t_0), \dots, x_n(t_0))\)。
Df 5.3(法平面)经过点 \(P_0\) 且垂直于切线的超平面称为该点处的法平面。切向量 \(\gamma'(t_0)\) 是该法平面的法向量,记为 \(\vec{\eta} = \gamma'(t_0)\)。
Thm 5.1(隐式曲线的切向量)设曲线由两个隐式曲面方程定义:\(\begin{cases} F(x, y, z) = 0 \\ G(x, y, z) = 0 \end{cases}\)。定义 \(H(x, y, z) = (F, G)^T\)。若 \(H'(P_0)\) 的秩为 2,则由隐式曲面方程定义的曲线在 \(P_0\) 点的切向量为 \(\vec{v} = \nabla F(P_0) \times \nabla G(P_0)\)。
若 \(\frac{\partial(F, G)}{\partial(x, y)} \neq 0\),则局部存在 \(x=x(z), y=y(z)\)。
令 \(\gamma(z) = (x(z), y(z), z)\),对 \(F, G\) 求导得到: \(\langle \nabla F(P_0), \gamma'(z_0) \rangle = 0\) 且 \(\langle \nabla G(P_0), \gamma'(z_0) \rangle = 0\),这意味着切向量 \(\gamma'(t_0)\) 必须同时垂直于两个曲面的法向量 \(\nabla F\) 和 \(\nabla G\)。故方向向量可取 \(\nabla F(P_0) \times \nabla G(P_0)\)。
曲面的切平面
Df 5.4(隐式曲面的切平面)
-
定义:设曲面 \(S: F(x, y, z) = 0\)。若点 \(P_0\) 处满足梯度 \(\nabla F(P_0) \neq \mathbf{0}\),则 \(S\) 在 \(P_0\) 处存在切平面。
-
切平面方程:以梯度向量 \(\nabla F(P_0)\) 为法向量,过点 \(P_0(x_0, y_0, z_0)\) 的平面方程为:
\[\langle \nabla F(P_0), \boldsymbol{x} - \boldsymbol{x}_0 \rangle = 0 \]
\(S:F(x,y,z)=0\),\(F\) 可微,\((x,y,z)\in D\subseteq \mathbb{R}^3\)。
Df 5.5(参数曲面的切平面)曲面 \(\Sigma\) 由向量函数 \(\vec{r}(u, v) = (x(u, v), y(u, v), z(u, v))\) 定义。
Df 5.5.1(参数曲线)
-
\(u\)-曲线:\(\vec{r}(u, v_0)\)(固定 \(v\))。
-
\(v\)-曲线:\(\vec{r}(u_0, v)\)(固定 \(u\))。
设 \(u(t),v(t)\) 为 \(\Delta\) 上的一段曲线(\(\Delta\) 为 \((u,v)\) 定义域),且 \(u(t_0)=u_0,v(t_0)=v_0\),则在 \(\Sigma\) 上曲线在 \((u_0,v_0)\) 的切向量为
它是 \(\frac{\partial \vec{r}}{\partial u}(u_0,v_0)\) 与 \(\frac{\partial \vec{r}}{\partial v}(u_0,v_0)\) 张成的向量。则任何经过 \(P_0\) 的曲线的切向量都在由 \(\{\vec{r}_u, \vec{r}_v\}\) 张成的二维子空间内
Df 5.5.2(切平面)该张成平面即为切平面,法向量可表示为 \(\vec{n} = \vec{r}_u \times \vec{r}_v\)。
参数曲线示例
球面方程 \(\vec{r}(\theta, \varphi) = (R\sin\theta\cos\varphi, R\sin\theta\sin\varphi, R\cos\theta)\):
-
\(\theta\)(极角):\(\theta\)-曲线为经线。
-
\(\varphi\)(方位角):\(\varphi\)-曲线为纬线。
记 \(\vec{r_u}=\frac{\partial \vec{r}}{\partial u},\vec{r_v}=\frac{\partial \vec{r}}{\partial u}\)
若 \(\nabla F(P_0)\neq 0\),则可确定过 \(P_0\) 点且以 \(\nabla F(P_0)\) 为法向量的平面称为 \(S\) 在 \(P_0\) 点处的切平面。
Df 5.6(第一基本形式*)
第一基本量用于描述曲面上向量的内积(度量性质),定义如下:
-
记号:\(\vec{r}_u = \frac{\partial \vec{r}}{\partial u}, \quad \vec{r}_v = \frac{\partial \vec{r}}{\partial v}\)
-
第一基本系数:
\[E = \vec{r}_u \cdot \vec{r}_u = \|\vec{r}_u\|^2, \quad F = \vec{r}_u \cdot \vec{r}_v, \quad G = \vec{r}_v \cdot \vec{r}_v = \|\vec{r}_v\|^2 \] -
拉格朗日恒等式:切平面的法向量模长(即面积元)可由第一基本量表示:
\[\|\vec{r}_u \times \vec{r}_v\|^2 = \|\vec{r}_u\|^2 \|\vec{r}_v\|^2 - (\vec{r}_u \cdot \vec{r}_v)^2 = EG - F^2 \]因此:\(\|\vec{r}_u \times \vec{r}_v\| = \sqrt{EG - F^2}\)。
Thm 5.2(隐式曲面切空间) 切空间等同于法向量的法平面。具体地,设 \(\Omega \subseteq \mathbb{R}^n\),\(F \in C^1(\Omega, \mathbb{R})\),且在 \(x_0 \in \Sigma\) 处 \(\nabla F(x_0) \neq 0\)。若向量 \(e \in \mathbb{R}^n\) 满足 \(\langle e, \nabla F(x_0) \rangle = 0\),则存在一条经过 \(x_0\) 的 \(C^1\) 曲线 \(\Gamma \subset \Sigma\),使得其在 \(x_0\) 处的切向量为 \(e\)。
将坐标系旋转并平移,使得新坐标系原点为 \(x_0\),且坐标轴为 \(n\) 维正交基,满足 \(e_1=e\),\(e_n=\mu / ||\mu||\)(\(\mu\) 定义为 \(\nabla F(x_0)\))
设原坐标系到新坐标系的基变换的过渡矩阵为正交阵 \(A=(e_1,e_2,\cdots,e_n)\),则在新坐标系下坐标为 \(y\) 的点,在原坐标系中为 \(Ay+x_0\),则新坐标系下,曲面方程为:
目标转化为,构造曲线,使得其切向量为坐标轴 \(e_1\)。
由于
代入 \(y=0\) 得
故只有当 \(i=n\) 时偏导数非零。
运用隐函数定理,一定存在隐函数 \(\varphi(y_1,y_2,\cdots,y_{n-1})\) 使得 \(G(y_1,y_2,\cdots,y_{n-1},\varphi)=0\)。
定义曲线 \(\gamma(t)=(t,0,\cdots,0,\varphi(t,0,\cdots,0))\)(在新坐标系下),注意到,曲面的法向量为坐标轴 \(e_n\),所以新坐标轴中曲面的切平面为 \(y_n=0\),根据直觉,\(\gamma(t)\) 的切向量就是 \(e_1\),下面我们证明这一点。
根据隐函数定理的结论
所以 \(\gamma'(t)=(1,0,\cdots,0)\),转换到原坐标系下,\(\gamma'(t)=e_1\)。
条件极值
Thm 6.1(极小值的充分条件和必要条件)设 \(f: D \subseteq \mathbb{R}^n \to \mathbb{R}\) 在 \(x_0\) 附近二阶可微。
-
必要条件:若 \(f\) 在 \(x_0\) 处取局部极小值,则 \(\nabla f(x_0) = 0\) 且 Hessian 矩阵 \(H_f(x_0)\) 是半正定的。
-
充分条件:若 \(\nabla f(x_0) = 0\) 且 \(H_f(x_0)\) 正定,则 \(f\) 在 \(x_0\) 处取严格局部极小值。
由于 \(x_0\) 是极小值点,必有 \(\nabla f(x_0) = 0\)。故:
两边除以 \(t^2\) 并令 \(t\to 0\):
同时,若 \(H_f(x_0)\) 正定,存在 \(\alpha\) 使得 \(x^TH_f(x_0)x\geq 4\alpha ||x||^2\)(\(e^TH_f(x_0)e\) 有最小值)
故 \(f(x_0)\) 严格极小。
Thm 6.3(Lagrange 乘子法)设 \(U \subseteq \mathbb{R}^n\) 为开集,\(f: U \to \mathbb{R}\) 可微,\(\Phi: U \to \mathbb{R}^m\) 为 \(C^1\) 函数(\(m < n\))。记 \(\Sigma = \{x \in U \mid \Phi(x) = 0\}\)。
若 \(x_0 \in \Sigma\) 是 \(f|_\Sigma\) 的条件极值点,且 Jacobi 矩阵 \(J\Phi(x_0)\) 的秩为 \(m\)(满秩),则存在乘子向量 \(\boldsymbol{\lambda} = (\lambda_1, \dots, \lambda_m) \in \mathbb{R}^m\),使得:
由于 \(J\Phi(x_0)\) 满秩,不妨设左侧 \(m \times m\) 部分行列式不为 0。将变量拆分为 \(x = (y, z)\),其中 \(y \in \mathbb{R}^m, z \in \mathbb{R}^{n-m}\)。
根据隐函数定理,存在函数 \(y = \psi(z)\) 使得 \(\Phi(\psi(z), z) = 0\),且其导数为:
设复合函数 \(g(z) = f(\psi(z), z)\) 在 \(z_0\) 处取得极值,故其对 \(z\) 的导数为 0:
代入 \(J\psi(z_0)\),得:
令 \(\boldsymbol{\lambda} = J_y f(x_0) \cdot [J_y \Phi(x_0)]^{-1}\),则有:
-
\(J_y f(x_0) = \boldsymbol{\lambda} J_y \Phi(x_0)\) (由 \(\boldsymbol{\lambda}\) 定义直接得出)
-
\(J_z f(x_0) = \boldsymbol{\lambda} J_z \Phi(x_0)\) (由上述代入式得出)
拼合即得 \(\nabla f(x_0) = \boldsymbol{\lambda} J\Phi(x_0)\)。
Rmk 6.1 求条件极值的时候,可以设 \(L(x,\lambda)=f(x)-\lambda \Phi(x)\),则在极值处有 \(\nabla L(x_0)=0\)。
例:求平面 \(x+y+z=0\) 与椭球面 \(x^2+y^2+4z^2=1\) 交线围成的面积。
该交线是一个中心在原点的椭圆。椭圆的面积 \(S = \pi ab\),其中 \(a, b\) 是椭圆的半长轴和半短轴。半轴长度即为原点到交线上点的距离 \(d = \sqrt{x^2+y^2+z^2}\) 的极值。
令 \(f(x,y,z) = x^2+y^2+z^2\),构造函数
- 通过 \(\nabla L = 0\) 得到:
级数
正项级数
所有项都是正数的级数称为正项级数。
Thm 7.1 若级数 \(\sum_{n=1}^{\infty} a_n\) 收敛,则通项必趋于 0,即:
由 Cauchy 收敛准则立得。
若 \(\sum_{i=1}^n a_i\) 收敛,则 \(a_n=(S_n-S_{n-1})\to 0\)(实际上是 Cauchy 收敛准则的特例)
Thm 7.2(p-级数判别法)\(p\)-级数
在 \(p\leq 1\) 时发散,\(p>1\) 时收敛。
\(p>1\) 时:
由于 \(p > 1\),公比 \(r = 2^{1-p} < 1\),故级数收敛。
\(p\leq 1\) 时
构造发散子序列:
通过这种分块方式,\(S_{2^k} \to \infty\),故原级数发散。
Thm 7.3(级数的加括号性质)
- 若原级数 \(\sum a_n\) 收敛,则对其任意加括号(保持项的先后顺序不变)所得的新级数 \(\sum v_k\) 仍然收敛,且收敛于同一个值。
- 反过来,若加括号后的新级数 \(\sum v_k\) 收敛,且同一个括号内的项符号相同,则原级数 \(\sum a_n\) 收敛。
对于第一个定理,由收敛数列的任意子列都收敛到同一个值立得。
对于第二个定理,设 \(T_k = \sum_{i=1}^k v_i\) 为加括号后级数的部分和。
对于原级数的部分和 \(S_n\),若其落在括号 \(k\) 与 \(k+1\) 之间,即 \(n_k+1 \leq n \leq n_{k+1}\),且括号内项非负,则有:
若括号内项非正,则有
由此通过夹逼定理 \(\min\{T_k, T_{k+1}\} \leq S_n \leq \max\{T_k, T_{k+1}\}\) 可证得 \(S_n\) 的极限存在。
Thm 7.4(单调有界原理)对于正项级数 \(\sum x_n\),其部分和序列 \(\{S_n\}\) 是单调递增的。若 \(\{S_n\}\) 有上界,则 \(\{S_n\}\) 收敛(即级数收敛)。
例
Thm 7.5(比较判别法) 设 \(\sum x_n, \sum y_n\) 为正项级数,若存在常数 \(A > 0\) 使得当 \(n\) 足够大时 \(x_n \leq A y_n\):
-
若 \(\sum y_n\) 收敛 \(\implies \sum x_n\) 收敛。
-
若 \(\sum x_n\) 发散 \(\implies \sum y_n\) 发散。
极限形式
设 \(\lim_{n \to \infty} \frac{x_n}{y_n} = l\):
-
若 \(0 \leq l < +\infty\): \(\sum y_n\) 收敛 \(\implies \sum x_n\) 收敛。
-
若 \(0 < l \leq +\infty\): \(\sum y_n\) 发散 \(\implies \sum x_n\) 发散。
-
若 \(0 < l < +\infty\): \(\sum x_n\) 与 \(\sum y_n\) 同收敛或同发散。
例 \(\sum (e^{1/n^2}-\cos \frac{\pi}{n})\),泰勒展开变成 \((1+\pi^2/2)/n^2\),故原级数和 \(1/n^2\) 的级数同敛散。
Thm 7.6(柯西根值判别法 Cauchy Root Test)令 \(r = \limsup_{n \to \infty} \sqrt[n]{x_n}\)
-
\(r < 1\):级数收敛。
-
\(r > 1\):级数发散(通项不趋于 0)。
-
\(r = 1\):失效(无法判定,需寻找其他准则)。
利用上极限定义,当 \(r < 1\) 时,存在 \(q \in (r, 1)\) 及 \(N\),使得当 \(n \geq N\) 时 \(\sqrt[n]{x_n} < q\),即 \(x_n < q^n\)。根据等比级数判别法,级数收敛。
当 \(r>1\) 时,存在 \(\{x_n\}\) 的子列 \(\{x_{n_k}\}\) 收敛到 \(r\),则子列求和发散,级数发散。
Thm 7.7(达朗贝尔比值判别法 d'Alembert Ratio Test)
- \(\limsup\frac{x_{n+1}}{x_n}<1\),收敛。
- \(\liminf \frac{x_{n+1}}{x_n}>1\),发散。
- 其它情况无法判定。
Lemma 7.7.1 \(\{x_n\}\) 为正项数列,则
令 \(r=\limsup\frac{x_{n+1}}{x_n}\),设 \(r<+\infty\),任意 \(\varepsilon >0\) 存在 \(N\) 使得 \(n\geq N\) 时
故
两边开 \(n\) 次方根后取上极限可以得到结论。
结合 Lemma 7.7.1 和 Thm 7.6 可以证明结论。
Thm 7.8 (Raabe) 令 \(r = \lim_{n \to \infty} n \left( \frac{x_n}{x_{n+1}} - 1 \right)\)
-
\(r > 1\):级数收敛。
-
\(r < 1\):级数发散。
当比值判别法失效。Raabe 判别法能提供更细致的判定。
若 \(r>1\),则存在 \(s\),使得 \(r>s>1\),且当 \(n\) 足够大的时候
稍加变形得到
尝试通过放缩把右边转化成一个“可裂项”的形式,注意到右边很像 \((1+x)^k\) 泰勒展开的一次项,我们取合适的 \(t\in (1,s)\),使得
所以 \(\{n^t x_n\}\) 在某项开始是减的,假设这一项是 \(A\),则有
根据 \(p\)-级数判别法和比较判别法可得敛散性。\(r>1\) 的情况的讨论是类似的。
Thm 7.9 (Bertrand 判别法)令 \(r = \lim_{n \to \infty} (\ln n) \left[ n \left( \frac{x_n}{x_{n+1}} - 1 \right) - 1 \right]\)
-
\(r > 1\):级数收敛。
-
\(r < 1\):级数发散。
任意项级数
Thm 7.10(Abel 变换)设 \(B_k = \sum_{i=1}^k b_i\) 是 \(b_k\) 的部分和,则
Thm 7.11(Abel 判别法和 Dirichlet 判别法)
- Abel 判别法:\(\{a_n\}\) 单调有界,\(\sum b_n\) 收敛,则 \(\sum a_n b_n\) 收敛。
- Dirichlet 判别法:\(\{a_n\}\) 单调且 \(a_n\to 0\),\(\{\sum_{i=1}^n b_i\}\) 有界,\(\sum_{n=1}a_nb_n\) 收敛。
先证 Abel 判别法。由 \(\sum_{i=1}^{\infty} b_i\) 收敛,根据 Cauchy 收敛准则
对 \(\sum a_kb_k\) 进行 Abel 变换
故 \(\sum a_kb_k\) 收敛。
Dirichlet 判别法也可利用 Abel 变换证明
Thm 7.12 (Leibniz 判别法) 对于 \(\sum_{n=1}^\infty (-1)^{n+1}a_n\),\(a_n>0\),\(a_n\) 单调递减趋于 \(0\),则 \(\sum(-1)^{n+1}a_n\) 收敛。
这是 Dirichlet 判别法的直接推论
例 1
收敛。
例 2
例 3
已知数列 \(\{a_n\}\) 单调且 \(\lim_{n \to \infty} a_n = 0\),则三角级数 $$\sum_{n=1}^{\infty} a_n \sin(nx)$$ 收敛
-
\(x=2k\pi\),显然收敛。
-
\(x\neq 2k\pi\) 时,积化和差
所以 \(\sum \sin nx\) 有界。用 Leibniz 判别法可以证明原级数收敛。
**Df 7.1(绝对收敛和条件收敛) **
-
绝对收敛 (Absolutely Convergent): 若 \(\sum |a_n|\) 收敛,则 \(\sum a_n\) 绝对收敛。
-
条件收敛 (Conditionally Convergent): 若 \(\sum a_n\) 收敛,但 \(\sum |a_n|\) 发散,则 \(\sum a_n\) 条件收敛。
Thm 7.13(绝对收敛蕴含收敛)若 \(\sum |a_n|\) 收敛,则 \(\sum a_n\) 收敛。
若级数 \(\sum |a_n|\) 绝对收敛,说明其部分和序列趋于极限。根据 Cauchy 收敛准则,对于任意 \(\varepsilon > 0\),存在 \(N\),使得当 \(n > N\) 时,对于任意正整数 \(p\),满足:
故
因此,原级数 \(\sum a_n\) 必然收敛。
例:讨论 \(\sum_{n=1}^\infty \frac{x^n}{n^p}\) 的敛散性。
由于
- \(|x|<1\) 时,Cauchy 判别法,\(\sum \frac{|x|^n}{n^p}\) 收敛,\(\sum \frac{x^n}{n^p}\) 也收敛。
- \(|x|>1\) 时,Cauchy 判别法,\(\sum \frac{|x|^n}{n^p}\) 发散,且 \(\frac{|x|^n}{n^p}\) 不趋近于 \(0\),故 \(\sum \frac{x^n}{n^p}\) 发散。
- \(x=1\),等价于判断 \(\sum \frac{1}{n^p}\) 的敛散性。
- \(x=-1\),\(p>1\) 绝对收敛,\(0<p\leq 1\) 条件收敛,\(p\leq 0\) 发散。
Rmk 7.1 正项级数的发散判别条件在任意项级数仍然成立,但是一般是通过数列不趋于 \(0\) 来证明。
Df 7.2(数列的正项和负项)
定义数列的正项
类似定义负项
\(x_n^+\),\(x_n^-\),\(x_n\),\(|x_n|\) 有如下关系
-
分解公式: \(x_n = x_n^+ - x_n^-\)
-
绝对值公式: \(|x_n| = x_n^+ + x_n^-\)
-
算术表示:
Thm 7.14(正项、负项的收敛性和绝对收敛、条件收敛的关系)
- 级数 \(\sum x_n\) 绝对收敛的充要条件是正项级数 \(\sum x_n^+\) 和负项级数 \(\sum x_n^-\) 同时收敛。
- 若级数 \(\sum x_n\) 条件收敛,则正项部分 \(\sum x_n^+\) 和负项部分 \(\sum x_n^-\) 必然都发散趋于 \(+\infty\)。
根据上面的公式,结合级数的四则运算法则可以证明。
Thm 7.15(级数的重排定理)
- 绝对收敛:若 \(\sum u_n\) 绝对收敛且和为 \(S\),则对其项进行任何双射重排 \(\varphi: \mathbb{N}_+ \to \mathbb{N}_+\),得到的级数 \(\sum u_{\varphi(n)}\) 依然绝对收敛,且和仍为 \(S\)。
- 条件收敛:若 \(\sum a_n\) 条件收敛,则对于任意实数 \(S \in \mathbb{R}\)(或 \(S = \pm \infty\)),都存在一种重排方式,使得重排后的级数收敛于 \(S\)。
绝对收敛的情况
设 \(N_n\) 为满足
的最大的 \(N\),则
人话:把 \(\{m_k\}\) 在值域上最长的一个连续前缀消掉,剩下的项只能在后缀中取。
由于 \(N_n\to +\infty(n\to +\infty)\),两边取极限即可。
条件收敛的情况
设 \(\{b_n\}\) 为所有正项,\(\{c_n\}\) 为所有负项的绝对值。因为级数条件收敛,\(\sum b_n = +\infty\) 且 \(\sum c_n = +\infty\),但 \(b_n, c_n \to 0\)。
假设我们要收敛到目标值 \(S\):
-
Step 1: 不断累加正项 \(\{b_n\}\),直到总和刚好超过 \(S\)。
-
Step 2: 接着累加负项 \(\{-c_j\}\),直到总和刚好低于 \(S\)。
-
Step 3: 重复这个“超过 \(\to\) 低于 \(\to\) 超过”的过程。
每次超出或低于 \(S\) 的幅度,由当前加入的最后一项决定(即 \(a_{k_n}^+\) 或 \(a_{l_n}^-\))因为通项 \(a_n \to 0\),所以这个波动的幅度会趋于 0。故部分和序列被紧紧夹在 \(S\) 两侧,最终必然收敛于 \(S\)。

浙公网安备 33010602011771号