数学分析(2)

凸函数

Df 1.1:凸区域 \(\Omega\) 上的函数为凸的当且仅当对于任意 \(x,y\in \Omega\)\(\lambda\in [0,1]\),都有 \(f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda)f(y)\)

Rmk 1.1(Jensen 不等式):若 \(f\) 是凸的,则对于任意 \(\lambda_i\in(0,1),x_i\in \Omega\),且 \(\sum_{i=1}^n \lambda_i = 1\),都有\(f(\sum_{i=1}^n \lambda_i x_i) \le \sum_{i=1}^n \lambda_i f(x_i)\)

证明:普通函数使用归纳法。可导函数使用支撑线法。二阶可导函数使用泰勒展开。

Thm 1.1(凸性的等价表述)\(I \subseteq \mathbb{R}\) 为区间,\(f: I \to \mathbb{R}\) 实函数且是凸的当且仅当对于任意 \(x_1<x_2<x_3\),都有

\[\frac{f(x_2) - f(x_1)}{x_2 - x_1} \le \frac{f(x_3) - f(x_1)}{x_3 - x_1} \le \frac{f(x_3) - f(x_2)}{x_3 - x_2} \]

证明:取合适的 \(\lambda\) 可得第一个小于等于第三个,使用糖水原理可知第二个应该在中间。

Rmk 1.2:只有开区间上的凸函数一定连续,闭区间不一定连续,例:

\[f(x) = \begin{cases} 0, & x \in (0, 1] \\ 1, & x = 0 \end{cases} \]

Thm 1.2(凸函数推局部 Lipschitz 连续):若 \(f\)\((a, b)\) 上是凸的,则 \(f\)\((a, b)\) 上局部 Lipschitz 连续。

思路:运用上面的不等式证明 \((f(y)-f(x))/(y-x)\) 有界即可,具体地,设定 \(0 < \delta < \frac{b-a}{4}\)

\[\frac{f(a+2\delta) - f(a+\delta)}{\delta} \le \frac{f(x) - f(a+2\delta)}{x - (a+2\delta)} \le\frac{f(y) - f(x)}{y - x} \]

最终推得:

\[\frac{f(a+2\delta) - f(a+\delta)}{\delta} \le \frac{f(y) - f(x)}{y - x} \le \frac{f(b-2\delta) - f(b-\delta)}{\delta} \]

Thm 1.3(推广到 \(\mathbb{R}^n\)):上述定理在 \(\mathbb{R}^n\) 上成立。

归纳法,假设证明了 \(n-1\) 维情况是连续的。

一维情况的关键是把斜率值放缩到固定的两点斜率上。扩展到多维的思路是先把问题拍到一维上,考虑一条直线上的函数的斜率。问题在于如果给定固定点 \(x_0\),很难像上面一样找到固定的 \(\delta,a+\delta,a+2\delta\)

我们的思路是找到两个“箱子”把点给框住,具体地,找到两个框住 \(x_0\) 的超方形,边长分别为 \(\delta\)\(2\delta\)。超方形是 \(n-1\) 维的,所以连续函数 \(|f|\) 在超方形上存在最大值。所以在 \(x_0\) 领域里找到 \(x,y\),考虑 \(x,y\) 连成的直线与两个“箱子”的交点,两个交点的函数值和距离都被限制了,所以可证明 \(x,y\) 的斜率是有界的。

Df 1.2(中点凸):\(E \subseteq \mathbb{R}^n\) 为凸集,\(f: E \to \mathbb{R}\)\(f\) 为“中点凸”当且仅当对任意 \(x, y \in E\) 有 $$f\left(\frac{x+y}{2}\right) \le \frac{1}{2}f(x) + \frac{1}{2}f(y)$$

Thm 1.4(中点凸和凸等价):若 \(f\) 是连续函数,则中点凸和凸函数等价。

\(f\) 为中点凸函数,任取 \(x,y\),令

\[A = \{ \lambda \in [0, 1] : f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda)f(y) \} \]

下证明:若 \(\alpha, \beta \in A\),则 \((\alpha+\beta)/2 \in A\)

\(\gamma = (\alpha+\beta)/2\),则:

\[\begin{align*}f(\gamma x + (1-\gamma)y) &= f\left( \frac{(\alpha x + (1-\alpha)y) + (\beta x + (1-\beta)y)}{2} \right)\\&\le \frac{1}{2}(\alpha f(x) + (1-\alpha)f(y)) + \frac{1}{2}(\beta f(x) + (1-\beta)f(y))\\&= \gamma f(x) + (1-\gamma)f(y)\end{align*} \]

故对于任意 \(\lambda\),使用 \(f\) 连续的性质,用中点去逼近即可。

Thm 1.5(凸函数推左右导数存在):\(f\)\((a, b)\) 内凸,则 \((a, b)\) 内的左导数 \(f'_-(x)\) 与右导数 \(f'_+(x)\) 存在,且:

\[\frac{f(x) - f(\xi)}{x - \xi} \le f'_-(x) \le f'_+(x) \le \frac{f(y) - f(x)}{y - x} \quad (a < \xi < x < y < b) \]

证明:对任意 \(a < \xi < s < x < t < y < b\),有:

\[\frac{f(x) - f(\xi)}{x - \xi} \le \frac{f(x) - f(s)}{x - s} \le \frac{f(t) - f(x)}{t - x} \le \frac{f(y) - f(x)}{y - x} \]

分析可知,\((f(x) - f(s))/(x - s)\) 关于 \(s \in (\xi, x)\) 单调递增且有上界,故极限存在。

推论:\(f\)\((a,b)\) 上的不可导点至多可列。

Thm 1.6(支撑线):函数 \(f: (a, b) \to \mathbb{R}\) 是凸函数,当且仅当对于定义域内的任意一点 \(x_0 \in (a, b)\),都存在一个常数 \(k_{x_0} \in \mathbb{R}\),使得:

\[f(x) \ge f(x_0) + k_{x_0}(x - x_0) \quad \forall x \in (a, b) \]

(充分性)假设对于任意 \(x_0\),都存在支撑直线。我们要证明凸性:\(\forall x_1, x_2 \in (a, b), \lambda \in (0, 1)\),令 \(x_\lambda = \lambda x_1 + (1-\lambda)x_2\)

根据假设,在点 \(x_\lambda\) 处存在支撑斜率 \(k\)

\[f(x_1) \ge f(x_\lambda) + k(x_1 - x_\lambda),f(x_2) \ge f(x_\lambda) + k(x_2 - x_\lambda) \]

利用凸组合进行加权:

\[\lambda f(x_1) + (1-\lambda)f(x_2) \ge f(x_\lambda) + k(\lambda x_1 + (1-\lambda)x_2 - x_\lambda)=f(x_\lambda) \]

(必要性)假设 \(f\) 是凸函数。已知凸函数在开区间内连续,且其右导数 \(f'_+(x)\) 是单调递增的。对于任意 \(x_0 \in (a, b)\),构造辅助函数 \(F(x) = f(x) - f(x_0) - f'_+(x_0)(x - x_0)\)

\(a < x < x_0\)\(F'_+(x) = f'_+(x) - f'_+(x_0) \le 0\)\(x_0 < x < b\)\(F'_+(x) \ge 0\)。故 \(F(x)\)\((a,x_0)\) 单调递减,\((x_0,b)\) 单调递增。

Thm 1.7\(A \subseteq \mathbb{R}^n\) 为凸区域,\(f: A \to \mathbb{R}\) 为二阶连续可微函数。 \(f\) 是凸函数当且仅当其海森矩阵 \(H_f(x)\) 对所有 \(x \in A\) 均半正定。

\(F(t) = f(x + te)\),则

\[F''(0) = e^T H_f(x) e \ge 0 \]

\(F''(0)\) 为半正定的。

Thm 1.8(Young 不等式)\(p, q > 1\) 且满足 \(\frac{1}{p} + \frac{1}{q} = 1\),则对于任意 \(a, b > 0\),有:

\[ab \le \frac{1}{p}a^p + \frac{1}{q}b^q \]

当且仅当 \(a^p = b^q\) 时取等号。

利用 \(\ln x\) 的凸性:

\[\ln\left( \frac{1}{p}a^p + \frac{1}{q}b^q \right) \ge \frac{1}{p}\ln(a^p) + \frac{1}{q}\ln(b^q) \]

推论 (Hölder 不等式)$$\sum_{n=1}^{\infty} |a_n b_n| \le \left( \sum_{n=1}^{\infty} |a_n|^p \right)^{\frac{1}{p}} \left( \sum_{n=1}^{\infty} |b_n|^q \right)^{\frac{1}{q}}$$

\(A = (\sum |a_n|^p)^{1/p}\)\(B = (\sum |b_n|^q)^{1/q}\)

逐项应用 Young 不等式:

\[\frac{|a_n|}{A} \cdot \frac{|b_n|}{B} \le \frac{1}{p} \frac{|a_n|^p}{A^p} + \frac{1}{q} \frac{|b_n|^q}{B^q} \]

求和后:

\[\sum_{n=1}^m |a_n b_n| \le AB \]

它是 Cauchy-Schwarz 不等式的推广( Cauchy-Schwarz 是 \(p=q=2\) 的情况)

Thm 1.9:凸函数的导数右侧极限等于右导数。

Lemma 1.9.1(右导数和右侧导数极限的关系) 对于 \(f\) 在区间 \((a, b)\) 上,其右导数在端点 \(a\) 处的极限满足:

\[\liminf_{t \to a^+} f'(t) \le f'_+(a) \le \limsup_{t \to a^+} f'(t) \]

证明:根据 Lagrange 中值定理

\[\inf_{t\in (a,x)} f'(t)\leq \frac{f(x)-f(a)}{x-a}\leq \sup_{t\in (a,x)}f'(t) \]

取极限 \(x\to a^+\) 即可。

注意到 \(f'(t)\) 在区间 \((a,x)\) 上单调递增且有界,故 \(\lim_{t\to a}f'(t)\) 存在,所以上下极限相等。

Taylor 定理

一元函数的 Taylor 展开

Df 2.1(泰勒多项式)\(f(x)\)\(x_0\) 处有 \(n\) 阶导数,定义 \(n\) 次泰勒多项式 为:

\[T_n(x) = \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!}(x-x_0)^k \]

Thm 2.1(带 Peano 余项的泰勒定理)\(f(x)\)\(x_0\) 处有 \(n\) 阶导数,则存在 \(x \to x_0\) 时的高阶无穷小,使得:

\[f(x) = T_n(x) + o((x-x_0)^n) \]

设余项为 \(R_n(x) = f(x) - T_n(x)\),分母为 \(Q_n(x) = (x-x_0)^n\)

由于 \(f\)\(x_0\) 邻域内有 \(n-1\) 阶导数,我们可以连续使用 \(n-1\) 次洛必达法则:

\[\lim_{x \to x_0} \frac{R_n(x)}{Q_n(x)} = \lim_{x \to x_0} \frac{R_n'(x)}{Q_n'(x)} = \dots = \lim_{x \to x_0} \frac{R_n^{(n-1)}(x)}{Q_n^{(n-1)}(x)} \]

其中 \(Q_n^{(n-1)}(x) = n \cdot (n-1) \dots 2 \cdot (x-x_0) = n!(x-x_0)\)\(R_n^{(n-1)}(x) = f^{(n-1)}(x) - T_n^{(n-1)}(x)\)

此时原式为

\[\begin{aligned} &\lim_{x \to x_0} \frac{f^{(n-1)}(x) - [f^{(n-1)}(x_0) + f^{(n)}(x_0)(x-x_0)]}{n!(x-x_0)} \\ &= \frac{1}{n!} \left[ \lim_{x \to x_0} \frac{f^{(n-1)}(x) - f^{(n-1)}(x_0)}{x-x_0} - f^{(n)}(x_0) \right]\\&=0 \end{aligned} \]

Thm 2.2(带 Lagrange 余项的泰勒定理)设函数 \(f(x)\) 在闭区间 \([a, b]\) 上有 \(n\) 阶导数,在开区间 \((a, b)\) 内有 \(n+1\) 阶导数。对于任意 \(x, x_0 \in [a, b]\),至少存在一点 \(\xi\)(在 \(x\)\(x_0\) 之间),使得:

\[f(x) = f(x_0) + \frac{f'(x_0)}{1!}(x-x_0) + \dots + \frac{f^{(n)}(x_0)}{n!}(x-x_0)^n + \frac{f^{(n+1)}(\xi)}{(n+1)!}(x-x_0)^{n+1} \]

\[F(t) = f(x) - \left[ f(t) + \frac{f'(t)}{1!}(x-t) + \dots + \frac{f^{(n)}(t)}{n!}(x-t)^n \right] \]

\[Q(t) = (x-t)^{n+1} \]

运用 Cauchy 中值定理

\[\frac{F(x_0)}{Q(x_0)} = \frac{F(x_0) - F(x)}{Q(x_0) - Q(x)} = \frac{F'(\xi)}{Q'(\xi)}= \frac{-\frac{f^{(n+1)}(\xi)}{n!}(x-\xi)^n}{-(n+1)(x-\xi)^n} = \frac{f^{(n+1)}(\xi)}{(n+1)!} \]

也可以用习题里面的待定常数法求 \(n\) 次导。

多元函数的 Taylor 展开

Df 2.2(记号)

  • 多重指标 \(\alpha\): 定义为 \(\alpha = (\alpha_1, \alpha_2, \dots, \alpha_n)\),其中每个分量 \(\alpha_i \ge 0\)\(\alpha_i \in \mathbb{N}\)

  • 阶乘符号: \(\alpha! \triangleq \alpha_1! \alpha_2! \dots \alpha_n!\)

  • 绝对值 (阶数): \(|\alpha| \triangleq \alpha_1 + \dots + \alpha_n\)

  • 幂符号: \(x^\alpha \triangleq x_1^{\alpha_1} x_2^{\alpha_2} \dots x_n^{\alpha_n}\)

    • 偏导数算子: 记 \(D^\alpha f(x_0)\) 为在点 \(x_0 = (x_1^0, \dots, x_n^0)\) 处计算的偏导数:

    \[\left. \frac{\partial^{|\alpha|} f(x)}{\partial x_1^{\alpha_1} \partial x_2^{\alpha_2} \dots \partial x_n^{\alpha_n}} \right|_{x=x_0} \triangleq \frac{\partial^{|\alpha|} f(x_0)}{\partial x^\alpha} \]

  • 若函数 \(f(x)\) 在点 \(x_0\) 处拥有直到 \(m\) 阶的连续偏导数,则其 \(m\) 阶 Taylor 多项式 \(T_m(x)\) 定义为:

\[T_m(x) \triangleq T_m(x, f) \triangleq \sum_{k=0}^{m} \left( \sum_{|\alpha|=k} \frac{1}{\alpha!} \frac{\partial^k f(x_0)}{\partial x^\alpha} (x - x_0)^\alpha \right) \]

Thm 2.3(多变量函数的 Taylor 定理)\(D \subseteq \mathbb{R}^n\) 为凸区域,\(f:D\to \mathbb{R}\)\(f \in C^{m+1}(D)\)。对于任意 \(a_0 \in D\)\(x \in D\),存在 \(\theta \in (0, 1)\),使得:

\[f(x) = \sum_{k=0}^{m} \sum_{|\alpha|=k} \frac{D^\alpha f(a_0)}{\alpha!} (x - a_0)^\alpha + \sum_{|\alpha|=m+1} \frac{D^\alpha f(a_0 + \theta(x - a_0))}{\alpha!} (x - a_0)^\alpha \]

\(\varphi(t) = f(a_0 + t(x - a_0))\),其中 \(t \in [0, 1]\),则

  • \[\varphi(1) = \varphi(0) + \frac{\varphi'(0)}{1!} + \dots + \frac{\varphi^{(m)}(0)}{m!} + \frac{\varphi^{(m+1)}(\theta)}{(m+1)!} \]

\(h=x-a_0\),我们有:

\[\begin{align*}\left(\frac{\text{d}}{\text{d}t}\right)^k\varphi(t)&=\left(\frac{\text{d}}{\text{d}t}\right)^k f(a_0+th)\\&=\left(\frac{\text{d}}{\text{d}t}\right)^{k-1}\left(\frac{\text{d}}{\text{d}(a_0+th)}f(a_0+th)\right)h\\&=\left(\frac{\text{d}}{\text{d}t}\right)^{k-1}\left(\sum_{i=1}^n \frac{\partial f}{\partial x_i}(a_0+th)e_i^T\right)h\\&=\left(\frac{\text{d}}{\text{d}t}\right)^{k-1}\left(\sum_{i=1}^n h_i\frac{\partial f}{\partial x_i}(a_0+th)\right)\\&=\left(\sum_{i=1}^n h_i\frac{\partial }{\partial x_i}\right)^k f(a_0+th)\end{align*} \]

而:

\[\left( \sum_{i=1}^{n} h_i \frac{\partial}{\partial x_i} \right)^k = \sum_{|\alpha|=k} \frac{k!}{\alpha!} h^\alpha D^\alpha \]

\[\varphi^{(k)}(t) = \sum_{|\alpha|=k} \frac{k!}{\alpha!} D^\alpha f(a_0 + th) (x - a_0)^\alpha \]

代入即可。

分析余项

\[f(x) = \sum_{k=0}^{m} \sum_{|\alpha|=k} \frac{D^\alpha f(a_0)}{\alpha!} (x - a_0)^\alpha + \underbrace{\sum_{|\alpha|=m} \left( \frac{D^\alpha f(a_0 + \theta(x - a_0))}{\alpha!} - \frac{D^\alpha f(a_0)}{\alpha!} \right) (x - a_0)^\alpha}_{R_m(x)} \]

\[\lim_{x \to a_0} \frac{R_m(x)}{\|x - a_0\|^m} = \lim_{x \to a_0} \sum_{|\alpha|=m} \left( \frac{D^\alpha f(a_0 + \theta(x - a_0))}{\alpha!} - \frac{D^\alpha f(a_0)}{\alpha!} \right) \cdot \frac{(x - a_0)^\alpha}{\|x - a_0\|^m} \]

\[f(x) = \sum_{k=0}^{m} \sum_{|\alpha|=k} \frac{D^\alpha f(a_0)}{\alpha!} (x - a_0)^\alpha +o(||x-x_0||^m) \]

Thm 2.4(凸函数的等价判定条件)

  • 条件 1 (一阶条件):若 \(f\)\(\Omega\) 上可微,则 \(f\) 为凸函数 \(\iff \forall x, y \in \Omega, f(y) \ge f(x) + \nabla f(x) \cdot (y - x)\)

  • 条件 2 (二阶条件):若 \(f \in C^2(\Omega)\),则 \(f\) 为凸函数 \(\iff \nabla^2 f(x) = Hf(x)\)(Hessian 矩阵)是半正定的。

条件 1 必要性只需要列出式子 \(tf(y)+(1-t)f(x)\geq f(ty+(1-t)x)\),然后 Taylor 展开即可。充分性只要列两个式子然后把它们线性组合即可,不再赘述。

条件 2 可以考虑使用条件 1 证明。

(充分性)利用二阶 Taylor 展开,若 Hessian 矩阵半正定,则 \((y-x)^T Hf(\xi) (y-x) \ge 0\)。由展开式可知 \(f(y) \ge f(x) + \nabla f(x)(y-x)\),即满足一阶凸性条件,故函数为凸。

(必要性)假设存在 \(h \neq 0\) 使得 \(h^T Hf(x) h < 0\)。根据凸性,有 \(f(x+th) - [f(x) + \nabla f(x) \cdot th] \ge 0\)。对其进行二阶 Taylor 展开并除以 \(t^2\)

\[\frac{f(x+th) - f(x) - \nabla f(x) \cdot th}{t^2} = \frac{1}{2}h^T Hf(x) h + \frac{o(\|th\|^2)}{t^2} \]

\(t\to 0^+\) 可得矛盾。

类比一维情况,一阶导数保证存在支撑线(面),二阶导数为正(半正定)

隐函数定理

Thm 3.1(隐函数定理)\(\Lambda \subseteq \mathbb{R}^n\) 为凸区域,\(F: \Lambda \times (a, b) \to \mathbb{R}\) 是连续可微的。若存在点 \((x_0, y_0) \in \Lambda \times (a, b)\) 满足:

  1. \(F(x_0, y_0) = 0\)

  2. \(F_y(x_0, y_0) \neq 0\)

则存在 \(\delta > 0\)\(\eta > 0\),使得对于任意 \(x \in B_\delta(x_0)\),存在唯一的 \(y = \varphi(x) \in (y_0 - \eta, y_0 + \eta)\),满足:

  • \(F(x, \varphi(x)) = 0\) (定义了隐函数 \(\varphi: B_\delta(x_0) \to (y_0 - \eta, y_0 + \eta)\)

  • \(\varphi(x)\)\(B_\delta(x_0)\) 内连续可微,且其导数为:

    \[\varphi'(x) = -\frac{F_x(x, \varphi(x))}{F_y(x, \varphi(x))} \]

注:称 \(\varphi(x)\)\(F(x, y) = 0\)\((x_0, y_0)\) 附近的隐函数。

不妨设 \(F_y(x_0,y_0)>0\)

由连续性和 \(F_y(x_0,y_0)>0\),可知存在 \(x\in B_{\delta}(x_0), y\in B_{\eta}(y_0)\),使得 \(F_y(x,y)>0\)

根据条件,\(F_y(x_0,y_0-\eta)<F(x_0,y_0)=0<F(x_0,y_0+\eta)\)

根据连续性,存在 \(\delta\) 使得 \(x\in (x_0-\delta,x_0+\delta)\)\(F_y(x,y_0-\eta)<0<F(x,y_0+\eta)\)

由于 \(F(x,y)\) 关于 \(y\) 单调递增,所以存在唯一的 \(\varphi(x)=y\in (y_0-\eta,y_0+\eta)\) 使得 \(F(x,\varphi(x))=0\)

下证明 \(\varphi(x)\) 连续。尝试使用 Lagrange 中值定理构造 \(\varphi(x_1)-\varphi(x_2)\)

\[|F(x_1,\varphi(x_1))-F(x_1,\varphi(x_2))|=|F_y(x_1,\xi)|\cdot |\varphi(x_1)-\varphi(x_2)| \]

左边可转化为 \(|F(x_2,\varphi(x_2))-F(x_1,\varphi(x_2))|\),两边令 \(x_2\to x_1\) 可知 \(|\varphi(x_2)-\varphi(x_1)|\to 0\)

再证可微,即找到 \(\Delta y=\varphi(x_2)-\varphi(x_1)\)\(\Delta x=x_2-x_1\) 的关系,使用多元 Lagrange 中值定理

\[0=F(x_2,\varphi(x_2))-F(x_1,\varphi(x_1))=F_x(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)\Delta x+F_y(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)\Delta y \]

所以

\[\Delta y=-\frac{F_x(x_1,\varphi(x_1))}{F_y(x_1,\varphi(x_1))}\Delta x+\left(\frac{F_x(x_1,\varphi(x_1))}{F_y(x_1,\varphi(x_1))}-\frac{F_x(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)}{F_y(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)}\right)\Delta x \]

由于括号内的项趋于 \(0\),所以后面是关于 \(\Delta x\) 的高阶无穷小,所以可以证明可微。

思路梳理:

  • 证明 \(x_0\) 的一个领域内 \(F(x,y)\) 关于 \(y\) 递增,可证明存在零点。
  • 用 Lagrange 中值定理证明连续。
  • 先猜想出导函数的值,在证明余项是高阶无穷小。

Thm 3.2(多元情况下的隐函数定理)

\(\Omega \subseteq \mathbb{R}^n\)\(D \subseteq \mathbb{R}^m\) 为区域,\(F: \Omega \times D \to \mathbb{R}^m\)连续可微函数。若存在点 \((x_0, y_0) \in \Omega \times D\) 满足:

  1. \(F(x_0, y_0) = 0\)

  2. \(\det F_y(x_0, y_0) \neq 0\)(即关于 \(y\) 的偏导数矩阵即 Jacobi 矩阵非奇异/可逆)

则存在邻域 \(B_\delta(x_0) \subseteq \Omega\)\(B_\eta(y_0) \subseteq D\),使得:

  • 对于任意 \(x \in B_\delta(x_0)\),存在唯一的 \(y = \varphi(x) \in B_\eta(y_0)\),满足方程组 \(F(x, \varphi(x)) = 0\)

进一步地,该隐函数 \(\varphi(x)\) 具有以下性质:

  • 连续性与可微性:函数 \(\varphi\)\(B_\delta(x_0)\) 内连续可微。

  • 导数公式(矩阵形式)

    \[\varphi_x(x) = -(F_y(x, \varphi(x)))^{-1} F_x(x, \varphi(x)), \quad \forall x \in B_\delta(x_0) \]

由于证明较为复杂,下面仅给出思路。

证明思路梳理:

  • 总体思路:对 \(x\) 找到 \(|F(x,y)|^2\) 的极小值点,此处的 \(y=\varphi(x)\) 满足 \(F(x,\varphi(x))=0\)。可以根据求导式子得到,也可以这么想:如果导数行列式非 \(0\),那么函数值在任意方向上都有变动,此时最小值只能是 \(0\)
  • 估计 \(F(x,y)\) 关于 \(y\) 的变化率:由于 \(\det F_y(x_0,y_0)>0\),函数关于 \(y\) 有变化。利用 \(\alpha=\min_{x,y,z,e}\langle F_y(x,y)e,F_y(x,z)e\rangle>0\) 衡量变化率,可以得到不等式 \(|F(x,y_1)-F(x,y_2)|^2\geq \alpha|y_1-y_2|^2\)
  • 运用连续性证明极小值不在边缘:根据上面定理可知 \(F(x_0,y)>F(x_0,y_0)=0\),根据连续性可知 \(F(x,y)>F(x,y_0)\)(在一元的情况中的情况,就是左边小于 \(0\),右边大于 \(0\),中间一定有零点)
  • 用不等式证明连续:和上面如出一辙,甚至由于我们得到了不等式,可以证明 \(\varphi\) 是 Lipschitz 连续的。
  • 用多元 Lagrange 中值定理证明可微:和上面如出一辙。

逆映射定理

Thm 4.1(逆映射定理)\(f: D \subseteq \mathbb{R}^n \to \mathbb{R}^n\)\(C^k\) 映射(\(k \geq 1\)),\(x_0 \in D\)。若 \(f\)\(x_0\) 处的雅可比矩阵 \(Jf(x_0)\) 可逆(即 \(\det(Jf(x_0)) \neq 0\)),则存在 \(x_0\) 的开邻域 \(U\)\(y_0 = f(x_0)\) 的开邻域 \(V\),使得:

  1. \(f|_U: U \to V\) 是双射。

  2. 逆映射 \(h = (f|_U)^{-1}\) 也是 \(C^k\) 映射。

  3. 对于任意 \(y \in V\),有 \(Jh(y) = [Jf(h(y))]^{-1}\)

通过平移坐标,不妨设 \(x_0 = 0\)\(f(0) = 0\)。 设 \(L = Jf(0)\),由于 \(L\) 可逆,令 \(\tilde{f}(x) = L^{-1} \circ f(x)\)。显然 \(\tilde{f}(0) = 0\)\(J\tilde{f}(0) = L^{-1} \cdot Jf(0) = I_n\)(单位矩阵)。 若 \(\tilde{f}\) 在局部可逆,则 \(f = L \circ \tilde{f}\) 显然也局部可逆。因此,我们只需证明 \(f\) 满足 \(f(0)=0\)\(Jf(0)=I_n\) 的情形。

\(g(x)=f(x)-x\),则 \(Jg(0)=0\),根据连续性,存在 \(\delta\) 使得当 \(x \in \overline{B_\delta(0)}\) 时,有 \(\|Jg(x)\| \leq \frac{1}{2}\)

\[\|g(x_1) - g(x_2)\|=\|Jg(\xi)(x_1-x_2)\| \leq \|Jg(\xi)\|\|x_1-x_2\|\left( \sup_{z \in [x_1, x_2]} \|Jg(z)\| \right) \|x_1 - x_2\| \leq \frac{1}{2} \|x_1 - x_2\| \]

对于固定 \(y\in B_\frac{\delta}{2}(0)\),构造映射 \(\varphi:\overline{B_\delta(0)}\to \overline{B_\delta(0)}\)\(\varphi(x)=y-g(x)\),则:

  • \(\varphi\) 是自身映射:

    \[\|\varphi(x)\| \leq \|y\| + \|g(x)\| \leq \|y\| + \|g(x) - g(0)\| \leq \frac{\delta}{2} + \frac{1}{2}\|x\| < \frac{\delta}{2} + \frac{\delta}{2} = \delta \]

  • \(\varphi\) 是压缩映射:

    \[\|\varphi_y(x_1) - \varphi_y(x_2)\| = \|g(x_2) - g(x_1)\| \leq \frac{1}{2} \|x_1 - x_2\| \]

所以 \(\varphi\)\(B_\delta(0)\)(考虑到值域不包括边缘) 上有唯一不动点 \(x_y\)。此时 \(f(x_y)=y\)。取 \(U=f^{-1}(B_{\frac{\delta}{2}}(0))\cap B_\delta(0)\) 即可。

设逆映射为 \(h\),则 \(f(x_1)=y_1,x_1=h(y_1)\)。下证明 \(h\) 是 Lipschitz 连续的

\[\|x_1-x_2\|=\|(y_1-g(x_1))+(y_2-g(x_2))\|\leq \|y_1-y_2\|+\|g(x_1)-g(x_2)\|\leq \|y_1-y_2\|+\frac{1}{2}\|x_1-x_2\| \]

下证明 \(h\) 可微,我们有

\[y - y_0 = Jf(x_0)(x - x_0) + o(\|x - x_0\|) \]

\(Jf(x_0)\) 反过来

\[Jf(x_0)^{-1}(y - y_0)+Jf(x_0)^{-1}o(\|x-x_0\|) = x - x_0 \]

由于 \(\|x_1-x_2\|\leq 2\|y_1-y_2\|\),所以 \(Jf(x_0)^{-1}o(\|x-x_0\|)=o(\|y-y_0\|)\)。故 \(h\) 可微且导函数为 \(Jh(y_0)=Jf(x_0)^{-1}=Jf(h(y_0))^{-1}\)

再证明 \(h\)\(C^k\) 的。已经证明 \(h\) 可微,即 \(h\)\(C^1\) 的,故 \(Jf\circ h\)\(C^1\) 的,即 \(Jh\)\(C^1\) 的,所以 \(h\)\(C^2\) 的。归纳可以证明 \(h\)\(C^k\) 的。

Df 4.1(正则映射)\(D \subseteq \mathbb{R}^n\) 是一个开集,\(f: D \to \mathbb{R}^n\)\(C^1\) 映射。若对于定义域内每一个点 \(x \in D\),其 Jacobian 矩阵 \(Jf(x)\) 都是满秩的(即 \(\det Jf(x) \neq 0\)),则称 \(f\)正则映射

**Thm 4.2(正则映射的性质) **\(f:D\to \mathbb{R}^n\) 的正则映射

  • 正则映射将开集映射到开集\(\Omega\triangleq f(D)\) 是开的。
  • 局部逆映射连续可微:存在从 \(\Omega\to D\) 的映射 \(f^{-1}\)\(f\circ f^{-1}(y)=y\),且 \(f^{-1}\)\(\mathbb{C}^1\) 的。

任取 \(y_0 \in \Omega\),根据 \(\Omega\) 的定义,存在 \(x_0 \in D\) 使得 \(f(x_0) = y_0\)。由逆映射定理,存在 \(x_0\) 的一个邻域 \(U\)\(y_0\) 的一个邻域 \(V\) 使得 \(f|_U:U\to V\) 是双射,此时 \(y_0\in V\subseteq \Omega\),故 \(y_0\) 是内点。

再证明逆映射是 \(C^1\) 的,设 \(f(x_0)=y_0,x_0=f^{-1}y_0\),则

\[y-y_0=Jf(y_0)(x-x_0)+o(\|x-x_0\|) \]

证明过程和上面类似。

Thm 3.1(用逆映射定理证明)

只考虑 \(f:\mathbb{R}^2\to \mathbb{R}\) 的情况,其余情况用类似方法可以推广得到。

设给定方程为 \(f(x, y) = 0\),且 \(f(x_0, y_0)=0\)。为了应用逆映射定理,我们需要构造一个从 \(\mathbb{R}^2 \to \mathbb{R}^2\) 的映射 \(F\)

\[F(x, y) = (u, v) = (x, f(x, y)) \]

考虑

\[JF(x, y) = \begin{pmatrix} \frac{\partial u}{\partial x} & \frac{\partial u}{\partial y} \\ \frac{\partial v}{\partial x} & \frac{\partial v}{\partial y} \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ \frac{\partial f}{\partial x} & \frac{\partial f}{\partial y} \end{pmatrix} \]

行列式为:\(\det JF(x, y) = \frac{\partial f}{\partial y}\neq 0\),故 \(F\)\((x_0, y_0)\) 处是正则映射。

例:\(f:\mathbb{R}^2\to \mathbb{R}\)\(\frac{\partial f}{\partial y}\neq 0\),问 \(f(x,y)=f(x_0,y_0)\) 可否确定一个函数 \(y=\psi(x)\)\(f(x,\psi(x))=f(x_0,y_0)\)

根据逆映射定理,存在 \((x_0, y_0)\) 的一个开邻域 \(U\)\((x_0, c)\) 的一个开邻域 \(V\),使得存在逆映射 \(F^{-1}: V \to U\),设其形式为 \(F^{-1}(u, v) = (\varphi(u, v), \psi(u, v))\)

\[F(\varphi(u, v), \psi(u, v)) = (\varphi(u, v), f(\varphi(u, v), \psi(u, v))) = (u, v) \]

\(\varphi(u, v) = u\)\(f(u, \psi(u, v)) = v\)。令 \(v=0\)\(\psi(x) \triangleq \psi(x, 0)\)。由于 \(F^{-1}\)\(C^k\) 的,故 \(\psi(x)\) 也是 \(C^k\) 的。此时,\(y = \psi(x)\) 即为所求的隐函数。

求导易得导数公式。

几何理解:把 \((x,f(x_0,y_0))\) 的一条横线映射回 \((x,y)\),得到一条曲线 \((x,\varphi(x))\)

切线与切平面

Df 5.1(曲线)

  • 简单曲线 (Simple Curve):在 \(\mathbb{R}^n\) 中,曲线 \(\Gamma\)\(\gamma(t) = (x_1(t), \dots, x_n(t))\) 参数化。\(\Gamma\) 为简单曲线 \(\iff\) \(\gamma(t_1) = \gamma(t_2) \implies t_1 = t_2\)(即曲线无自交点)。

  • 可微曲线 (Differentiable Curve):曲线 \(\Gamma\)\(t_0\) 处可微 \(\iff\) 各分量函数 \(x_i(t)\)\(t_0\) 处均可导。

Df 5.2(切线)

  • 切向量 (Tangent Vector):曲线在 \(P_0 = \gamma(t_0)\) 处的切向量为 \(\gamma'(t_0) = (x_1'(t_0), \dots, x_n'(t_0))\)

  • 切线方程:设 \(P_0 = \gamma(t_0)\),切线方程有两种常见的表达方式:

    • 对称式(点向式)

    \[\frac{x_1 - x_1(t_0)}{x_1'(t_0)} = \frac{x_2 - x_2(t_0)}{x_2'(t_0)} = \cdots = \frac{x_n - x_n(t_0)}{x_n'(t_0)} \]

    • 向量式(参数方程)

    \[\mathbf{P}(t) = t \cdot \gamma'(t_0) + \gamma(t_0) \]

    \((x_1, \dots, x_n) = t(x_1'(t_0), \dots, x_n'(t_0)) + (x_1(t_0), \dots, x_n(t_0))\)

Df 5.3(法平面)经过点 \(P_0\) 且垂直于切线的超平面称为该点处的法平面。切向量 \(\gamma'(t_0)\) 是该法平面的法向量,记为 \(\vec{\eta} = \gamma'(t_0)\)

Thm 5.1(隐式曲线的切向量)设曲线由两个隐式曲面方程定义:\(\begin{cases} F(x, y, z) = 0 \\ G(x, y, z) = 0 \end{cases}\)。定义 \(H(x, y, z) = (F, G)^T\)。若 \(H'(P_0)\) 的秩为 2,则由隐式曲面方程定义的曲线在 \(P_0\) 点的切向量为 \(\vec{v} = \nabla F(P_0) \times \nabla G(P_0)\)

\(\frac{\partial(F, G)}{\partial(x, y)} \neq 0\),则局部存在 \(x=x(z), y=y(z)\)

\(\gamma(z) = (x(z), y(z), z)\),对 \(F, G\) 求导得到: \(\langle \nabla F(P_0), \gamma'(z_0) \rangle = 0\)\(\langle \nabla G(P_0), \gamma'(z_0) \rangle = 0\),这意味着切向量 \(\gamma'(t_0)\) 必须同时垂直于两个曲面的法向量 \(\nabla F\)\(\nabla G\)。故方向向量可取 \(\nabla F(P_0) \times \nabla G(P_0)\)

曲面的切平面

Df 5.4(隐式曲面的切平面)

  • 定义:设曲面 \(S: F(x, y, z) = 0\)。若点 \(P_0\) 处满足梯度 \(\nabla F(P_0) \neq \mathbf{0}\),则 \(S\)\(P_0\) 处存在切平面。

  • 切平面方程:以梯度向量 \(\nabla F(P_0)\) 为法向量,过点 \(P_0(x_0, y_0, z_0)\) 的平面方程为:

    \[\langle \nabla F(P_0), \boldsymbol{x} - \boldsymbol{x}_0 \rangle = 0 \]

\(S:F(x,y,z)=0\)\(F\) 可微,\((x,y,z)\in D\subseteq \mathbb{R}^3\)

Df 5.5(参数曲面的切平面)曲面 \(\Sigma\) 由向量函数 \(\vec{r}(u, v) = (x(u, v), y(u, v), z(u, v))\) 定义。

Df 5.5.1(参数曲线)

  • \(u\)-曲线:\(\vec{r}(u, v_0)\)(固定 \(v\))。

  • \(v\)-曲线:\(\vec{r}(u_0, v)\)(固定 \(u\))。

\(u(t),v(t)\)\(\Delta\) 上的一段曲线(\(\Delta\)\((u,v)\) 定义域),且 \(u(t_0)=u_0,v(t_0)=v_0\),则在 \(\Sigma\) 上曲线在 \((u_0,v_0)\) 的切向量为

\[\frac{\partial \vec{r}}{\partial u}(u_0,v_0)u'(t_0)+\frac{\partial \vec{r}}{\partial v}(u_0,v_0)v'(t_0) \]

它是 \(\frac{\partial \vec{r}}{\partial u}(u_0,v_0)\)\(\frac{\partial \vec{r}}{\partial v}(u_0,v_0)\) 张成的向量。则任何经过 \(P_0\) 的曲线的切向量都在由 \(\{\vec{r}_u, \vec{r}_v\}\) 张成的二维子空间内

Df 5.5.2(切平面)该张成平面即为切平面,法向量可表示为 \(\vec{n} = \vec{r}_u \times \vec{r}_v\)

参数曲线示例

球面方程 \(\vec{r}(\theta, \varphi) = (R\sin\theta\cos\varphi, R\sin\theta\sin\varphi, R\cos\theta)\)

  • \(\theta\)(极角):\(\theta\)-曲线为经线

  • \(\varphi\)(方位角):\(\varphi\)-曲线为纬线

\(\vec{r_u}=\frac{\partial \vec{r}}{\partial u},\vec{r_v}=\frac{\partial \vec{r}}{\partial u}\)

\(\nabla F(P_0)\neq 0\),则可确定过 \(P_0\) 点且以 \(\nabla F(P_0)\) 为法向量的平面称为 \(S\)\(P_0\) 点处的切平面。

Df 5.6(第一基本形式*)

第一基本量用于描述曲面上向量的内积(度量性质),定义如下:

  • 记号\(\vec{r}_u = \frac{\partial \vec{r}}{\partial u}, \quad \vec{r}_v = \frac{\partial \vec{r}}{\partial v}\)

  • 第一基本系数

    \[E = \vec{r}_u \cdot \vec{r}_u = \|\vec{r}_u\|^2, \quad F = \vec{r}_u \cdot \vec{r}_v, \quad G = \vec{r}_v \cdot \vec{r}_v = \|\vec{r}_v\|^2 \]

  • 拉格朗日恒等式:切平面的法向量模长(即面积元)可由第一基本量表示:

    \[\|\vec{r}_u \times \vec{r}_v\|^2 = \|\vec{r}_u\|^2 \|\vec{r}_v\|^2 - (\vec{r}_u \cdot \vec{r}_v)^2 = EG - F^2 \]

    因此:\(\|\vec{r}_u \times \vec{r}_v\| = \sqrt{EG - F^2}\)

Thm 5.2(隐式曲面切空间) 切空间等同于法向量的法平面。具体地,设 \(\Omega \subseteq \mathbb{R}^n\)\(F \in C^1(\Omega, \mathbb{R})\),且在 \(x_0 \in \Sigma\)\(\nabla F(x_0) \neq 0\)。若向量 \(e \in \mathbb{R}^n\) 满足 \(\langle e, \nabla F(x_0) \rangle = 0\),则存在一条经过 \(x_0\)\(C^1\) 曲线 \(\Gamma \subset \Sigma\),使得其在 \(x_0\) 处的切向量为 \(e\)

将坐标系旋转并平移,使得新坐标系原点为 \(x_0\),且坐标轴为 \(n\) 维正交基,满足 \(e_1=e\)\(e_n=\mu / ||\mu||\)\(\mu\) 定义为 \(\nabla F(x_0)\)

设原坐标系到新坐标系的基变换的过渡矩阵为正交阵 \(A=(e_1,e_2,\cdots,e_n)\),则在新坐标系下坐标为 \(y\) 的点,在原坐标系中为 \(Ay+x_0\),则新坐标系下,曲面方程为:

\[G(y)=F(Ay+x_0) \]

目标转化为,构造曲线,使得其切向量为坐标轴 \(e_1\)

由于

\[\frac{\partial G}{\partial y_i}(y)=\nabla F(Ay+x_0)\cdot\frac{\partial (Ay+x_0)}{\partial y_k}=\nabla F(Ay+x_0) \cdot e_i \]

代入 \(y=0\)

\[\frac{\partial G}{\partial y_i}(0)=\nabla F(x_0) \cdot e_i=||\mu||e_n\cdot e_i \]

故只有当 \(i=n\) 时偏导数非零。

运用隐函数定理,一定存在隐函数 \(\varphi(y_1,y_2,\cdots,y_{n-1})\) 使得 \(G(y_1,y_2,\cdots,y_{n-1},\varphi)=0\)

定义曲线 \(\gamma(t)=(t,0,\cdots,0,\varphi(t,0,\cdots,0))\)(在新坐标系下),注意到,曲面的法向量为坐标轴 \(e_n\),所以新坐标轴中曲面的切平面为 \(y_n=0\),根据直觉,\(\gamma(t)\) 的切向量就是 \(e_1\),下面我们证明这一点。

根据隐函数定理的结论

\[\varphi_{y^*}(0)=-\frac{G_{y^*}(0)}{G_{y_n}(0)}=\boldsymbol{0} \]

所以 \(\gamma'(t)=(1,0,\cdots,0)\),转换到原坐标系下,\(\gamma'(t)=e_1\)

条件极值

Thm 6.1(极小值的充分条件和必要条件)\(f: D \subseteq \mathbb{R}^n \to \mathbb{R}\)\(x_0\) 附近二阶可微。

  1. 必要条件:若 \(f\)\(x_0\) 处取局部极小值,则 \(\nabla f(x_0) = 0\) 且 Hessian 矩阵 \(H_f(x_0)\)半正定的。

  2. 充分条件:若 \(\nabla f(x_0) = 0\)\(H_f(x_0)\) 正定,则 \(f\)\(x_0\) 处取严格局部极小值。

由于 \(x_0\) 是极小值点,必有 \(\nabla f(x_0) = 0\)。故:

\[f(x_0 + te) - f(x_0) = \frac{1}{2} t^2e^T H_f(x_0)e + o(\|te\|^2) \ge 0 \]

两边除以 \(t^2\) 并令 \(t\to 0\)

\[\lim_{t \to 0} \left[ \frac{1}{2} e^T H_f(x_0) e + \frac{o(t^2)}{t^2} \right] \ge 0 \implies e^T H_f(x_0) e \ge 0 \]

同时,若 \(H_f(x_0)\) 正定,存在 \(\alpha\) 使得 \(x^TH_f(x_0)x\geq 4\alpha ||x||^2\)\(e^TH_f(x_0)e\) 有最小值)

\[f(x_0 + \Delta x) - f(x_0) = \frac{1}{2} \Delta x^T H_f(x_0) \Delta x + o(\|\Delta x\|^2) \]

\[\ge 2\alpha \|\Delta x\|^2 + o(\|\Delta x\|^2) = \|\Delta x\|^2 \left( 2\alpha + \frac{o(\|\Delta x\|^2)}{\|\Delta x\|^2} \right) \]

\(f(x_0)\) 严格极小。

Thm 6.3(Lagrange 乘子法)\(U \subseteq \mathbb{R}^n\) 为开集,\(f: U \to \mathbb{R}\) 可微,\(\Phi: U \to \mathbb{R}^m\)\(C^1\) 函数(\(m < n\))。记 \(\Sigma = \{x \in U \mid \Phi(x) = 0\}\)

\(x_0 \in \Sigma\)\(f|_\Sigma\) 的条件极值点,且 Jacobi 矩阵 \(J\Phi(x_0)\) 的秩为 \(m\)(满秩),则存在乘子向量 \(\boldsymbol{\lambda} = (\lambda_1, \dots, \lambda_m) \in \mathbb{R}^m\),使得:

\[\nabla f(x_0) = \boldsymbol{\lambda} J\Phi(x_0) \]

由于 \(J\Phi(x_0)\) 满秩,不妨设左侧 \(m \times m\) 部分行列式不为 0。将变量拆分为 \(x = (y, z)\),其中 \(y \in \mathbb{R}^m, z \in \mathbb{R}^{n-m}\)

根据隐函数定理,存在函数 \(y = \psi(z)\) 使得 \(\Phi(\psi(z), z) = 0\),且其导数为:

\[J\psi(z_0) = -[J_y \Phi(x_0)]^{-1} \cdot J_z \Phi(x_0) \]

设复合函数 \(g(z) = f(\psi(z), z)\)\(z_0\) 处取得极值,故其对 \(z\) 的导数为 0:

\[J_y f(x_0) \cdot J\psi(z_0) + J_z f(x_0) = 0 \]

代入 \(J\psi(z_0)\),得:

\[J_z f(x_0) = J_y f(x_0) \cdot [J_y \Phi(x_0)]^{-1} \cdot J_z \Phi(x_0) \]

\(\boldsymbol{\lambda} = J_y f(x_0) \cdot [J_y \Phi(x_0)]^{-1}\),则有:

  • \(J_y f(x_0) = \boldsymbol{\lambda} J_y \Phi(x_0)\) (由 \(\boldsymbol{\lambda}\) 定义直接得出)

  • \(J_z f(x_0) = \boldsymbol{\lambda} J_z \Phi(x_0)\) (由上述代入式得出)

拼合即得 \(\nabla f(x_0) = \boldsymbol{\lambda} J\Phi(x_0)\)

Rmk 6.1 求条件极值的时候,可以设 \(L(x,\lambda)=f(x)-\lambda \Phi(x)\),则在极值处有 \(\nabla L(x_0)=0\)

例:求平面 \(x+y+z=0\) 与椭球面 \(x^2+y^2+4z^2=1\) 交线围成的面积。

该交线是一个中心在原点的椭圆。椭圆的面积 \(S = \pi ab\),其中 \(a, b\) 是椭圆的半长轴和半短轴。半轴长度即为原点到交线上点的距离 \(d = \sqrt{x^2+y^2+z^2}\) 的极值。

\(f(x,y,z) = x^2+y^2+z^2\),构造函数

\[L(x,y,z,\lambda,\mu) = (x^2+y^2+z^2) - \lambda(x+y+z) - \mu(x^2+y^2+4z^2-1) \]

  • 通过 \(\nabla L = 0\) 得到:

\[\begin{cases} 2x - \lambda - 2\mu x = 0 \Rightarrow 2x(1-\mu) = \lambda \\ 2y - \lambda - 2\mu y = 0 \Rightarrow 2y(1-\mu) = \lambda \\ 2z - \lambda - 8\mu z = 0 \Rightarrow 2z(1-4\mu) = \lambda \\ x+y+z = 0 \\ x^2+y^2+4z^2 = 1 \end{cases} \]

级数

正项级数

所有项都是正数的级数称为正项级数。

Thm 7.1 若级数 \(\sum_{n=1}^{\infty} a_n\) 收敛,则通项必趋于 0,即:

\[\lim_{n \to \infty} a_n = 0 \]

由 Cauchy 收敛准则立得。

\(\sum_{i=1}^n a_i\) 收敛,则 \(a_n=(S_n-S_{n-1})\to 0\)(实际上是 Cauchy 收敛准则的特例)

Thm 7.2(p-级数判别法)\(p\)-级数

\[\sum_{n=1}^{+\infty}\frac{1}{n^p} \]

\(p\leq 1\) 时发散,\(p>1\) 时收敛。

\(p>1\) 时:

\[\sum_{n=2^k}^{2^{k+1}-1} \frac{1}{n^p} < \sum_{n=2^k}^{2^{k+1}-1} \frac{1}{(2^k)^p} = 2^k \cdot \frac{1}{2^{kp}} = \left(\frac{1}{2^{p-1}}\right)^k \]

由于 \(p > 1\),公比 \(r = 2^{1-p} < 1\),故级数收敛。

\(p\leq 1\)

构造发散子序列:

\[\frac{1}{2^p} + \frac{1}{3^p} > \frac{1}{2^p} + \frac{1}{2^p} = \frac{1}{2^{p-1}} \geq \frac{1}{2} \]

通过这种分块方式,\(S_{2^k} \to \infty\),故原级数发散。

Thm 7.3(级数的加括号性质)

  • 若原级数 \(\sum a_n\) 收敛,则对其任意加括号(保持项的先后顺序不变)所得的新级数 \(\sum v_k\) 仍然收敛,且收敛于同一个值。
  • 反过来,若加括号后的新级数 \(\sum v_k\) 收敛,且同一个括号内的项符号相同,则原级数 \(\sum a_n\) 收敛。

对于第一个定理,由收敛数列的任意子列都收敛到同一个值立得。

对于第二个定理,设 \(T_k = \sum_{i=1}^k v_i\) 为加括号后级数的部分和。

对于原级数的部分和 \(S_n\),若其落在括号 \(k\)\(k+1\) 之间,即 \(n_k+1 \leq n \leq n_{k+1}\),且括号内项非负,则有:

\[T_k \leq S_n \leq T_{k+1} \]

若括号内项非正,则有

\[T_{k+1} \leq S_n \leq T_{k} \]

由此通过夹逼定理 \(\min\{T_k, T_{k+1}\} \leq S_n \leq \max\{T_k, T_{k+1}\}\) 可证得 \(S_n\) 的极限存在。

Thm 7.4(单调有界原理)对于正项级数 \(\sum x_n\),其部分和序列 \(\{S_n\}\) 是单调递增的。若 \(\{S_n\}\) 有上界,则 \(\{S_n\}\) 收敛(即级数收敛)。

\[\sum_{n=2}\frac{1}{\sqrt[n]{n}}\ln \frac{n^2}{(n-1)(n+1)}<\sum_{k=2}^{n+1}\left(\ln \frac{k}{k-1}-\ln \frac{k+1}{k}\right)<\ln2 \]

Thm 7.5(比较判别法)\(\sum x_n, \sum y_n\) 为正项级数,若存在常数 \(A > 0\) 使得当 \(n\) 足够大时 \(x_n \leq A y_n\)

  • \(\sum y_n\) 收敛 \(\implies \sum x_n\) 收敛。

  • \(\sum x_n\) 发散 \(\implies \sum y_n\) 发散。

极限形式

\(\lim_{n \to \infty} \frac{x_n}{y_n} = l\)

  • \(0 \leq l < +\infty\) \(\sum y_n\) 收敛 \(\implies \sum x_n\) 收敛。

  • \(0 < l \leq +\infty\) \(\sum y_n\) 发散 \(\implies \sum x_n\) 发散。

  • \(0 < l < +\infty\) \(\sum x_n\)\(\sum y_n\) 同收敛或同发散。

\(\sum (e^{1/n^2}-\cos \frac{\pi}{n})\),泰勒展开变成 \((1+\pi^2/2)/n^2\),故原级数和 \(1/n^2\) 的级数同敛散。

Thm 7.6(柯西根值判别法 Cauchy Root Test)\(r = \limsup_{n \to \infty} \sqrt[n]{x_n}\)

  • \(r < 1\):级数收敛。

  • \(r > 1\):级数发散(通项不趋于 0)。

  • \(r = 1\):失效(无法判定,需寻找其他准则)。

利用上极限定义,当 \(r < 1\) 时,存在 \(q \in (r, 1)\)\(N\),使得当 \(n \geq N\)\(\sqrt[n]{x_n} < q\),即 \(x_n < q^n\)。根据等比级数判别法,级数收敛。

\(r>1\) 时,存在 \(\{x_n\}\) 的子列 \(\{x_{n_k}\}\) 收敛到 \(r\),则子列求和发散,级数发散。

Thm 7.7(达朗贝尔比值判别法 d'Alembert Ratio Test)

  • \(\limsup\frac{x_{n+1}}{x_n}<1\),收敛。
  • \(\liminf \frac{x_{n+1}}{x_n}>1\),发散。
  • 其它情况无法判定。

Lemma 7.7.1 \(\{x_n\}\) 为正项数列,则

\[\liminf \frac{x_{n+1}}{x_n}\leq \liminf\sqrt[n]{x_n}\leq \limsup \sqrt[n]{x_n}\leq \limsup \frac{x_{n+1}}{x_n} \]

\(r=\limsup\frac{x_{n+1}}{x_n}\),设 \(r<+\infty\),任意 \(\varepsilon >0\) 存在 \(N\) 使得 \(n\geq N\)

\[\frac{x_N}{x_{N+1}}<r+\varepsilon,\cdots,\frac{x_{n+1}}{x_n}<r+\varepsilon \]

\[\frac{x_{n+1}}{x_N}<(r+\varepsilon)^{n-N} \]

两边开 \(n\) 次方根后取上极限可以得到结论。

结合 Lemma 7.7.1 和 Thm 7.6 可以证明结论。

Thm 7.8 (Raabe)\(r = \lim_{n \to \infty} n \left( \frac{x_n}{x_{n+1}} - 1 \right)\)

  • \(r > 1\):级数收敛。

  • \(r < 1\):级数发散。

当比值判别法失效。Raabe 判别法能提供更细致的判定。

\(r>1\),则存在 \(s\),使得 \(r>s>1\),且当 \(n\) 足够大的时候

\[n\left(\frac{x_n}{x_{n+1}}-1\right)>s>1 \]

稍加变形得到

\[\frac{x_n}{x_{n+1}}>\frac{s}{n}+1 \]

尝试通过放缩把右边转化成一个“可裂项”的形式,注意到右边很像 \((1+x)^k\) 泰勒展开的一次项,我们取合适的 \(t\in (1,s)\),使得

\[\frac{x_n}{x_{n+1}}>\frac{s}{n}+1>(1+\frac{1}{n})^t=\left(\frac{n+1}{n}\right)^t \]

所以 \(\{n^t x_n\}\) 在某项开始是减的,假设这一项是 \(A\),则有

\[x_n<\frac{A}{n^t} \]

根据 \(p\)-级数判别法和比较判别法可得敛散性。\(r>1\) 的情况的讨论是类似的。

Thm 7.9 (Bertrand 判别法)\(r = \lim_{n \to \infty} (\ln n) \left[ n \left( \frac{x_n}{x_{n+1}} - 1 \right) - 1 \right]\)

  • \(r > 1\):级数收敛。

  • \(r < 1\):级数发散。

任意项级数

Thm 7.10(Abel 变换)\(B_k = \sum_{i=1}^k b_i\)\(b_k\) 的部分和,则

\[\sum_{k=1}^p a_k b_k = a_p B_p - \sum_{k=1}^{p-1} (a_{k+1} - a_k) B_k \]

Thm 7.11(Abel 判别法和 Dirichlet 判别法)

  • Abel 判别法\(\{a_n\}\) 单调有界,\(\sum b_n\) 收敛,则 \(\sum a_n b_n\) 收敛。
  • Dirichlet 判别法\(\{a_n\}\) 单调且 \(a_n\to 0\)\(\{\sum_{i=1}^n b_i\}\) 有界,\(\sum_{n=1}a_nb_n\) 收敛。

先证 Abel 判别法。由 \(\sum_{i=1}^{\infty} b_i\) 收敛,根据 Cauchy 收敛准则

\[\left|\sum_{k=n+1}^{n+p} b_k\right|<\varepsilon \]

\(\sum a_kb_k\) 进行 Abel 变换

\[\left|\sum_{k=n+1}^{n+p} a_kb_k\right|=\left|a_{n+p}\sum_{k=n+1}^{n+p}b_k-\sum_{k=n+1}^{n+p-1}(a_{k+1}-a_k)\left(\sum_{i=n+1}^k b_i\right)\right|\leq 3M\varepsilon \]

\(\sum a_kb_k\) 收敛。

Dirichlet 判别法也可利用 Abel 变换证明

Thm 7.12 (Leibniz 判别法) 对于 \(\sum_{n=1}^\infty (-1)^{n+1}a_n\)\(a_n>0\)\(a_n\) 单调递减趋于 \(0\),则 \(\sum(-1)^{n+1}a_n\) 收敛。

这是 Dirichlet 判别法的直接推论

例 1

\[\sum_{n=1}^\infty\sin (\sqrt{n^2+1}\pi)=\sum_{n=1}(-1)^n\sin(\sqrt{n^2+1}\pi-n\pi)=\sum(-1)^n\sin \frac{\pi}{\sqrt{n^2+1}+n} \]

收敛。

例 2

\[1+\frac{1}{2}+\cdots+\frac{1}{n}-\ln n\to \gamma\Rightarrow \sum_{k=1}^n\frac{1}{k}=\ln n+\gamma+O\left(\frac{1}{n}\right) \]

\[\sum_{n=1}^{\infty}(-1)^{n+1}\frac{1}{n}=\ln 2 \]

\[S_{2n}=\left(1+\frac{1}{2}+\cdots+\frac{1}{2n}\right)-\left(1+\frac{1}{2}+\cdots+\frac{1}{n}\right)=\ln 2+O\left(\frac{1}{n}\right) \]

例 3

已知数列 \(\{a_n\}\) 单调且 \(\lim_{n \to \infty} a_n = 0\),则三角级数 $$\sum_{n=1}^{\infty} a_n \sin(nx)$$ 收敛

  • \(x=2k\pi\),显然收敛。

  • \(x\neq 2k\pi\) 时,积化和差

\[2\sin\frac{x}{2}\left(\sum_{k=1}^n \sin kx\right)=\cos \frac{x}{2}-\cos\frac{2n+1}{2}x \]

所以 \(\sum \sin nx\) 有界。用 Leibniz 判别法可以证明原级数收敛。

**Df 7.1(绝对收敛和条件收敛) **

  • 绝对收敛 (Absolutely Convergent):\(\sum |a_n|\) 收敛,则 \(\sum a_n\) 绝对收敛。

  • 条件收敛 (Conditionally Convergent):\(\sum a_n\) 收敛,但 \(\sum |a_n|\) 发散,则 \(\sum a_n\) 条件收敛。

Thm 7.13(绝对收敛蕴含收敛)\(\sum |a_n|\) 收敛,则 \(\sum a_n\) 收敛。

若级数 \(\sum |a_n|\) 绝对收敛,说明其部分和序列趋于极限。根据 Cauchy 收敛准则,对于任意 \(\varepsilon > 0\),存在 \(N\),使得当 \(n > N\) 时,对于任意正整数 \(p\),满足:

\[|a_{n+1}| + |a_{n+2}| + \dots + |a_{n+p}| < \varepsilon \]

\[|a_{n+1} + a_{n+2} + \dots + a_{n+p}| \leq |a_{n+1}| + |a_{n+2}| + \dots + |a_{n+p}|<\varepsilon \]

因此,原级数 \(\sum a_n\) 必然收敛。

:讨论 \(\sum_{n=1}^\infty \frac{x^n}{n^p}\) 的敛散性。

由于

\[\lim_{n\to \infty}\sqrt[n]{\frac{|x|^n}{n^p}}=|x| \]

  • \(|x|<1\) 时,Cauchy 判别法,\(\sum \frac{|x|^n}{n^p}\) 收敛,\(\sum \frac{x^n}{n^p}\) 也收敛。
  • \(|x|>1\) 时,Cauchy 判别法,\(\sum \frac{|x|^n}{n^p}\) 发散,且 \(\frac{|x|^n}{n^p}\) 不趋近于 \(0\),故 \(\sum \frac{x^n}{n^p}\) 发散。
  • \(x=1\),等价于判断 \(\sum \frac{1}{n^p}\) 的敛散性。
  • \(x=-1\)\(p>1\) 绝对收敛,\(0<p\leq 1\) 条件收敛,\(p\leq 0\) 发散。

Rmk 7.1 正项级数的发散判别条件在任意项级数仍然成立,但是一般是通过数列不趋于 \(0\) 来证明。

Df 7.2(数列的正项和负项)

定义数列的正项

\[x_n^+ = \max(x_n, 0) = \begin{cases} x_n, & x_n > 0 \\ 0, & x_n \leq 0 \end{cases} \]

类似定义负项

\[x_n^- = \max(-x_n, 0) = \begin{cases} -x_n, & x_n < 0 \\ 0, & x_n \geq 0 \end{cases} \]

\(x_n^+\)\(x_n^-\)\(x_n\)\(|x_n|\) 有如下关系

  • 分解公式: \(x_n = x_n^+ - x_n^-\)

  • 绝对值公式: \(|x_n| = x_n^+ + x_n^-\)

  • 算术表示:

\[x_n^+ = \frac{|x_n| + x_n}{2}, \quad x_n^- = \frac{|x_n| - x_n}{2} \]

Thm 7.14(正项、负项的收敛性和绝对收敛、条件收敛的关系)

  • 级数 \(\sum x_n\) 绝对收敛的充要条件是正项级数 \(\sum x_n^+\) 和负项级数 \(\sum x_n^-\) 同时收敛。
  • 若级数 \(\sum x_n\) 条件收敛,则正项部分 \(\sum x_n^+\) 和负项部分 \(\sum x_n^-\) 必然都发散趋于 \(+\infty\)

根据上面的公式,结合级数的四则运算法则可以证明。

Thm 7.15(级数的重排定理)

  • 绝对收敛:若 \(\sum u_n\) 绝对收敛且和为 \(S\),则对其项进行任何双射重排 \(\varphi: \mathbb{N}_+ \to \mathbb{N}_+\),得到的级数 \(\sum u_{\varphi(n)}\) 依然绝对收敛,且和仍为 \(S\)
  • 条件收敛:若 \(\sum a_n\) 条件收敛,则对于任意实数 \(S \in \mathbb{R}\)(或 \(S = \pm \infty\)),都存在一种重排方式,使得重排后的级数收敛于 \(S\)

绝对收敛的情况

\(N_n\) 为满足

\[\{1,2,\cdots,N\}\subseteq \{m_1,m_2,\cdots,m_n\} \]

的最大的 \(N\),则

\[\left|\sum _{k=1}^n a_{m_k}-\sum_{k=1}^{N_n} a_k\right|\leq \sum_{k=N_0+1}^{+\infty} |a_k| \]

人话:把 \(\{m_k\}\) 在值域上最长的一个连续前缀消掉,剩下的项只能在后缀中取。

由于 \(N_n\to +\infty(n\to +\infty)\),两边取极限即可。

条件收敛的情况

\(\{b_n\}\) 为所有正项,\(\{c_n\}\) 为所有负项的绝对值。因为级数条件收敛,\(\sum b_n = +\infty\)\(\sum c_n = +\infty\),但 \(b_n, c_n \to 0\)

假设我们要收敛到目标值 \(S\)

  • Step 1: 不断累加正项 \(\{b_n\}\),直到总和刚好超过 \(S\)

  • Step 2: 接着累加负项 \(\{-c_j\}\),直到总和刚好低于 \(S\)

  • Step 3: 重复这个“超过 \(\to\) 低于 \(\to\) 超过”的过程。

每次超出或低于 \(S\) 的幅度,由当前加入的最后一项决定(即 \(a_{k_n}^+\)\(a_{l_n}^-\))因为通项 \(a_n \to 0\),所以这个波动的幅度会趋于 0。故部分和序列被紧紧夹在 \(S\) 两侧,最终必然收敛于 \(S\)

posted @ 2026-04-14 12:09  yllcm  阅读(26)  评论(1)    收藏  举报