数学分析(2)

凸函数

Df 1.1：凸区域 $\Omega$ 上的函数为凸的当且仅当对于任意 $x,y\in \Omega$ 和 $\lambda\in [0,1]$，都有 $f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda)f(y)$。

Rmk 1.1（Jensen 不等式）：若 $f$ 是凸的，则对于任意 $\lambda_i\in(0,1),x_i\in \Omega$，且 $\sum_{i=1}^n \lambda_i = 1$，都有$f(\sum_{i=1}^n \lambda_i x_i) \le \sum_{i=1}^n \lambda_i f(x_i)$。

证明：普通函数使用归纳法。可导函数使用支撑线法。二阶可导函数使用泰勒展开。

Thm 1.1（凸性的等价表述）：$I \subseteq \mathbb{R}$ 为区间，$f: I \to \mathbb{R}$ 实函数且是凸的当且仅当对于任意 $x_1<x_2<x_3$，都有

\[\frac{f(x_2) - f(x_1)}{x_2 - x_1} \le \frac{f(x_3) - f(x_1)}{x_3 - x_1} \le \frac{f(x_3) - f(x_2)}{x_3 - x_2} \]

证明：取合适的 $\lambda$ 可得第一个小于等于第三个，使用糖水原理可知第二个应该在中间。

Rmk 1.2：只有开区间上的凸函数一定连续，闭区间不一定连续，例：

\[f(x) = \begin{cases} 0, & x \in (0, 1] \\ 1, & x = 0 \end{cases} \]

Thm 1.2（凸函数推局部 Lipschitz 连续）：若 $f$ 在 $(a, b)$ 上是凸的，则 $f$ 在 $(a, b)$ 上局部 Lipschitz 连续。

思路：运用上面的不等式证明 $(f(y)-f(x))/(y-x)$ 有界即可，具体地，设定 $0 < \delta < \frac{b-a}{4}$：

\[\frac{f(a+2\delta) - f(a+\delta)}{\delta} \le \frac{f(x) - f(a+2\delta)}{x - (a+2\delta)} \le\frac{f(y) - f(x)}{y - x} \]

最终推得：

\[\frac{f(a+2\delta) - f(a+\delta)}{\delta} \le \frac{f(y) - f(x)}{y - x} \le \frac{f(b-2\delta) - f(b-\delta)}{\delta} \]

Thm 1.3（推广到 $\mathbb{R}^n$）：上述定理在 $\mathbb{R}^n$ 上成立。

归纳法，假设证明了 $n-1$ 维情况是连续的。

一维情况的关键是把斜率值放缩到固定的两点斜率上。扩展到多维的思路是先把问题拍到一维上，考虑一条直线上的函数的斜率。问题在于如果给定固定点 $x_0$，很难像上面一样找到固定的 $\delta,a+\delta,a+2\delta$。

我们的思路是找到两个“箱子”把点给框住，具体地，找到两个框住 $x_0$ 的超方形，边长分别为 $\delta$ 和 $2\delta$。超方形是 $n-1$ 维的，所以连续函数 $|f|$ 在超方形上存在最大值。所以在 $x_0$ 领域里找到 $x,y$，考虑 $x,y$ 连成的直线与两个“箱子”的交点，两个交点的函数值和距离都被限制了，所以可证明 $x,y$ 的斜率是有界的。

Df 1.2（中点凸）：$E \subseteq \mathbb{R}^n$ 为凸集，$f: E \to \mathbb{R}$ 称 $f$ 为“中点凸”当且仅当对任意 $x, y \in E$ 有 $$f\left(\frac{x+y}{2}\right) \le \frac{1}{2}f(x) + \frac{1}{2}f(y)$$

Thm 1.4（中点凸和凸等价）：若 $f$ 是连续函数，则中点凸和凸函数等价。

若 $f$ 为中点凸函数，任取 $x,y$，令

\[A = \{ \lambda \in [0, 1] : f(\lambda x + (1-\lambda)y) \le \lambda f(x) + (1-\lambda)f(y) \} \]

下证明：若 $\alpha, \beta \in A$，则 $(\alpha+\beta)/2 \in A$。

记 $\gamma = (\alpha+\beta)/2$，则：

\[\begin{align*}f(\gamma x + (1-\gamma)y) &= f\left( \frac{(\alpha x + (1-\alpha)y) + (\beta x + (1-\beta)y)}{2} \right)\\&\le \frac{1}{2}(\alpha f(x) + (1-\alpha)f(y)) + \frac{1}{2}(\beta f(x) + (1-\beta)f(y))\\&= \gamma f(x) + (1-\gamma)f(y)\end{align*} \]

故对于任意 $\lambda$，使用 $f$ 连续的性质，用中点去逼近即可。

Thm 1.5（凸函数推左右导数存在）：若 $f$ 在 $(a, b)$ 内凸，则 $(a, b)$ 内的左导数 $f'_-(x)$ 与右导数 $f'_+(x)$ 存在，且：

\[\frac{f(x) - f(\xi)}{x - \xi} \le f'_-(x) \le f'_+(x) \le \frac{f(y) - f(x)}{y - x} \quad (a < \xi < x < y < b) \]

证明：对任意 $a < \xi < s < x < t < y < b$，有：

\[\frac{f(x) - f(\xi)}{x - \xi} \le \frac{f(x) - f(s)}{x - s} \le \frac{f(t) - f(x)}{t - x} \le \frac{f(y) - f(x)}{y - x} \]

分析可知，$(f(x) - f(s))/(x - s)$ 关于 $s \in (\xi, x)$ 单调递增且有上界，故极限存在。

推论：$f$ 在 $(a,b)$ 上的不可导点至多可列。

Thm 1.6（支撑线）：函数 $f: (a, b) \to \mathbb{R}$ 是凸函数，当且仅当对于定义域内的任意一点 $x_0 \in (a, b)$，都存在一个常数 $k_{x_0} \in \mathbb{R}$，使得：

\[f(x) \ge f(x_0) + k_{x_0}(x - x_0) \quad \forall x \in (a, b) \]

（充分性）假设对于任意 $x_0$，都存在支撑直线。我们要证明凸性：$\forall x_1, x_2 \in (a, b), \lambda \in (0, 1)$，令 $x_\lambda = \lambda x_1 + (1-\lambda)x_2$。

根据假设，在点 $x_\lambda$ 处存在支撑斜率 $k$：

\[f(x_1) \ge f(x_\lambda) + k(x_1 - x_\lambda),f(x_2) \ge f(x_\lambda) + k(x_2 - x_\lambda) \]

利用凸组合进行加权：

\[\lambda f(x_1) + (1-\lambda)f(x_2) \ge f(x_\lambda) + k(\lambda x_1 + (1-\lambda)x_2 - x_\lambda)=f(x_\lambda) \]

（必要性）假设 $f$ 是凸函数。已知凸函数在开区间内连续，且其右导数 $f'_+(x)$ 是单调递增的。对于任意 $x_0 \in (a, b)$，构造辅助函数 $F(x) = f(x) - f(x_0) - f'_+(x_0)(x - x_0)$。

当 $a < x < x_0$ 时 $F'_+(x) = f'_+(x) - f'_+(x_0) \le 0$，$x_0 < x < b$ 时 $F'_+(x) \ge 0$。故 $F(x)$ 在 $(a,x_0)$ 单调递减，$(x_0,b)$ 单调递增。

Thm 1.7 设 $A \subseteq \mathbb{R}^n$ 为凸区域，$f: A \to \mathbb{R}$ 为二阶连续可微函数。 $f$ 是凸函数当且仅当其海森矩阵 $H_f(x)$ 对所有 $x \in A$ 均半正定。

令 $F(t) = f(x + te)$，则

\[F''(0) = e^T H_f(x) e \ge 0 \]

故 $F''(0)$ 为半正定的。

Thm 1.8（Young 不等式） 设 $p, q > 1$ 且满足 $\frac{1}{p} + \frac{1}{q} = 1$，则对于任意 $a, b > 0$，有：

\[ab \le \frac{1}{p}a^p + \frac{1}{q}b^q \]

当且仅当 $a^p = b^q$ 时取等号。

利用 $\ln x$ 的凸性：

\[\ln\left( \frac{1}{p}a^p + \frac{1}{q}b^q \right) \ge \frac{1}{p}\ln(a^p) + \frac{1}{q}\ln(b^q) \]

推论 (Hölder 不等式)$$\sum_{n=1}^{\infty} |a_n b_n| \le \left( \sum_{n=1}^{\infty} |a_n|^p \right)^{\frac{1}{p}} \left( \sum_{n=1}^{\infty} |b_n|^q \right)^{\frac{1}{q}}$$

令 $A = (\sum |a_n|^p)^{1/p}$ 和 $B = (\sum |b_n|^q)^{1/q}$。

逐项应用 Young 不等式：

\[\frac{|a_n|}{A} \cdot \frac{|b_n|}{B} \le \frac{1}{p} \frac{|a_n|^p}{A^p} + \frac{1}{q} \frac{|b_n|^q}{B^q} \]

求和后：

\[\sum_{n=1}^m |a_n b_n| \le AB \]

它是 Cauchy-Schwarz 不等式的推广（ Cauchy-Schwarz 是 $p=q=2$ 的情况）

Thm 1.9：凸函数的导数右侧极限等于右导数。

Lemma 1.9.1（右导数和右侧导数极限的关系） 对于 $f$ 在区间 $(a, b)$ 上，其右导数在端点 $a$ 处的极限满足：

\[\liminf_{t \to a^+} f'(t) \le f'_+(a) \le \limsup_{t \to a^+} f'(t) \]

证明：根据 Lagrange 中值定理

\[\inf_{t\in (a,x)} f'(t)\leq \frac{f(x)-f(a)}{x-a}\leq \sup_{t\in (a,x)}f'(t) \]

取极限 $x\to a^+$ 即可。

注意到 $f'(t)$ 在区间 $(a,x)$ 上单调递增且有界，故 $\lim_{t\to a}f'(t)$ 存在，所以上下极限相等。

Taylor 定理

一元函数的 Taylor 展开

Df 2.1（泰勒多项式）设 $f(x)$ 在 $x_0$ 处有 $n$ 阶导数，定义 $n$ 次泰勒多项式 为：

\[T_n(x) = \sum_{k=0}^n \frac{f^{(k)}(x_0)}{k!}(x-x_0)^k \]

Thm 2.1（带 Peano 余项的泰勒定理）若 $f(x)$ 在 $x_0$ 处有 $n$ 阶导数，则存在 $x \to x_0$ 时的高阶无穷小，使得：

\[f(x) = T_n(x) + o((x-x_0)^n) \]

设余项为 $R_n(x) = f(x) - T_n(x)$，分母为 $Q_n(x) = (x-x_0)^n$。

由于 $f$ 在 $x_0$ 邻域内有 $n-1$ 阶导数，我们可以连续使用 $n-1$ 次洛必达法则：

\[\lim_{x \to x_0} \frac{R_n(x)}{Q_n(x)} = \lim_{x \to x_0} \frac{R_n'(x)}{Q_n'(x)} = \dots = \lim_{x \to x_0} \frac{R_n^{(n-1)}(x)}{Q_n^{(n-1)}(x)} \]

其中 $Q_n^{(n-1)}(x) = n \cdot (n-1) \dots 2 \cdot (x-x_0) = n!(x-x_0)$，$R_n^{(n-1)}(x) = f^{(n-1)}(x) - T_n^{(n-1)}(x)$。

此时原式为

\[\begin{aligned} &\lim_{x \to x_0} \frac{f^{(n-1)}(x) - [f^{(n-1)}(x_0) + f^{(n)}(x_0)(x-x_0)]}{n!(x-x_0)} \\ &= \frac{1}{n!} \left[ \lim_{x \to x_0} \frac{f^{(n-1)}(x) - f^{(n-1)}(x_0)}{x-x_0} - f^{(n)}(x_0) \right]\\&=0 \end{aligned} \]

Thm 2.2（带 Lagrange 余项的泰勒定理）设函数 $f(x)$ 在闭区间 $[a, b]$ 上有 $n$ 阶导数，在开区间 $(a, b)$ 内有 $n+1$ 阶导数。对于任意 $x, x_0 \in [a, b]$，至少存在一点 $\xi$（在 $x$ 与 $x_0$ 之间），使得：

\[f(x) = f(x_0) + \frac{f'(x_0)}{1!}(x-x_0) + \dots + \frac{f^{(n)}(x_0)}{n!}(x-x_0)^n + \frac{f^{(n+1)}(\xi)}{(n+1)!}(x-x_0)^{n+1} \]

令

\[F(t) = f(x) - \left[ f(t) + \frac{f'(t)}{1!}(x-t) + \dots + \frac{f^{(n)}(t)}{n!}(x-t)^n \right] \]

\[Q(t) = (x-t)^{n+1} \]

运用 Cauchy 中值定理

\[\frac{F(x_0)}{Q(x_0)} = \frac{F(x_0) - F(x)}{Q(x_0) - Q(x)} = \frac{F'(\xi)}{Q'(\xi)}= \frac{-\frac{f^{(n+1)}(\xi)}{n!}(x-\xi)^n}{-(n+1)(x-\xi)^n} = \frac{f^{(n+1)}(\xi)}{(n+1)!} \]

也可以用习题里面的待定常数法求 $n$ 次导。

多元函数的 Taylor 展开

Df 2.2（记号）

多重指标 $\alpha$: 定义为 $\alpha = (\alpha_1, \alpha_2, \dots, \alpha_n)$，其中每个分量 $\alpha_i \ge 0$ 且 $\alpha_i \in \mathbb{N}$。
阶乘符号: $\alpha! \triangleq \alpha_1! \alpha_2! \dots \alpha_n!$
绝对值 (阶数): $|\alpha| \triangleq \alpha_1 + \dots + \alpha_n$
幂符号: $x^\alpha \triangleq x_1^{\alpha_1} x_2^{\alpha_2} \dots x_n^{\alpha_n}$
- 偏导数算子: 记 $D^\alpha f(x_0)$ 为在点 $x_0 = (x_1^0, \dots, x_n^0)$ 处计算的偏导数：
\[\left. \frac{\partial^{|\alpha|} f(x)}{\partial x_1^{\alpha_1} \partial x_2^{\alpha_2} \dots \partial x_n^{\alpha_n}} \right|_{x=x_0} \triangleq \frac{\partial^{|\alpha|} f(x_0)}{\partial x^\alpha} \]
若函数 $f(x)$ 在点 $x_0$ 处拥有直到 $m$ 阶的连续偏导数，则其 $m$ 阶 Taylor 多项式 $T_m(x)$ 定义为：

\[T_m(x) \triangleq T_m(x, f) \triangleq \sum_{k=0}^{m} \left( \sum_{|\alpha|=k} \frac{1}{\alpha!} \frac{\partial^k f(x_0)}{\partial x^\alpha} (x - x_0)^\alpha \right) \]

Thm 2.3（多变量函数的 Taylor 定理）设 $D \subseteq \mathbb{R}^n$ 为凸区域，$f:D\to \mathbb{R}$ 且 $f \in C^{m+1}(D)$。对于任意 $a_0 \in D$ 及 $x \in D$，存在 $\theta \in (0, 1)$，使得：

\[f(x) = \sum_{k=0}^{m} \sum_{|\alpha|=k} \frac{D^\alpha f(a_0)}{\alpha!} (x - a_0)^\alpha + \sum_{|\alpha|=m+1} \frac{D^\alpha f(a_0 + \theta(x - a_0))}{\alpha!} (x - a_0)^\alpha \]

令 $\varphi(t) = f(a_0 + t(x - a_0))$，其中 $t \in [0, 1]$，则

\[\varphi(1) = \varphi(0) + \frac{\varphi'(0)}{1!} + \dots + \frac{\varphi^{(m)}(0)}{m!} + \frac{\varphi^{(m+1)}(\theta)}{(m+1)!} \]

设 $h=x-a_0$，我们有：

\[\begin{align*}\left(\frac{\text{d}}{\text{d}t}\right)^k\varphi(t)&=\left(\frac{\text{d}}{\text{d}t}\right)^k f(a_0+th)\\&=\left(\frac{\text{d}}{\text{d}t}\right)^{k-1}\left(\frac{\text{d}}{\text{d}(a_0+th)}f(a_0+th)\right)h\\&=\left(\frac{\text{d}}{\text{d}t}\right)^{k-1}\left(\sum_{i=1}^n \frac{\partial f}{\partial x_i}(a_0+th)e_i^T\right)h\\&=\left(\frac{\text{d}}{\text{d}t}\right)^{k-1}\left(\sum_{i=1}^n h_i\frac{\partial f}{\partial x_i}(a_0+th)\right)\\&=\left(\sum_{i=1}^n h_i\frac{\partial }{\partial x_i}\right)^k f(a_0+th)\end{align*} \]

而：

\[\left( \sum_{i=1}^{n} h_i \frac{\partial}{\partial x_i} \right)^k = \sum_{|\alpha|=k} \frac{k!}{\alpha!} h^\alpha D^\alpha \]

故

\[\varphi^{(k)}(t) = \sum_{|\alpha|=k} \frac{k!}{\alpha!} D^\alpha f(a_0 + th) (x - a_0)^\alpha \]

代入即可。

分析余项

\[f(x) = \sum_{k=0}^{m} \sum_{|\alpha|=k} \frac{D^\alpha f(a_0)}{\alpha!} (x - a_0)^\alpha + \underbrace{\sum_{|\alpha|=m} \left( \frac{D^\alpha f(a_0 + \theta(x - a_0))}{\alpha!} - \frac{D^\alpha f(a_0)}{\alpha!} \right) (x - a_0)^\alpha}_{R_m(x)} \]

则

\[\lim_{x \to a_0} \frac{R_m(x)}{\|x - a_0\|^m} = \lim_{x \to a_0} \sum_{|\alpha|=m} \left( \frac{D^\alpha f(a_0 + \theta(x - a_0))}{\alpha!} - \frac{D^\alpha f(a_0)}{\alpha!} \right) \cdot \frac{(x - a_0)^\alpha}{\|x - a_0\|^m} \]

故

\[f(x) = \sum_{k=0}^{m} \sum_{|\alpha|=k} \frac{D^\alpha f(a_0)}{\alpha!} (x - a_0)^\alpha +o(||x-x_0||^m) \]

Thm 2.4（凸函数的等价判定条件）

条件 1 (一阶条件)：若 $f$ 在 $\Omega$ 上可微，则 $f$ 为凸函数 $\iff \forall x, y \in \Omega, f(y) \ge f(x) + \nabla f(x) \cdot (y - x)$。
条件 2 (二阶条件)：若 $f \in C^2(\Omega)$，则 $f$ 为凸函数 $\iff \nabla^2 f(x) = Hf(x)$（Hessian 矩阵）是半正定的。

条件 1 必要性只需要列出式子 $tf(y)+(1-t)f(x)\geq f(ty+(1-t)x)$，然后 Taylor 展开即可。充分性只要列两个式子然后把它们线性组合即可，不再赘述。

条件 2 可以考虑使用条件 1 证明。

（充分性）利用二阶 Taylor 展开，若 Hessian 矩阵半正定，则 $(y-x)^T Hf(\xi) (y-x) \ge 0$。由展开式可知 $f(y) \ge f(x) + \nabla f(x)(y-x)$，即满足一阶凸性条件，故函数为凸。

（必要性）假设存在 $h \neq 0$ 使得 $h^T Hf(x) h < 0$。根据凸性，有 $f(x+th) - [f(x) + \nabla f(x) \cdot th] \ge 0$。对其进行二阶 Taylor 展开并除以 $t^2$：

\[\frac{f(x+th) - f(x) - \nabla f(x) \cdot th}{t^2} = \frac{1}{2}h^T Hf(x) h + \frac{o(\|th\|^2)}{t^2} \]

令 $t\to 0^+$ 可得矛盾。

类比一维情况，一阶导数保证存在支撑线（面），二阶导数为正（半正定）

隐函数定理

Thm 3.1（隐函数定理）设 $\Lambda \subseteq \mathbb{R}^n$ 为凸区域，$F: \Lambda \times (a, b) \to \mathbb{R}$ 是连续可微的。若存在点 $(x_0, y_0) \in \Lambda \times (a, b)$ 满足：

$F(x_0, y_0) = 0$
$F_y(x_0, y_0) \neq 0$

则存在 $\delta > 0$ 和 $\eta > 0$，使得对于任意 $x \in B_\delta(x_0)$，存在唯一的 $y = \varphi(x) \in (y_0 - \eta, y_0 + \eta)$，满足：

$F(x, \varphi(x)) = 0$ （定义了隐函数 $\varphi: B_\delta(x_0) \to (y_0 - \eta, y_0 + \eta)$）
$\varphi(x)$ 在 $B_\delta(x_0)$ 内连续可微，且其导数为：

\[\varphi'(x) = -\frac{F_x(x, \varphi(x))}{F_y(x, \varphi(x))} \]

注：称 $\varphi(x)$ 为 $F(x, y) = 0$ 在 $(x_0, y_0)$ 附近的隐函数。

不妨设 $F_y(x_0,y_0)>0$。

由连续性和 $F_y(x_0,y_0)>0$，可知存在 $x\in B_{\delta}(x_0), y\in B_{\eta}(y_0)$，使得 $F_y(x,y)>0$。

根据条件，$F_y(x_0,y_0-\eta)<F(x_0,y_0)=0<F(x_0,y_0+\eta)$。

根据连续性，存在 $\delta$ 使得 $x\in (x_0-\delta,x_0+\delta)$ 时 $F_y(x,y_0-\eta)<0<F(x,y_0+\eta)$。

由于 $F(x,y)$ 关于 $y$ 单调递增，所以存在唯一的 $\varphi(x)=y\in (y_0-\eta,y_0+\eta)$ 使得 $F(x,\varphi(x))=0$。

下证明 $\varphi(x)$ 连续。尝试使用 Lagrange 中值定理构造 $\varphi(x_1)-\varphi(x_2)$ 项

\[|F(x_1,\varphi(x_1))-F(x_1,\varphi(x_2))|=|F_y(x_1,\xi)|\cdot |\varphi(x_1)-\varphi(x_2)| \]

左边可转化为 $|F(x_2,\varphi(x_2))-F(x_1,\varphi(x_2))|$，两边令 $x_2\to x_1$ 可知 $|\varphi(x_2)-\varphi(x_1)|\to 0$。

再证可微，即找到 $\Delta y=\varphi(x_2)-\varphi(x_1)$ 和 $\Delta x=x_2-x_1$ 的关系，使用多元 Lagrange 中值定理

\[0=F(x_2,\varphi(x_2))-F(x_1,\varphi(x_1))=F_x(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)\Delta x+F_y(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)\Delta y \]

所以

\[\Delta y=-\frac{F_x(x_1,\varphi(x_1))}{F_y(x_1,\varphi(x_1))}\Delta x+\left(\frac{F_x(x_1,\varphi(x_1))}{F_y(x_1,\varphi(x_1))}-\frac{F_x(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)}{F_y(x_1+\theta\Delta x,\varphi(x_1)+\theta\Delta y)}\right)\Delta x \]

由于括号内的项趋于 $0$，所以后面是关于 $\Delta x$ 的高阶无穷小，所以可以证明可微。

思路梳理：

证明 $x_0$ 的一个领域内 $F(x,y)$ 关于 $y$ 递增，可证明存在零点。
用 Lagrange 中值定理证明连续。
先猜想出导函数的值，在证明余项是高阶无穷小。

Thm 3.2（多元情况下的隐函数定理）

设 $\Omega \subseteq \mathbb{R}^n$ 及 $D \subseteq \mathbb{R}^m$ 为区域，$F: \Omega \times D \to \mathbb{R}^m$ 是连续可微函数。若存在点 $(x_0, y_0) \in \Omega \times D$ 满足：

$F(x_0, y_0) = 0$
$\det F_y(x_0, y_0) \neq 0$（即关于 $y$ 的偏导数矩阵即 Jacobi 矩阵非奇异/可逆）

则存在邻域 $B_\delta(x_0) \subseteq \Omega$ 和 $B_\eta(y_0) \subseteq D$，使得：

对于任意 $x \in B_\delta(x_0)$，存在唯一的 $y = \varphi(x) \in B_\eta(y_0)$，满足方程组 $F(x, \varphi(x)) = 0$。

进一步地，该隐函数 $\varphi(x)$ 具有以下性质：

连续性与可微性：函数 $\varphi$ 在 $B_\delta(x_0)$ 内连续可微。
导数公式（矩阵形式）：

\[\varphi_x(x) = -(F_y(x, \varphi(x)))^{-1} F_x(x, \varphi(x)), \quad \forall x \in B_\delta(x_0) \]

由于证明较为复杂，下面仅给出思路。

证明思路梳理：

总体思路：对 $x$ 找到 $|F(x,y)|^2$ 的极小值点，此处的 $y=\varphi(x)$ 满足 $F(x,\varphi(x))=0$。可以根据求导式子得到，也可以这么想：如果导数行列式非 $0$，那么函数值在任意方向上都有变动，此时最小值只能是 $0$。
估计 $F(x,y)$ 关于 $y$ 的变化率：由于 $\det F_y(x_0,y_0)>0$，函数关于 $y$ 有变化。利用 $\alpha=\min_{x,y,z,e}\langle F_y(x,y)e,F_y(x,z)e\rangle>0$ 衡量变化率，可以得到不等式 $|F(x,y_1)-F(x,y_2)|^2\geq \alpha|y_1-y_2|^2$。
运用连续性证明极小值不在边缘：根据上面定理可知 $F(x_0,y)>F(x_0,y_0)=0$，根据连续性可知 $F(x,y)>F(x,y_0)$（在一元的情况中的情况，就是左边小于 $0$，右边大于 $0$，中间一定有零点）
用不等式证明连续：和上面如出一辙，甚至由于我们得到了不等式，可以证明 $\varphi$ 是 Lipschitz 连续的。
用多元 Lagrange 中值定理证明可微：和上面如出一辙。

逆映射定理

Thm 4.1（逆映射定理）设 $f: D \subseteq \mathbb{R}^n \to \mathbb{R}^n$ 为 $C^k$ 映射（$k \geq 1$），$x_0 \in D$。若 $f$ 在 $x_0$ 处的雅可比矩阵 $Jf(x_0)$ 可逆（即 $\det(Jf(x_0)) \neq 0$），则存在 $x_0$ 的开邻域 $U$ 和 $y_0 = f(x_0)$ 的开邻域 $V$，使得：

$f|_U: U \to V$ 是双射。
逆映射 $h = (f|_U)^{-1}$ 也是 $C^k$ 映射。
对于任意 $y \in V$，有 $Jh(y) = [Jf(h(y))]^{-1}$。

通过平移坐标，不妨设 $x_0 = 0$ 且 $f(0) = 0$。设 $L = Jf(0)$，由于 $L$ 可逆，令 $\tilde{f}(x) = L^{-1} \circ f(x)$。显然 $\tilde{f}(0) = 0$ 且 $J\tilde{f}(0) = L^{-1} \cdot Jf(0) = I_n$（单位矩阵）。若 $\tilde{f}$ 在局部可逆，则 $f = L \circ \tilde{f}$ 显然也局部可逆。因此，我们只需证明 $f$ 满足 $f(0)=0$ 且 $Jf(0)=I_n$ 的情形。

设 $g(x)=f(x)-x$，则 $Jg(0)=0$，根据连续性，存在 $\delta$ 使得当 $x \in \overline{B_\delta(0)}$ 时，有 $\|Jg(x)\| \leq \frac{1}{2}$。

\[\|g(x_1) - g(x_2)\|=\|Jg(\xi)(x_1-x_2)\| \leq \|Jg(\xi)\|\|x_1-x_2\|\left( \sup_{z \in [x_1, x_2]} \|Jg(z)\| \right) \|x_1 - x_2\| \leq \frac{1}{2} \|x_1 - x_2\| \]

对于固定 $y\in B_\frac{\delta}{2}(0)$，构造映射 $\varphi:\overline{B_\delta(0)}\to \overline{B_\delta(0)}$，$\varphi(x)=y-g(x)$，则：

$\varphi$ 是自身映射：
\[\|\varphi(x)\| \leq \|y\| + \|g(x)\| \leq \|y\| + \|g(x) - g(0)\| \leq \frac{\delta}{2} + \frac{1}{2}\|x\| < \frac{\delta}{2} + \frac{\delta}{2} = \delta \]
$\varphi$ 是压缩映射：
\[\|\varphi_y(x_1) - \varphi_y(x_2)\| = \|g(x_2) - g(x_1)\| \leq \frac{1}{2} \|x_1 - x_2\| \]

所以 $\varphi$ 在 $B_\delta(0)$（考虑到值域不包括边缘）上有唯一不动点 $x_y$。此时 $f(x_y)=y$。取 $U=f^{-1}(B_{\frac{\delta}{2}}(0))\cap B_\delta(0)$ 即可。

设逆映射为 $h$，则 $f(x_1)=y_1,x_1=h(y_1)$。下证明 $h$ 是 Lipschitz 连续的

\[\|x_1-x_2\|=\|(y_1-g(x_1))+(y_2-g(x_2))\|\leq \|y_1-y_2\|+\|g(x_1)-g(x_2)\|\leq \|y_1-y_2\|+\frac{1}{2}\|x_1-x_2\| \]

下证明 $h$ 可微，我们有

\[y - y_0 = Jf(x_0)(x - x_0) + o(\|x - x_0\|) \]

把 $Jf(x_0)$ 反过来

\[Jf(x_0)^{-1}(y - y_0)+Jf(x_0)^{-1}o(\|x-x_0\|) = x - x_0 \]

由于 $\|x_1-x_2\|\leq 2\|y_1-y_2\|$，所以 $Jf(x_0)^{-1}o(\|x-x_0\|)=o(\|y-y_0\|)$。故 $h$ 可微且导函数为 $Jh(y_0)=Jf(x_0)^{-1}=Jf(h(y_0))^{-1}$。

再证明 $h$ 是 $C^k$ 的。已经证明 $h$ 可微，即 $h$ 是 $C^1$ 的，故 $Jf\circ h$ 是 $C^1$ 的，即 $Jh$ 是 $C^1$ 的，所以 $h$ 是 $C^2$ 的。归纳可以证明 $h$ 是 $C^k$ 的。

Df 4.1（正则映射） 设 $D \subseteq \mathbb{R}^n$ 是一个开集，$f: D \to \mathbb{R}^n$ 为 $C^1$ 映射。若对于定义域内每一个点 $x \in D$，其 Jacobian 矩阵 $Jf(x)$ 都是满秩的（即 $\det Jf(x) \neq 0$），则称 $f$ 为正则映射。

**Thm 4.2（正则映射的性质） **$f:D\to \mathbb{R}^n$ 的正则映射

正则映射将开集映射到开集：$\Omega\triangleq f(D)$ 是开的。
局部逆映射连续可微：存在从 $\Omega\to D$ 的映射 $f^{-1}$，$f\circ f^{-1}(y)=y$，且 $f^{-1}$ 是 $\mathbb{C}^1$ 的。

任取 $y_0 \in \Omega$，根据 $\Omega$ 的定义，存在 $x_0 \in D$ 使得 $f(x_0) = y_0$。由逆映射定理，存在 $x_0$ 的一个邻域 $U$ 和 $y_0$ 的一个邻域 $V$ 使得 $f|_U:U\to V$ 是双射，此时 $y_0\in V\subseteq \Omega$，故 $y_0$ 是内点。

再证明逆映射是 $C^1$ 的，设 $f(x_0)=y_0,x_0=f^{-1}y_0$，则

\[y-y_0=Jf(y_0)(x-x_0)+o(\|x-x_0\|) \]

证明过程和上面类似。

Thm 3.1（用逆映射定理证明）

只考虑 $f:\mathbb{R}^2\to \mathbb{R}$ 的情况，其余情况用类似方法可以推广得到。

设给定方程为 $f(x, y) = 0$，且 $f(x_0, y_0)=0$。为了应用逆映射定理，我们需要构造一个从 $\mathbb{R}^2 \to \mathbb{R}^2$ 的映射 $F$：

\[F(x, y) = (u, v) = (x, f(x, y)) \]

考虑

\[JF(x, y) = \begin{pmatrix} \frac{\partial u}{\partial x} & \frac{\partial u}{\partial y} \\ \frac{\partial v}{\partial x} & \frac{\partial v}{\partial y} \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ \frac{\partial f}{\partial x} & \frac{\partial f}{\partial y} \end{pmatrix} \]

行列式为：$\det JF(x, y) = \frac{\partial f}{\partial y}\neq 0$，故 $F$ 在 $(x_0, y_0)$ 处是正则映射。

例：$f:\mathbb{R}^2\to \mathbb{R}$，$\frac{\partial f}{\partial y}\neq 0$，问 $f(x,y)=f(x_0,y_0)$ 可否确定一个函数 $y=\psi(x)$，$f(x,\psi(x))=f(x_0,y_0)$。

根据逆映射定理，存在 $(x_0, y_0)$ 的一个开邻域 $U$ 和 $(x_0, c)$ 的一个开邻域 $V$，使得存在逆映射 $F^{-1}: V \to U$，设其形式为 $F^{-1}(u, v) = (\varphi(u, v), \psi(u, v))$。

\[F(\varphi(u, v), \psi(u, v)) = (\varphi(u, v), f(\varphi(u, v), \psi(u, v))) = (u, v) \]

故 $\varphi(u, v) = u$，$f(u, \psi(u, v)) = v$。令 $v=0$，$\psi(x) \triangleq \psi(x, 0)$。由于 $F^{-1}$ 是 $C^k$ 的，故 $\psi(x)$ 也是 $C^k$ 的。此时，$y = \psi(x)$ 即为所求的隐函数。

求导易得导数公式。

几何理解：把 $(x,f(x_0,y_0))$ 的一条横线映射回 $(x,y)$，得到一条曲线 $(x,\varphi(x))$。

切线与切平面

Df 5.1（曲线）

简单曲线 (Simple Curve)：在 $\mathbb{R}^n$ 中，曲线 $\Gamma$ 由 $\gamma(t) = (x_1(t), \dots, x_n(t))$ 参数化。$\Gamma$ 为简单曲线 $\iff$ $\gamma(t_1) = \gamma(t_2) \implies t_1 = t_2$（即曲线无自交点）。
可微曲线 (Differentiable Curve)：曲线 $\Gamma$ 在 $t_0$ 处可微 $\iff$ 各分量函数 $x_i(t)$ 在 $t_0$ 处均可导。

Df 5.2（切线）

切向量 (Tangent Vector)：曲线在 $P_0 = \gamma(t_0)$ 处的切向量为 $\gamma'(t_0) = (x_1'(t_0), \dots, x_n'(t_0))$。
切线方程：设 $P_0 = \gamma(t_0)$，切线方程有两种常见的表达方式：
- 对称式（点向式）：
\[\frac{x_1 - x_1(t_0)}{x_1'(t_0)} = \frac{x_2 - x_2(t_0)}{x_2'(t_0)} = \cdots = \frac{x_n - x_n(t_0)}{x_n'(t_0)} \]
- 向量式（参数方程）：
\[\mathbf{P}(t) = t \cdot \gamma'(t_0) + \gamma(t_0) \]
即 $(x_1, \dots, x_n) = t(x_1'(t_0), \dots, x_n'(t_0)) + (x_1(t_0), \dots, x_n(t_0))$。

Df 5.3（法平面）经过点 $P_0$ 且垂直于切线的超平面称为该点处的法平面。切向量 $\gamma'(t_0)$ 是该法平面的法向量，记为 $\vec{\eta} = \gamma'(t_0)$。

Thm 5.1（隐式曲线的切向量）设曲线由两个隐式曲面方程定义：$\begin{cases} F(x, y, z) = 0 \\ G(x, y, z) = 0 \end{cases}$。定义 $H(x, y, z) = (F, G)^T$。若 $H'(P_0)$ 的秩为 2，则由隐式曲面方程定义的曲线在 $P_0$ 点的切向量为 $\vec{v} = \nabla F(P_0) \times \nabla G(P_0)$。

若 $\frac{\partial(F, G)}{\partial(x, y)} \neq 0$，则局部存在 $x=x(z), y=y(z)$。

令 $\gamma(z) = (x(z), y(z), z)$，对 $F, G$ 求导得到： $\langle \nabla F(P_0), \gamma'(z_0) \rangle = 0$ 且 $\langle \nabla G(P_0), \gamma'(z_0) \rangle = 0$，这意味着切向量 $\gamma'(t_0)$ 必须同时垂直于两个曲面的法向量 $\nabla F$ 和 $\nabla G$。故方向向量可取 $\nabla F(P_0) \times \nabla G(P_0)$。

曲面的切平面

Df 5.4（隐式曲面的切平面）

定义：设曲面 $S: F(x, y, z) = 0$。若点 $P_0$ 处满足梯度 $\nabla F(P_0) \neq \mathbf{0}$，则 $S$ 在 $P_0$ 处存在切平面。
切平面方程：以梯度向量 $\nabla F(P_0)$ 为法向量，过点 $P_0(x_0, y_0, z_0)$ 的平面方程为：

\[\langle \nabla F(P_0), \boldsymbol{x} - \boldsymbol{x}_0 \rangle = 0 \]

$S:F(x,y,z)=0$，$F$ 可微，$(x,y,z)\in D\subseteq \mathbb{R}^3$。

Df 5.5（参数曲面的切平面）曲面 $\Sigma$ 由向量函数 $\vec{r}(u, v) = (x(u, v), y(u, v), z(u, v))$ 定义。

Df 5.5.1（参数曲线）

$u$-曲线：$\vec{r}(u, v_0)$（固定 $v$）。
$v$-曲线：$\vec{r}(u_0, v)$（固定 $u$）。

设 $u(t),v(t)$ 为 $\Delta$ 上的一段曲线（$\Delta$ 为 $(u,v)$ 定义域），且 $u(t_0)=u_0,v(t_0)=v_0$，则在 $\Sigma$ 上曲线在 $(u_0,v_0)$ 的切向量为

\[\frac{\partial \vec{r}}{\partial u}(u_0,v_0)u'(t_0)+\frac{\partial \vec{r}}{\partial v}(u_0,v_0)v'(t_0) \]

它是 $\frac{\partial \vec{r}}{\partial u}(u_0,v_0)$ 与 $\frac{\partial \vec{r}}{\partial v}(u_0,v_0)$ 张成的向量。则任何经过 $P_0$ 的曲线的切向量都在由 $\{\vec{r}_u, \vec{r}_v\}$ 张成的二维子空间内

Df 5.5.2（切平面）该张成平面即为切平面，法向量可表示为 $\vec{n} = \vec{r}_u \times \vec{r}_v$。

参数曲线示例

球面方程 $\vec{r}(\theta, \varphi) = (R\sin\theta\cos\varphi, R\sin\theta\sin\varphi, R\cos\theta)$：

$\theta$（极角）：$\theta$-曲线为经线。
$\varphi$（方位角）：$\varphi$-曲线为纬线。

记 $\vec{r_u}=\frac{\partial \vec{r}}{\partial u},\vec{r_v}=\frac{\partial \vec{r}}{\partial u}$

若 $\nabla F(P_0)\neq 0$，则可确定过 $P_0$ 点且以 $\nabla F(P_0)$ 为法向量的平面称为 $S$ 在 $P_0$ 点处的切平面。

Df 5.6（第一基本形式*）

第一基本量用于描述曲面上向量的内积（度量性质），定义如下：

记号：$\vec{r}_u = \frac{\partial \vec{r}}{\partial u}, \quad \vec{r}_v = \frac{\partial \vec{r}}{\partial v}$
第一基本系数：

\[E = \vec{r}_u \cdot \vec{r}_u = \|\vec{r}_u\|^2, \quad F = \vec{r}_u \cdot \vec{r}_v, \quad G = \vec{r}_v \cdot \vec{r}_v = \|\vec{r}_v\|^2 \]
拉格朗日恒等式：切平面的法向量模长（即面积元）可由第一基本量表示：

\[\|\vec{r}_u \times \vec{r}_v\|^2 = \|\vec{r}_u\|^2 \|\vec{r}_v\|^2 - (\vec{r}_u \cdot \vec{r}_v)^2 = EG - F^2 \]
因此：$\|\vec{r}_u \times \vec{r}_v\| = \sqrt{EG - F^2}$。

Thm 5.2（隐式曲面切空间） 切空间等同于法向量的法平面。具体地，设 $\Omega \subseteq \mathbb{R}^n$，$F \in C^1(\Omega, \mathbb{R})$，且在 $x_0 \in \Sigma$ 处 $\nabla F(x_0) \neq 0$。若向量 $e \in \mathbb{R}^n$ 满足 $\langle e, \nabla F(x_0) \rangle = 0$，则存在一条经过 $x_0$ 的 $C^1$ 曲线 $\Gamma \subset \Sigma$，使得其在 $x_0$ 处的切向量为 $e$。

将坐标系旋转并平移，使得新坐标系原点为 $x_0$，且坐标轴为 $n$ 维正交基，满足 $e_1=e$，$e_n=\mu / ||\mu||$（$\mu$ 定义为 $\nabla F(x_0)$）

设原坐标系到新坐标系的基变换的过渡矩阵为正交阵 $A=(e_1,e_2,\cdots,e_n)$，则在新坐标系下坐标为 $y$ 的点，在原坐标系中为 $Ay+x_0$，则新坐标系下，曲面方程为：

\[G(y)=F(Ay+x_0) \]

目标转化为，构造曲线，使得其切向量为坐标轴 $e_1$。

由于

\[\frac{\partial G}{\partial y_i}(y)=\nabla F(Ay+x_0)\cdot\frac{\partial (Ay+x_0)}{\partial y_k}=\nabla F(Ay+x_0) \cdot e_i \]

代入 $y=0$ 得

\[\frac{\partial G}{\partial y_i}(0)=\nabla F(x_0) \cdot e_i=||\mu||e_n\cdot e_i \]

故只有当 $i=n$ 时偏导数非零。

运用隐函数定理，一定存在隐函数 $\varphi(y_1,y_2,\cdots,y_{n-1})$ 使得 $G(y_1,y_2,\cdots,y_{n-1},\varphi)=0$。

定义曲线 $\gamma(t)=(t,0,\cdots,0,\varphi(t,0,\cdots,0))$（在新坐标系下），注意到，曲面的法向量为坐标轴 $e_n$，所以新坐标轴中曲面的切平面为 $y_n=0$，根据直觉，$\gamma(t)$ 的切向量就是 $e_1$，下面我们证明这一点。

根据隐函数定理的结论

\[\varphi_{y^*}(0)=-\frac{G_{y^*}(0)}{G_{y_n}(0)}=\boldsymbol{0} \]

所以 $\gamma'(t)=(1,0,\cdots,0)$，转换到原坐标系下，$\gamma'(t)=e_1$。

条件极值

Thm 6.1（极小值的充分条件和必要条件）设 $f: D \subseteq \mathbb{R}^n \to \mathbb{R}$ 在 $x_0$ 附近二阶可微。

必要条件：若 $f$ 在 $x_0$ 处取局部极小值，则 $\nabla f(x_0) = 0$ 且 Hessian 矩阵 $H_f(x_0)$ 是半正定的。
充分条件：若 $\nabla f(x_0) = 0$ 且 $H_f(x_0)$ 正定，则 $f$ 在 $x_0$ 处取严格局部极小值。

由于 $x_0$ 是极小值点，必有 $\nabla f(x_0) = 0$。故：

\[f(x_0 + te) - f(x_0) = \frac{1}{2} t^2e^T H_f(x_0)e + o(\|te\|^2) \ge 0 \]

两边除以 $t^2$ 并令 $t\to 0$：

\[\lim_{t \to 0} \left[ \frac{1}{2} e^T H_f(x_0) e + \frac{o(t^2)}{t^2} \right] \ge 0 \implies e^T H_f(x_0) e \ge 0 \]

同时，若 $H_f(x_0)$ 正定，存在 $\alpha$ 使得 $x^TH_f(x_0)x\geq 4\alpha ||x||^2$（$e^TH_f(x_0)e$ 有最小值）

\[f(x_0 + \Delta x) - f(x_0) = \frac{1}{2} \Delta x^T H_f(x_0) \Delta x + o(\|\Delta x\|^2) \]

\[\ge 2\alpha \|\Delta x\|^2 + o(\|\Delta x\|^2) = \|\Delta x\|^2 \left( 2\alpha + \frac{o(\|\Delta x\|^2)}{\|\Delta x\|^2} \right) \]

故 $f(x_0)$ 严格极小。

Thm 6.3（Lagrange 乘子法）设 $U \subseteq \mathbb{R}^n$ 为开集，$f: U \to \mathbb{R}$ 可微，$\Phi: U \to \mathbb{R}^m$ 为 $C^1$ 函数（$m < n$）。记 $\Sigma = \{x \in U \mid \Phi(x) = 0\}$。

若 $x_0 \in \Sigma$ 是 $f|_\Sigma$ 的条件极值点，且 Jacobi 矩阵 $J\Phi(x_0)$ 的秩为 $m$（满秩），则存在乘子向量 $\boldsymbol{\lambda} = (\lambda_1, \dots, \lambda_m) \in \mathbb{R}^m$，使得：

\[\nabla f(x_0) = \boldsymbol{\lambda} J\Phi(x_0) \]

由于 $J\Phi(x_0)$ 满秩，不妨设左侧 $m \times m$ 部分行列式不为 0。将变量拆分为 $x = (y, z)$，其中 $y \in \mathbb{R}^m, z \in \mathbb{R}^{n-m}$。

根据隐函数定理，存在函数 $y = \psi(z)$ 使得 $\Phi(\psi(z), z) = 0$，且其导数为：

\[J\psi(z_0) = -[J_y \Phi(x_0)]^{-1} \cdot J_z \Phi(x_0) \]

设复合函数 $g(z) = f(\psi(z), z)$ 在 $z_0$ 处取得极值，故其对 $z$ 的导数为 0：

\[J_y f(x_0) \cdot J\psi(z_0) + J_z f(x_0) = 0 \]

代入 $J\psi(z_0)$，得：

\[J_z f(x_0) = J_y f(x_0) \cdot [J_y \Phi(x_0)]^{-1} \cdot J_z \Phi(x_0) \]

令 $\boldsymbol{\lambda} = J_y f(x_0) \cdot [J_y \Phi(x_0)]^{-1}$，则有：

$J_y f(x_0) = \boldsymbol{\lambda} J_y \Phi(x_0)$ （由 $\boldsymbol{\lambda}$ 定义直接得出）
$J_z f(x_0) = \boldsymbol{\lambda} J_z \Phi(x_0)$ （由上述代入式得出）

拼合即得 $\nabla f(x_0) = \boldsymbol{\lambda} J\Phi(x_0)$。

Rmk 6.1 求条件极值的时候，可以设 $L(x,\lambda)=f(x)-\lambda \Phi(x)$，则在极值处有 $\nabla L(x_0)=0$。

例：求平面 $x+y+z=0$ 与椭球面 $x^2+y^2+4z^2=1$ 交线围成的面积。

该交线是一个中心在原点的椭圆。椭圆的面积 $S = \pi ab$，其中 $a, b$ 是椭圆的半长轴和半短轴。半轴长度即为原点到交线上点的距离 $d = \sqrt{x^2+y^2+z^2}$ 的极值。

令 $f(x,y,z) = x^2+y^2+z^2$，构造函数

\[L(x,y,z,\lambda,\mu) = (x^2+y^2+z^2) - \lambda(x+y+z) - \mu(x^2+y^2+4z^2-1) \]

通过 $\nabla L = 0$ 得到：

\[\begin{cases} 2x - \lambda - 2\mu x = 0 \Rightarrow 2x(1-\mu) = \lambda \\ 2y - \lambda - 2\mu y = 0 \Rightarrow 2y(1-\mu) = \lambda \\ 2z - \lambda - 8\mu z = 0 \Rightarrow 2z(1-4\mu) = \lambda \\ x+y+z = 0 \\ x^2+y^2+4z^2 = 1 \end{cases} \]

级数

正项级数

所有项都是正数的级数称为正项级数。

Thm 7.1 若级数 $\sum_{n=1}^{\infty} a_n$ 收敛，则通项必趋于 0，即：

\[\lim_{n \to \infty} a_n = 0 \]

由 Cauchy 收敛准则立得。

若 $\sum_{i=1}^n a_i$ 收敛，则 $a_n=(S_n-S_{n-1})\to 0$（实际上是 Cauchy 收敛准则的特例）

Thm 7.2（p-级数判别法）$p$-级数

\[\sum_{n=1}^{+\infty}\frac{1}{n^p} \]

在 $p\leq 1$ 时发散，$p>1$ 时收敛。

$p>1$ 时：

\[\sum_{n=2^k}^{2^{k+1}-1} \frac{1}{n^p} < \sum_{n=2^k}^{2^{k+1}-1} \frac{1}{(2^k)^p} = 2^k \cdot \frac{1}{2^{kp}} = \left(\frac{1}{2^{p-1}}\right)^k \]

由于 $p > 1$，公比 $r = 2^{1-p} < 1$，故级数收敛。

$p\leq 1$ 时

构造发散子序列：

\[\frac{1}{2^p} + \frac{1}{3^p} > \frac{1}{2^p} + \frac{1}{2^p} = \frac{1}{2^{p-1}} \geq \frac{1}{2} \]

通过这种分块方式，$S_{2^k} \to \infty$，故原级数发散。

Thm 7.3（级数的加括号性质）

若原级数 $\sum a_n$ 收敛，则对其任意加括号（保持项的先后顺序不变）所得的新级数 $\sum v_k$ 仍然收敛，且收敛于同一个值。
反过来，若加括号后的新级数 $\sum v_k$ 收敛，且同一个括号内的项符号相同，则原级数 $\sum a_n$ 收敛。

对于第一个定理，由收敛数列的任意子列都收敛到同一个值立得。

对于第二个定理，设 $T_k = \sum_{i=1}^k v_i$ 为加括号后级数的部分和。

对于原级数的部分和 $S_n$，若其落在括号 $k$ 与 $k+1$ 之间，即 $n_k+1 \leq n \leq n_{k+1}$，且括号内项非负，则有：

\[T_k \leq S_n \leq T_{k+1} \]

若括号内项非正，则有

\[T_{k+1} \leq S_n \leq T_{k} \]

由此通过夹逼定理 $\min\{T_k, T_{k+1}\} \leq S_n \leq \max\{T_k, T_{k+1}\}$ 可证得 $S_n$ 的极限存在。

Thm 7.4（单调有界原理）对于正项级数 $\sum x_n$，其部分和序列 $\{S_n\}$ 是单调递增的。若 $\{S_n\}$ 有上界，则 $\{S_n\}$ 收敛（即级数收敛）。

例

\[\sum_{n=2}\frac{1}{\sqrt[n]{n}}\ln \frac{n^2}{(n-1)(n+1)}<\sum_{k=2}^{n+1}\left(\ln \frac{k}{k-1}-\ln \frac{k+1}{k}\right)<\ln2 \]

Thm 7.5（比较判别法） 设 $\sum x_n, \sum y_n$ 为正项级数，若存在常数 $A > 0$ 使得当 $n$ 足够大时 $x_n \leq A y_n$：

若 $\sum y_n$ 收敛 $\implies \sum x_n$ 收敛。
若 $\sum x_n$ 发散 $\implies \sum y_n$ 发散。

极限形式

设 $\lim_{n \to \infty} \frac{x_n}{y_n} = l$：

若 $0 \leq l < +\infty$： $\sum y_n$ 收敛 $\implies \sum x_n$ 收敛。
若 $0 < l \leq +\infty$： $\sum y_n$ 发散 $\implies \sum x_n$ 发散。
若 $0 < l < +\infty$： $\sum x_n$ 与 $\sum y_n$ 同收敛或同发散。

例 $\sum (e^{1/n^2}-\cos \frac{\pi}{n})$，泰勒展开变成 $(1+\pi^2/2)/n^2$，故原级数和 $1/n^2$ 的级数同敛散。

Thm 7.6（柯西根值判别法 Cauchy Root Test）令 $r = \limsup_{n \to \infty} \sqrt[n]{x_n}$

$r < 1$：级数收敛。
$r > 1$：级数发散（通项不趋于 0）。
$r = 1$：失效（无法判定，需寻找其他准则）。

利用上极限定义，当 $r < 1$ 时，存在 $q \in (r, 1)$ 及 $N$，使得当 $n \geq N$ 时 $\sqrt[n]{x_n} < q$，即 $x_n < q^n$。根据等比级数判别法，级数收敛。

当 $r>1$ 时，存在 $\{x_n\}$ 的子列 $\{x_{n_k}\}$ 收敛到 $r$，则子列求和发散，级数发散。

Thm 7.7（达朗贝尔比值判别法 d'Alembert Ratio Test）

$\limsup\frac{x_{n+1}}{x_n}<1$，收敛。
$\liminf \frac{x_{n+1}}{x_n}>1$，发散。
其它情况无法判定。

Lemma 7.7.1 $\{x_n\}$ 为正项数列，则

\[\liminf \frac{x_{n+1}}{x_n}\leq \liminf\sqrt[n]{x_n}\leq \limsup \sqrt[n]{x_n}\leq \limsup \frac{x_{n+1}}{x_n} \]

令 $r=\limsup\frac{x_{n+1}}{x_n}$，设 $r<+\infty$，任意 $\varepsilon >0$ 存在 $N$ 使得 $n\geq N$ 时

\[\frac{x_N}{x_{N+1}}<r+\varepsilon,\cdots,\frac{x_{n+1}}{x_n}<r+\varepsilon \]

故

\[\frac{x_{n+1}}{x_N}<(r+\varepsilon)^{n-N} \]

两边开 $n$ 次方根后取上极限可以得到结论。

结合 Lemma 7.7.1 和 Thm 7.6 可以证明结论。

Thm 7.8 (Raabe) 令 $r = \lim_{n \to \infty} n \left( \frac{x_n}{x_{n+1}} - 1 \right)$

$r > 1$：级数收敛。
$r < 1$：级数发散。

当比值判别法失效。Raabe 判别法能提供更细致的判定。

若 $r>1$，则存在 $s$，使得 $r>s>1$，且当 $n$ 足够大的时候

\[n\left(\frac{x_n}{x_{n+1}}-1\right)>s>1 \]

稍加变形得到

\[\frac{x_n}{x_{n+1}}>\frac{s}{n}+1 \]

尝试通过放缩把右边转化成一个“可裂项”的形式，注意到右边很像 $(1+x)^k$ 泰勒展开的一次项，我们取合适的 $t\in (1,s)$，使得

\[\frac{x_n}{x_{n+1}}>\frac{s}{n}+1>(1+\frac{1}{n})^t=\left(\frac{n+1}{n}\right)^t \]

所以 $\{n^t x_n\}$ 在某项开始是减的，假设这一项是 $A$，则有

\[x_n<\frac{A}{n^t} \]

根据 $p$-级数判别法和比较判别法可得敛散性。$r>1$ 的情况的讨论是类似的。

Thm 7.9 (Bertrand 判别法)令 $r = \lim_{n \to \infty} (\ln n) \left[ n \left( \frac{x_n}{x_{n+1}} - 1 \right) - 1 \right]$

$r > 1$：级数收敛。
$r < 1$：级数发散。

任意项级数

Thm 7.10（Abel 变换）设 $B_k = \sum_{i=1}^k b_i$ 是 $b_k$ 的部分和，则

\[\sum_{k=1}^p a_k b_k = a_p B_p - \sum_{k=1}^{p-1} (a_{k+1} - a_k) B_k \]

Thm 7.11（Abel 判别法和 Dirichlet 判别法）

Abel 判别法：$\{a_n\}$ 单调有界，$\sum b_n$ 收敛，则 $\sum a_n b_n$ 收敛。
Dirichlet 判别法：$\{a_n\}$ 单调且 $a_n\to 0$，$\{\sum_{i=1}^n b_i\}$ 有界，$\sum_{n=1}a_nb_n$ 收敛。

先证 Abel 判别法。由 $\sum_{i=1}^{\infty} b_i$ 收敛，根据 Cauchy 收敛准则

\[\left|\sum_{k=n+1}^{n+p} b_k\right|<\varepsilon \]

对 $\sum a_kb_k$ 进行 Abel 变换

\[\left|\sum_{k=n+1}^{n+p} a_kb_k\right|=\left|a_{n+p}\sum_{k=n+1}^{n+p}b_k-\sum_{k=n+1}^{n+p-1}(a_{k+1}-a_k)\left(\sum_{i=n+1}^k b_i\right)\right|\leq 3M\varepsilon \]

故 $\sum a_kb_k$ 收敛。

Dirichlet 判别法也可利用 Abel 变换证明

Thm 7.12 (Leibniz 判别法) 对于 $\sum_{n=1}^\infty (-1)^{n+1}a_n$，$a_n>0$，$a_n$ 单调递减趋于 $0$，则 $\sum(-1)^{n+1}a_n$ 收敛。

这是 Dirichlet 判别法的直接推论

例 1

\[\sum_{n=1}^\infty\sin (\sqrt{n^2+1}\pi)=\sum_{n=1}(-1)^n\sin(\sqrt{n^2+1}\pi-n\pi)=\sum(-1)^n\sin \frac{\pi}{\sqrt{n^2+1}+n} \]

收敛。

例 2

\[1+\frac{1}{2}+\cdots+\frac{1}{n}-\ln n\to \gamma\Rightarrow \sum_{k=1}^n\frac{1}{k}=\ln n+\gamma+O\left(\frac{1}{n}\right) \]

\[\sum_{n=1}^{\infty}(-1)^{n+1}\frac{1}{n}=\ln 2 \]

\[S_{2n}=\left(1+\frac{1}{2}+\cdots+\frac{1}{2n}\right)-\left(1+\frac{1}{2}+\cdots+\frac{1}{n}\right)=\ln 2+O\left(\frac{1}{n}\right) \]

例 3

已知数列 $\{a_n\}$ 单调且 $\lim_{n \to \infty} a_n = 0$，则三角级数 $$\sum_{n=1}^{\infty} a_n \sin(nx)$$ 收敛

$x=2k\pi$，显然收敛。
$x\neq 2k\pi$ 时，积化和差

\[2\sin\frac{x}{2}\left(\sum_{k=1}^n \sin kx\right)=\cos \frac{x}{2}-\cos\frac{2n+1}{2}x \]

所以 $\sum \sin nx$ 有界。用 Leibniz 判别法可以证明原级数收敛。

**Df 7.1（绝对收敛和条件收敛） **

绝对收敛 (Absolutely Convergent)： 若 $\sum |a_n|$ 收敛，则 $\sum a_n$ 绝对收敛。
条件收敛 (Conditionally Convergent)： 若 $\sum a_n$ 收敛，但 $\sum |a_n|$ 发散，则 $\sum a_n$ 条件收敛。

Thm 7.13（绝对收敛蕴含收敛）若 $\sum |a_n|$ 收敛，则 $\sum a_n$ 收敛。

若级数 $\sum |a_n|$ 绝对收敛，说明其部分和序列趋于极限。根据 Cauchy 收敛准则，对于任意 $\varepsilon > 0$，存在 $N$，使得当 $n > N$ 时，对于任意正整数 $p$，满足：

\[|a_{n+1}| + |a_{n+2}| + \dots + |a_{n+p}| < \varepsilon \]

故

\[|a_{n+1} + a_{n+2} + \dots + a_{n+p}| \leq |a_{n+1}| + |a_{n+2}| + \dots + |a_{n+p}|<\varepsilon \]

因此，原级数 $\sum a_n$ 必然收敛。

例：讨论 $\sum_{n=1}^\infty \frac{x^n}{n^p}$ 的敛散性。

由于

\[\lim_{n\to \infty}\sqrt[n]{\frac{|x|^n}{n^p}}=|x| \]

$|x|<1$ 时，Cauchy 判别法，$\sum \frac{|x|^n}{n^p}$ 收敛，$\sum \frac{x^n}{n^p}$ 也收敛。
$|x|>1$ 时，Cauchy 判别法，$\sum \frac{|x|^n}{n^p}$ 发散，且 $\frac{|x|^n}{n^p}$ 不趋近于 $0$，故 $\sum \frac{x^n}{n^p}$ 发散。
$x=1$，等价于判断 $\sum \frac{1}{n^p}$ 的敛散性。
$x=-1$，$p>1$ 绝对收敛，$0<p\leq 1$ 条件收敛，$p\leq 0$ 发散。

Rmk 7.1 正项级数的发散判别条件在任意项级数仍然成立，但是一般是通过数列不趋于 $0$ 来证明。

Df 7.2（数列的正项和负项）

定义数列的正项

\[x_n^+ = \max(x_n, 0) = \begin{cases} x_n, & x_n > 0 \\ 0, & x_n \leq 0 \end{cases} \]

类似定义负项

\[x_n^- = \max(-x_n, 0) = \begin{cases} -x_n, & x_n < 0 \\ 0, & x_n \geq 0 \end{cases} \]

$x_n^+$，$x_n^-$，$x_n$，$|x_n|$ 有如下关系

分解公式： $x_n = x_n^+ - x_n^-$
绝对值公式： $|x_n| = x_n^+ + x_n^-$
算术表示：

\[x_n^+ = \frac{|x_n| + x_n}{2}, \quad x_n^- = \frac{|x_n| - x_n}{2} \]

Thm 7.14（正项、负项的收敛性和绝对收敛、条件收敛的关系）

级数 $\sum x_n$ 绝对收敛的充要条件是正项级数 $\sum x_n^+$ 和负项级数 $\sum x_n^-$ 同时收敛。
若级数 $\sum x_n$ 条件收敛，则正项部分 $\sum x_n^+$ 和负项部分 $\sum x_n^-$ 必然都发散趋于 $+\infty$。

根据上面的公式，结合级数的四则运算法则可以证明。

Thm 7.15（级数的重排定理）

绝对收敛：若 $\sum u_n$ 绝对收敛且和为 $S$，则对其项进行任何双射重排 $\varphi: \mathbb{N}_+ \to \mathbb{N}_+$，得到的级数 $\sum u_{\varphi(n)}$ 依然绝对收敛，且和仍为 $S$。
条件收敛：若 $\sum a_n$ 条件收敛，则对于任意实数 $S \in \mathbb{R}$（或 $S = \pm \infty$），都存在一种重排方式，使得重排后的级数收敛于 $S$。

绝对收敛的情况

设 $N_n$ 为满足

\[\{1,2,\cdots,N\}\subseteq \{m_1,m_2,\cdots,m_n\} \]

的最大的 $N$，则

\[\left|\sum _{k=1}^n a_{m_k}-\sum_{k=1}^{N_n} a_k\right|\leq \sum_{k=N_0+1}^{+\infty} |a_k| \]

人话：把 $\{m_k\}$ 在值域上最长的一个连续前缀消掉，剩下的项只能在后缀中取。

由于 $N_n\to +\infty(n\to +\infty)$，两边取极限即可。

条件收敛的情况

设 $\{b_n\}$ 为所有正项，$\{c_n\}$ 为所有负项的绝对值。因为级数条件收敛，$\sum b_n = +\infty$ 且 $\sum c_n = +\infty$，但 $b_n, c_n \to 0$。

假设我们要收敛到目标值 $S$：

Step 1： 不断累加正项 $\{b_n\}$，直到总和刚好超过 $S$。
Step 2： 接着累加负项 $\{-c_j\}$，直到总和刚好低于 $S$。
Step 3： 重复这个“超过 $\to$ 低于 $\to$ 超过”的过程。

每次超出或低于 $S$ 的幅度，由当前加入的最后一项决定（即 $a_{k_n}^+$ 或 $a_{l_n}^-$）因为通项 $a_n \to 0$，所以这个波动的幅度会趋于 0。故部分和序列被紧紧夹在 $S$ 两侧，最终必然收敛于 $S$。

posted @ 2026-04-14 12:09 yllcm 阅读(26) 评论(1) 收藏举报

刷新页面返回顶部

yllcm