《计算机应用数学》学习笔记 —— 只是一些概率论、组合数学、信息论、统计学、复分析和图论

\[% 希腊字母 \def \a {\alpha} \def \b {\beta} \def \d {\delta} \def \eps {\varepsilon} \def \g {\gamma} \def \la {\lambda} \def \o {\omega} \def \O {\Omega} \def \ph {\varphi} \def \t {\theta} \def \D {\Delta} \def \G {\Gamma} \def \s {\sigma} \def \S {\Sigma} % mathrm & mathbb \def \dd {\mathrm{d}} \def \DD {\mathrm{D}} \def \e {\mathrm{e}} \def \i {\mathrm{i}} \def \N {\mathbb{N}} \def \Z {\mathbb{Z}} \def \Q {\mathbb{Q}} \def \R {\mathbb{R}} \def \C {\mathbb{C}} % 环境 \def \bf {\mathbf} \def \rm {\mathrm} \def \sf {\mathsf} \def \tt {\texttt} \def \al {\mathcal} \def \scr {\mathscr} \def \op {\operatorname} \def \bal{\begin{aligned}} \def \eal {\end{aligned}} \def \bc {\begin{cases}} \def \ec {\end{cases}} \def \bpm {\begin{pmatrix}} \def \epm {\end{pmatrix}} \def \bvm {\begin{vmatrix}} \def \evm {\end{vmatrix}} % 数学符号 \def \l {\left} \def \r {\right} \def \fr {\frac} \def \sq {\sqrt} \def \pr {\Pr} \def \pif {{+\infty}} \def \ov {\overline} \def \ud {\underline} \def \bs {\backslash} \def \sm {\setminus} \def \mps {\mapsto} \def \str {\stackrel} \def \dash {\textendash} \def \gr {\op{grad}} \def \na {\nabla} \def \pa {\partial} \def \fo {\forall} \def \xeq {\xlongequal} \def \szn {\sum_{i = 0} ^ n} \def \son {\sum_{i = 1} ^ n} \newcommand{\abs}[1]{\left| #1 \right|} \newcommand{\an}[1]{\left \langle #1 \right\rangle} \newcommand{\p}[2]{\fr {\pa #1} {\pa #2}} \newcommand{\tm}[1]{\mathcal{O}{\l(#1\r)}} % 微积分 \def \ait {\int_{-\infty} ^ \pif} % all intergral \def \git {\int_0 ^ \pif} % 质因数 \def \gd {\mathcal N} % Gaussian distribution % 普物 \def \hx {\hat x} \def \hy {\hat y} \def \hz {\hat z} \def \hr {\hat r} \def \ht {\hat \t} \def \vr {\vec r} \def \vt {\vec \tau} \def \vv {\vec v} \def \vf {\vec F} \def \va {\vec a} \def \vl {\vec L} \def \vp {\vec p} \def \vo {\vec \omega} \def \dv {\op{div}} \def \cu {\op{curl}} % 计算理论 \def \lr {\leftrightarrow} \def \vd {\vdash} \def \vD {\vDash} \def \fo {\forall} \def \ex {\exists} \def \ra {\Rightarrow} \def \ras {\Rightarrow ^ *} \def \poly {\mathsf{poly}} \def \TIM {\mathsf{TIME}} \def \NTIM {\mathsf{NTIME}} \def \P {\mathsf{P}} \def \NP {\mathsf{NP}} \def \NPC {\mathsf{NPC}} \def \NPH {\mathsf{NPH}} \def \EXP {\mathsf{EXP}} \def \NEXP {\mathsf{NEXP}} \def \SP {\mathsf{SPACE}} \def \NSP {\mathsf{NSPACE}} \def \PSP {\mathsf{PSPACE}} \def \PSPC {\mathsf{PSPACE\, \dash \, Complete}} \def \PSPH {\mathsf{PSPACE\, \dash \, Hard}} \def \NPSP {\mathsf{NPSPACE}} \def \L {\mathsf{L}} \def \NL {\mathsf{NL}} \def \NLC {\mathsf{NLC}} \def \NLH {\mathsf{NLH}} \def \PA {\mathsf{PATH}} \def \SAT {\mathsf{SAT}} \def \TQBF {\mathsf{TQBF}} \def \UST {\mathsf{USTCON}} \]

只是一些概率论、信息论、组合数学、复分析和图论——《计算机应用数学》学习笔记

线性代数还在追我😅——《人工智能应用数学》学习笔记

作业 50%，期中期末各 25%。

Topic 1: Probability Theory Basics

概率空间 probablity space

随着概率问题变得越来越复杂，我们需要概率的精确的数学定义。

离散情况下，概率空间 \(P = (U, p)\) 由以下组成：

样本空间 universe \(U\) 是非空有限集。
概率函数 probability function \(p : U\to [0, 1]\) 且 \(\sum_{x\in U} p(x) = 1\)。

\(P\) 的一个事件 event \(T\) 是 \(U\) 的子集，\(T\) 的概率 \(\pr(T) = \sum_{x\in T} p(x)\)。

三门问题 Monte Hall problem

一个经典问题。

一个门后有大奖，选定一个门之后会得知一个不是当前门的没有大奖的门。

如果不切换，那么概率是一开始选中的概率 \(\frac 1 3\)。

如果在剩下两个门随机选，那么概率是 \(\frac 1 2\)。

如果切换，那么概率是一开始没选中的概率 \(\frac 2 3\)。

在描述概率空间时需要小心：直觉有可能导致错误的结果！

基本计数规则 basic counting rules

生日悖论 birthday paradox

\(U = \{(x_1, \cdots, x_n) \mid 1\leq x_i \leq 365\}\)，\(T = \{(x_1, \cdots, x_n) \mid \exists j\neq k, x_j = x_k \}\)。

\[q(n) = 1 - \prod_{i = 0} ^ {n - 1} \left(1 - \frac {i} {365}\right). \]
根据经典不等式 \(\e ^ {-x} \geq 1 - x,\ \forall x \geq 0\) 可知

\[q(n) \geq 1 - \exp(-\frac {n(n - 1)} {2\times 365}) \equiv d(n). \]
\(d(n)\) 是对 \(q(n)\) 的良好近似。给定概率 \(0.5\)，计算 \(q(n) = 0.5\) 的 \(n\) 可以用 \(d(n) = 0.5\) 近似。

\[\begin{aligned} \exp(-\frac {n(n - 1)} {2\times 365}) & = 0.5, \\ \frac {n(n - 1)} {2\times 365} & = \ln 2 = 0.69, \\ x & = \sqrt {2\times 365 \times 0.69} = 22.44. \end{aligned} \]

基本计数规则 basic counting rules：对于均匀的概率函数，\(\pr(T) = |T| / |U|\)。计算 \(\pr(T)\) 等价于计算 \(T\) 的大小。

加法原理 addition rule：如果 \(S\) 是 \(S_{1\sim k}\) 的无交并，则 \(|S| = \sum_{i = 1} ^ k |S_i|\)。
乘法原理 multiplication rule：如果 \(S\) 的每个元素可以和 \(s = (i_1, \cdots, i_m)\) 一一对应，其中 \(1\leq i_k \leq c_k\)，则 \(|S| = \prod c_{1\sim m}\)。

37% 法则 the 37% rule

\(x\) 是均匀随机的 \(1\sim n\) 的排列。在不知道之后的数的情况下依次决定每个数是否选择，最多选一个数，希望选中 \(n\)。

策略 \(k\)：跳过前 \(k\) 个数，选择第一个 \(x_j\) 使得 \(x_j > \max x_{1\sim k}\)。分析其概率：

（加法原理）设 \(T\) 是使得策略成功的排列，\(T_j\) 为 \(T\) 中使得 \(x_j = n\) 的排列，则 \(T\) 是 \(T_{k < j \leq n}\) 的无交并。

（乘法原理）使得 \(x_j = n\) 的排列有 \((n - 1)!\) 个，落在 \(T\) 中要求 \(\max x_{1\sim j - 1} = \max x_{1\sim k}\)，概率是 \(\frac k {j- 1}\)。

综上，

\[\pr(T) = \sum_{j = k} ^ {n - 1} \frac {k(n - 1)!} {(j - 1)n!} = \frac k n\left(H_{n - 1} - H_{k - 1}\right) \approx -\frac k n\ln\frac k n. \]
求导可知在 \(\frac k n = \frac 1 {\e}\) 时最优，最优值为 \(\frac 1 {\e} = 0.37\)。

基本概率工具 essential probability tools

#1 布尔不等式 Bool's inequality, union bound：对有限多个事件 \(T, T_1, \cdots, T_m\)，若 \(T\subseteq \bigcup_{i = 1} ^ m T_i\)，则 \(\pr(T) \leq \sum_{i = 1} ^ m \pr(T_i)\)。若 \(T_i\) 两两无交且 \(T\) 是 \(T_i\) 的无交并，则不等式取等。

这些很简单的不等式可以给出很惊人的结论。

拉姆齐数 Ramsey number：点数不小于 \(R(r, s)\) 的图一定存在 \(r\) 个点的团或 \(s\) 个点的独立集。\(R(k) = R(k, k)\)。

Ramsey 定理：对任意 \(k\geq 3\)，存在 \(N\) 使得对任意 \(N\) 个点的图，图上有大小为 \(k\) 的完全图或独立集。\(R(3) = 6\)。

作业：证明 \(R(k) \leq \binom {2k - 2} {k - 1} < 4 ^ k\)。具体是先证明 \(R(r, s)\leq R(r - 1, s) + R(r, s - 1)\) 然后归纳。

Theorem

\[R(k) \geq \lfloor 2 ^ {k / 2}\rfloor. \]
Paul Erdos 1947.

Proof

设 \(n\leq 2 ^ {k / 2}\)。

对于大小为 \(k\ (k\geq 3)\) 的点集 \(V\)，在随机图上 \(V\) 形成完全图的概率为 \(2 ^ {-k(k - 1) / 2}\)。根据布尔不等式，至少存在一个完全图或独立集的概率不超过

\[\binom n k \times 2 \times 2 ^ {-k(k - 1) / 2} \leq 2\frac {n ^ k} {k!2 ^ {k(k - 1) / 2}} \leq 2\frac {2 ^ {k ^ 2 / 2}} {k!2 ^ {k(k - 1) / 2}} = \frac {2 ^ {k / 2 + 1}}{k!} < 1. \]
\(\square\)

概率方法 probabilistic method：通过概率分析而非显式构造来证明一个数学对象的存在性。由 Paul Erdos 创立。

#2a 条件概率 conditional probability：给定 \(T\) 之后 \(S\) 发生的概率称为 \(S\) 关于 \(T\) 的条件概率。

\[\pr(S \mid T) = \begin{cases} \pr(S \cap T) / \pr(T), & \pr(T) \neq 0; \\ 0, & \pr(T) = 0. \end{cases} \]

在逻辑上，\(\pr(S\cap T)\) 和 \(\pr(S\cup T)\) 经常写为 \(\pr(S\land T)\) 和 \(\pr(S\lor T)\)。

#2b 链式法则 chain rule：

\[\pr(S\cap T) = \Pr(T) \Pr(S \mid T). \]

\[\Pr(S_1\cap \cdots\cap S_m) = \prod_{1\leq j\leq m} \Pr(S_j \mid S_1\cap \cdots \cap S_{j - 1}). \]

将链式法则应用在生日悖论上：设 \(S_j\) 是所有 \(x_j\notin x_{1\sim j - 1}\) 的 \(x\) 的集合。

分配律 distributive law：设 \(T\subseteq W_1\cup \cdots \cup W_m\)，那么

\[\Pr(T)\leq \sum_{1\leq j\leq m} \Pr(W_j) \Pr(T \mid W_j). \]

若 \(W_j\) 两两无交，则不等式取等。注意这里不要求 \(T\) 是它们的无交并。这是加法原理和乘法原理的推广。

Topic 2: Statistics on a Probability Space

条件概率（续）conditional probability continued

两个事件 \(S, T\) 相互独立 independent，若 \(\pr(S \mid T) = \pr(S)\)。即 \(\pr(S\cap T) = \pr(S) \pr(T)\)。也就是说，\(S, T\) 之间，一个事件发生不会影响另一个事件发生的概率。

当 \(S_n\subseteq S_{n - 1} \subseteq \cdots \subseteq S_1\) 时，

\[\pr(S_n) = \pr(S_1)\prod_{i = 2} ^ n \pr(S_i\mid S_{i - 1}). \]

排列的环长 cycle length in a permutation

设 \(L_i(\s)\) 表示 \(\s\) 的包含 \(i\) 的环长。注意到

\[\pr(L_1 > s \mid L_1 > s - 1) = \fr {n - s} {n - s + 1}. \]
而 \(\pr(L_1 > 0) = 1\)。由链式法则，对任意 \(1\leq s \leq n\)，

\[\pr(L_1 = s) = \fr 1 n. \]

团的贪心算法 greedy clique algorithm

贪心地检查每个点能否和当前的团形成团。

设 \(A(G)\) 是最终得到的团，则对于随机图，

\[\pr(|A(G) - \log_2 n| \leq \log_2\log_2n) = 1 - o(1). \]
上界

在集合已经有 \(c\) 个元素时，新加入一个点的概率为 \(\fr 1 {2 ^ c}\)。

设 \(K = \log_2 n + \log_2\log_2 n\)，设 \(T_i\) 表示第 \(K\) 个加入的点是 \(i\) 的事件，由分配律，

\[\pr(|A(G)| > K) = \sum_{i = 2} ^ n \pr(T_i) \pr(|A(G)| > K \mid T_i). \]
考虑到

\[\pr(|A(G)| > K\mid T_i) \leq \fr {n - i} {2 ^ K} \leq \fr n {2 ^ K} = \fr 1 {\log_2 n}, \]
于是

\[\pr(|A(G)| > K) \leq \fr 1 {\log_2 n} \sum_{i = 2} ^ n \pr(T_i) \leq \fr 1{\log_2 n} = o(1). \]
上界的 \(\log_2 n + f(n)\) 中，\(f(n)\) 可以是增长任意缓慢的函数，只要 \(f(n)\to \pif\)。

下界见本章最后。

N 门问题 n doors problem

每个人只允许打开 \(\fr n 2\) 扇门。

一个人的成功概率是 \(\fr 1 2\)，但是两个人都成功的概率可以大于 \(\fr 1 4\)。策略：两个人事先约定门的排列 \(\s\)，每个人从自己对应的门开始找。成功的概率是两个人的宠物所在环长均不超过 \(\fr 1 2\) 的概率，是 \(\fr 3 8\)。

所有人都成功的概率等于没有环长超过 \(\fr 1 2\) 的概率，使用组合数学得到 \(1 - (H_n - H_{n / 2}) = 1 - \ln 2 \approx 31\%\)。

随机变量 random variable

一个 随机变量 是一个函数 \(X : U\to R\)。它的期望 expectation \(E[X] = \sum_{u\in U} p(u) X(u)\)。

定义期望的和 \(Z = aX + bY\) 为 \(Z(u) = aX(u) + bY(u)\)。

#3 期望的线性性 law of linear expectation：若 \(X = \sum_{i = 1} ^ n C_iX_i\)，则

\[E[X] = \sum_{i = 1} ^ n C_iE[X_i]. \]

环的个数的期望 expected number of cycles

设 \(X\) 表示环的数量，则 \(X = \sum_{i = 1} ^ n \fr 1 {L_i(\s)}\)。由期望的线性性，

\[E[X] = n E\left[\fr 1 {L_i}\right] = n\sum_{i = 1} ^ n \fr 1 {n} \cdot \fr 1 i = H_n. \]

条件期望 conditional expectation：

\[E[X\mid T] = \fr {\sum_{u\in T} p(u)X(u)} {\pr(T)}. \]

#4 期望的分配律 distributive law for expectation：设 \(U\) 是 \(W_1, \cdots, W_n\) 的无交并，则

\[E[X] = \sum_{i = 1} ^ n\pr(W_i) E[X\mid W_i]. \]

几何分布的期望 mean of the geometric distribution

抛掷一枚正面概率为 \(p\) 的硬币，设 \(X\) 是第一次抛出正面的次数。

\[E[X] = p + (1 - p)(1 + E[X]) \implies E[X] = \fr 1 p. \]

随机变量 \(X\) 的方差 variance：

\[\operatorname{Var}(X) = E[(X - E[X]) ^ 2] = E[X ^ 2] - E[X] ^ 2. \]

标准差 standard deviation：

\[\s(X) = \sqrt {\operatorname{Var}(X)}. \]

因此方差通常也写作 \(\s ^ 2\)。

几何分布的方差 variance of the geometric distribution

\[E[X ^ 2] = p + (1 - p)E[(1 + X) ^ 2] \implies \s ^ 2(X) = \fr {1 - p} {p ^ 2}. \]

称 \(X, Y\) 是 独立随机变量 independent random variable，若

\[\Pr(X = x\cap Y = y) = \pr(X = x) \pr(Y = y). \]

此时

\[\begin{aligned} E[XY] & = E[X] E[Y], \\ \s ^ 2(X + Y) & = \s ^ 2(X) + \s ^ 2(Y). \end{aligned} \]

方差衡量了随机变量的分散程度。

尾部估计 tail estimates

概率工具其五。

马尔可夫不等式 Markov's inequality：

设 \(X\) 是非负随机变量。对任意 \(c > 0\)，

\[\pr(X > cE[X]) < \fr 1 c. \]

Proof

\[E[X] > \pr(X > cE[X]) \cdot cE[X] \]
\(\square\)

另一种形式为

\[\pr(X > c) < \fr {E[X]} c. \]

切比雪夫不等式 Chebyshev's inequality：

\[\pr(|X - E[X]| > c\s(X)) < \fr 1 {c ^ 2}. \]

Proof

对 \(|X - E[X]|\) 使用 Markov 不等式，得到

\[\pr(|X - E[X]| > c\s(X)) = \pr((X - E[X]) ^ 2 > c ^ 2\s ^ 2(X)) < \fr 1 {c ^ 2}. \]
\(\square\)

界不是很紧，但适用范围非常广泛。

团的贪心算法的下界 lower bound of the greedy clique problem

设 \(X_j\) 表示第 \(j\) 个加入的结点编号，\(Y_j = X_{j + 1} - X_{j}\)。

Observation

\(Y_j\) 是概率为 \(b_j = \fr 1 {2 ^ j}\) 的几何分布。

\[E[Y_j] = 2 ^ j, \quad \s ^ 2(Y_j) = \fr {1 - b_j} {b_j ^ 2} = 4 ^ j - 2 ^ j. \]

设 \(K = \log_2 n - \log_2\log_2 n\)，那么问题等价于

\[\pr\left(\left(X' \equiv \sum_{j = 1} ^ K Y_j\right) \leq n - 1\right) = 1 - o(1). \]
根据期望的线性性，

\[E[X'] = \sum_{j = 1} ^ K 2 ^ j = 2 ^ {1 + K} - 2\leq \fr {2n} {\log_2 n}. \]
因为 \(Y\) 是独立随机变量，所以

\[\s ^ 2(E') = \sum_{j = 1} ^ K (4 ^ j - 2 ^ j) = \fr 4 3(4 ^ K - 1) - 2(2 ^ K - 1) \leq 2 \left(\fr {n} {\log_2 n}\right) ^ 2. \]
若 \(X' > n - 1\)，那么 \(X' - E[X'] > \fr n 2\)。于是

\[\pr(X' \geq n - 1) \leq \pr\left(X' - E[X'] > \fr n 2\right). \]
由 Chebyshev 不等式，

\[\pr\left(X' - E[X'] > \fr n 2\right) \leq \fr {4\s ^ 2(X')} {n ^ 2} \leq \fr {8} {(\log_2 n) ^ 2}. \]
\(\square\)

Topic 3: Tail bounds continued

切比雪夫不等式 Chebyshev's inequality

使用 Chebyshev 不等式时，需要计算 \(E[X]\) 和 \(\s(X) = E[X ^ 2] - E[X] ^ 2\)。\(E[X ^ k]\) 称为 k 阶矩 the k-th moment。

随机图的最大团（下界） largest clique of a random graph (lower bound)

设 \(m = (2 - \eps) \log_2 n\)，\(M\) 是所有大小为 \(m\) 的子集。

对每个 \(V\in M\) 设随机变量 \(A\)，\(A_V(G) = 1\) 当且仅当 \(V\) 是团。考虑 \(X = \sum_{V\in M} A_V(G)\)，\(T\) 表示 \(w(G)\geq m\)，则 \(\pr(T) = \pr(X > 0)\)。

考虑以下两个命题：

当 \(n\to \pif\) 时，\(E[X]\to \infty\)。

\(\s ^ 2(X) = E[X] ^ 2 \cdot o(1)\)。

若命题成立，则根据 Chebyshev 不等式，

\[\pr(X \leq 0) \leq \pr(|X - E[X]| > \fr 1 2 E[X]) \leq \fr {\s ^ 2(X)}{\fr 1 4E[X] ^ 2} = o(1). \]
Proof (1)

使用 Stirling 公式 \(n!\approx \sqrt {2\pi n}(n / e) ^ n\)，

\[\bal E[X] & = \binom n m \fr 1 {2 ^ {\binom m 2}} \\ & \geq \Omega \left(\fr {n ^ m} {\sqrt {2\pi m} (m / \e) ^ m} \cdot \fr 1 {2 ^ {m(m - 1) / 2}}\right) \\ & = \Omega \left(\left(\fr {\e n} {(2\pi m) ^ {1 / 2m} \cdot m} \cdot \fr 1 {2 ^ {m / 2}}\right) ^ m\right) \\ & = \Omega \left(\left(\fr {0.01 n} {\log_2 n} \cdot \fr 1 {n ^ {1 - \eps / 2}}\right) ^ m\right) \\ & = n ^ {\Omega(\log_2 n)}. \eal \]
Proof (2)

对 \(|V\cap V'| = 1\)，\(A_V\) 和 \(A_{V'}\) 是独立的。于是

\[\begin{aligned} \s ^ 2(X) & \leq E\l[\sum_{V, V'} A_VA_{V'}\r] - \sum_{|V\cap V'| \leq 1}E[A_V]E[A_{V'}] \\ & = E\l[\sum_V A_V + \sum_{|V\cap V'| > 1} A_VA_{V'}\r] \\ & \leq E[X] + \sum_{2\leq k\leq m} \sum_{|V\cap V'| = k} E[A_VA_{V'}] \\ & = E[X] + \sum_{2\leq k\leq m} \sum_{|V\cap V'| = k} \pr(A_{V'} = 1 \mid A_V = 1)\pr(A_V = 1) \\ & = E[X] + \sum_{2\leq k\leq m} \sum_{V} \pr(A_V = 1) \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \\ & = E[X] + E[X] \sum_{2\leq k\leq m} \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \\ & \leq E[X] + \fr {64 m ^ 5} {n} E[X] ^ 2. \end{aligned} \]
其中最后一步用到引理（作业）

\[\sum_{2\leq k\leq m} \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \leq \fr {m ^ 5} {n - m + 1} E[X]. \]
而 \(m \leq 2\log_2 n\) 且 \(E[X]\to \pif\)（把前面那一项放掉），所以 (2) 成立。\(\square\)

概率估计的几何解释

设随机变量 \(X = \sum_{i = 1} ^ n X_i\)，其中 \(X_i\) 分别有 \(\fr 1 2\) 的概率等于 \(0\) 和 \(1\)。

计算得 \(E[X] = \fr n 2\)，\(\s(x) = \sqrt {\sum \s ^ 2(X_i)} = \fr {\sqrt n} 2\)。使用 Chebyshev 不等式，

\[\pr(|X - \mu| \geq 10 \cdot \s) \leq \fr 1 {100}. \]

如果使用 Markov 不等式，则会得到很差的结果，因为标准差和均值不在同一个数量级。

考虑 \(f(x) = 1(x\geq a)\)，则 \(\pr(X\geq a) = E[f(x)]\)。考虑 \(g(x)\geq f(x)\)，则

\[\pr(X\geq a) = E[f(x)] \leq E[g(x)]. \]

如果 \(g(x)\) 是一个方便计算期望的函数，那么我们就得到了 \(\pr(X\geq a)\) 的一个估计。

当 \(g(x) = \fr x a\) 时，得到 Markov 不等式：

\[\pr(X \geq a) \leq E[g(x)] = \fr {E[x]} a. \]

当 \(g(x) = \fr {(x - \mu) ^ 2} {(\mu - a) ^ 2}\) 时，得到 Chebyshev 不等式：

\[\pr(X\geq \mu + c\s) \leq E[g(x)] = \fr {E[(x - \mu) ^ 2]} {(\mu - (\mu + c\s)) ^ 2} = \fr {\s ^ 2} {c ^ 2\s ^ 2} = \fr 1 {c ^ 2}. \]

现在我们考虑更激进的估计方法：指数函数。

切诺夫界 Chernoff bound

因为 \(f(x)\) 在 \(x\geq a\) 时等于 \(1\)，所以指数上 \(x\) 的系数必须是正数。考虑到 \(g(a) = 1\) 的条件，\(g(x) = \e ^ {t(x - a)}\)，其中 \(t\) 是待定系数。另一种解释是使用 Markov 不等式

\[\pr(X\geq a) = \pr(\e ^ X \geq \e ^ a) \leq \fr{E[\e ^ {tX}]} {\e ^ {ta}}. \]

\(t = 0\) 时得到 \(\pr(X \geq a) \leq 1\)，没有用。\(t\to \pif\) 时，\(x\geq a\) 的部分又会增长太快导致估计得不好。我们要找到最好的 \(t\) 使得 \(E[g(x)]\) 最小。

切诺夫界 Chernoff bound：设随机变量 \(X = \sum_{i = 1} ^ n X_i\)，其中 \(\pr(X_i = 1) = b_i\)，\(\pr(X_i = 0) = 1 - b_i\)，则

\[\begin{aligned} & \pr(X\geq (1 + \d) \mu) \leq \exp(-\fr {\d ^ 2} {2 + \d}\mu),\ \d > 0. \\ & \pr(X\leq (1 - \d) \mu) \leq \exp(-\fr {\d ^ 2} 2\mu),\ 0 < \d < 1. \end{aligned} \]

Proof

设 \(a = (1 + \d) \mu\)。

由 Markov 不等式，

\[\pr(X > (1 + \d) \mu) \leq \fr {E[\e ^ {tX}]} {\e ^ {t(1 + \d)\mu}}. \]
根据经典不等式 \(1 + x \leq \e ^ x\)，

\[\begin{aligned} E[\e ^ {tX}] & = \prod \e ^ {tX_i} \\ & = \prod(1 - b_i + b_i\e ^ t) \\ & \leq \prod \exp(b_i(\e ^ t - 1)) \\ & = \exp((\e ^ t - 1)\sum b_i) \\ & = \exp((\e ^ t - 1)\mu). \end{aligned} \]
最小化 \((\e ^ t - 1)\mu - t(1 + \d)\mu\)，得到 \(t_0 = \ln(1 + \d)\)，所以

\[\pr(X > (1 + \d) \mu) \leq \left(\fr {\e ^ {\d}} {(1 + \d) ^ {(1 + \d)}}\right) ^ \mu. \]
根据 \(\ln(1 + x) \geq \fr {2x} {2 + x}\) 得到

\[\d - \ln(1 + \d) (1 + \d) \leq -\fr {\d ^ 2} {2 + \d}. \]
于是

\[\pr(X > (1 + \d)\mu) \leq \exp(-\fr {\d ^ 2} {2 + \d} \mu). \]
类似可以证明

\[\pr(X < (1 - \d)\mu) \leq \left(\fr {\e ^ {-\d}} {(1 - \d) ^ {(1 - \d)}}\right) ^ \mu \leq \exp(-\fr {\d ^ 2} {2} \mu). \]
\(\square\)

取 \(\d = 10 \sqrt {\fr 1 n}\)，则当 \(n\to \pif\) 时，

\[\pr(X > \mu + 10 \s) = \pr(X > \left(1 + \d\right) \mu) \leq \exp(-\fr {\d ^ 2 n} {5}) \leq \e ^ {-20}. \]

Corollary 1

\[\pr(X\geq (1 + \d)\mu) \leq \exp(-\fr 1 3\d ^ 2\mu),\quad \d > 0. \]
\[\pr(X\leq (1 - \d) \mu) \leq \exp(-\fr 1 2\d ^ 2 \mu), \quad 0 \leq \d < 1. \]
Corollary 2

当 \(c > 7E[X]\) 时，

\[\pr(X > c) < 2 ^ {-c}. \]

Chernoff 界的平均值形式：对于 \(\ov X = \fr 1 n X\)，\(\mu' = \fr \mu n\)，有

\[\pr(|\overline X - \mu'| \geq \eps) = \pr(|X - \mu| \geq n\eps) \leq 2\exp(-\fr {(\fr {n\eps} \mu) ^ 2 \mu} {2 + \fr {n\eps} \mu}) \leq 2\exp(-\fr {n\eps ^ 2} {2 + \eps}). \]

其中最后一个不等号成立是因为 \(\mu \leq n\)。常数 \(2\) 是对两侧分别使用 Chernoff 界得到的。

霍夫丁不等式 Hoeffding's inequality：设 \(X_i\in [a, b]\) 是有界随机变量，则对任意 \(t\geq 0\)，

\[\pr(\ov X - E[\ov X] \geq t) \leq \exp(-\fr {2nt ^ 2} {(b - a) ^ 2}). \]

伯努利不等式 Bernoulli inequality：设 \(X_i\sim B(p)\)，则对任意 \(\eps > 0\)，都有

\[\pr(|\mu - p| > \eps) \leq 2 \e ^ {-2n\eps}. \]

还讲了一个关于鞅的 Azuma 不等式。太难不看。

Topic 4: Advanced Applications

熵 entropy

熵是定量描述随机性的工具。随机变量 \(X\) 的熵定义为

\[H(X) = -\sum_x \pr(X = x) \log_2\pr(X = x) = E\l[\log_2\fr 1{\pr(X)}\r]. \]

当 \(X\) 是二元随机变量时，设 \(p = \pr(X = 1)\)，则

\[H(p)\equiv H(X) = -p\log_2 p - (1 - p)\log_2(1 - p). \]

联合熵 joint entropy

\[H(X, Y) = E\l[\log_2 \fr 1 {\pr(X, Y)}\r]. \]

如果 \(X\) 和 \(Y\) 独立，那么 \(H(X, Y) = H(X) + H(Y)\)。

接下来主要研究二元随机变量。

熵和二项系数 entropy and binomial coefficients

设 \(nq\) 是 \([0, n]\) 的整数。

\[\fr {2 ^ {nH(q)}} {n + 1} \leq \binom n {nq} \leq 2 ^ {nH(q)}. \]
Proof

对于上界，直接二项展开。

\[\binom {n} {nq} \leq q ^ {-qn} (1 - q) ^ {-(1 - q)n} = 2 ^ {-qn\log_2 q - (1 - q)n\log_2(1 - q)} = 2 ^ {nH(q)}. \]
对于下界，考虑相邻两个二项系数的差

\[\binom n kq ^ k(1 - q) ^ {n - k} - \binom n {k + 1} q ^ {k + 1} (1 - q) ^ {n - k - 1} = \binom n kq ^ k (1 - q) ^ {n - k}\l(1 - \fr {q} {1 - q} \fr {n - k} {k + 1}\r). \]
可知当 \(k \leq nq - 1 + q\) 时差非负。所以当 \(k = nq\) 时取到最大值，其大于平均值 \(\fr 1 {n + 1}\)，再使用类似上界的方法即可。\(\square\)

熵衡量了能够从随机变量中提取的均匀独立的比特的数量。

提取函数 extract function

以下内容比较神秘，我也没怎么听懂。

设 \(X\) 是集合 \(\mathcal{X}\) 里的随机变量。定义提取函数 \(\rm {Ext} : \mathcal{X} \to \{0, 1\} ^ *\)，要求对任意满足 \(\pr(|\rm {Ext}(x)| = k) > 0\) 的 \(k\)，都有

\[\pr(\rm {Ext}(X) = y \mid | \rm {Ext}(X)| = k) = \fr 1 {2 ^ k}. \]

将 \(X\) 的每个可能结果映射到任意 \(01\) 序列，满足如果一个序列有可能出现，那么所有这个长度的序列会等概率出现。当 \(p = \fr 1 2\) 时，所有情况等可能发生，可以将结果映到自身，得到 \(n\) 比特的随机性。当 \(p\neq \fr 1 2\) 时，得到的随机性会小于 \(n\) 比特。有以下定理。

Theorem

设硬币抛出正面的概率 \(p > \fr 1 2\)。对任意常数 \(\d > 0\) 和充分大的 \(n\)，

任意 \(\rm {Ext}(\cdot)\) 关于 \(n\) 次独立抛硬币结果的平均输出长度不超过 \(nH(p)\)。

存在 \(\rm {Ext}(\cdot)\) 关于 \(n\) 次独立抛硬币结果的平均输出长度不小于 \((1 - \d)n H(p)\)。

Part 1

Lemma

如果输入序列 \(x\) 出现的概率为 \(q\)，那么 \(|\rm {Ext}(x)| \leq -\log_2 q\)。

Proof

因为所有长度为 \(|\rm {Ext}(x)|\) 的输出序列概率相同，所以 \(2 ^ {|\rm {Ext}(x)|}q\leq 1\)。

设 \(B\) 表示 \(|\rm {Ext}(x)|\)，则

\[E[B] = \sum_x \pr(X = x) |\rm {Ext}(x)| \leq \sum_x \pr(X = x) \log_2 \fr {1} {\pr(X = x)} = H(X). \]
\(\square\)

Part 2

Lemma

假设 \(X\) 在 \(\{0, \cdots, m - 1\}\) 中均匀随机选择，则 \(H(X) = \log_2 m\)。存在 \(X\) 的提取函数平均长度不小于 \(\log_2 m - 2\)。

Proof

设 \(\alpha = \lfloor\log_2 m\rfloor\)，对 \(0 \sim 2 ^ \alpha - 1\)，输出长度为 \(\alpha\)，递归下去。

\[\sum_{i = 1} ^ \alpha i2 ^ {\alpha - i} = \mathcal{O}(2 ^ \alpha). \]

设 \(\eps < p - \fr 1 2\)。考虑 \(k\in [n(p - \eps), n(p + \eps)]\)。由以上引理，存在对出现 \(k\) 个正面的序列（\(Z = k\)）的提取函数，其平均长度

\[E_k \geq \log_2 \binom n k - 2 \geq \log_2 \binom n {\lfloor n(p + \eps)\rfloor} - 2 \geq \log_2\fr {2 ^ {nH(p + \eps)}} {n + 1} - 2. \]
于是存在提取函数的平均长度

\[E[B]\geq \sum_k \pr(Z = k) E_k \geq (nH(p + \eps) - \log_2(n + 1) - 2)\pr(|Z - np| \leq \eps n). \]
根据 \(E[Z] = np\) 和 Chernoff 界，

\[\pr(|Z - np| \leq \eps n) \geq 1 - 2\exp(-\fr {n\eps ^ 2} {3p}). \]
\(\square\)

压缩函数 compression function

定义压缩函数

\[\rm {Com} : \{0, 1\} ^ * \to \{0, 1\} ^ *, \]

满足对任意 \(x\neq x'\)，\(\rm {Com}(x)\) 不是 \(\rm {Com}(x')\) 的前缀。

Huffman 编码。

Theorem

设 \(p > 1 / 2\)。对任意 \(\d > 0\)，当 \(n\) 足够大时：

存在 \(\rm {Com}\) 期望长度不超过 \((1 + \d) nH(p)\)。

任意 \(\rm {Com}\) 期望长度至少 \((1 - \d) n H(p)\)。

香农定理 Shannon's theorem

信息论的经典定律。

在一个有噪音的频道上，每一位有 \(p\) 的概率翻转。可以传输 \(n\) 比特的数据，求最多能可靠地传输多少比特的数据。形式化地，定义 \((k, n)\) 编码函数和解码函数

\[\rm {Enc} : \{0, 1\} ^ k\to \{0, 1\} ^ n,\quad \rm {Dec} : \{0, 1\} ^ n \to \{0, 1\} ^ k. \]

找到最大的 \(k\) 满足存在 \((k, n)\) 编码和解码函数使得成功概率不小于 \(1 - \eps\)。

香农定理 Shannon's theorem

\[k_{\max} = n(1 - H(p)). \]
\(1 - H(p)\) 项称为 频道容量 channel capacity。具体地，对任意 \(\d, \eps > 0\)，当 \(n\) 足够大时：

对任意 \(k\leq n(1 - H(p) - \d)\)，存在 \((k, n)\) 编码解码使得错误率不超过 \(\eps\)。

对任意 \(k \geq n(1 - H(p) + \d)\)，不存在 \((k, n)\) 解码编码使得错误率不超过 \(\eps\)。

Proof

不妨设 \(p < 0.5\)。我们证明第一部分，即存在性。

设 \(k = n(1 - H(p) - \d)\)，考虑编码函数的像集 \(\al C = \{c_1, \cdots, c_M\}\)，其中 \(M = 2 ^ k\)。

设 \(\tilde c_i\) 是 \(c_i\) 通过频道的结果。

考虑 Hamming 距离。由 Chernoff bound，存在 \(\g\) 使得

\[\pr((p - \g) n \leq d_H(c_i, \tilde c_i) \leq (p + \g)n) \geq 1 - \fr \eps 2. \]
选择最小的 \(\g\) 并定义

\[\rm {Ring}(c_i) = \{c \mid |d_H(c_i, c) - np| \leq \g n\}. \]
那么 \(\pr(\tilde c_i \in \rm{Ring} (c_i)) \geq 1 - \fr \eps 2\)。

设事件 \(\rm {Suc}_i(\al C)\) 表示 \(\tilde c_i\in \rm{Ring}(c_i)\) 且对任意 \(j\neq i\)，\(\tilde c_i\notin \rm{Ring}(c_j)\)，即根据编码传输的结果能够唯一正确解码。我们希望 \(\pr(\rm{Suc}_i(\al C))\) 对每个 \(i\) 都很大。

Lemma 1

\(\rm {Ring}(c_i)\) 的大小不超过 \(2 ^ {(H(p) + \d')n}\)，其中当 \(n\to \pif\) 时 \(\d'\to 0\)。

作业，气笑了。

Proof

大致思路是用 Chernoff 界找到 \(\g\) 的上界，然后把 \(|\rm {Ring}(c_i)|\) 放到 \((2\g n + 1)\binom n {n(p + \g)}\)，再使用熵和二项系数的不等式关系即可。

均匀随机地选择 \(c_1 \sim c_M\)。

考虑整体不成功的情况

\[\rm {Fail}(\al C) = (\exists i,\ \tilde c_i\notin \rm{Ring}(c_i))\lor (\exists i\neq j,\ \tilde c_i \in \rm{Ring}(c_j)). \]
其中前面一部分对每个 \(i\) 都是 \(\fr {\eps} 2\)，不妨忽略掉。由引理，

\[\pr(\tilde c_i \in \rm {Ring}(c_j)) = \fr {|\rm {Ring}(c_j)|} {2 ^ n} = 2 ^ {(H(p) + \d' - 1) n}. \]
根据 Bool 不等式以及 \(k = n(1 - H(p) - \d)\)，

\[\pr(\rm{Fail}(\al C)) \leq M ^ 2 2 ^ {(H(p) + \d' - 1)} = 2 ^ {2k + (H(p) - 1 + \d') n} \to \pif. \]

上面出现问题的原因是这样得到的界是要求所有通信同时成功，但只要每个通信成功的概率都很大就可以。所以我们不能对所有 \((i, j)\) 同时使用 Bool 不等式。

第一步：先选 \(2M\) 个，平均下来是好的（引理 2）。

第二步：丢掉最差的那一半。

设 \(\la_i(\al C) = 1 - \pr(\rm{Suc}_i(\al C))\)。

Lemma 2

对所有 \(i\) 和 \(\al C\)，

\[E[\la_i(\al C)] \leq \eps. \]
Proof

因为 \(\tilde c\in \rm{Ring}(c)\) 当且仅当 \(c\in \rm{Ring}(\tilde c)\)，且 \(c_j\) 是均匀随机的，所以由引理 1，

\[\pr(\tilde c_i \in \rm{Ring}(c_j) \mid \tilde c_i\in \rm{Ring}(c_i)) \leq 2 ^ {(H(p) + \d' - 1) n}. \]
使用 Bool 不等式，

\[\pr(\rm{Fail}_i(\al C)) \leq 2M \cdot 2 ^ {(H(p) + \d' - 1)n} + \fr \eps 2 = 2 ^ {1 + (k / n + H(p) - 1 + \d')n} + \fr \eps 2. \]
因为 \(\fr k n < 1 - H(p)\) 且 \(\d' \to 0\)，所以前一项随着 \(n\) 增大而趋于 \(0\)。\(\square\)

由引理 2，存在 \(\al C ^ *\) 好于平均，即

\[\fr 1 {2M} \sum_{i = 1} ^ {2M} \la_i(\al C ^ *)\leq \eps. \]
只保留 \(\al C ^ *\) 最好（即 \(\la_i\) 较小）的那一半，得到 \(\al C\)。对任意 \(i\)，\(\la_i(\al C) \leq 2\eps\)。\(\square\)

一些非负整数的中位数不会超过平均值的两倍。

概率方法。

如果理解了证明的第二部分的本质，会发现这个 \(2\) 可以换成任意大于 \(1\) 的常数。

超立方体路径规划问题 hypercube networking routing problem

在一个 \(n\) 维超立方体上，每个点要向另外一个点发送信息。信息只能在边上传播，且每条边单位时间恰好能传播一条消息。所有点的目标形成排列，希望找到对任意排列都能在合理时间内完成的传输方式。

Bit-Fixing Algorithm (BSA)

每次找到第一个不同的位然后翻转，长度是 \(d_H(i, \s(i))\)。

设 \(n\) 是奇数，构造 \(\s(u0v) = v1u\)，延迟是指数级别的：当 \(v = 0 ^ {(n - 1) / 2}\) 时，\(2 ^ {(n - 1) / 2}\) 条消息要穿过 \((0 ^ n, 0 ^ {(n - 1) / 2} 1 0 ^ {(n - 1) / 2})\)。

Randomized BSA (Valiant 1981)

给每个点随机中间点 \(m_i\)（不一定是排列），用 BFA 先从 \(i\) 传输到 \(m_i\)，等到 \(t = 6n\)，再从 \(m_i\) 传到 \(\s(i)\)。

设事件 \(B_\s\) 表示对于任意排列 \(\s\)，传输在 \(12n\) 时间内完成，则 \(\pr(B_i) > 1 - \al O(2 ^ {-3n})\)。只需证明每一部分的延时大于 \(6n\) 的概率为 \(\al O(2 ^ {-3n})\)。

考虑第一部分。设 \(T_i\) 表示 \(i\) 在第一部分的用时，即证 \(\pr(\exists i\in V,\ T_i > 6n) = \mathcal{O}(2 ^ {-3n})\)。根据 Bool 不等式和分配律，即证以下引理：

Lemma

固定 \(m_i = u\)，其它 \(v_j\) 随机，则 \(\pr(T_i > 6n \mid m_i = u) = \al O(2 ^ {-4n})\)。

Proof

设 \(S\) 表示 \(P(j, v_j)\) 和 \(P(i, m_i)\) 有交的 \(j\neq i\) 的 \(j\) 的集合，则

Observation

\(T_i \leq d_H(i, m_i) + |S|\)。

证明是作业。

直觉是每条路径只会卡一次。先证明两条路径的交是区间，再势能分析即可。

根据观察，只需证明以下结论：

Proposition

\[\pr(|S| > 5n) = \al O (2 ^ {-4n}). \]
Proof

考虑 Chernoff 界 \(\pr(X > c) \leq 2 ^ {-c},\ c > 7\mu\)，只需证明 \(E[|S|] \leq \fr 5 7 n\)。

注意到一条翻转第 \(p\) 位的边 \(u\to v\) 只会被起点和 \(u\) 在第 \(p\sim n\) 位相同，且终点和 \(v\) 在第 \(1\sim p\) 位相同的 \((i, m_i)\) 经过，所以随机路径这条边的概率为 \(\fr 1 {2 ^ {n + 1}}\)。因此经过这条边的路径数量的期望为 \(\fr 1 2\)。

而 \(|S|\) 显然不大于 \(i\to m_i\) 上每条边被经过的路径数量，而路径最多有 \(n\) 条边，所以 \(E[|S|]\leq \fr n 2\)。\(\square\)

\(\square\)

总结一下，证明分成两部分，每一部分都很符合直觉。

一条路径的延时不超过和这条路径有交的路径数量。

在随机路径下，和一条路径有交的路径数量不多，因为经过一条边的路径数量的期望很小，且路径长度不大。

Topic 5: Monte Carlo Methods

蒙特卡洛方法：估计圆的面积，估计积分的数值，估计事件发生的概率。使用随机采样法估计难以数值计算的结果。核心想法是根据某种分布随机采样 \(X_{1\sim N}\)，并使用 \(\fr 1 n \sum_{i = 1} ^ n f(X_i)\) 来估计 \(E[f(x)]\)。

挑战之一是根据 \(p(x)\) 的分布生成随机变量。

连续随机变量 continous random variable

连续随机变量 是有不可数个可能取值的随机变量。一个经典的例子是一段区间上的实数。

连续随机变量 \(X\) 的 概率密度函数 probability density function (PDF) 是函数 \(p(x)\)，满足对任意区间 \([a, b]\)，

\[\pr(a\leq X\leq b) = \int_a ^ b p(x)\dd x. \]

要求 \(p(x)\geq 0\) 且 \(\int_{-\infty} ^ {\pif} p(x) \dd x = 1\)。

类似定义 \(X\) 的期望和方差

\[E[X] = \int_{-\infty} ^ {\pif} xp(x)\dd x,\quad \s ^ 2(X) = \int_{-\infty} ^ {\pif} (x - E[X]) ^ 2 p(x)\dd x. \]

蒙特卡洛方法 Monte Carto methods

重要性采样 importance sampling

估计 \(E[f(X)]\)，其中 \(X\sim p\)。如果根据 \(p\) 采样是困难的，可以考虑根据 \(q\) 采样，并给出重要性采样的估计

\[\hat I_N = \fr 1 N \sum_{i = 1} ^ n f(Y_i) \fr {p(Y_i)} {q(Y_i)},\quad Y_i\sim q. \]

于是

\[E[\hat I_N] = E\left[f(Y_i) \fr {p(Y_i)} {q(Y_i)}\right] = \int f(y) \fr {p(y)} {q(y)} \cdot q(y)\dd y = \int f(y) p(y) \dd y = I. \]

注意这里要求当 \(p(x) > 0\) 时 \(q(x) > 0\)。\(q\) 不能忽略原来有概率得到的样本。

本来以 \(p\) 的概率分布采样，现在以 \(q\) 的概率分布采样，所以每一小段区间的权重变成了原来的 \(\fr q p\)，需要除回去。

需要多少采样才能以 \(1 - \d\) 的概率做到 \(\eps\) 近似？考虑 Chebyshev 不等式

\[\pr(|\hat I_N - E[\hat I_N]| \geq \eps) \leq \fr {\s ^ 2 (\hat I_n)} {\eps ^ 2}. \]

由随机采样的独立性（注意 \(\hat I_N\) 的定义前面有个 \(\fr 1 N\)），

\[\s ^ 2 (\hat I_N) = \fr 1 N \left(\int \fr {f ^ 2 (y) p ^ 2 (y)} {q(y)} \dd y - I ^ 2\right). \]

最优的 \(q(y)\) 可以使得方差为 \(0\)：令 \(q(y) = \fr {f(y)p(y)} {\int f(y)p(y)\dd y}\)，则

\[\s ^ 2(\hat I_N) = \fr 1 N \left(I\int f(y)p(y)\dd y - I ^ 2\right) = 0. \]

但是 \(q(y)\) 无法计算，因为它用到了我们想要采样的结果 \(I\)。我们需要可以采样的 \(q\)，且方差越小越好。

拒绝采样 rejection sampling

考虑分布 \(g(x)\) 以及常数 \(C\) 使得 \(f(x) \leq C g(x)\)。根据 \(g(x)\) 生成采样 \(X\)，以 \(\fr {f(x)} {Cg(x)}\) 的概率接受。如果接受，输出 \(X\)，否则重复该过程。

本质上是在函数图像下采样，\(f(x)\) 被 \(C g(x)\) 包裹住。于是接受的概率为 \(f(x)\) 的面积除以 \(Cg(x)\) 的面积，即

\[\pr(\text{accept}) = \fr {\int_{-\infty} ^ {\pif} f(x) \dd x} {C} = \fr {A} {C} \]

考虑最终采样 \(Y\) 不大于 \(y\) 的概率：

\[\bal \pr(Y \leq y) & = \pr(X\leq y \mid \rm {accept}) \\ & = \fr {\pr(X\leq y \land \rm{accept})} {\pr (\rm {accept})} \\ & = \fr C A \int_{-\infty} ^ y g(x) \fr {f(x)} {Cg(x)} \dd x \\ & = \fr {\int_{-\infty} ^ y f(x)\dd x} {\int_{-\infty} ^ {\pif} f(x)\dd x}. \eal \]

\(f(x)\) 可以是任意非负函数而不必须是概率分布。

Topic 6: Generating Functions

当初怎么没有好好学 OI？

生成函数 generating functions

把数列当成无穷级数就是 生成函数。

对于数列 \(\{a_k\}\)，其生成函数为

\[A(x) = \sum_{k = 0} ^ n a_kx ^ k. \]

于是，对函数建立的实分析和复分析理论也可以用于分析数列了。

Theorem

设 \(X\in \mathbb N\) 是随机变量。对于 \(p_k = \pr(X = k)\)，设 \(A(x) = \sum_{k \ge 0}p_kx ^ k\)，则

\[\begin{aligned} A'(x) & = \sum_{k\geq 1} kp_kx ^ {k - 1}, \\ A''(x) & = \sum_{k\geq 2} k(k - 1)p_kx ^ {k - 2}, \\ A'(1) & = \sum_{k\geq 1} kp_k = E[X], \\ A''(1) & = \sum_{k\geq 2} k(k - 1)p_k = E[X ^ 2] - E[X], \\ \s ^ 2(X) & = E[X ^ 2] - E[X] ^ 2 = A''(1) + A'(1) - A'(1) ^ 2. \end{aligned} \]

Example

设 \(X\) 是 \(n\) 次抛掷以 \(b\) 概率为正面的硬币，则

\[A(x) = (bx + (1 - b)) ^ n. \]
于是 \(E[X] = A'(1) = bn\)，\(\s ^ 2(X) = b ^ 2n(n - 1) + bn - b ^ 2n ^ 2 = b(1 - b)n\)。

生成函数的基本运算：加减法 \(A(x) + B(x)\) 和卷积 convolution \(A(x) \cdot B(x)\)。

Fibonacci numbers

将 Fibonacci 数列的递推式 \(a_{k} = a_{k - 1} + a_{k - 2}\) 代入生成函数的式子，得到

\[A(x) = \sum_{k = 0} a_k x ^ k = 1 + x + \sum_{k = 2} (a_{k - 1} + a_{k - 2}) x ^ k. \]
于是

\[A(x) = 1 + x + x(A(x) - 1) + x ^ 2A(x) \implies A(x) = \fr 1 {1 - x - x ^ 2}. \]
进行部分分式分解，

\[\fr 1 {1 - x - x ^ 2} = \fr 1 {(1 - \fr {1 + \sqrt 5} 2x) (1 - \fr {1 - \sqrt 5} 2x)}. \]
裂项后使用 \(\fr 1 {1 - ax} = \sum_{k \geq 0} a ^ kx ^ k\) 即得

\[a_n = \fr {1} {\sqrt 5}\l(\l(\fr {1 + \sqrt 5} 2 \r) ^ n - \l(\fr {1 - \sqrt 5} 2 \r) ^ n\r). \]

number of triangluations for a convex n-gon (Catalan numbers)

设 \(a_n\) 表示 \(n + 2\) 边形的不同三角剖分的数量。特别定义 \(a_0 = 1\)。

对于 \(n\geq 3\)，考虑 \((1, 2)\) 这条边所属三角形的另一个顶点，得到递推式

\[a_n = \sum_{k = 0} ^ {n - 1} a_k a_{n - 1 - k}. \]
于是

\[A(x) = 1 + \sum_{n\geq 1} \sum_{k = 0} ^ {n - 1} a_k a_{n - 1 - k} x ^ n = 1 + xA(x) ^ 2. \]
解得

\[A(x) = \fr {1 - \sqrt {1 - 4x}} {2x}, \]
其中 \(\fr {1 + \sqrt {1 + 4x}} 2\) 的解被忽略了，因为它不满足 \(A(0) = a_0 = 1\)。

进一步地，由二项式定理，

\[A(x) = \fr {1 - \sum_{k\geq 0} \binom {1 / 2} {k} (-4) ^ kx ^ k} {2x} = -\fr 1 2\sum_{k\geq 1} \binom {1 / 2} k (-4) ^ kx ^ {k - 1}. \]
而（作业）

\[\binom {1 / 2} {n + 1} = \fr {(-1) ^ n} {2n + 1} \fr 1 {2 ^ {2n + 1}} \binom {2n + 1} n, \]
所以

\[a_n = -\fr 1 2 \binom {1 / 2} {n + 1} (-4) ^ {n + 1} = \fr 1 {2n + 1} \binom {2n + 1} n = \fr 1 {n + 1} \binom {2n} {n}. \]
称为 Catlan 数。

up-down permutations

定义波浪排列为 \(\s(1) < \s(2) > \s(3) < \cdots > \s(n)\)，其中 \(n\) 是奇数。

枚举 \(k = \s ^ {-1}(n)\)，则 \([1, k - 1]\) 和 \([k + 1, n]\) 都是波浪排列。得到递推式

\[a_n = \sum_{\mathrm{odd}\ k\geq 1} \binom {n - 1}k a_k a_{n - 1 - k}. \]
转成 EGF 得到

\[nb_n = \sum_{\mathrm{odd}\ k\geq 1} b_kb_{n - 1 - k}. \]
设 \(B(x) = \sum_{\mathrm{odd}\ n} nb_nx ^ {n - 1}\)，则

\[B'(x) = 1 + \sum_{\mathrm{odd} \ n\geq 3} \sum_{\mathrm{odd}\ k\geq 1} b_{k}b_{n - 1 - k}x ^ {n - 1} = 1 + B(x) ^ 2. \]
解得 \(B(x) = \tan x\)。

复分析工具 complex analysis tools

欧拉公式 Euler's formula：考虑 \(\e ^ x\)，\(\cos x\) 和 \(\sin x\) 的幂级数，得到

\[\e ^ {\i x} = \cos x + \i \sin x. \]

复积分 complex integration：设 \(f\) 是复函数。设 \(\G\) 是从 \(z_0 = a\in \mathbb C\) 到 \(z_m = b\in \mathbb C\) 的路径，\(z_{0\sim m}\) 将路径 \(m\) 等分。则

\[\int_\G f(z)\dd z = \lim_{m\to \pif}D_m = \lim_{m\to \pif}\sum_{0\leq k \leq m - 1} f(z_k)(z_{k + 1} - z_k). \]

前提是极限存在。

对参数化曲线 \(\g : [a, b] \to \mathbb C\)，定义

\[\int_\g f(z)\dd z = \int_a ^ b f(\g(t)) \g'(t)\dd t. \]

Cauchy 积分定理 Cauchy's integral theorem

如果 \(f(z)\) 是分析函数（全纯函数），则闭合曲线上的复积分 \(\oint_\g f(z)\dd z = 0\)。对任意起止点相同的曲线，积分结果相同。

Cauchy 积分公式 Cauchy's integral formula

如果 \(f\) 在 \(z_0\) 以外的点可微，则

\[\oint_\g \fr {f(z)} {z - z_0} \dd z = 2\pi \i f(z_0). \]

只需考虑在 \(z_0\) 附近的小圆 \(C_\eps\)：\(z = z_0 + \eps \e ^ {\i \t}\)，\(\dd z = \i \eps \e ^ {\i \t}\dd \t\)。

\[\oint_{C_{\eps}} \fr {f(z)} {z - z_0}\dd z = f(z_0) \int_0 ^ {2\pi} \fr {i \eps \e ^ {i\t}}{\eps \e ^ {i\t}}\dd \t = 2\pi \i f(z_0). \]

\(f\) 不解析的点称为奇点 singularities。其中，称 \(f\) 在 \(z_0\) 处有阶为 \(m\) 的极点 poles，若 \((z - z_0) ^ mf(z)\) 在 \(z_0\) 处全纯且非零。此时可以展开成 Laurent 级数

\[f(z) = \sum_{n = -m} ^ {\infty} a_n(z - z_0) ^ n. \]

本质即考虑 \((z - z_0) ^ mf(z)\) 的 Taylor 展开。

留数定理 the residue theorem

Laurant 级数当中的 \(a_{-1}\) 称为 \(f(z)\) 在 \(z_0\) 处的留数 residue，记为 \(\rm{Res}(f, z_0)\)。对于恰好包含一个极点 \(z_0\) 的环路 \(\g\)，

\[\oint_\g f(z) \dd z = 2\pi \i \cdot \rm{Res}(f, z_0). \]

Proof

对 \(n \neq -1\)，

\[\oint_{C_\eps} a_n(z - z_0) ^ n\dd z = a_n\eps ^ {n + 1} \int_0 ^ {2\pi} \e ^ {i\t(n + 1)} \i \dd \t = \left.\fr {a_n \eps ^ {n + 1}} {n + 1} \e ^ {i\t (n + 1)} \right|_0 ^ {2\pi} = 0. \]
对 \(n = -1\)，使用 Cauchy 积分公式即可。\(\square\)

Cauchy 留数定理 Cauchy's residue theorem

扩展到多个极点的情况，

\[\oint_\g f(z) \dd z = 2\pi \i \sum_{k = 1} ^ n \rm{Res}(f, z_k). \]

对于简单极点（\(m = 1\)），\(\rm{Res}(f, z_0) = \lim_{z\to z_0} (z - z_0)f(z)\)。

对于阶为 \(m\) 的极点，乘以 \((z - z_0) ^ m\) 之后做 Taylor 展开。

\[\rm{Res}(f, z_0) = \fr 1 {(m - 1)!}\lim_{z\to z_0} \fr {\dd ^ {m - 1}} {\dd z ^ {m - 1}} [(z - z_0) ^ m f(z)]. \]

up-down permutations continued

考虑将 \(\tan x\) 在 \(x = 0\) 处展开得到

\[\tan x = \sum_{\rm{odd}\ n} b_n x ^ n. \]
用 \(\tan z = \fr {2\sin z} {2\cos z}\) 定义

\[\tan z = \fr {\e ^ {\i z} - \e ^ {-\i z}} {\i (\e ^ {\i z} + \e ^ {-\i z})}. \]
设 \(\b_n\) 表示 \(f_n = \fr {\tan z} {z ^ {n + 1}}\) 在 \(z = 0\) 处的留数，则 \(\b_n = b_n\)。

Lemma 1

\(f_n\) 的所有极点为 \(z = 0\) 和 \(z_m = (m - \fr 1 2)\pi\)。

Lemma 2

\[b_n = -\sum_{m\in \mathbb Z} \rm{Res}(f_n, z_m). \]
只需证明以原点为中心的 \(2m\pi \times 2m\pi\) 的矩形上的积分随着 \(m\to \pif\) 而趋于 \(0\) 即可。

考虑

\[\l|\int_\G f(z)\dd z\r| \leq \max_{z\in \G} |f(z)| \cdot L(\G), \]
其中 \(L(\G)\) 表示 \(\G\) 的长度。

根据以上引理，可以证明（作业）对偶数 \(n\)，\(b_n = 0\)，且对奇数 \(n\)，

\[b_n = 2 \left(\fr 2 \pi\right) ^ {n + 1} \sum_{k\in \mathbb N} \fr 1 {(2k + 1) ^ {n + 1}}. \]
代入 \(n = 1\) 得到

\[\fr 1 {1 ^ 2} + \fr 1 {3 ^ 2} + \fr 1 {5 ^ 2} + \cdots = \fr {\pi ^ 2} 8. \]
于是 \(\zeta(2) = \fr {\pi ^ 2} {8} + \fr 1 4\zeta(2)\)，解得 \(\zeta(2) = \fr {\pi ^ 2} 6\)。

integral evaluation

\[\int_{-\infty} ^ {\pif} \fr 1 {1 + x ^ 4}\dd x. \]
设 \(f(z) = \fr 1 {1 + z ^ 4}\)，则 \(f(z)\) 有极点 \(z_j = \exp(\i \cdot \fr {j} {4} \pi) (j\in {\pm 1, \pm 3})\) 和对应留数 \(r_j = -\fr {z_j} 4\)（洛必达）。

设 \(\G_R\) 是上半平面以原点为中心，半径为 \(R\) 的半圆，则 \(-\fr 1 4(z_1 + z_3) = \fr 1 {2\pi\i} \int_{\G_R} f(z)\dd z\)。

Topic 7: Matrix Tree Theorem

矩阵树定理 matrix tree theorem

生成树计数。

凯莱定理 Cayley's formula：\(\#sp(K_n) = n ^ {n - 2}\)。

拉普拉斯矩阵 Laplacian matrix：\(L_G = (l_{ij})\)，其中 \(l_{ii} = \deg(v_i)\)，\(l_{ij} = -[(i, j)\in E]\)。

记 \(A ^ {(i)}\) 表示删掉第 \(i\) 行第 \(i\) 列的代数余子式。

矩阵树定理 matrix tree theorem：

\[\forall 1\leq i\leq |V|,\ \# sp(G) = \det(L_G ^ {(i)}). \]

Proof

柯西-比内公式 Cauchy-Binet formula：对 \(n\times m\ (n\leq m)\) 矩阵 \(A， B\) 和 \([1, n]\) 的子集 \(S\)，

\[\det(A B ^ T) = \sum_{|S| = n} \det(A_S) \det(B_S). \]

设 \(|V|\times |E|\) 矩阵 \(A\)，对任意 \(e_j = (u_j, v_j)\ (u_j < v_j)\)，\(A_{u_j, j} = 1\) 且 \(A_{v_j, j} = -1\)，则 \(AA ^ T = L_G\)。

设 \(A'\) 是 \(A\) 删去第 \(i\) 行的结果，则 \(A'(A') ^ T = L_G ^ {(i)}\)。

由 Cauchy-Binet 公式，

\[\det(L_G ^ {(i)}) = \sum_{|S| = n - 1} \det(A'_S) ^ 2. \]

Lemma

\(|\mathrm{det}(A'_S)| = 1\) 当且仅当 \(\{e_k \mid k\in S\}\) 是生成树。

作业。

posted @ 2025-03-01 17:31 qAlex_Weiq 阅读(784) 评论(2) 收藏举报

刷新页面返回顶部

qAlex_Weiq