《计算机应用数学》学习笔记 —— 只是一些概率论、组合数学、信息论、统计学、复分析和图论

\[% 希腊字母 \def \a {\alpha} \def \b {\beta} \def \d {\delta} \def \eps {\varepsilon} \def \g {\gamma} \def \la {\lambda} \def \o {\omega} \def \O {\Omega} \def \ph {\varphi} \def \t {\theta} \def \D {\Delta} \def \G {\Gamma} \def \s {\sigma} \def \S {\Sigma} % mathrm & mathbb \def \dd {\mathrm{d}} \def \DD {\mathrm{D}} \def \e {\mathrm{e}} \def \i {\mathrm{i}} \def \N {\mathbb{N}} \def \Z {\mathbb{Z}} \def \Q {\mathbb{Q}} \def \R {\mathbb{R}} \def \C {\mathbb{C}} % 环境 \def \bf {\mathbf} \def \rm {\mathrm} \def \sf {\mathsf} \def \tt {\texttt} \def \al {\mathcal} \def \scr {\mathscr} \def \op {\operatorname} \def \bal{\begin{aligned}} \def \eal {\end{aligned}} \def \bc {\begin{cases}} \def \ec {\end{cases}} \def \bpm {\begin{pmatrix}} \def \epm {\end{pmatrix}} \def \bvm {\begin{vmatrix}} \def \evm {\end{vmatrix}} % 数学符号 \def \l {\left} \def \r {\right} \def \fr {\frac} \def \sq {\sqrt} \def \pr {\Pr} \def \pif {{+\infty}} \def \ov {\overline} \def \ud {\underline} \def \bs {\backslash} \def \sm {\setminus} \def \mps {\mapsto} \def \str {\stackrel} \def \dash {\textendash} \def \gr {\op{grad}} \def \na {\nabla} \def \pa {\partial} \def \fo {\forall} \def \xeq {\xlongequal} \def \szn {\sum_{i = 0} ^ n} \def \son {\sum_{i = 1} ^ n} \newcommand{\abs}[1]{\left| #1 \right|} \newcommand{\an}[1]{\left \langle #1 \right\rangle} \newcommand{\p}[2]{\fr {\pa #1} {\pa #2}} \newcommand{\tm}[1]{\mathcal{O}{\l(#1\r)}} % 微积分 \def \ait {\int_{-\infty} ^ \pif} % all intergral \def \git {\int_0 ^ \pif} % 质因数 \def \gd {\mathcal N} % Gaussian distribution % 普物 \def \hx {\hat x} \def \hy {\hat y} \def \hz {\hat z} \def \hr {\hat r} \def \ht {\hat \t} \def \vr {\vec r} \def \vt {\vec \tau} \def \vv {\vec v} \def \vf {\vec F} \def \va {\vec a} \def \vl {\vec L} \def \vp {\vec p} \def \vo {\vec \omega} \def \dv {\op{div}} \def \cu {\op{curl}} % 计算理论 \def \lr {\leftrightarrow} \def \vd {\vdash} \def \vD {\vDash} \def \fo {\forall} \def \ex {\exists} \def \ra {\Rightarrow} \def \ras {\Rightarrow ^ *} \def \poly {\mathsf{poly}} \def \TIM {\mathsf{TIME}} \def \NTIM {\mathsf{NTIME}} \def \P {\mathsf{P}} \def \NP {\mathsf{NP}} \def \NPC {\mathsf{NPC}} \def \NPH {\mathsf{NPH}} \def \EXP {\mathsf{EXP}} \def \NEXP {\mathsf{NEXP}} \def \SP {\mathsf{SPACE}} \def \NSP {\mathsf{NSPACE}} \def \PSP {\mathsf{PSPACE}} \def \PSPC {\mathsf{PSPACE\, \dash \, Complete}} \def \PSPH {\mathsf{PSPACE\, \dash \, Hard}} \def \NPSP {\mathsf{NPSPACE}} \def \L {\mathsf{L}} \def \NL {\mathsf{NL}} \def \NLC {\mathsf{NLC}} \def \NLH {\mathsf{NLH}} \def \PA {\mathsf{PATH}} \def \SAT {\mathsf{SAT}} \def \TQBF {\mathsf{TQBF}} \def \UST {\mathsf{USTCON}} \]

只是一些概率论、信息论、组合数学、复分析和图论——《计算机应用数学》学习笔记

线性代数还在追我😅——《人工智能应用数学》学习笔记

作业 50%,期中期末各 25%。

Topic 1: Probability Theory Basics

概率空间 probablity space

随着概率问题变得越来越复杂,我们需要概率的精确的数学定义。

离散情况下,概率空间 \(P = (U, p)\) 由以下组成:

  • 样本空间 universe \(U\) 是非空有限集。
  • 概率函数 probability function \(p : U\to [0, 1]\)\(\sum_{x\in U} p(x) = 1\)

\(P\) 的一个 事件 event \(T\)\(U\) 的子集,\(T\) 的概率 \(\pr(T) = \sum_{x\in T} p(x)\)

三门问题 Monte Hall problem

一个经典问题。

一个门后有大奖,选定一个门之后会得知一个不是当前门的没有大奖的门。

  • 如果不切换,那么概率是一开始选中的概率 \(\frac 1 3\)
  • 如果在剩下两个门随机选,那么概率是 \(\frac 1 2\)
  • 如果切换,那么概率是一开始没选中的概率 \(\frac 2 3\)

在描述概率空间时需要小心:直觉有可能导致错误的结果!

基本计数规则 basic counting rules

生日悖论 birthday paradox

\(U = \{(x_1, \cdots, x_n) \mid 1\leq x_i \leq 365\}\)\(T = \{(x_1, \cdots, x_n) \mid \exists j\neq k, x_j = x_k \}\)

\[q(n) = 1 - \prod_{i = 0} ^ {n - 1} \left(1 - \frac {i} {365}\right). \]

根据经典不等式 \(\e ^ {-x} \geq 1 - x,\ \forall x \geq 0\) 可知

\[q(n) \geq 1 - \exp(-\frac {n(n - 1)} {2\times 365}) \equiv d(n). \]

\(d(n)\) 是对 \(q(n)\) 的良好近似。给定概率 \(0.5\),计算 \(q(n) = 0.5\)\(n\) 可以用 \(d(n) = 0.5\) 近似。

\[\begin{aligned} \exp(-\frac {n(n - 1)} {2\times 365}) & = 0.5, \\ \frac {n(n - 1)} {2\times 365} & = \ln 2 = 0.69, \\ x & = \sqrt {2\times 365 \times 0.69} = 22.44. \end{aligned} \]

基本计数规则 basic counting rules:对于均匀的概率函数,\(\pr(T) = |T| / |U|\)。计算 \(\pr(T)\) 等价于计算 \(T\) 的大小。

  • 加法原理 addition rule:如果 \(S\)\(S_{1\sim k}\) 的无交并,则 \(|S| = \sum_{i = 1} ^ k |S_i|\)
  • 乘法原理 multiplication rule:如果 \(S\) 的每个元素可以和 \(s = (i_1, \cdots, i_m)\) 一一对应,其中 \(1\leq i_k \leq c_k\),则 \(|S| = \prod c_{1\sim m}\)

37% 法则 the 37% rule

\(x\) 是均匀随机的 \(1\sim n\) 的排列。在不知道之后的数的情况下依次决定每个数是否选择,最多选一个数,希望选中 \(n\)

策略 \(k\):跳过前 \(k\) 个数,选择第一个 \(x_j\) 使得 \(x_j > \max x_{1\sim k}\)。分析其概率:

  • (加法原理)设 \(T\) 是使得策略成功的排列,\(T_j\)\(T\) 中使得 \(x_j = n\) 的排列,则 \(T\)\(T_{k < j \leq n}\) 的无交并。
  • (乘法原理)使得 \(x_j = n\) 的排列有 \((n - 1)!\) 个,落在 \(T\) 中要求 \(\max x_{1\sim j - 1} = \max x_{1\sim k}\),概率是 \(\frac k {j- 1}\)

综上,

\[\pr(T) = \sum_{j = k} ^ {n - 1} \frac {k(n - 1)!} {(j - 1)n!} = \frac k n\left(H_{n - 1} - H_{k - 1}\right) \approx -\frac k n\ln\frac k n. \]

求导可知在 \(\frac k n = \frac 1 {\e}\) 时最优,最优值为 \(\frac 1 {\e} = 0.37\)

基本概率工具 essential probability tools

#1 布尔不等式 Bool's inequality, union bound:对有限多个事件 \(T, T_1, \cdots, T_m\),若 \(T\subseteq \bigcup_{i = 1} ^ m T_i\),则 \(\pr(T) \leq \sum_{i = 1} ^ m \pr(T_i)\)。若 \(T_i\) 两两无交且 \(T\)\(T_i\) 的无交并,则不等式取等。

这些很简单的不等式可以给出很惊人的结论。

拉姆齐数 Ramsey number:点数不小于 \(R(r, s)\) 的图一定存在 \(r\) 个点的团或 \(s\) 个点的独立集。\(R(k) = R(k, k)\)

Ramsey 定理:对任意 \(k\geq 3\),存在 \(N\) 使得对任意 \(N\) 个点的图,图上有大小为 \(k\) 的完全图或独立集。\(R(3) = 6\)

作业:证明 \(R(k) \leq \binom {2k - 2} {k - 1} < 4 ^ k\)。具体是先证明 \(R(r, s)\leq R(r - 1, s) + R(r, s - 1)\) 然后归纳。

Theorem

\[R(k) \geq \lfloor 2 ^ {k / 2}\rfloor. \]

Paul Erdos 1947.

Proof

\(n\leq 2 ^ {k / 2}\)

对于大小为 \(k\ (k\geq 3)\) 的点集 \(V\),在随机图上 \(V\) 形成完全图的概率为 \(2 ^ {-k(k - 1) / 2}\)。根据布尔不等式,至少存在一个完全图或独立集的概率不超过

\[\binom n k \times 2 \times 2 ^ {-k(k - 1) / 2} \leq 2\frac {n ^ k} {k!2 ^ {k(k - 1) / 2}} \leq 2\frac {2 ^ {k ^ 2 / 2}} {k!2 ^ {k(k - 1) / 2}} = \frac {2 ^ {k / 2 + 1}}{k!} < 1. \]

\(\square\)

概率方法 probabilistic method:通过概率分析而非显式构造来证明一个数学对象的存在性。由 Paul Erdos 创立。

#2a 条件概率 conditional probability:给定 \(T\) 之后 \(S\) 发生的概率称为 \(S\) 关于 \(T\) 的条件概率。

\[\pr(S \mid T) = \begin{cases} \pr(S \cap T) / \pr(T), & \pr(T) \neq 0; \\ 0, & \pr(T) = 0. \end{cases} \]

在逻辑上,\(\pr(S\cap T)\)\(\pr(S\cup T)\) 经常写为 \(\pr(S\land T)\)\(\pr(S\lor T)\)

#2b 链式法则 chain rule

\[\pr(S\cap T) = \Pr(T) \Pr(S \mid T). \]

\[\Pr(S_1\cap \cdots\cap S_m) = \prod_{1\leq j\leq m} \Pr(S_j \mid S_1\cap \cdots \cap S_{j - 1}). \]

将链式法则应用在生日悖论上:设 \(S_j\) 是所有 \(x_j\notin x_{1\sim j - 1}\)\(x\) 的集合。

分配律 distributive law:设 \(T\subseteq W_1\cup \cdots \cup W_m\),那么

\[\Pr(T)\leq \sum_{1\leq j\leq m} \Pr(W_j) \Pr(T \mid W_j). \]

\(W_j\) 两两无交,则不等式取等。注意这里不要求 \(T\) 是它们的无交并。这是加法原理和乘法原理的推广。

Topic 2: Statistics on a Probability Space

条件概率(续)conditional probability continued

两个事件 \(S, T\) 相互 独立 independent,若 \(\pr(S \mid T) = \pr(S)\)。即 \(\pr(S\cap T) = \pr(S) \pr(T)\)。也就是说,\(S, T\) 之间,一个事件发生不会影响另一个事件发生的概率。

\(S_n\subseteq S_{n - 1} \subseteq \cdots \subseteq S_1\) 时,

\[\pr(S_n) = \pr(S_1)\prod_{i = 2} ^ n \pr(S_i\mid S_{i - 1}). \]

排列的环长 cycle length in a permutation

\(L_i(\s)\) 表示 \(\s\) 的包含 \(i\) 的环长。注意到

\[\pr(L_1 > s \mid L_1 > s - 1) = \fr {n - s} {n - s + 1}. \]

\(\pr(L_1 > 0) = 1\)。由链式法则,对任意 \(1\leq s \leq n\)

\[\pr(L_1 = s) = \fr 1 n. \]

团的贪心算法 greedy clique algorithm

贪心地检查每个点能否和当前的团形成团。

\(A(G)\) 是最终得到的团,则对于随机图,

\[\pr(|A(G) - \log_2 n| \leq \log_2\log_2n) = 1 - o(1). \]

上界

在集合已经有 \(c\) 个元素时,新加入一个点的概率为 \(\fr 1 {2 ^ c}\)

\(K = \log_2 n + \log_2\log_2 n\),设 \(T_i\) 表示第 \(K\) 个加入的点是 \(i\) 的事件,由分配律,

\[\pr(|A(G)| > K) = \sum_{i = 2} ^ n \pr(T_i) \pr(|A(G)| > K \mid T_i). \]

考虑到

\[\pr(|A(G)| > K\mid T_i) \leq \fr {n - i} {2 ^ K} \leq \fr n {2 ^ K} = \fr 1 {\log_2 n}, \]

于是

\[\pr(|A(G)| > K) \leq \fr 1 {\log_2 n} \sum_{i = 2} ^ n \pr(T_i) \leq \fr 1{\log_2 n} = o(1). \]

上界的 \(\log_2 n + f(n)\) 中,\(f(n)\) 可以是增长任意缓慢的函数,只要 \(f(n)\to \pif\)

下界见本章最后。

N 门问题 n doors problem

每个人只允许打开 \(\fr n 2\) 扇门。

一个人的成功概率是 \(\fr 1 2\),但是两个人都成功的概率可以大于 \(\fr 1 4\)。策略:两个人事先约定门的排列 \(\s\),每个人从自己对应的门开始找。成功的概率是两个人的宠物所在环长均不超过 \(\fr 1 2\) 的概率,是 \(\fr 3 8\)

所有人都成功的概率等于没有环长超过 \(\fr 1 2\) 的概率,使用组合数学得到 \(1 - (H_n - H_{n / 2}) = 1 - \ln 2 \approx 31\%\)

随机变量 random variable

一个 随机变量 是一个函数 \(X : U\to R\)。它的 期望 expectation \(E[X] = \sum_{u\in U} p(u) X(u)\)

定义期望的和 \(Z = aX + bY\)\(Z(u) = aX(u) + bY(u)\)

#3 期望的线性性 law of linear expectation:若 \(X = \sum_{i = 1} ^ n C_iX_i\),则

\[E[X] = \sum_{i = 1} ^ n C_iE[X_i]. \]

环的个数的期望 expected number of cycles

\(X\) 表示环的数量,则 \(X = \sum_{i = 1} ^ n \fr 1 {L_i(\s)}\)。由期望的线性性,

\[E[X] = n E\left[\fr 1 {L_i}\right] = n\sum_{i = 1} ^ n \fr 1 {n} \cdot \fr 1 i = H_n. \]

条件期望 conditional expectation

\[E[X\mid T] = \fr {\sum_{u\in T} p(u)X(u)} {\pr(T)}. \]

#4 期望的分配律 distributive law for expectation:设 \(U\)\(W_1, \cdots, W_n\) 的无交并,则

\[E[X] = \sum_{i = 1} ^ n\pr(W_i) E[X\mid W_i]. \]

几何分布的期望 mean of the geometric distribution

抛掷一枚正面概率为 \(p\) 的硬币,设 \(X\) 是第一次抛出正面的次数。

\[E[X] = p + (1 - p)(1 + E[X]) \implies E[X] = \fr 1 p. \]

随机变量 \(X\)方差 variance

\[\operatorname{Var}(X) = E[(X - E[X]) ^ 2] = E[X ^ 2] - E[X] ^ 2. \]

标准差 standard deviation

\[\s(X) = \sqrt {\operatorname{Var}(X)}. \]

因此方差通常也写作 \(\s ^ 2\)

几何分布的方差 variance of the geometric distribution

\[E[X ^ 2] = p + (1 - p)E[(1 + X) ^ 2] \implies \s ^ 2(X) = \fr {1 - p} {p ^ 2}. \]

\(X, Y\)独立随机变量 independent random variable,若

\[\Pr(X = x\cap Y = y) = \pr(X = x) \pr(Y = y). \]

此时

\[\begin{aligned} E[XY] & = E[X] E[Y], \\ \s ^ 2(X + Y) & = \s ^ 2(X) + \s ^ 2(Y). \end{aligned} \]

方差衡量了随机变量的分散程度。

尾部估计 tail estimates

概率工具其五。

马尔可夫不等式 Markov's inequality

\(X\) 是非负随机变量。对任意 \(c > 0\)

\[\pr(X > cE[X]) < \fr 1 c. \]

Proof

\[E[X] > \pr(X > cE[X]) \cdot cE[X] \]

\(\square\)

另一种形式为

\[\pr(X > c) < \fr {E[X]} c. \]

切比雪夫不等式 Chebyshev's inequality

\[\pr(|X - E[X]| > c\s(X)) < \fr 1 {c ^ 2}. \]

Proof

\(|X - E[X]|\) 使用 Markov 不等式,得到

\[\pr(|X - E[X]| > c\s(X)) = \pr((X - E[X]) ^ 2 > c ^ 2\s ^ 2(X)) < \fr 1 {c ^ 2}. \]

\(\square\)

界不是很紧,但适用范围非常广泛。

团的贪心算法的下界 lower bound of the greedy clique problem

\(X_j\) 表示第 \(j\) 个加入的结点编号,\(Y_j = X_{j + 1} - X_{j}\)

Observation

\(Y_j\) 是概率为 \(b_j = \fr 1 {2 ^ j}\) 的几何分布。

\[E[Y_j] = 2 ^ j, \quad \s ^ 2(Y_j) = \fr {1 - b_j} {b_j ^ 2} = 4 ^ j - 2 ^ j. \]

\(K = \log_2 n - \log_2\log_2 n\),那么问题等价于

\[\pr\left(\left(X' \equiv \sum_{j = 1} ^ K Y_j\right) \leq n - 1\right) = 1 - o(1). \]

根据期望的线性性,

\[E[X'] = \sum_{j = 1} ^ K 2 ^ j = 2 ^ {1 + K} - 2\leq \fr {2n} {\log_2 n}. \]

因为 \(Y\) 是独立随机变量,所以

\[\s ^ 2(E') = \sum_{j = 1} ^ K (4 ^ j - 2 ^ j) = \fr 4 3(4 ^ K - 1) - 2(2 ^ K - 1) \leq 2 \left(\fr {n} {\log_2 n}\right) ^ 2. \]

\(X' > n - 1\),那么 \(X' - E[X'] > \fr n 2\)。于是

\[\pr(X' \geq n - 1) \leq \pr\left(X' - E[X'] > \fr n 2\right). \]

由 Chebyshev 不等式,

\[\pr\left(X' - E[X'] > \fr n 2\right) \leq \fr {4\s ^ 2(X')} {n ^ 2} \leq \fr {8} {(\log_2 n) ^ 2}. \]

\(\square\)

Topic 3: Tail bounds continued

切比雪夫不等式 Chebyshev's inequality

使用 Chebyshev 不等式时,需要计算 \(E[X]\)\(\s(X) = E[X ^ 2] - E[X] ^ 2\)\(E[X ^ k]\) 称为 k 阶矩 the k-th moment

随机图的最大团(下界) largest clique of a random graph (lower bound)

\(m = (2 - \eps) \log_2 n\)\(M\) 是所有大小为 \(m\) 的子集。

对每个 \(V\in M\) 设随机变量 \(A\)\(A_V(G) = 1\) 当且仅当 \(V\) 是团。考虑 \(X = \sum_{V\in M} A_V(G)\)\(T\) 表示 \(w(G)\geq m\),则 \(\pr(T) = \pr(X > 0)\)

考虑以下两个命题:

  1. \(n\to \pif\) 时,\(E[X]\to \infty\)
  2. \(\s ^ 2(X) = E[X] ^ 2 \cdot o(1)\)

若命题成立,则根据 Chebyshev 不等式,

\[\pr(X \leq 0) \leq \pr(|X - E[X]| > \fr 1 2 E[X]) \leq \fr {\s ^ 2(X)}{\fr 1 4E[X] ^ 2} = o(1). \]

Proof (1)

使用 Stirling 公式 \(n!\approx \sqrt {2\pi n}(n / e) ^ n\)

\[\bal E[X] & = \binom n m \fr 1 {2 ^ {\binom m 2}} \\ & \geq \Omega \left(\fr {n ^ m} {\sqrt {2\pi m} (m / \e) ^ m} \cdot \fr 1 {2 ^ {m(m - 1) / 2}}\right) \\ & = \Omega \left(\left(\fr {\e n} {(2\pi m) ^ {1 / 2m} \cdot m} \cdot \fr 1 {2 ^ {m / 2}}\right) ^ m\right) \\ & = \Omega \left(\left(\fr {0.01 n} {\log_2 n} \cdot \fr 1 {n ^ {1 - \eps / 2}}\right) ^ m\right) \\ & = n ^ {\Omega(\log_2 n)}. \eal \]

Proof (2)

\(|V\cap V'| = 1\)\(A_V\)\(A_{V'}\) 是独立的。于是

\[\begin{aligned} \s ^ 2(X) & \leq E\l[\sum_{V, V'} A_VA_{V'}\r] - \sum_{|V\cap V'| \leq 1}E[A_V]E[A_{V'}] \\ & = E\l[\sum_V A_V + \sum_{|V\cap V'| > 1} A_VA_{V'}\r] \\ & \leq E[X] + \sum_{2\leq k\leq m} \sum_{|V\cap V'| = k} E[A_VA_{V'}] \\ & = E[X] + \sum_{2\leq k\leq m} \sum_{|V\cap V'| = k} \pr(A_{V'} = 1 \mid A_V = 1)\pr(A_V = 1) \\ & = E[X] + \sum_{2\leq k\leq m} \sum_{V} \pr(A_V = 1) \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \\ & = E[X] + E[X] \sum_{2\leq k\leq m} \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \\ & \leq E[X] + \fr {64 m ^ 5} {n} E[X] ^ 2. \end{aligned} \]

其中最后一步用到引理(作业)

\[\sum_{2\leq k\leq m} \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \leq \fr {m ^ 5} {n - m + 1} E[X]. \]

\(m \leq 2\log_2 n\)\(E[X]\to \pif\)(把前面那一项放掉),所以 (2) 成立。\(\square\)

概率估计的几何解释

设随机变量 \(X = \sum_{i = 1} ^ n X_i\),其中 \(X_i\) 分别有 \(\fr 1 2\) 的概率等于 \(0\)\(1\)

计算得 \(E[X] = \fr n 2\)\(\s(x) = \sqrt {\sum \s ^ 2(X_i)} = \fr {\sqrt n} 2\)。使用 Chebyshev 不等式,

\[\pr(|X - \mu| \geq 10 \cdot \s) \leq \fr 1 {100}. \]

如果使用 Markov 不等式,则会得到很差的结果,因为标准差和均值不在同一个数量级。

考虑 \(f(x) = 1(x\geq a)\),则 \(\pr(X\geq a) = E[f(x)]\)。考虑 \(g(x)\geq f(x)\),则

\[\pr(X\geq a) = E[f(x)] \leq E[g(x)]. \]

如果 \(g(x)\) 是一个方便计算期望的函数,那么我们就得到了 \(\pr(X\geq a)\) 的一个估计。

\(g(x) = \fr x a\) 时,得到 Markov 不等式:

\[\pr(X \geq a) \leq E[g(x)] = \fr {E[x]} a. \]

\(g(x) = \fr {(x - \mu) ^ 2} {(\mu - a) ^ 2}\) 时,得到 Chebyshev 不等式:

\[\pr(X\geq \mu + c\s) \leq E[g(x)] = \fr {E[(x - \mu) ^ 2]} {(\mu - (\mu + c\s)) ^ 2} = \fr {\s ^ 2} {c ^ 2\s ^ 2} = \fr 1 {c ^ 2}. \]

现在我们考虑更激进的估计方法:指数函数。

切诺夫界 Chernoff bound

因为 \(f(x)\)\(x\geq a\) 时等于 \(1\),所以指数上 \(x\) 的系数必须是正数。考虑到 \(g(a) = 1\) 的条件,\(g(x) = \e ^ {t(x - a)}\),其中 \(t\) 是待定系数。另一种解释是使用 Markov 不等式

\[\pr(X\geq a) = \pr(\e ^ X \geq \e ^ a) \leq \fr{E[\e ^ {tX}]} {\e ^ {ta}}. \]

\(t = 0\) 时得到 \(\pr(X \geq a) \leq 1\),没有用。\(t\to \pif\) 时,\(x\geq a\) 的部分又会增长太快导致估计得不好。我们要找到最好的 \(t\) 使得 \(E[g(x)]\) 最小。

切诺夫界 Chernoff bound:设随机变量 \(X = \sum_{i = 1} ^ n X_i\),其中 \(\pr(X_i = 1) = b_i\)\(\pr(X_i = 0) = 1 - b_i\),则

\[\begin{aligned} & \pr(X\geq (1 + \d) \mu) \leq \exp(-\fr {\d ^ 2} {2 + \d}\mu),\ \d > 0. \\ & \pr(X\leq (1 - \d) \mu) \leq \exp(-\fr {\d ^ 2} 2\mu),\ 0 < \d < 1. \end{aligned} \]

Proof

\(a = (1 + \d) \mu\)

由 Markov 不等式,

\[\pr(X > (1 + \d) \mu) \leq \fr {E[\e ^ {tX}]} {\e ^ {t(1 + \d)\mu}}. \]

根据经典不等式 \(1 + x \leq \e ^ x\)

\[\begin{aligned} E[\e ^ {tX}] & = \prod \e ^ {tX_i} \\ & = \prod(1 - b_i + b_i\e ^ t) \\ & \leq \prod \exp(b_i(\e ^ t - 1)) \\ & = \exp((\e ^ t - 1)\sum b_i) \\ & = \exp((\e ^ t - 1)\mu). \end{aligned} \]

最小化 \((\e ^ t - 1)\mu - t(1 + \d)\mu\),得到 \(t_0 = \ln(1 + \d)\),所以

\[\pr(X > (1 + \d) \mu) \leq \left(\fr {\e ^ {\d}} {(1 + \d) ^ {(1 + \d)}}\right) ^ \mu. \]

根据 \(\ln(1 + x) \geq \fr {2x} {2 + x}\) 得到

\[\d - \ln(1 + \d) (1 + \d) \leq -\fr {\d ^ 2} {2 + \d}. \]

于是

\[\pr(X > (1 + \d)\mu) \leq \exp(-\fr {\d ^ 2} {2 + \d} \mu). \]

类似可以证明

\[\pr(X < (1 - \d)\mu) \leq \left(\fr {\e ^ {-\d}} {(1 - \d) ^ {(1 - \d)}}\right) ^ \mu \leq \exp(-\fr {\d ^ 2} {2} \mu). \]

\(\square\)

\(\d = 10 \sqrt {\fr 1 n}\),则当 \(n\to \pif\) 时,

\[\pr(X > \mu + 10 \s) = \pr(X > \left(1 + \d\right) \mu) \leq \exp(-\fr {\d ^ 2 n} {5}) \leq \e ^ {-20}. \]

Corollary 1

\[\pr(X\geq (1 + \d)\mu) \leq \exp(-\fr 1 3\d ^ 2\mu),\quad \d > 0. \]

\[\pr(X\leq (1 - \d) \mu) \leq \exp(-\fr 1 2\d ^ 2 \mu), \quad 0 \leq \d < 1. \]

Corollary 2

\(c > 7E[X]\) 时,

\[\pr(X > c) < 2 ^ {-c}. \]

Chernoff 界的平均值形式:对于 \(\ov X = \fr 1 n X\)\(\mu' = \fr \mu n\),有

\[\pr(|\overline X - \mu'| \geq \eps) = \pr(|X - \mu| \geq n\eps) \leq 2\exp(-\fr {(\fr {n\eps} \mu) ^ 2 \mu} {2 + \fr {n\eps} \mu}) \leq 2\exp(-\fr {n\eps ^ 2} {2 + \eps}). \]

其中最后一个不等号成立是因为 \(\mu \leq n\)。常数 \(2\) 是对两侧分别使用 Chernoff 界得到的。

霍夫丁不等式 Hoeffding's inequality:设 \(X_i\in [a, b]\) 是有界随机变量,则对任意 \(t\geq 0\)

\[\pr(\ov X - E[\ov X] \geq t) \leq \exp(-\fr {2nt ^ 2} {(b - a) ^ 2}). \]

伯努利不等式 Bernoulli inequality:设 \(X_i\sim B(p)\),则对任意 \(\eps > 0\),都有

\[\pr(|\mu - p| > \eps) \leq 2 \e ^ {-2n\eps}. \]

还讲了一个关于鞅的 Azuma 不等式。太难不看。

Topic 4: Advanced Applications

entropy

是定量描述随机性的工具。随机变量 \(X\) 的熵定义为

\[H(X) = -\sum_x \pr(X = x) \log_2\pr(X = x) = E\l[\log_2\fr 1{\pr(X)}\r]. \]

\(X\) 是二元随机变量时,设 \(p = \pr(X = 1)\),则

\[H(p)\equiv H(X) = -p\log_2 p - (1 - p)\log_2(1 - p). \]

联合熵 joint entropy

\[H(X, Y) = E\l[\log_2 \fr 1 {\pr(X, Y)}\r]. \]

如果 \(X\)\(Y\) 独立,那么 \(H(X, Y) = H(X) + H(Y)\)

接下来主要研究二元随机变量。

熵和二项系数 entropy and binomial coefficients

\(nq\)\([0, n]\) 的整数。

\[\fr {2 ^ {nH(q)}} {n + 1} \leq \binom n {nq} \leq 2 ^ {nH(q)}. \]

Proof

对于上界,直接二项展开。

\[\binom {n} {nq} \leq q ^ {-qn} (1 - q) ^ {-(1 - q)n} = 2 ^ {-qn\log_2 q - (1 - q)n\log_2(1 - q)} = 2 ^ {nH(q)}. \]

对于下界,考虑相邻两个二项系数的差

\[\binom n kq ^ k(1 - q) ^ {n - k} - \binom n {k + 1} q ^ {k + 1} (1 - q) ^ {n - k - 1} = \binom n kq ^ k (1 - q) ^ {n - k}\l(1 - \fr {q} {1 - q} \fr {n - k} {k + 1}\r). \]

可知当 \(k \leq nq - 1 + q\) 时差非负。所以当 \(k = nq\) 时取到最大值,其大于平均值 \(\fr 1 {n + 1}\),再使用类似上界的方法即可。\(\square\)

熵衡量了能够从随机变量中提取的均匀独立的比特的数量。

提取函数 extract function

  • 以下内容比较神秘,我也没怎么听懂。

\(X\) 是集合 \(\mathcal{X}\) 里的随机变量。定义提取函数 \(\rm {Ext} : \mathcal{X} \to \{0, 1\} ^ *\),要求对任意满足 \(\pr(|\rm {Ext}(x)| = k) > 0\)\(k\),都有

\[\pr(\rm {Ext}(X) = y \mid | \rm {Ext}(X)| = k) = \fr 1 {2 ^ k}. \]

\(X\) 的每个可能结果映射到任意 \(01\) 序列,满足如果一个序列有可能出现,那么所有这个长度的序列会等概率出现。当 \(p = \fr 1 2\) 时,所有情况等可能发生,可以将结果映到自身,得到 \(n\) 比特的随机性。当 \(p\neq \fr 1 2\) 时,得到的随机性会小于 \(n\) 比特。有以下定理。

Theorem

设硬币抛出正面的概率 \(p > \fr 1 2\)。对任意常数 \(\d > 0\) 和充分大的 \(n\)

  1. 任意 \(\rm {Ext}(\cdot)\) 关于 \(n\) 次独立抛硬币结果的平均输出长度不超过 \(nH(p)\)
  2. 存在 \(\rm {Ext}(\cdot)\) 关于 \(n\) 次独立抛硬币结果的平均输出长度不小于 \((1 - \d)n H(p)\)

Part 1

Lemma

如果输入序列 \(x\) 出现的概率为 \(q\),那么 \(|\rm {Ext}(x)| \leq -\log_2 q\)

Proof

因为所有长度为 \(|\rm {Ext}(x)|\) 的输出序列概率相同,所以 \(2 ^ {|\rm {Ext}(x)|}q\leq 1\)

\(B\) 表示 \(|\rm {Ext}(x)|\),则

\[E[B] = \sum_x \pr(X = x) |\rm {Ext}(x)| \leq \sum_x \pr(X = x) \log_2 \fr {1} {\pr(X = x)} = H(X). \]

\(\square\)

Part 2

Lemma

假设 \(X\)\(\{0, \cdots, m - 1\}\) 中均匀随机选择,则 \(H(X) = \log_2 m\)。存在 \(X\) 的提取函数平均长度不小于 \(\log_2 m - 2\)

Proof

\(\alpha = \lfloor\log_2 m\rfloor\),对 \(0 \sim 2 ^ \alpha - 1\),输出长度为 \(\alpha\),递归下去。

\[\sum_{i = 1} ^ \alpha i2 ^ {\alpha - i} = \mathcal{O}(2 ^ \alpha). \]

\(\eps < p - \fr 1 2\)。考虑 \(k\in [n(p - \eps), n(p + \eps)]\)。由以上引理,存在对出现 \(k\) 个正面的序列(\(Z = k\))的提取函数,其平均长度

\[E_k \geq \log_2 \binom n k - 2 \geq \log_2 \binom n {\lfloor n(p + \eps)\rfloor} - 2 \geq \log_2\fr {2 ^ {nH(p + \eps)}} {n + 1} - 2. \]

于是存在提取函数的平均长度

\[E[B]\geq \sum_k \pr(Z = k) E_k \geq (nH(p + \eps) - \log_2(n + 1) - 2)\pr(|Z - np| \leq \eps n). \]

根据 \(E[Z] = np\) 和 Chernoff 界,

\[\pr(|Z - np| \leq \eps n) \geq 1 - 2\exp(-\fr {n\eps ^ 2} {3p}). \]

\(\square\)

压缩函数 compression function

定义压缩函数

\[\rm {Com} : \{0, 1\} ^ * \to \{0, 1\} ^ *, \]

满足对任意 \(x\neq x'\)\(\rm {Com}(x)\) 不是 \(\rm {Com}(x')\) 的前缀。

  • Huffman 编码。

Theorem

\(p > 1 / 2\)。对任意 \(\d > 0\),当 \(n\) 足够大时:

  • 存在 \(\rm {Com}\) 期望长度不超过 \((1 + \d) nH(p)\)
  • 任意 \(\rm {Com}\) 期望长度至少 \((1 - \d) n H(p)\)

香农定理 Shannon's theorem

信息论的经典定律。

在一个有噪音的频道上,每一位有 \(p\) 的概率翻转。可以传输 \(n\) 比特的数据,求最多能可靠地传输多少比特的数据。形式化地,定义 \((k, n)\) 编码函数和解码函数

\[\rm {Enc} : \{0, 1\} ^ k\to \{0, 1\} ^ n,\quad \rm {Dec} : \{0, 1\} ^ n \to \{0, 1\} ^ k. \]

找到最大的 \(k\) 满足存在 \((k, n)\) 编码和解码函数使得成功概率不小于 \(1 - \eps\)

香农定理 Shannon's theorem

\[k_{\max} = n(1 - H(p)). \]

\(1 - H(p)\) 项称为 频道容量 channel capacity。具体地,对任意 \(\d, \eps > 0\),当 \(n\) 足够大时:

  • 对任意 \(k\leq n(1 - H(p) - \d)\),存在 \((k, n)\) 编码解码使得错误率不超过 \(\eps\)
  • 对任意 \(k \geq n(1 - H(p) + \d)\),不存在 \((k, n)\) 解码编码使得错误率不超过 \(\eps\)

Proof

不妨设 \(p < 0.5\)。我们证明第一部分,即存在性。

\(k = n(1 - H(p) - \d)\),考虑编码函数的像集 \(\al C = \{c_1, \cdots, c_M\}\),其中 \(M = 2 ^ k\)

\(\tilde c_i\)\(c_i\) 通过频道的结果。

考虑 Hamming 距离。由 Chernoff bound,存在 \(\g\) 使得

\[\pr((p - \g) n \leq d_H(c_i, \tilde c_i) \leq (p + \g)n) \geq 1 - \fr \eps 2. \]

选择最小的 \(\g\) 并定义

\[\rm {Ring}(c_i) = \{c \mid |d_H(c_i, c) - np| \leq \g n\}. \]

那么 \(\pr(\tilde c_i \in \rm{Ring} (c_i)) \geq 1 - \fr \eps 2\)

设事件 \(\rm {Suc}_i(\al C)\) 表示 \(\tilde c_i\in \rm{Ring}(c_i)\) 且对任意 \(j\neq i\)\(\tilde c_i\notin \rm{Ring}(c_j)\),即根据编码传输的结果能够唯一正确解码。我们希望 \(\pr(\rm{Suc}_i(\al C))\) 对每个 \(i\) 都很大。

Lemma 1

\(\rm {Ring}(c_i)\) 的大小不超过 \(2 ^ {(H(p) + \d')n}\),其中当 \(n\to \pif\)\(\d'\to 0\)

作业,气笑了。

Proof

大致思路是用 Chernoff 界找到 \(\g\) 的上界,然后把 \(|\rm {Ring}(c_i)|\) 放到 \((2\g n + 1)\binom n {n(p + \g)}\),再使用熵和二项系数的不等式关系即可。

均匀随机地选择 \(c_1 \sim c_M\)

考虑整体不成功的情况

\[\rm {Fail}(\al C) = (\exists i,\ \tilde c_i\notin \rm{Ring}(c_i))\lor (\exists i\neq j,\ \tilde c_i \in \rm{Ring}(c_j)). \]

其中前面一部分对每个 \(i\) 都是 \(\fr {\eps} 2\),不妨忽略掉。由引理,

\[\pr(\tilde c_i \in \rm {Ring}(c_j)) = \fr {|\rm {Ring}(c_j)|} {2 ^ n} = 2 ^ {(H(p) + \d' - 1) n}. \]

根据 Bool 不等式以及 \(k = n(1 - H(p) - \d)\)

\[\pr(\rm{Fail}(\al C)) \leq M ^ 2 2 ^ {(H(p) + \d' - 1)} = 2 ^ {2k + (H(p) - 1 + \d') n} \to \pif. \]

上面出现问题的原因是这样得到的界是要求所有通信同时成功,但只要每个通信成功的概率都很大就可以。所以我们不能对所有 \((i, j)\) 同时使用 Bool 不等式。

  • 第一步:先选 \(2M\) 个,平均下来是好的(引理 2)。
  • 第二步:丢掉最差的那一半。

\(\la_i(\al C) = 1 - \pr(\rm{Suc}_i(\al C))\)

Lemma 2

对所有 \(i\)\(\al C\)

\[E[\la_i(\al C)] \leq \eps. \]

Proof

因为 \(\tilde c\in \rm{Ring}(c)\) 当且仅当 \(c\in \rm{Ring}(\tilde c)\),且 \(c_j\) 是均匀随机的,所以由引理 1,

\[\pr(\tilde c_i \in \rm{Ring}(c_j) \mid \tilde c_i\in \rm{Ring}(c_i)) \leq 2 ^ {(H(p) + \d' - 1) n}. \]

使用 Bool 不等式,

\[\pr(\rm{Fail}_i(\al C)) \leq 2M \cdot 2 ^ {(H(p) + \d' - 1)n} + \fr \eps 2 = 2 ^ {1 + (k / n + H(p) - 1 + \d')n} + \fr \eps 2. \]

因为 \(\fr k n < 1 - H(p)\)\(\d' \to 0\),所以前一项随着 \(n\) 增大而趋于 \(0\)\(\square\)

由引理 2,存在 \(\al C ^ *\) 好于平均,即

\[\fr 1 {2M} \sum_{i = 1} ^ {2M} \la_i(\al C ^ *)\leq \eps. \]

只保留 \(\al C ^ *\) 最好(即 \(\la_i\) 较小)的那一半,得到 \(\al C\)。对任意 \(i\)\(\la_i(\al C) \leq 2\eps\)\(\square\)

  • 一些非负整数的中位数不会超过平均值的两倍。
  • 概率方法。
  • 如果理解了证明的第二部分的本质,会发现这个 \(2\) 可以换成任意大于 \(1\) 的常数。

超立方体路径规划问题 hypercube networking routing problem

在一个 \(n\) 维超立方体上,每个点要向另外一个点发送信息。信息只能在边上传播,且每条边单位时间恰好能传播一条消息。所有点的目标形成排列,希望找到对任意排列都能在合理时间内完成的传输方式。

Bit-Fixing Algorithm (BSA)

每次找到第一个不同的位然后翻转,长度是 \(d_H(i, \s(i))\)

\(n\) 是奇数,构造 \(\s(u0v) = v1u\),延迟是指数级别的:当 \(v = 0 ^ {(n - 1) / 2}\) 时,\(2 ^ {(n - 1) / 2}\) 条消息要穿过 \((0 ^ n, 0 ^ {(n - 1) / 2} 1 0 ^ {(n - 1) / 2})\)

Randomized BSA (Valiant 1981)

给每个点随机中间点 \(m_i\)(不一定是排列),用 BFA 先从 \(i\) 传输到 \(m_i\),等到 \(t = 6n\),再从 \(m_i\) 传到 \(\s(i)\)

设事件 \(B_\s\) 表示对于任意排列 \(\s\),传输在 \(12n\) 时间内完成,则 \(\pr(B_i) > 1 - \al O(2 ^ {-3n})\)。只需证明每一部分的延时大于 \(6n\) 的概率为 \(\al O(2 ^ {-3n})\)

考虑第一部分。设 \(T_i\) 表示 \(i\) 在第一部分的用时,即证 \(\pr(\exists i\in V,\ T_i > 6n) = \mathcal{O}(2 ^ {-3n})\)。根据 Bool 不等式和分配律,即证以下引理:

Lemma

固定 \(m_i = u\),其它 \(v_j\) 随机,则 \(\pr(T_i > 6n \mid m_i = u) = \al O(2 ^ {-4n})\)

Proof

\(S\) 表示 \(P(j, v_j)\)\(P(i, m_i)\) 有交的 \(j\neq i\)\(j\) 的集合,则

Observation

\(T_i \leq d_H(i, m_i) + |S|\)

证明是作业。

直觉是每条路径只会卡一次。先证明两条路径的交是区间,再势能分析即可。

根据观察,只需证明以下结论:

Proposition

\[\pr(|S| > 5n) = \al O (2 ^ {-4n}). \]

Proof

考虑 Chernoff 界 \(\pr(X > c) \leq 2 ^ {-c},\ c > 7\mu\),只需证明 \(E[|S|] \leq \fr 5 7 n\)

注意到一条翻转第 \(p\) 位的边 \(u\to v\) 只会被起点和 \(u\) 在第 \(p\sim n\) 位相同,且终点和 \(v\) 在第 \(1\sim p\) 位相同的 \((i, m_i)\) 经过,所以随机路径这条边的概率为 \(\fr 1 {2 ^ {n + 1}}\)。因此经过这条边的路径数量的期望为 \(\fr 1 2\)

\(|S|\) 显然不大于 \(i\to m_i\) 上每条边被经过的路径数量,而路径最多有 \(n\) 条边,所以 \(E[|S|]\leq \fr n 2\)\(\square\)

\(\square\)

总结一下,证明分成两部分,每一部分都很符合直觉。

  • 一条路径的延时不超过和这条路径有交的路径数量。
  • 在随机路径下,和一条路径有交的路径数量不多,因为经过一条边的路径数量的期望很小,且路径长度不大。

Topic 5: Monte Carlo Methods

蒙特卡洛方法:估计圆的面积,估计积分的数值,估计事件发生的概率。使用随机采样法估计难以数值计算的结果。核心想法是根据某种分布随机采样 \(X_{1\sim N}\),并使用 \(\fr 1 n \sum_{i = 1} ^ n f(X_i)\) 来估计 \(E[f(x)]\)

挑战之一是根据 \(p(x)\) 的分布生成随机变量。

连续随机变量 continous random variable

连续随机变量 是有不可数个可能取值的随机变量。一个经典的例子是一段区间上的实数。

连续随机变量 \(X\)概率密度函数 probability density function (PDF) 是函数 \(p(x)\),满足对任意区间 \([a, b]\)

\[\pr(a\leq X\leq b) = \int_a ^ b p(x)\dd x. \]

要求 \(p(x)\geq 0\)\(\int_{-\infty} ^ {\pif} p(x) \dd x = 1\)

类似定义 \(X\)期望方差

\[E[X] = \int_{-\infty} ^ {\pif} xp(x)\dd x,\quad \s ^ 2(X) = \int_{-\infty} ^ {\pif} (x - E[X]) ^ 2 p(x)\dd x. \]

相关不等式依然成立。

蒙特卡洛方法 Monte Carto methods

重要性采样 importance sampling

估计 \(E[f(X)]\),其中 \(X\sim p\)。如果根据 \(p\) 采样是困难的,可以考虑根据 \(q\) 采样,并给出重要性采样的估计

\[\hat I_N = \fr 1 N \sum_{i = 1} ^ n f(Y_i) \fr {p(Y_i)} {q(Y_i)},\quad Y_i\sim q. \]

于是

\[E[\hat I_N] = E\left[f(Y_i) \fr {p(Y_i)} {q(Y_i)}\right] = \int f(y) \fr {p(y)} {q(y)} \cdot q(y)\dd y = \int f(y) p(y) \dd y = I. \]

注意这里要求当 \(p(x) > 0\)\(q(x) > 0\)\(q\) 不能忽略原来有概率得到的样本。

  • 本来以 \(p\) 的概率分布采样,现在以 \(q\) 的概率分布采样,所以每一小段区间的权重变成了原来的 \(\fr q p\),需要除回去。

需要多少采样才能以 \(1 - \d\) 的概率做到 \(\eps\) 近似?考虑 Chebyshev 不等式

\[\pr(|\hat I_N - E[\hat I_N]| \geq \eps) \leq \fr {\s ^ 2 (\hat I_n)} {\eps ^ 2}. \]

由随机采样的独立性(注意 \(\hat I_N\) 的定义前面有个 \(\fr 1 N\)),

\[\s ^ 2 (\hat I_N) = \fr 1 N \left(\int \fr {f ^ 2 (y) p ^ 2 (y)} {q(y)} \dd y - I ^ 2\right). \]

最优的 \(q(y)\) 可以使得方差为 \(0\):令 \(q(y) = \fr {f(y)p(y)} {\int f(y)p(y)\dd y}\),则

\[\s ^ 2(\hat I_N) = \fr 1 N \left(I\int f(y)p(y)\dd y - I ^ 2\right) = 0. \]

但是 \(q(y)\) 无法计算,因为它用到了我们想要采样的结果 \(I\)。我们需要可以采样的 \(q\),且方差越小越好。

拒绝采样 rejection sampling

考虑分布 \(g(x)\) 以及常数 \(C\) 使得 \(f(x) \leq C g(x)\)。根据 \(g(x)\) 生成采样 \(X\),以 \(\fr {f(x)} {Cg(x)}\) 的概率接受。如果接受,输出 \(X\),否则重复该过程。

本质上是在函数图像下采样,\(f(x)\)\(C g(x)\) 包裹住。于是接受的概率为 \(f(x)\) 的面积除以 \(Cg(x)\) 的面积,即

\[\pr(\text{accept}) = \fr {\int_{-\infty} ^ {\pif} f(x) \dd x} {C} = \fr {A} {C} \]

考虑最终采样 \(Y\) 不大于 \(y\) 的概率:

\[\bal \pr(Y \leq y) & = \pr(X\leq y \mid \rm {accept}) \\ & = \fr {\pr(X\leq y \land \rm{accept})} {\pr (\rm {accept})} \\ & = \fr C A \int_{-\infty} ^ y g(x) \fr {f(x)} {Cg(x)} \dd x \\ & = \fr {\int_{-\infty} ^ y f(x)\dd x} {\int_{-\infty} ^ {\pif} f(x)\dd x}. \eal \]

\(f(x)\) 可以是任意非负函数而不必须是概率分布。

Topic 6: Generating Functions

当初怎么没有好好学 OI?

生成函数 generating functions

把数列当成无穷级数就是 生成函数

对于数列 \(\{a_k\}\),其生成函数为

\[A(x) = \sum_{k = 0} ^ n a_kx ^ k. \]

于是,对函数建立的实分析和复分析理论也可以用于分析数列了。

Theorem

\(X\in \mathbb N\) 是随机变量。对于 \(p_k = \pr(X = k)\),设 \(A(x) = \sum_{k \ge 0}p_kx ^ k\),则

\[\begin{aligned} A'(x) & = \sum_{k\geq 1} kp_kx ^ {k - 1}, \\ A''(x) & = \sum_{k\geq 2} k(k - 1)p_kx ^ {k - 2}, \\ A'(1) & = \sum_{k\geq 1} kp_k = E[X], \\ A''(1) & = \sum_{k\geq 2} k(k - 1)p_k = E[X ^ 2] - E[X], \\ \s ^ 2(X) & = E[X ^ 2] - E[X] ^ 2 = A''(1) + A'(1) - A'(1) ^ 2. \end{aligned} \]

Example

\(X\)\(n\) 次抛掷以 \(b\) 概率为正面的硬币,则

\[A(x) = (bx + (1 - b)) ^ n. \]

于是 \(E[X] = A'(1) = bn\)\(\s ^ 2(X) = b ^ 2n(n - 1) + bn - b ^ 2n ^ 2 = b(1 - b)n\)

生成函数的基本运算:加减法 \(A(x) + B(x)\)卷积 convolution \(A(x) \cdot B(x)\)

Fibonacci numbers

将 Fibonacci 数列的递推式 \(a_{k} = a_{k - 1} + a_{k - 2}\) 代入生成函数的式子,得到

\[A(x) = \sum_{k = 0} a_k x ^ k = 1 + x + \sum_{k = 2} (a_{k - 1} + a_{k - 2}) x ^ k. \]

于是

\[A(x) = 1 + x + x(A(x) - 1) + x ^ 2A(x) \implies A(x) = \fr 1 {1 - x - x ^ 2}. \]

进行部分分式分解,

\[\fr 1 {1 - x - x ^ 2} = \fr 1 {(1 - \fr {1 + \sqrt 5} 2x) (1 - \fr {1 - \sqrt 5} 2x)}. \]

裂项后使用 \(\fr 1 {1 - ax} = \sum_{k \geq 0} a ^ kx ^ k\) 即得

\[a_n = \fr {1} {\sqrt 5}\l(\l(\fr {1 + \sqrt 5} 2 \r) ^ n - \l(\fr {1 - \sqrt 5} 2 \r) ^ n\r). \]

number of triangluations for a convex n-gon (Catalan numbers)

\(a_n\) 表示 \(n + 2\) 边形的不同三角剖分的数量。特别定义 \(a_0 = 1\)

对于 \(n\geq 3\),考虑 \((1, 2)\) 这条边所属三角形的另一个顶点,得到递推式

\[a_n = \sum_{k = 0} ^ {n - 1} a_k a_{n - 1 - k}. \]

于是

\[A(x) = 1 + \sum_{n\geq 1} \sum_{k = 0} ^ {n - 1} a_k a_{n - 1 - k} x ^ n = 1 + xA(x) ^ 2. \]

解得

\[A(x) = \fr {1 - \sqrt {1 - 4x}} {2x}, \]

其中 \(\fr {1 + \sqrt {1 + 4x}} 2\) 的解被忽略了,因为它不满足 \(A(0) = a_0 = 1\)

进一步地,由二项式定理,

\[A(x) = \fr {1 - \sum_{k\geq 0} \binom {1 / 2} {k} (-4) ^ kx ^ k} {2x} = -\fr 1 2\sum_{k\geq 1} \binom {1 / 2} k (-4) ^ kx ^ {k - 1}. \]

而(作业)

\[\binom {1 / 2} {n + 1} = \fr {(-1) ^ n} {2n + 1} \fr 1 {2 ^ {2n + 1}} \binom {2n + 1} n, \]

所以

\[a_n = -\fr 1 2 \binom {1 / 2} {n + 1} (-4) ^ {n + 1} = \fr 1 {2n + 1} \binom {2n + 1} n = \fr 1 {n + 1} \binom {2n} {n}. \]

称为 Catlan 数

up-down permutations

定义波浪排列为 \(\s(1) < \s(2) > \s(3) < \cdots > \s(n)\),其中 \(n\) 是奇数。

枚举 \(k = \s ^ {-1}(n)\),则 \([1, k - 1]\)\([k + 1, n]\) 都是波浪排列。得到递推式

\[a_n = \sum_{\mathrm{odd}\ k\geq 1} \binom {n - 1}k a_k a_{n - 1 - k}. \]

转成 EGF 得到

\[nb_n = \sum_{\mathrm{odd}\ k\geq 1} b_kb_{n - 1 - k}. \]

\(B(x) = \sum_{\mathrm{odd}\ n} nb_nx ^ {n - 1}\),则

\[B'(x) = 1 + \sum_{\mathrm{odd} \ n\geq 3} \sum_{\mathrm{odd}\ k\geq 1} b_{k}b_{n - 1 - k}x ^ {n - 1} = 1 + B(x) ^ 2. \]

解得 \(B(x) = \tan x\)

复分析工具 complex analysis tools

欧拉公式 Euler's formula:考虑 \(\e ^ x\)\(\cos x\)\(\sin x\) 的幂级数,得到

\[\e ^ {\i x} = \cos x + \i \sin x. \]

复积分 complex integration:设 \(f\) 是复函数。设 \(\G\) 是从 \(z_0 = a\in \mathbb C\)\(z_m = b\in \mathbb C\) 的路径,\(z_{0\sim m}\) 将路径 \(m\) 等分。则

\[\int_\G f(z)\dd z = \lim_{m\to \pif}D_m = \lim_{m\to \pif}\sum_{0\leq k \leq m - 1} f(z_k)(z_{k + 1} - z_k). \]

前提是极限存在。

对参数化曲线 \(\g : [a, b] \to \mathbb C\),定义

\[\int_\g f(z)\dd z = \int_a ^ b f(\g(t)) \g'(t)\dd t. \]

Cauchy 积分定理 Cauchy's integral theorem

如果 \(f(z)\) 是分析函数(全纯函数),则闭合曲线上的复积分 \(\oint_\g f(z)\dd z = 0\)。对任意起止点相同的曲线,积分结果相同。

Cauchy 积分公式 Cauchy's integral formula

如果 \(f\)\(z_0\) 以外的点可微,则

\[\oint_\g \fr {f(z)} {z - z_0} \dd z = 2\pi \i f(z_0). \]

只需考虑在 \(z_0\) 附近的小圆 \(C_\eps\)\(z = z_0 + \eps \e ^ {\i \t}\)\(\dd z = \i \eps \e ^ {\i \t}\dd \t\)

\[\oint_{C_{\eps}} \fr {f(z)} {z - z_0}\dd z = f(z_0) \int_0 ^ {2\pi} \fr {i \eps \e ^ {i\t}}{\eps \e ^ {i\t}}\dd \t = 2\pi \i f(z_0). \]

\(f\) 不解析的点称为 奇点 singularities。其中,称 \(f\)\(z_0\) 处有阶为 \(m\)极点 poles,若 \((z - z_0) ^ mf(z)\)\(z_0\) 处全纯且非零。此时可以展开成 Laurent 级数

\[f(z) = \sum_{n = -m} ^ {\infty} a_n(z - z_0) ^ n. \]

本质即考虑 \((z - z_0) ^ mf(z)\) 的 Taylor 展开。

留数定理 the residue theorem

Laurant 级数当中的 \(a_{-1}\) 称为 \(f(z)\)\(z_0\) 处的 留数 residue,记为 \(\rm{Res}(f, z_0)\)。对于恰好包含一个极点 \(z_0\) 的环路 \(\g\)

\[\oint_\g f(z) \dd z = 2\pi \i \cdot \rm{Res}(f, z_0). \]

Proof

\(n \neq -1\)

\[\oint_{C_\eps} a_n(z - z_0) ^ n\dd z = a_n\eps ^ {n + 1} \int_0 ^ {2\pi} \e ^ {i\t(n + 1)} \i \dd \t = \left.\fr {a_n \eps ^ {n + 1}} {n + 1} \e ^ {i\t (n + 1)} \right|_0 ^ {2\pi} = 0. \]

\(n = -1\),使用 Cauchy 积分公式即可。\(\square\)

Cauchy 留数定理 Cauchy's residue theorem

扩展到多个极点的情况,

\[\oint_\g f(z) \dd z = 2\pi \i \sum_{k = 1} ^ n \rm{Res}(f, z_k). \]

对于简单极点(\(m = 1\)),\(\rm{Res}(f, z_0) = \lim_{z\to z_0} (z - z_0)f(z)\)

对于阶为 \(m\) 的极点,乘以 \((z - z_0) ^ m\) 之后做 Taylor 展开。

\[\rm{Res}(f, z_0) = \fr 1 {(m - 1)!}\lim_{z\to z_0} \fr {\dd ^ {m - 1}} {\dd z ^ {m - 1}} [(z - z_0) ^ m f(z)]. \]

up-down permutations continued

考虑将 \(\tan x\)\(x = 0\) 处展开得到

\[\tan x = \sum_{\rm{odd}\ n} b_n x ^ n. \]

\(\tan z = \fr {2\sin z} {2\cos z}\) 定义

\[\tan z = \fr {\e ^ {\i z} - \e ^ {-\i z}} {\i (\e ^ {\i z} + \e ^ {-\i z})}. \]

\(\b_n\) 表示 \(f_n = \fr {\tan z} {z ^ {n + 1}}\)\(z = 0\) 处的留数,则 \(\b_n = b_n\)

Lemma 1

\(f_n\) 的所有极点为 \(z = 0\)\(z_m = (m - \fr 1 2)\pi\)

Lemma 2

\[b_n = -\sum_{m\in \mathbb Z} \rm{Res}(f_n, z_m). \]

只需证明以原点为中心的 \(2m\pi \times 2m\pi\) 的矩形上的积分随着 \(m\to \pif\) 而趋于 \(0\) 即可。

考虑

\[\l|\int_\G f(z)\dd z\r| \leq \max_{z\in \G} |f(z)| \cdot L(\G), \]

其中 \(L(\G)\) 表示 \(\G\) 的长度。

根据以上引理,可以证明(作业)对偶数 \(n\)\(b_n = 0\),且对奇数 \(n\)

\[b_n = 2 \left(\fr 2 \pi\right) ^ {n + 1} \sum_{k\in \mathbb N} \fr 1 {(2k + 1) ^ {n + 1}}. \]

代入 \(n = 1\) 得到

\[\fr 1 {1 ^ 2} + \fr 1 {3 ^ 2} + \fr 1 {5 ^ 2} + \cdots = \fr {\pi ^ 2} 8. \]

于是 \(\zeta(2) = \fr {\pi ^ 2} {8} + \fr 1 4\zeta(2)\),解得 \(\zeta(2) = \fr {\pi ^ 2} 6\)

integral evaluation

\[\int_{-\infty} ^ {\pif} \fr 1 {1 + x ^ 4}\dd x. \]

\(f(z) = \fr 1 {1 + z ^ 4}\),则 \(f(z)\) 有极点 \(z_j = \exp(\i \cdot \fr {j} {4} \pi) (j\in {\pm 1, \pm 3})\) 和对应留数 \(r_j = -\fr {z_j} 4\)(洛必达)。

\(\G_R\) 是上半平面以原点为中心,半径为 \(R\) 的半圆,则 \(-\fr 1 4(z_1 + z_3) = \fr 1 {2\pi\i} \int_{\G_R} f(z)\dd z\)

Topic 7: Matrix Tree Theorem

矩阵树定理 matrix tree theorem

生成树计数。

凯莱定理 Cayley's formula\(\#sp(K_n) = n ^ {n - 2}\)

拉普拉斯矩阵 Laplacian matrix\(L_G = (l_{ij})\),其中 \(l_{ii} = \deg(v_i)\)\(l_{ij} = -[(i, j)\in E]\)

\(A ^ {(i)}\) 表示删掉第 \(i\) 行第 \(i\) 列的代数余子式。

矩阵树定理 matrix tree theorem

\[\forall 1\leq i\leq |V|,\ \# sp(G) = \det(L_G ^ {(i)}). \]

Proof

柯西-比内公式 Cauchy-Binet formula:对 \(n\times m\ (n\leq m)\) 矩阵 \(A, B\)\([1, n]\) 的子集 \(S\)

\[\det(A B ^ T) = \sum_{|S| = n} \det(A_S) \det(B_S). \]

\(|V|\times |E|\) 矩阵 \(A\),对任意 \(e_j = (u_j, v_j)\ (u_j < v_j)\)\(A_{u_j, j} = 1\)\(A_{v_j, j} = -1\),则 \(AA ^ T = L_G\)

\(A'\)\(A\) 删去第 \(i\) 行的结果,则 \(A'(A') ^ T = L_G ^ {(i)}\)

由 Cauchy-Binet 公式,

\[\det(L_G ^ {(i)}) = \sum_{|S| = n - 1} \det(A'_S) ^ 2. \]

Lemma

\(|\mathrm{det}(A'_S)| = 1\) 当且仅当 \(\{e_k \mid k\in S\}\) 是生成树。

作业。

posted @ 2025-03-01 17:31  qAlex_Weiq  阅读(722)  评论(2)    收藏  举报