《计算机应用数学》学习笔记 —— 只是一些概率论、组合数学、信息论、统计学、复分析和图论
只是一些概率论、信息论、组合数学、复分析和图论——《计算机应用数学》学习笔记
作业 50%,期中期末各 25%。
Topic 1: Probability Theory Basics
概率空间 probablity space
随着概率问题变得越来越复杂,我们需要概率的精确的数学定义。
离散情况下,概率空间 \(P = (U, p)\) 由以下组成:
- 样本空间 universe \(U\) 是非空有限集。
- 概率函数 probability function \(p : U\to [0, 1]\) 且 \(\sum_{x\in U} p(x) = 1\)。
\(P\) 的一个 事件 event \(T\) 是 \(U\) 的子集,\(T\) 的概率 \(\pr(T) = \sum_{x\in T} p(x)\)。
三门问题 Monte Hall problem
一个经典问题。
一个门后有大奖,选定一个门之后会得知一个不是当前门的没有大奖的门。
- 如果不切换,那么概率是一开始选中的概率 \(\frac 1 3\)。
- 如果在剩下两个门随机选,那么概率是 \(\frac 1 2\)。
- 如果切换,那么概率是一开始没选中的概率 \(\frac 2 3\)。
在描述概率空间时需要小心:直觉有可能导致错误的结果!
基本计数规则 basic counting rules
生日悖论 birthday paradox
\(U = \{(x_1, \cdots, x_n) \mid 1\leq x_i \leq 365\}\),\(T = \{(x_1, \cdots, x_n) \mid \exists j\neq k, x_j = x_k \}\)。
\[q(n) = 1 - \prod_{i = 0} ^ {n - 1} \left(1 - \frac {i} {365}\right). \]根据经典不等式 \(\e ^ {-x} \geq 1 - x,\ \forall x \geq 0\) 可知
\[q(n) \geq 1 - \exp(-\frac {n(n - 1)} {2\times 365}) \equiv d(n). \]\(d(n)\) 是对 \(q(n)\) 的良好近似。给定概率 \(0.5\),计算 \(q(n) = 0.5\) 的 \(n\) 可以用 \(d(n) = 0.5\) 近似。
\[\begin{aligned} \exp(-\frac {n(n - 1)} {2\times 365}) & = 0.5, \\ \frac {n(n - 1)} {2\times 365} & = \ln 2 = 0.69, \\ x & = \sqrt {2\times 365 \times 0.69} = 22.44. \end{aligned} \]
基本计数规则 basic counting rules:对于均匀的概率函数,\(\pr(T) = |T| / |U|\)。计算 \(\pr(T)\) 等价于计算 \(T\) 的大小。
- 加法原理 addition rule:如果 \(S\) 是 \(S_{1\sim k}\) 的无交并,则 \(|S| = \sum_{i = 1} ^ k |S_i|\)。
- 乘法原理 multiplication rule:如果 \(S\) 的每个元素可以和 \(s = (i_1, \cdots, i_m)\) 一一对应,其中 \(1\leq i_k \leq c_k\),则 \(|S| = \prod c_{1\sim m}\)。
37% 法则 the 37% rule
\(x\) 是均匀随机的 \(1\sim n\) 的排列。在不知道之后的数的情况下依次决定每个数是否选择,最多选一个数,希望选中 \(n\)。
策略 \(k\):跳过前 \(k\) 个数,选择第一个 \(x_j\) 使得 \(x_j > \max x_{1\sim k}\)。分析其概率:
- (加法原理)设 \(T\) 是使得策略成功的排列,\(T_j\) 为 \(T\) 中使得 \(x_j = n\) 的排列,则 \(T\) 是 \(T_{k < j \leq n}\) 的无交并。
- (乘法原理)使得 \(x_j = n\) 的排列有 \((n - 1)!\) 个,落在 \(T\) 中要求 \(\max x_{1\sim j - 1} = \max x_{1\sim k}\),概率是 \(\frac k {j- 1}\)。
综上,
\[\pr(T) = \sum_{j = k} ^ {n - 1} \frac {k(n - 1)!} {(j - 1)n!} = \frac k n\left(H_{n - 1} - H_{k - 1}\right) \approx -\frac k n\ln\frac k n. \]求导可知在 \(\frac k n = \frac 1 {\e}\) 时最优,最优值为 \(\frac 1 {\e} = 0.37\)。
基本概率工具 essential probability tools
#1 布尔不等式 Bool's inequality, union bound:对有限多个事件 \(T, T_1, \cdots, T_m\),若 \(T\subseteq \bigcup_{i = 1} ^ m T_i\),则 \(\pr(T) \leq \sum_{i = 1} ^ m \pr(T_i)\)。若 \(T_i\) 两两无交且 \(T\) 是 \(T_i\) 的无交并,则不等式取等。
这些很简单的不等式可以给出很惊人的结论。
拉姆齐数 Ramsey number:点数不小于 \(R(r, s)\) 的图一定存在 \(r\) 个点的团或 \(s\) 个点的独立集。\(R(k) = R(k, k)\)。
Ramsey 定理:对任意 \(k\geq 3\),存在 \(N\) 使得对任意 \(N\) 个点的图,图上有大小为 \(k\) 的完全图或独立集。\(R(3) = 6\)。
作业:证明 \(R(k) \leq \binom {2k - 2} {k - 1} < 4 ^ k\)。具体是先证明 \(R(r, s)\leq R(r - 1, s) + R(r, s - 1)\) 然后归纳。
Theorem
\[R(k) \geq \lfloor 2 ^ {k / 2}\rfloor. \]Paul Erdos 1947.
Proof
设 \(n\leq 2 ^ {k / 2}\)。
对于大小为 \(k\ (k\geq 3)\) 的点集 \(V\),在随机图上 \(V\) 形成完全图的概率为 \(2 ^ {-k(k - 1) / 2}\)。根据布尔不等式,至少存在一个完全图或独立集的概率不超过
\[\binom n k \times 2 \times 2 ^ {-k(k - 1) / 2} \leq 2\frac {n ^ k} {k!2 ^ {k(k - 1) / 2}} \leq 2\frac {2 ^ {k ^ 2 / 2}} {k!2 ^ {k(k - 1) / 2}} = \frac {2 ^ {k / 2 + 1}}{k!} < 1. \]\(\square\)
概率方法 probabilistic method:通过概率分析而非显式构造来证明一个数学对象的存在性。由 Paul Erdos 创立。
#2a 条件概率 conditional probability:给定 \(T\) 之后 \(S\) 发生的概率称为 \(S\) 关于 \(T\) 的条件概率。
在逻辑上,\(\pr(S\cap T)\) 和 \(\pr(S\cup T)\) 经常写为 \(\pr(S\land T)\) 和 \(\pr(S\lor T)\)。
#2b 链式法则 chain rule:
将链式法则应用在生日悖论上:设 \(S_j\) 是所有 \(x_j\notin x_{1\sim j - 1}\) 的 \(x\) 的集合。
分配律 distributive law:设 \(T\subseteq W_1\cup \cdots \cup W_m\),那么
若 \(W_j\) 两两无交,则不等式取等。注意这里不要求 \(T\) 是它们的无交并。这是加法原理和乘法原理的推广。
Topic 2: Statistics on a Probability Space
条件概率(续)conditional probability continued
两个事件 \(S, T\) 相互 独立 independent,若 \(\pr(S \mid T) = \pr(S)\)。即 \(\pr(S\cap T) = \pr(S) \pr(T)\)。也就是说,\(S, T\) 之间,一个事件发生不会影响另一个事件发生的概率。
当 \(S_n\subseteq S_{n - 1} \subseteq \cdots \subseteq S_1\) 时,
排列的环长 cycle length in a permutation
设 \(L_i(\s)\) 表示 \(\s\) 的包含 \(i\) 的环长。注意到
\[\pr(L_1 > s \mid L_1 > s - 1) = \fr {n - s} {n - s + 1}. \]而 \(\pr(L_1 > 0) = 1\)。由链式法则,对任意 \(1\leq s \leq n\),
\[\pr(L_1 = s) = \fr 1 n. \]
团的贪心算法 greedy clique algorithm
贪心地检查每个点能否和当前的团形成团。
设 \(A(G)\) 是最终得到的团,则对于随机图,
\[\pr(|A(G) - \log_2 n| \leq \log_2\log_2n) = 1 - o(1). \]上界
在集合已经有 \(c\) 个元素时,新加入一个点的概率为 \(\fr 1 {2 ^ c}\)。
设 \(K = \log_2 n + \log_2\log_2 n\),设 \(T_i\) 表示第 \(K\) 个加入的点是 \(i\) 的事件,由分配律,
\[\pr(|A(G)| > K) = \sum_{i = 2} ^ n \pr(T_i) \pr(|A(G)| > K \mid T_i). \]考虑到
\[\pr(|A(G)| > K\mid T_i) \leq \fr {n - i} {2 ^ K} \leq \fr n {2 ^ K} = \fr 1 {\log_2 n}, \]于是
\[\pr(|A(G)| > K) \leq \fr 1 {\log_2 n} \sum_{i = 2} ^ n \pr(T_i) \leq \fr 1{\log_2 n} = o(1). \]上界的 \(\log_2 n + f(n)\) 中,\(f(n)\) 可以是增长任意缓慢的函数,只要 \(f(n)\to \pif\)。
下界见本章最后。
N 门问题 n doors problem
每个人只允许打开 \(\fr n 2\) 扇门。
一个人的成功概率是 \(\fr 1 2\),但是两个人都成功的概率可以大于 \(\fr 1 4\)。策略:两个人事先约定门的排列 \(\s\),每个人从自己对应的门开始找。成功的概率是两个人的宠物所在环长均不超过 \(\fr 1 2\) 的概率,是 \(\fr 3 8\)。
所有人都成功的概率等于没有环长超过 \(\fr 1 2\) 的概率,使用组合数学得到 \(1 - (H_n - H_{n / 2}) = 1 - \ln 2 \approx 31\%\)。
随机变量 random variable
一个 随机变量 是一个函数 \(X : U\to R\)。它的 期望 expectation \(E[X] = \sum_{u\in U} p(u) X(u)\)。
定义期望的和 \(Z = aX + bY\) 为 \(Z(u) = aX(u) + bY(u)\)。
#3 期望的线性性 law of linear expectation:若 \(X = \sum_{i = 1} ^ n C_iX_i\),则
环的个数的期望 expected number of cycles
设 \(X\) 表示环的数量,则 \(X = \sum_{i = 1} ^ n \fr 1 {L_i(\s)}\)。由期望的线性性,
\[E[X] = n E\left[\fr 1 {L_i}\right] = n\sum_{i = 1} ^ n \fr 1 {n} \cdot \fr 1 i = H_n. \]
条件期望 conditional expectation:
#4 期望的分配律 distributive law for expectation:设 \(U\) 是 \(W_1, \cdots, W_n\) 的无交并,则
几何分布的期望 mean of the geometric distribution
抛掷一枚正面概率为 \(p\) 的硬币,设 \(X\) 是第一次抛出正面的次数。
\[E[X] = p + (1 - p)(1 + E[X]) \implies E[X] = \fr 1 p. \]
随机变量 \(X\) 的 方差 variance:
标准差 standard deviation:
因此方差通常也写作 \(\s ^ 2\)。
几何分布的方差 variance of the geometric distribution
\[E[X ^ 2] = p + (1 - p)E[(1 + X) ^ 2] \implies \s ^ 2(X) = \fr {1 - p} {p ^ 2}. \]
称 \(X, Y\) 是 独立随机变量 independent random variable,若
此时
方差衡量了随机变量的分散程度。
尾部估计 tail estimates
概率工具其五。
马尔可夫不等式 Markov's inequality:
设 \(X\) 是非负随机变量。对任意 \(c > 0\),
Proof
\[E[X] > \pr(X > cE[X]) \cdot cE[X] \]\(\square\)
另一种形式为
切比雪夫不等式 Chebyshev's inequality:
Proof
对 \(|X - E[X]|\) 使用 Markov 不等式,得到
\[\pr(|X - E[X]| > c\s(X)) = \pr((X - E[X]) ^ 2 > c ^ 2\s ^ 2(X)) < \fr 1 {c ^ 2}. \]\(\square\)
界不是很紧,但适用范围非常广泛。
团的贪心算法的下界 lower bound of the greedy clique problem
设 \(X_j\) 表示第 \(j\) 个加入的结点编号,\(Y_j = X_{j + 1} - X_{j}\)。
Observation
\(Y_j\) 是概率为 \(b_j = \fr 1 {2 ^ j}\) 的几何分布。
\[E[Y_j] = 2 ^ j, \quad \s ^ 2(Y_j) = \fr {1 - b_j} {b_j ^ 2} = 4 ^ j - 2 ^ j. \]设 \(K = \log_2 n - \log_2\log_2 n\),那么问题等价于
\[\pr\left(\left(X' \equiv \sum_{j = 1} ^ K Y_j\right) \leq n - 1\right) = 1 - o(1). \]根据期望的线性性,
\[E[X'] = \sum_{j = 1} ^ K 2 ^ j = 2 ^ {1 + K} - 2\leq \fr {2n} {\log_2 n}. \]因为 \(Y\) 是独立随机变量,所以
\[\s ^ 2(E') = \sum_{j = 1} ^ K (4 ^ j - 2 ^ j) = \fr 4 3(4 ^ K - 1) - 2(2 ^ K - 1) \leq 2 \left(\fr {n} {\log_2 n}\right) ^ 2. \]若 \(X' > n - 1\),那么 \(X' - E[X'] > \fr n 2\)。于是
\[\pr(X' \geq n - 1) \leq \pr\left(X' - E[X'] > \fr n 2\right). \]由 Chebyshev 不等式,
\[\pr\left(X' - E[X'] > \fr n 2\right) \leq \fr {4\s ^ 2(X')} {n ^ 2} \leq \fr {8} {(\log_2 n) ^ 2}. \]\(\square\)
Topic 3: Tail bounds continued
切比雪夫不等式 Chebyshev's inequality
使用 Chebyshev 不等式时,需要计算 \(E[X]\) 和 \(\s(X) = E[X ^ 2] - E[X] ^ 2\)。\(E[X ^ k]\) 称为 k 阶矩 the k-th moment。
随机图的最大团(下界) largest clique of a random graph (lower bound)
设 \(m = (2 - \eps) \log_2 n\),\(M\) 是所有大小为 \(m\) 的子集。
对每个 \(V\in M\) 设随机变量 \(A\),\(A_V(G) = 1\) 当且仅当 \(V\) 是团。考虑 \(X = \sum_{V\in M} A_V(G)\),\(T\) 表示 \(w(G)\geq m\),则 \(\pr(T) = \pr(X > 0)\)。
考虑以下两个命题:
- 当 \(n\to \pif\) 时,\(E[X]\to \infty\)。
- \(\s ^ 2(X) = E[X] ^ 2 \cdot o(1)\)。
若命题成立,则根据 Chebyshev 不等式,
\[\pr(X \leq 0) \leq \pr(|X - E[X]| > \fr 1 2 E[X]) \leq \fr {\s ^ 2(X)}{\fr 1 4E[X] ^ 2} = o(1). \]Proof (1)
使用 Stirling 公式 \(n!\approx \sqrt {2\pi n}(n / e) ^ n\),
\[\bal E[X] & = \binom n m \fr 1 {2 ^ {\binom m 2}} \\ & \geq \Omega \left(\fr {n ^ m} {\sqrt {2\pi m} (m / \e) ^ m} \cdot \fr 1 {2 ^ {m(m - 1) / 2}}\right) \\ & = \Omega \left(\left(\fr {\e n} {(2\pi m) ^ {1 / 2m} \cdot m} \cdot \fr 1 {2 ^ {m / 2}}\right) ^ m\right) \\ & = \Omega \left(\left(\fr {0.01 n} {\log_2 n} \cdot \fr 1 {n ^ {1 - \eps / 2}}\right) ^ m\right) \\ & = n ^ {\Omega(\log_2 n)}. \eal \]Proof (2)
对 \(|V\cap V'| = 1\),\(A_V\) 和 \(A_{V'}\) 是独立的。于是
\[\begin{aligned} \s ^ 2(X) & \leq E\l[\sum_{V, V'} A_VA_{V'}\r] - \sum_{|V\cap V'| \leq 1}E[A_V]E[A_{V'}] \\ & = E\l[\sum_V A_V + \sum_{|V\cap V'| > 1} A_VA_{V'}\r] \\ & \leq E[X] + \sum_{2\leq k\leq m} \sum_{|V\cap V'| = k} E[A_VA_{V'}] \\ & = E[X] + \sum_{2\leq k\leq m} \sum_{|V\cap V'| = k} \pr(A_{V'} = 1 \mid A_V = 1)\pr(A_V = 1) \\ & = E[X] + \sum_{2\leq k\leq m} \sum_{V} \pr(A_V = 1) \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \\ & = E[X] + E[X] \sum_{2\leq k\leq m} \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \\ & \leq E[X] + \fr {64 m ^ 5} {n} E[X] ^ 2. \end{aligned} \]其中最后一步用到引理(作业)
\[\sum_{2\leq k\leq m} \fr {\binom m k \binom {n - m} {m - k}} {2 ^ {\binom m 2 - \binom k 2}} \leq \fr {m ^ 5} {n - m + 1} E[X]. \]而 \(m \leq 2\log_2 n\) 且 \(E[X]\to \pif\)(把前面那一项放掉),所以 (2) 成立。\(\square\)
概率估计的几何解释
设随机变量 \(X = \sum_{i = 1} ^ n X_i\),其中 \(X_i\) 分别有 \(\fr 1 2\) 的概率等于 \(0\) 和 \(1\)。
计算得 \(E[X] = \fr n 2\),\(\s(x) = \sqrt {\sum \s ^ 2(X_i)} = \fr {\sqrt n} 2\)。使用 Chebyshev 不等式,
如果使用 Markov 不等式,则会得到很差的结果,因为标准差和均值不在同一个数量级。
考虑 \(f(x) = 1(x\geq a)\),则 \(\pr(X\geq a) = E[f(x)]\)。考虑 \(g(x)\geq f(x)\),则
如果 \(g(x)\) 是一个方便计算期望的函数,那么我们就得到了 \(\pr(X\geq a)\) 的一个估计。
当 \(g(x) = \fr x a\) 时,得到 Markov 不等式:
当 \(g(x) = \fr {(x - \mu) ^ 2} {(\mu - a) ^ 2}\) 时,得到 Chebyshev 不等式:
现在我们考虑更激进的估计方法:指数函数。
切诺夫界 Chernoff bound
因为 \(f(x)\) 在 \(x\geq a\) 时等于 \(1\),所以指数上 \(x\) 的系数必须是正数。考虑到 \(g(a) = 1\) 的条件,\(g(x) = \e ^ {t(x - a)}\),其中 \(t\) 是待定系数。另一种解释是使用 Markov 不等式
\(t = 0\) 时得到 \(\pr(X \geq a) \leq 1\),没有用。\(t\to \pif\) 时,\(x\geq a\) 的部分又会增长太快导致估计得不好。我们要找到最好的 \(t\) 使得 \(E[g(x)]\) 最小。
切诺夫界 Chernoff bound:设随机变量 \(X = \sum_{i = 1} ^ n X_i\),其中 \(\pr(X_i = 1) = b_i\),\(\pr(X_i = 0) = 1 - b_i\),则
Proof
设 \(a = (1 + \d) \mu\)。
由 Markov 不等式,
\[\pr(X > (1 + \d) \mu) \leq \fr {E[\e ^ {tX}]} {\e ^ {t(1 + \d)\mu}}. \]根据经典不等式 \(1 + x \leq \e ^ x\),
\[\begin{aligned} E[\e ^ {tX}] & = \prod \e ^ {tX_i} \\ & = \prod(1 - b_i + b_i\e ^ t) \\ & \leq \prod \exp(b_i(\e ^ t - 1)) \\ & = \exp((\e ^ t - 1)\sum b_i) \\ & = \exp((\e ^ t - 1)\mu). \end{aligned} \]最小化 \((\e ^ t - 1)\mu - t(1 + \d)\mu\),得到 \(t_0 = \ln(1 + \d)\),所以
\[\pr(X > (1 + \d) \mu) \leq \left(\fr {\e ^ {\d}} {(1 + \d) ^ {(1 + \d)}}\right) ^ \mu. \]根据 \(\ln(1 + x) \geq \fr {2x} {2 + x}\) 得到
\[\d - \ln(1 + \d) (1 + \d) \leq -\fr {\d ^ 2} {2 + \d}. \]于是
\[\pr(X > (1 + \d)\mu) \leq \exp(-\fr {\d ^ 2} {2 + \d} \mu). \]类似可以证明
\[\pr(X < (1 - \d)\mu) \leq \left(\fr {\e ^ {-\d}} {(1 - \d) ^ {(1 - \d)}}\right) ^ \mu \leq \exp(-\fr {\d ^ 2} {2} \mu). \]\(\square\)
取 \(\d = 10 \sqrt {\fr 1 n}\),则当 \(n\to \pif\) 时,
Corollary 1
\[\pr(X\geq (1 + \d)\mu) \leq \exp(-\fr 1 3\d ^ 2\mu),\quad \d > 0. \]\[\pr(X\leq (1 - \d) \mu) \leq \exp(-\fr 1 2\d ^ 2 \mu), \quad 0 \leq \d < 1. \]Corollary 2
当 \(c > 7E[X]\) 时,
\[\pr(X > c) < 2 ^ {-c}. \]
Chernoff 界的平均值形式:对于 \(\ov X = \fr 1 n X\),\(\mu' = \fr \mu n\),有
其中最后一个不等号成立是因为 \(\mu \leq n\)。常数 \(2\) 是对两侧分别使用 Chernoff 界得到的。
霍夫丁不等式 Hoeffding's inequality:设 \(X_i\in [a, b]\) 是有界随机变量,则对任意 \(t\geq 0\),
伯努利不等式 Bernoulli inequality:设 \(X_i\sim B(p)\),则对任意 \(\eps > 0\),都有
还讲了一个关于鞅的 Azuma 不等式。太难不看。
Topic 4: Advanced Applications
熵 entropy
熵 是定量描述随机性的工具。随机变量 \(X\) 的熵定义为
当 \(X\) 是二元随机变量时,设 \(p = \pr(X = 1)\),则
联合熵 joint entropy
如果 \(X\) 和 \(Y\) 独立,那么 \(H(X, Y) = H(X) + H(Y)\)。
接下来主要研究二元随机变量。
熵和二项系数 entropy and binomial coefficients
设 \(nq\) 是 \([0, n]\) 的整数。
\[\fr {2 ^ {nH(q)}} {n + 1} \leq \binom n {nq} \leq 2 ^ {nH(q)}. \]Proof
对于上界,直接二项展开。
\[\binom {n} {nq} \leq q ^ {-qn} (1 - q) ^ {-(1 - q)n} = 2 ^ {-qn\log_2 q - (1 - q)n\log_2(1 - q)} = 2 ^ {nH(q)}. \]对于下界,考虑相邻两个二项系数的差
\[\binom n kq ^ k(1 - q) ^ {n - k} - \binom n {k + 1} q ^ {k + 1} (1 - q) ^ {n - k - 1} = \binom n kq ^ k (1 - q) ^ {n - k}\l(1 - \fr {q} {1 - q} \fr {n - k} {k + 1}\r). \]可知当 \(k \leq nq - 1 + q\) 时差非负。所以当 \(k = nq\) 时取到最大值,其大于平均值 \(\fr 1 {n + 1}\),再使用类似上界的方法即可。\(\square\)
熵衡量了能够从随机变量中提取的均匀独立的比特的数量。
提取函数 extract function
- 以下内容比较神秘,我也没怎么听懂。
设 \(X\) 是集合 \(\mathcal{X}\) 里的随机变量。定义提取函数 \(\rm {Ext} : \mathcal{X} \to \{0, 1\} ^ *\),要求对任意满足 \(\pr(|\rm {Ext}(x)| = k) > 0\) 的 \(k\),都有
将 \(X\) 的每个可能结果映射到任意 \(01\) 序列,满足如果一个序列有可能出现,那么所有这个长度的序列会等概率出现。当 \(p = \fr 1 2\) 时,所有情况等可能发生,可以将结果映到自身,得到 \(n\) 比特的随机性。当 \(p\neq \fr 1 2\) 时,得到的随机性会小于 \(n\) 比特。有以下定理。
Theorem
设硬币抛出正面的概率 \(p > \fr 1 2\)。对任意常数 \(\d > 0\) 和充分大的 \(n\),
- 任意 \(\rm {Ext}(\cdot)\) 关于 \(n\) 次独立抛硬币结果的平均输出长度不超过 \(nH(p)\)。
- 存在 \(\rm {Ext}(\cdot)\) 关于 \(n\) 次独立抛硬币结果的平均输出长度不小于 \((1 - \d)n H(p)\)。
Part 1
Lemma
如果输入序列 \(x\) 出现的概率为 \(q\),那么 \(|\rm {Ext}(x)| \leq -\log_2 q\)。
Proof
因为所有长度为 \(|\rm {Ext}(x)|\) 的输出序列概率相同,所以 \(2 ^ {|\rm {Ext}(x)|}q\leq 1\)。
设 \(B\) 表示 \(|\rm {Ext}(x)|\),则
\[E[B] = \sum_x \pr(X = x) |\rm {Ext}(x)| \leq \sum_x \pr(X = x) \log_2 \fr {1} {\pr(X = x)} = H(X). \]\(\square\)
Part 2
Lemma
假设 \(X\) 在 \(\{0, \cdots, m - 1\}\) 中均匀随机选择,则 \(H(X) = \log_2 m\)。存在 \(X\) 的提取函数平均长度不小于 \(\log_2 m - 2\)。
Proof
设 \(\alpha = \lfloor\log_2 m\rfloor\),对 \(0 \sim 2 ^ \alpha - 1\),输出长度为 \(\alpha\),递归下去。
\[\sum_{i = 1} ^ \alpha i2 ^ {\alpha - i} = \mathcal{O}(2 ^ \alpha). \]设 \(\eps < p - \fr 1 2\)。考虑 \(k\in [n(p - \eps), n(p + \eps)]\)。由以上引理,存在对出现 \(k\) 个正面的序列(\(Z = k\))的提取函数,其平均长度
\[E_k \geq \log_2 \binom n k - 2 \geq \log_2 \binom n {\lfloor n(p + \eps)\rfloor} - 2 \geq \log_2\fr {2 ^ {nH(p + \eps)}} {n + 1} - 2. \]于是存在提取函数的平均长度
\[E[B]\geq \sum_k \pr(Z = k) E_k \geq (nH(p + \eps) - \log_2(n + 1) - 2)\pr(|Z - np| \leq \eps n). \]根据 \(E[Z] = np\) 和 Chernoff 界,
\[\pr(|Z - np| \leq \eps n) \geq 1 - 2\exp(-\fr {n\eps ^ 2} {3p}). \]\(\square\)
压缩函数 compression function
定义压缩函数
满足对任意 \(x\neq x'\),\(\rm {Com}(x)\) 不是 \(\rm {Com}(x')\) 的前缀。
- Huffman 编码。
Theorem
设 \(p > 1 / 2\)。对任意 \(\d > 0\),当 \(n\) 足够大时:
- 存在 \(\rm {Com}\) 期望长度不超过 \((1 + \d) nH(p)\)。
- 任意 \(\rm {Com}\) 期望长度至少 \((1 - \d) n H(p)\)。
香农定理 Shannon's theorem
信息论的经典定律。
在一个有噪音的频道上,每一位有 \(p\) 的概率翻转。可以传输 \(n\) 比特的数据,求最多能可靠地传输多少比特的数据。形式化地,定义 \((k, n)\) 编码函数和解码函数
找到最大的 \(k\) 满足存在 \((k, n)\) 编码和解码函数使得成功概率不小于 \(1 - \eps\)。
香农定理 Shannon's theorem
\[k_{\max} = n(1 - H(p)). \]\(1 - H(p)\) 项称为 频道容量 channel capacity。具体地,对任意 \(\d, \eps > 0\),当 \(n\) 足够大时:
- 对任意 \(k\leq n(1 - H(p) - \d)\),存在 \((k, n)\) 编码解码使得错误率不超过 \(\eps\)。
- 对任意 \(k \geq n(1 - H(p) + \d)\),不存在 \((k, n)\) 解码编码使得错误率不超过 \(\eps\)。
Proof
不妨设 \(p < 0.5\)。我们证明第一部分,即存在性。
设 \(k = n(1 - H(p) - \d)\),考虑编码函数的像集 \(\al C = \{c_1, \cdots, c_M\}\),其中 \(M = 2 ^ k\)。
设 \(\tilde c_i\) 是 \(c_i\) 通过频道的结果。
考虑 Hamming 距离。由 Chernoff bound,存在 \(\g\) 使得
\[\pr((p - \g) n \leq d_H(c_i, \tilde c_i) \leq (p + \g)n) \geq 1 - \fr \eps 2. \]选择最小的 \(\g\) 并定义
\[\rm {Ring}(c_i) = \{c \mid |d_H(c_i, c) - np| \leq \g n\}. \]那么 \(\pr(\tilde c_i \in \rm{Ring} (c_i)) \geq 1 - \fr \eps 2\)。
设事件 \(\rm {Suc}_i(\al C)\) 表示 \(\tilde c_i\in \rm{Ring}(c_i)\) 且对任意 \(j\neq i\),\(\tilde c_i\notin \rm{Ring}(c_j)\),即根据编码传输的结果能够唯一正确解码。我们希望 \(\pr(\rm{Suc}_i(\al C))\) 对每个 \(i\) 都很大。
Lemma 1
\(\rm {Ring}(c_i)\) 的大小不超过 \(2 ^ {(H(p) + \d')n}\),其中当 \(n\to \pif\) 时 \(\d'\to 0\)。
作业,气笑了。
Proof
大致思路是用 Chernoff 界找到 \(\g\) 的上界,然后把 \(|\rm {Ring}(c_i)|\) 放到 \((2\g n + 1)\binom n {n(p + \g)}\),再使用熵和二项系数的不等式关系即可。
均匀随机地选择 \(c_1 \sim c_M\)。
考虑整体不成功的情况
\[\rm {Fail}(\al C) = (\exists i,\ \tilde c_i\notin \rm{Ring}(c_i))\lor (\exists i\neq j,\ \tilde c_i \in \rm{Ring}(c_j)). \]其中前面一部分对每个 \(i\) 都是 \(\fr {\eps} 2\),不妨忽略掉。由引理,
\[\pr(\tilde c_i \in \rm {Ring}(c_j)) = \fr {|\rm {Ring}(c_j)|} {2 ^ n} = 2 ^ {(H(p) + \d' - 1) n}. \]根据 Bool 不等式以及 \(k = n(1 - H(p) - \d)\),
\[\pr(\rm{Fail}(\al C)) \leq M ^ 2 2 ^ {(H(p) + \d' - 1)} = 2 ^ {2k + (H(p) - 1 + \d') n} \to \pif. \]上面出现问题的原因是这样得到的界是要求所有通信同时成功,但只要每个通信成功的概率都很大就可以。所以我们不能对所有 \((i, j)\) 同时使用 Bool 不等式。
- 第一步:先选 \(2M\) 个,平均下来是好的(引理 2)。
- 第二步:丢掉最差的那一半。
设 \(\la_i(\al C) = 1 - \pr(\rm{Suc}_i(\al C))\)。
Lemma 2
对所有 \(i\) 和 \(\al C\),
\[E[\la_i(\al C)] \leq \eps. \]Proof
因为 \(\tilde c\in \rm{Ring}(c)\) 当且仅当 \(c\in \rm{Ring}(\tilde c)\),且 \(c_j\) 是均匀随机的,所以由引理 1,
\[\pr(\tilde c_i \in \rm{Ring}(c_j) \mid \tilde c_i\in \rm{Ring}(c_i)) \leq 2 ^ {(H(p) + \d' - 1) n}. \]使用 Bool 不等式,
\[\pr(\rm{Fail}_i(\al C)) \leq 2M \cdot 2 ^ {(H(p) + \d' - 1)n} + \fr \eps 2 = 2 ^ {1 + (k / n + H(p) - 1 + \d')n} + \fr \eps 2. \]因为 \(\fr k n < 1 - H(p)\) 且 \(\d' \to 0\),所以前一项随着 \(n\) 增大而趋于 \(0\)。\(\square\)
由引理 2,存在 \(\al C ^ *\) 好于平均,即
\[\fr 1 {2M} \sum_{i = 1} ^ {2M} \la_i(\al C ^ *)\leq \eps. \]只保留 \(\al C ^ *\) 最好(即 \(\la_i\) 较小)的那一半,得到 \(\al C\)。对任意 \(i\),\(\la_i(\al C) \leq 2\eps\)。\(\square\)
- 一些非负整数的中位数不会超过平均值的两倍。
- 概率方法。
- 如果理解了证明的第二部分的本质,会发现这个 \(2\) 可以换成任意大于 \(1\) 的常数。
超立方体路径规划问题 hypercube networking routing problem
在一个 \(n\) 维超立方体上,每个点要向另外一个点发送信息。信息只能在边上传播,且每条边单位时间恰好能传播一条消息。所有点的目标形成排列,希望找到对任意排列都能在合理时间内完成的传输方式。
Bit-Fixing Algorithm (BSA)
每次找到第一个不同的位然后翻转,长度是 \(d_H(i, \s(i))\)。
设 \(n\) 是奇数,构造 \(\s(u0v) = v1u\),延迟是指数级别的:当 \(v = 0 ^ {(n - 1) / 2}\) 时,\(2 ^ {(n - 1) / 2}\) 条消息要穿过 \((0 ^ n, 0 ^ {(n - 1) / 2} 1 0 ^ {(n - 1) / 2})\)。
Randomized BSA (Valiant 1981)
给每个点随机中间点 \(m_i\)(不一定是排列),用 BFA 先从 \(i\) 传输到 \(m_i\),等到 \(t = 6n\),再从 \(m_i\) 传到 \(\s(i)\)。
设事件 \(B_\s\) 表示对于任意排列 \(\s\),传输在 \(12n\) 时间内完成,则 \(\pr(B_i) > 1 - \al O(2 ^ {-3n})\)。只需证明每一部分的延时大于 \(6n\) 的概率为 \(\al O(2 ^ {-3n})\)。
考虑第一部分。设 \(T_i\) 表示 \(i\) 在第一部分的用时,即证 \(\pr(\exists i\in V,\ T_i > 6n) = \mathcal{O}(2 ^ {-3n})\)。根据 Bool 不等式和分配律,即证以下引理:
Lemma
固定 \(m_i = u\),其它 \(v_j\) 随机,则 \(\pr(T_i > 6n \mid m_i = u) = \al O(2 ^ {-4n})\)。
Proof
设 \(S\) 表示 \(P(j, v_j)\) 和 \(P(i, m_i)\) 有交的 \(j\neq i\) 的 \(j\) 的集合,则
Observation
\(T_i \leq d_H(i, m_i) + |S|\)。
证明是作业。
直觉是每条路径只会卡一次。先证明两条路径的交是区间,再势能分析即可。
根据观察,只需证明以下结论:
Proposition
\[\pr(|S| > 5n) = \al O (2 ^ {-4n}). \]Proof
考虑 Chernoff 界 \(\pr(X > c) \leq 2 ^ {-c},\ c > 7\mu\),只需证明 \(E[|S|] \leq \fr 5 7 n\)。
注意到一条翻转第 \(p\) 位的边 \(u\to v\) 只会被起点和 \(u\) 在第 \(p\sim n\) 位相同,且终点和 \(v\) 在第 \(1\sim p\) 位相同的 \((i, m_i)\) 经过,所以随机路径这条边的概率为 \(\fr 1 {2 ^ {n + 1}}\)。因此经过这条边的路径数量的期望为 \(\fr 1 2\)。
而 \(|S|\) 显然不大于 \(i\to m_i\) 上每条边被经过的路径数量,而路径最多有 \(n\) 条边,所以 \(E[|S|]\leq \fr n 2\)。\(\square\)
\(\square\)
总结一下,证明分成两部分,每一部分都很符合直觉。
- 一条路径的延时不超过和这条路径有交的路径数量。
- 在随机路径下,和一条路径有交的路径数量不多,因为经过一条边的路径数量的期望很小,且路径长度不大。
Topic 5: Monte Carlo Methods
蒙特卡洛方法:估计圆的面积,估计积分的数值,估计事件发生的概率。使用随机采样法估计难以数值计算的结果。核心想法是根据某种分布随机采样 \(X_{1\sim N}\),并使用 \(\fr 1 n \sum_{i = 1} ^ n f(X_i)\) 来估计 \(E[f(x)]\)。
挑战之一是根据 \(p(x)\) 的分布生成随机变量。
连续随机变量 continous random variable
连续随机变量 是有不可数个可能取值的随机变量。一个经典的例子是一段区间上的实数。
连续随机变量 \(X\) 的 概率密度函数 probability density function (PDF) 是函数 \(p(x)\),满足对任意区间 \([a, b]\),
要求 \(p(x)\geq 0\) 且 \(\int_{-\infty} ^ {\pif} p(x) \dd x = 1\)。
类似定义 \(X\) 的 期望 和 方差
相关不等式依然成立。
蒙特卡洛方法 Monte Carto methods
重要性采样 importance sampling
估计 \(E[f(X)]\),其中 \(X\sim p\)。如果根据 \(p\) 采样是困难的,可以考虑根据 \(q\) 采样,并给出重要性采样的估计
于是
注意这里要求当 \(p(x) > 0\) 时 \(q(x) > 0\)。\(q\) 不能忽略原来有概率得到的样本。
- 本来以 \(p\) 的概率分布采样,现在以 \(q\) 的概率分布采样,所以每一小段区间的权重变成了原来的 \(\fr q p\),需要除回去。
需要多少采样才能以 \(1 - \d\) 的概率做到 \(\eps\) 近似?考虑 Chebyshev 不等式
由随机采样的独立性(注意 \(\hat I_N\) 的定义前面有个 \(\fr 1 N\)),
最优的 \(q(y)\) 可以使得方差为 \(0\):令 \(q(y) = \fr {f(y)p(y)} {\int f(y)p(y)\dd y}\),则
但是 \(q(y)\) 无法计算,因为它用到了我们想要采样的结果 \(I\)。我们需要可以采样的 \(q\),且方差越小越好。
拒绝采样 rejection sampling
考虑分布 \(g(x)\) 以及常数 \(C\) 使得 \(f(x) \leq C g(x)\)。根据 \(g(x)\) 生成采样 \(X\),以 \(\fr {f(x)} {Cg(x)}\) 的概率接受。如果接受,输出 \(X\),否则重复该过程。
本质上是在函数图像下采样,\(f(x)\) 被 \(C g(x)\) 包裹住。于是接受的概率为 \(f(x)\) 的面积除以 \(Cg(x)\) 的面积,即
考虑最终采样 \(Y\) 不大于 \(y\) 的概率:
\(f(x)\) 可以是任意非负函数而不必须是概率分布。
Topic 6: Generating Functions
当初怎么没有好好学 OI?
生成函数 generating functions
把数列当成无穷级数就是 生成函数。
对于数列 \(\{a_k\}\),其生成函数为
于是,对函数建立的实分析和复分析理论也可以用于分析数列了。
Theorem
设 \(X\in \mathbb N\) 是随机变量。对于 \(p_k = \pr(X = k)\),设 \(A(x) = \sum_{k \ge 0}p_kx ^ k\),则
\[\begin{aligned} A'(x) & = \sum_{k\geq 1} kp_kx ^ {k - 1}, \\ A''(x) & = \sum_{k\geq 2} k(k - 1)p_kx ^ {k - 2}, \\ A'(1) & = \sum_{k\geq 1} kp_k = E[X], \\ A''(1) & = \sum_{k\geq 2} k(k - 1)p_k = E[X ^ 2] - E[X], \\ \s ^ 2(X) & = E[X ^ 2] - E[X] ^ 2 = A''(1) + A'(1) - A'(1) ^ 2. \end{aligned} \]
Example
设 \(X\) 是 \(n\) 次抛掷以 \(b\) 概率为正面的硬币,则
\[A(x) = (bx + (1 - b)) ^ n. \]于是 \(E[X] = A'(1) = bn\),\(\s ^ 2(X) = b ^ 2n(n - 1) + bn - b ^ 2n ^ 2 = b(1 - b)n\)。
生成函数的基本运算:加减法 \(A(x) + B(x)\) 和 卷积 convolution \(A(x) \cdot B(x)\)。
Fibonacci numbers
将 Fibonacci 数列的递推式 \(a_{k} = a_{k - 1} + a_{k - 2}\) 代入生成函数的式子,得到
\[A(x) = \sum_{k = 0} a_k x ^ k = 1 + x + \sum_{k = 2} (a_{k - 1} + a_{k - 2}) x ^ k. \]于是
\[A(x) = 1 + x + x(A(x) - 1) + x ^ 2A(x) \implies A(x) = \fr 1 {1 - x - x ^ 2}. \]进行部分分式分解,
\[\fr 1 {1 - x - x ^ 2} = \fr 1 {(1 - \fr {1 + \sqrt 5} 2x) (1 - \fr {1 - \sqrt 5} 2x)}. \]裂项后使用 \(\fr 1 {1 - ax} = \sum_{k \geq 0} a ^ kx ^ k\) 即得
\[a_n = \fr {1} {\sqrt 5}\l(\l(\fr {1 + \sqrt 5} 2 \r) ^ n - \l(\fr {1 - \sqrt 5} 2 \r) ^ n\r). \]
number of triangluations for a convex n-gon (Catalan numbers)
设 \(a_n\) 表示 \(n + 2\) 边形的不同三角剖分的数量。特别定义 \(a_0 = 1\)。
对于 \(n\geq 3\),考虑 \((1, 2)\) 这条边所属三角形的另一个顶点,得到递推式
\[a_n = \sum_{k = 0} ^ {n - 1} a_k a_{n - 1 - k}. \]于是
\[A(x) = 1 + \sum_{n\geq 1} \sum_{k = 0} ^ {n - 1} a_k a_{n - 1 - k} x ^ n = 1 + xA(x) ^ 2. \]解得
\[A(x) = \fr {1 - \sqrt {1 - 4x}} {2x}, \]其中 \(\fr {1 + \sqrt {1 + 4x}} 2\) 的解被忽略了,因为它不满足 \(A(0) = a_0 = 1\)。
进一步地,由二项式定理,
\[A(x) = \fr {1 - \sum_{k\geq 0} \binom {1 / 2} {k} (-4) ^ kx ^ k} {2x} = -\fr 1 2\sum_{k\geq 1} \binom {1 / 2} k (-4) ^ kx ^ {k - 1}. \]而(作业)
\[\binom {1 / 2} {n + 1} = \fr {(-1) ^ n} {2n + 1} \fr 1 {2 ^ {2n + 1}} \binom {2n + 1} n, \]所以
\[a_n = -\fr 1 2 \binom {1 / 2} {n + 1} (-4) ^ {n + 1} = \fr 1 {2n + 1} \binom {2n + 1} n = \fr 1 {n + 1} \binom {2n} {n}. \]称为 Catlan 数。
up-down permutations
定义波浪排列为 \(\s(1) < \s(2) > \s(3) < \cdots > \s(n)\),其中 \(n\) 是奇数。
枚举 \(k = \s ^ {-1}(n)\),则 \([1, k - 1]\) 和 \([k + 1, n]\) 都是波浪排列。得到递推式
\[a_n = \sum_{\mathrm{odd}\ k\geq 1} \binom {n - 1}k a_k a_{n - 1 - k}. \]转成 EGF 得到
\[nb_n = \sum_{\mathrm{odd}\ k\geq 1} b_kb_{n - 1 - k}. \]设 \(B(x) = \sum_{\mathrm{odd}\ n} nb_nx ^ {n - 1}\),则
\[B'(x) = 1 + \sum_{\mathrm{odd} \ n\geq 3} \sum_{\mathrm{odd}\ k\geq 1} b_{k}b_{n - 1 - k}x ^ {n - 1} = 1 + B(x) ^ 2. \]解得 \(B(x) = \tan x\)。
复分析工具 complex analysis tools
欧拉公式 Euler's formula:考虑 \(\e ^ x\),\(\cos x\) 和 \(\sin x\) 的幂级数,得到
复积分 complex integration:设 \(f\) 是复函数。设 \(\G\) 是从 \(z_0 = a\in \mathbb C\) 到 \(z_m = b\in \mathbb C\) 的路径,\(z_{0\sim m}\) 将路径 \(m\) 等分。则
前提是极限存在。
对参数化曲线 \(\g : [a, b] \to \mathbb C\),定义
Cauchy 积分定理 Cauchy's integral theorem
如果 \(f(z)\) 是分析函数(全纯函数),则闭合曲线上的复积分 \(\oint_\g f(z)\dd z = 0\)。对任意起止点相同的曲线,积分结果相同。
Cauchy 积分公式 Cauchy's integral formula
如果 \(f\) 在 \(z_0\) 以外的点可微,则
只需考虑在 \(z_0\) 附近的小圆 \(C_\eps\):\(z = z_0 + \eps \e ^ {\i \t}\),\(\dd z = \i \eps \e ^ {\i \t}\dd \t\)。
\(f\) 不解析的点称为 奇点 singularities。其中,称 \(f\) 在 \(z_0\) 处有阶为 \(m\) 的 极点 poles,若 \((z - z_0) ^ mf(z)\) 在 \(z_0\) 处全纯且非零。此时可以展开成 Laurent 级数
本质即考虑 \((z - z_0) ^ mf(z)\) 的 Taylor 展开。
留数定理 the residue theorem
Laurant 级数当中的 \(a_{-1}\) 称为 \(f(z)\) 在 \(z_0\) 处的 留数 residue,记为 \(\rm{Res}(f, z_0)\)。对于恰好包含一个极点 \(z_0\) 的环路 \(\g\),
Proof
对 \(n \neq -1\),
\[\oint_{C_\eps} a_n(z - z_0) ^ n\dd z = a_n\eps ^ {n + 1} \int_0 ^ {2\pi} \e ^ {i\t(n + 1)} \i \dd \t = \left.\fr {a_n \eps ^ {n + 1}} {n + 1} \e ^ {i\t (n + 1)} \right|_0 ^ {2\pi} = 0. \]对 \(n = -1\),使用 Cauchy 积分公式即可。\(\square\)
Cauchy 留数定理 Cauchy's residue theorem
扩展到多个极点的情况,
对于简单极点(\(m = 1\)),\(\rm{Res}(f, z_0) = \lim_{z\to z_0} (z - z_0)f(z)\)。
对于阶为 \(m\) 的极点,乘以 \((z - z_0) ^ m\) 之后做 Taylor 展开。
up-down permutations continued
考虑将 \(\tan x\) 在 \(x = 0\) 处展开得到
\[\tan x = \sum_{\rm{odd}\ n} b_n x ^ n. \]用 \(\tan z = \fr {2\sin z} {2\cos z}\) 定义
\[\tan z = \fr {\e ^ {\i z} - \e ^ {-\i z}} {\i (\e ^ {\i z} + \e ^ {-\i z})}. \]设 \(\b_n\) 表示 \(f_n = \fr {\tan z} {z ^ {n + 1}}\) 在 \(z = 0\) 处的留数,则 \(\b_n = b_n\)。
Lemma 1
\(f_n\) 的所有极点为 \(z = 0\) 和 \(z_m = (m - \fr 1 2)\pi\)。
Lemma 2
\[b_n = -\sum_{m\in \mathbb Z} \rm{Res}(f_n, z_m). \]只需证明以原点为中心的 \(2m\pi \times 2m\pi\) 的矩形上的积分随着 \(m\to \pif\) 而趋于 \(0\) 即可。
考虑
\[\l|\int_\G f(z)\dd z\r| \leq \max_{z\in \G} |f(z)| \cdot L(\G), \]其中 \(L(\G)\) 表示 \(\G\) 的长度。
根据以上引理,可以证明(作业)对偶数 \(n\),\(b_n = 0\),且对奇数 \(n\),
\[b_n = 2 \left(\fr 2 \pi\right) ^ {n + 1} \sum_{k\in \mathbb N} \fr 1 {(2k + 1) ^ {n + 1}}. \]代入 \(n = 1\) 得到
\[\fr 1 {1 ^ 2} + \fr 1 {3 ^ 2} + \fr 1 {5 ^ 2} + \cdots = \fr {\pi ^ 2} 8. \]于是 \(\zeta(2) = \fr {\pi ^ 2} {8} + \fr 1 4\zeta(2)\),解得 \(\zeta(2) = \fr {\pi ^ 2} 6\)。
integral evaluation
\[\int_{-\infty} ^ {\pif} \fr 1 {1 + x ^ 4}\dd x. \]设 \(f(z) = \fr 1 {1 + z ^ 4}\),则 \(f(z)\) 有极点 \(z_j = \exp(\i \cdot \fr {j} {4} \pi) (j\in {\pm 1, \pm 3})\) 和对应留数 \(r_j = -\fr {z_j} 4\)(洛必达)。
设 \(\G_R\) 是上半平面以原点为中心,半径为 \(R\) 的半圆,则 \(-\fr 1 4(z_1 + z_3) = \fr 1 {2\pi\i} \int_{\G_R} f(z)\dd z\)。
Topic 7: Matrix Tree Theorem
矩阵树定理 matrix tree theorem
生成树计数。
凯莱定理 Cayley's formula:\(\#sp(K_n) = n ^ {n - 2}\)。
拉普拉斯矩阵 Laplacian matrix:\(L_G = (l_{ij})\),其中 \(l_{ii} = \deg(v_i)\),\(l_{ij} = -[(i, j)\in E]\)。
记 \(A ^ {(i)}\) 表示删掉第 \(i\) 行第 \(i\) 列的代数余子式。
矩阵树定理 matrix tree theorem:
Proof
柯西-比内公式 Cauchy-Binet formula:对 \(n\times m\ (n\leq m)\) 矩阵 \(A, B\) 和 \([1, n]\) 的子集 \(S\),
\[\det(A B ^ T) = \sum_{|S| = n} \det(A_S) \det(B_S). \]设 \(|V|\times |E|\) 矩阵 \(A\),对任意 \(e_j = (u_j, v_j)\ (u_j < v_j)\),\(A_{u_j, j} = 1\) 且 \(A_{v_j, j} = -1\),则 \(AA ^ T = L_G\)。
设 \(A'\) 是 \(A\) 删去第 \(i\) 行的结果,则 \(A'(A') ^ T = L_G ^ {(i)}\)。
由 Cauchy-Binet 公式,
\[\det(L_G ^ {(i)}) = \sum_{|S| = n - 1} \det(A'_S) ^ 2. \]Lemma
\(|\mathrm{det}(A'_S)| = 1\) 当且仅当 \(\{e_k \mid k\in S\}\) 是生成树。
作业。

 
                
            
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号