《人工智能应用数学》学习笔记 —— 线性代数还在追我😅
只是一些概率论、信息论、组合数学、复分析和图论——《计算机应用数学》学习笔记
期末一定要及格啊。。。
Topic 8: High Dimensional Geometry
集中不等式 concentration inequalities
由 Markov 不等式,
可知 分布的集中性来源于高阶矩的有界性。
矩量母函数 moment generating function:\(M_X(t) = E[\exp(tX)]\)。则 Chernoff bound 可以表示为
Proof
\[\pr(X\geq a) = \int_a ^ {\pif} f(x)\dd x \leq \int_a ^ \pif \fr {\e ^ {tx}}{\e ^ {ta}} f(x)\dd x \leq \fr {1} {\e ^ {ta}} \ait \e ^ {tx}f(x)\dd x. \]\(\square\)
高斯分布 \(\gd(0, \s ^ 2)\) 的 MGF 为 \(\e ^ {\s ^ 2t ^ 2 / 2}\)。
高斯环面定理 Gaussian annulus theorem, theorem 2.9:对于 \(d\) 维球面高斯 \(x_i\sim \gd(0, 1)\),对任意 \(\b \leq \sq d\),至多 \(3\e ^ {-c\b ^ 2}\) 的概率质量不在 \(\sqrt d - \b \leq \|\bf x\|_2 \leq \sqrt d + \b\) 的范围内,其中 \(c\) 是固定常数。书上给出的 \(c\) 是 \(\fr 1 {96}\),比本小节最后给出的结论要弱一点。
对比 CB,GAT 关于偏差的指数衰减是平方级别的。作业:用 CB 证明 GAT。
高维几何 high dimensional geometry
高维球壳 high dimensional shell
集合 \(A\) 缩放 \(1 - \eps\) 倍得到 \((1 - \eps)A = \{(1 - \eps)x\mid x\in A\}\)。
如果 \(A\) 是球,那么球壳可以写成 \(A\sm(1 - \eps)A\)。
考虑体积 \(V((1 - \eps)A) = (1 - \eps) ^ dV(A)\) 以及不等式 \(1 - \eps \leq \e ^ {-\eps}\),所以
对于高维球体,体积大量集中在球壳。
Lemma 2.6
设 \(A(d)\) 和 \(V(d)\) 是 \(d\) 维单位球的表面积和体积,则
\[A(d) = \fr {2\pi ^ {\fr d 2}} {\G(\fr d 2)},\ V(d) = \fr {2\pi ^ {\fr d 2}} {d \cdot \G(\fr d 2)}. \]
对于高维球体,体积大量集中在赤道面。
Theorem 2.7
对 \(c\geq 1\) 和 \(d\geq 3\),至少 \(1 - \fr 2 c \e ^ {-\fr {c ^ 2} 2}\) 的体积满足 \(|x_1| \leq \fr {c} {\sqrt {d - 1}}\)。
Proof
考虑半球,想法是求出不在赤道附近的上界和整个半球的下界。
不在赤道附近的上界:
\[\bal & \; \int_{\fr c {\sqrt {d - 1}}} ^ 1 (1 - x ^ 2) ^ {\fr {d - 1} 2} V(d - 1) \dd x \\ \leq & \; \int_{\fr c {\sqrt {d - 1}}} ^ 1 \fr {x \sqrt {d - 1}} c \e ^ {- \fr {d - 1} 2 x ^ 2} V(d - 1) \dd x \\ = & \; V(d - 1) \fr {\sqrt {d - 1}} c \int_{\fr c {\sqrt {d - 1}}} ^ \pif x\e ^ {- \fr {d - 1} 2 x ^ 2} \dd x \\ = & \; \fr {V(d - 1)} {c\sqrt {d - 1}}\e ^ {-\fr {c ^ 2} 2} \eal \]半球的下界:考虑在半球内放入高度为 \(\fr 1 {\sqrt {d - 1}}\) 的圆柱,则对应半径不能超过 \(R = (1 - \fr 1 {d - 1}) ^ {\fr 1 2}\)。圆柱体积为底面积 \(R ^ {d - 1}V(d - 1)\) 乘以高,即
\[\left(1 - \fr 1 {d - 1}\right) ^ {\fr {d - 1} 2} \fr {1} {\sqrt {d - 1}}V(d - 1) \geq \fr 1 {\sqrt {\e(d - 1)} }V(d - 1) \geq \fr 1 2V(d - 1). \]相除即得欲证不等式。\(\square\)
因为体积集中在赤道,所以 向量几乎垂直。
Theorem 2.8
设 \(n\) 个单位球体内的随机向量,则有 \(1 - \tm {\fr 1 n}\) 的概率:
(1) \(\|\bf x_i\|_2 \geq 1 - \fr {2 \ln n} d\),因为体积集中在球壳。
(2) 对任意 \(i\neq j\),\(|\bf x_i \cdot \bf x_j| \leq \fr {\sqrt {6\ln n}} {\sqrt {d - 1}}\),因为体积集中在赤道。
Proof
由本小节一开始的不等式,
\[\Pr(\|\bf x_i\|_2 < 1 - \fr {2\ln n} d) \leq \e ^ {-(\fr {2\ln n} d)d} = \tm{n ^ {-2}}. \]在定理 2.7 中取 \(c = \sqrt {6\ln n}\),得到 \(|\bf x_i \cdot \bf x_j| \leq \fr {c} {\sqrt {d - 1}}\) 的概率(考虑和 \(\bf x_i\) 垂直的赤道)不超过
\[\tm{\e ^ {-\fr {6 \ln n} 2}} = \tm{n ^ {-3}}. \]用布尔不等式即可。\(\square\)
正态分布相关不等式
GAT 告诉我们高维高斯分布的体积也大量集中在球壳上。
- 为什么是 “球壳” 呢?在任意方向上都是高斯分布。\(\bf x ^ T \S \bf x \sim \gd(0, 1)\)。
除了作业以外,课上讲了另一种角度的证明。
霍夫丁不等式 Hoeffding's inequality:设 \(Z_i\in [a, b]\) 是独立有界随机变量,则
Proof
Hoeffding's lemma
设 \(Z\in [a, b]\) 是有界随机变量,则
\[E[\e ^ {\la(Z - \mu)}] \leq \exp(\fr {\la ^ 2(b - a) ^ 2} 8). \]证明略。
\[\bal \pr(\fr 1 n \son (Z_i - \mu) \geq t) & = \pr(\son (Z_i - \mu) \geq nt) \\ & \leq \min_\la \e ^ {-\la n t} E\l[\exp(\la \son (Z_i - \mu))\r] \\ & = \min_\la \e ^ {-\la n t} \prod_{i = 1} ^ nE[\e ^ {\la(Z_i - \mu)}] \\ & \leq \min_\la \exp(\fr {\la ^ 2 (b - a) ^ 2} 8 - \la n t) \\ & = \exp(-\fr {2nt ^ 2} {(b - a) ^ 2}). \eal \]\(\square\)
直接对 Gaussian 使用 Hoeffding 是不可行的,因为无界。但 Chernoff 不要求变量有界,而只需 MGF 有界。根据 Gaussian 的 MGF,我们定义 亚高斯分布 sub-Gaussian:满足 \(E[\e ^ {\la(X_i - \mu_i)}]\leq \e ^ {\la ^ 2 \s ^ 2 / 2}\) 的分布。高斯分布是亚高斯分布,亚高斯的 “亚” 不是指限制更弱,而是 MGF 更小,所以限制更强。
sub-Gaussian tail bound
设 \(X_i\) 是 \(\s ^ 2\)-亚高斯分布,\(S\) 是这些随机变量的和。对任意 \(t > 0\),
\[\pr(|S - E[S]|\geq t) \leq 2\exp(-\fr {t ^ 2} {2n\s ^ 2}). \]首先有
\[E[\e ^ {\la(S - n\mu)}] = \prod_{i = 1} ^ n E[\e ^ {\la(X_i - \mu)}] \leq \e ^ {n\la ^ 2\s ^ 2 / 2}, \]于是
\[\pr(S - n\mu \geq t) \leq \e ^ {-\la t}E[\e ^ {\la(S - n\mu)}] \leq \e ^ {-\la t + n\la ^ 2\s ^ 2 / 2}. \]在 \(\la = \fr {t} {n\s ^ 2}\) 时取到最小值
\[\pr(S - n\mu \geq t) \leq \exp(-\fr {t ^ 2} {2n\s ^ 2}). \]\(\square\)
回到 GAT。\(\son X_i ^ 2\) 服从 卡方分布 chi-square distribution,不是亚高斯分布。怎么办?
此时用另一个工具:亚指数分布 sub-exponential,参数 \(\nu\) 和 \(b\),满足对任意 \(|\la| < \fr 1 b\),
sub-exponential tail bound (Bernstein inequality)
\[\pr(|S - E[S]| \geq t) \leq 2\exp\l(-\min\left\{\fr {t ^ 2} {2n\nu ^ 2}, \fr t {2b}\right\}\r). \]分成 \(t \leq \fr {n\nu ^ 2} b\)(对应 \(|\la| < \fr 1 b\))和 \(t > \fr {n\nu ^ 2} b\)(取 \(\la = \fr 1 b\))。
卡方分布是亚指数分布,对应参数 \((2, 4)\)。\(\|\bf x\|_2\) 是参数为 \((2\sqrt d, 4)\) 的亚指数分布。
设 \(S = \|\bf x\|_2 ^ 2\)。根据以上不等式
由 \(|S - d| = \abs{\|\bf x\| + \sq d} \abs{\|\bf x\| - \sq d}\) 可知当 \(\b \leq \sqrt d\) 时,
GAT:独立同分布 independent and identically distributed, iid 的和集中,和球体积大量集中在球壳上,其实是同一件事情。
Topic 9: Low Rank Approximation
这部分内容主要目的是做数据压缩,将高维空间中的点投影到低维,同时尽量保持它们的结构特征。
除非特殊说明,所有范数都是欧几里得范数。
随机投影与 JL 引理 random projection and JL lemma
一般来说随机投影就可以做到比较好了,我们尝试建立相关结论。
构造投影 \(f : \R ^ d \to \R ^ k\)。我们在 \(\R ^ d\) 中随机采样 \(k\) 个 Gaussian \(\bf u_i\sim \gd(0, I_d)\)。对任意 \(\bf v\in \R ^ d\),\(f(\bf v) = (\bf u_i\cdot \bf v)_{i = 1} ^ k\) 是 \(k\) 维向量。
随机投影定理 random projection theorem, theorem 2.10:存在 \(c > 0\) 使得对 \(\eps \in (0, 1)\),
其中随机性来源于 \(\bf u_i\) 的采样。
Proof
由线性性,不妨设 \(\nm{\bf v} = 1\)。
\[\var(\bf u_i\cdot \bf v) = \var\l(\sum_{j = 1} ^ d u_{ij} v_j\r) = \sum_{j = 1} ^ d v_j ^ 2 \var(u_{ij}) = 1. \]高斯分布的线性组合也是高斯分布,所以 \(f(\bf v)_i \sim \gd(0, 1)\)。
根据 \(\bf u_i\) 和 \(\bf u_j\) 独立得到 \(f(\bf v)_i\) 和 \(f(\bf v)_j\) 独立。根据 GAT,
\[\bal \; & \pr(\abs {\nm{f(\bf v)} - \sqrt k \nm {\bf v}} \geq \eps\sqrt k \nm {\bf v}) \\ = \; & \pr(\sqrt k - \eps \sqrt k \leq \nm{f(\bf v)} \leq \sqrt k + \eps \sqrt k) \\ = \; & 3\e ^ {-c(\eps \sqrt k) ^ 2}. \eal \]\(\square\)
JL 引理 Johnson-Lindenstrauss lemma, theorem 2.11:设 \(k\geq \fr {3} {c\eps ^ 2} \ln n\),则有 \(1 - \fr 3 {2n}\) 的概率,
Proof
根据 \(f\) 的线性性,对 \(\bf v_i - \bf v_j\) 使用随机投影定理,要求 \(3\e ^ {-ck\eps ^ 2} \leq \fr 3 {n ^ 3} \implies k\geq \fr {3} {c\eps ^ 2} \ln n\)。根据布尔不等式,所有 \((i, j)\) 对均满足的概率不低于 \(1 - \binom n 2 \fr {3} {n ^ 3} \geq 1 - \fr 3 {2n}\)。\(\square\)
随机投影定理说明随机投影保长度。根据保长度,考虑两个向量的差,得到 JL 引理,即随机投影保距离。
可以将 \(d\) 维向量压缩到 \(\ln n\) 维。
SVD 分解 singular value decomposition
有没有能做到更好的投影呢?有的兄弟,有的。在欧几里得范数下,SVD 分解是 理论最优 的低秩近似。为此,我们先复习一下线性代数的知识。
- \(n\times m\) 的矩阵 \(M\) 描述了 \(\R ^ m\to \R ^ n\) 的线性变换。\(M_{ij}\) 是 \(e_j\in \R ^ m\) 投影后在第 \(i\) 个分量的值。
- 设 \(r = \rank (M)\),那么 \(M\) 总可以写成 \(UV\) 的形式,其中 \(U\) 是 \(n\times r\) 矩阵,\(V\) 是 \(r\times m\) 矩阵。找 \(M\) 的列空间的基底即作为 \(U\),则 \(\bf m_j = \sum_{i = 1} ^ r v_{ij}\bf u_i\)。如果 \(n = m\),则此时有 \(n - r\) 个特征向量的特征值为 \(0\)。
- 如果 \(M\) 有特征分解 \(M = PDP ^ {-1}\),那么 \(M ^ n = PD ^ nP ^ {-1}\)。但当 \(M\) 没有特征分解的时候呢?
右奇异向量 right singular vector
考虑 \(n\times 2\) 矩阵,有 \(n\) 个二维的点。找一维的线性子空间 \(\bf v\)(列向量)使得拟合最好,拟合误差由投影距离平方和确定。由勾股定理,等价于最大化投影长度平方和。又因为 \(\nm{\bf v} = 1\),所以行向量 \(\bf u\) 的投影长度为 \(\bf u\bf v\)。因此,投影长度平方和等于 \(\nm{A\bf v} ^ 2\)。
给定任意 \(n\times m\) 矩阵 \(A\),最好的拟合(过原点的)直线为
其中 \(\bf v\in \R ^ m\) 称为第一个 右奇异向量。对应第一个 奇异值 singular value
将子空间维度增大,找第二个单位向量使得在 \(\bf v_1\) 基础上(和 \(\bf v_1\) 垂直),它们张成的子空间对应的投影长度平方和最小,即
对应第二个奇异值
接下来分成两个部分,其一是引出 SVD 分解,其二是证明 SVD 分解在低秩矩阵近似上的最优性。
左奇异向量 left singular vector
将 \(A\bf v_i\) 单位化,定义 左奇异向量
那么 theorem 3.4:
称为 \(A\) 的 奇异值分解 singular value decomposition。
另一种推导方式:因为 \(\bf v_i\) 是标准正交基,所以 \(AV = UD\implies A = UDV ^ {-1} = UDV ^ T\)。
可以证明 \(\bf u_i\) 在垂直于 \(\bf u_{1\sim i - 1}\) 的基础上最大化 \(\nm {\bf u ^ T A}\),这和 \(\bf v\) 是对称的。
Theorem 3.7
左奇异向量两两垂直。
Proof
设 \(i < j\) 且 \(\bf u_i ^ T \cdot \bf u_j = \d > 0\)。考虑 \(\bf v'_i = \fr {\bf v_i + \eps \bf v_j} {\nm {\bf v_i + \eps \bf v_j}}\),则
\[A\bf v_i' = \fr {\s_i \bf u_i + \eps\s_j \bf u_j} {\sqrt {1 + \eps ^ 2}}. \]平方之后发现分母是 \(\eps\) 的平方项,分子是 \(\s_i\) 乘以 \(1\) 加上 \(\eps\) 的一次项,所以 \(\nm{A\bf v_i'}\) 在 \(\eps\) 足够小的时候大于 \(\s_i\),而 \(\bf v_i'\) 和 \(\bf v_{1\sim i - 1}\) 垂直,和 \(\bf v_i\) 的最优性矛盾。\(\square\)
于是 \(U ^ {T}A = DV ^ {T}\)(也即 \(A ^ TU = VD\)),可知 \(\nm {\bf u_i ^ TA} = \s_i\)。假设有更大的 \(\nm{\bf u_i' ^ T A} > \s_i\),对应到 \(V\) 上就能得到 \(\bf v_i'\) 有更大的 \(\s_i' > \s_i\),和 \(\bf v_i\) 的最优性矛盾。从中,我们还可以感受到奇异值的 “对称性” lemma 3.10:
类比特征值和特征向量
低秩矩阵近似 low rank approximation
我们通过依次找最优向量的方式定义了右奇异向量和奇异值,进一步得到了左奇异向量和奇异值分解。那么问题来了:每一维贪心地找,是否能保证对应的子空间是最优的呢?考虑 \(k = 2\) 的情况,相当于是否和以下等价:
Theorem 3.1
由以上过程得到的 \(\bf v_1, \cdots, \bf v_k\) 是最优的 \(k\)-拟合子空间。
考虑 \(k = 2\) 然后归纳。假设存在子空间 \(W\) 比 \(V\) 更优,那么总可以选择 \(\bf w_2\perp \bf v_1\)。这样容易得到矛盾。
Lemma 3.2
由勾股定理,\(A\) 的每个向量在各个 \(\bf v_i\) 上的正交投影的长度平方和相加应该等于这个向量的长度平方和。于是\[\sum_{j = 1} ^ n \nm{\bf a_j} ^ 2 = \sum_{j = 1} ^ n \sum_{i = 1} ^ r (\bf a_j \cdot \bf v_i) ^ 2 = \sum_{i = 1} ^ r \nm{A\bf v_i} ^ 2 = \sum_{i = 1} ^ r \s_i ^ 2(A). \]定义 \(A\) 的 Frobenius 模长
\[\nm A_F = \sqrt {\sum_{ij} a_{ij} ^ 2}, \]则
\[\sum \s_i ^ 2(A) = |A|_F ^ 2. \]
低秩矩阵近似 即给定 \(A\),最小化 \(A - B\) 在给定范数下的模长,满足 \(\rank(B)\leq k\)。
Theorem 3.6
设 \(A_k = \sum_{i = 1} ^ k \s_i \bf u_i \bf v_i ^ T\)。对任意 \(B\) 满足 \(\rank(B) \leq k\),
\[\|A - A_k\|_F \leq \|A - B\|_F. \]这说明最优的 \(B ^ *\) 满足
\[\|A - B ^ *\|_F ^ 2 = \sum_{i = k + 1} ^ r \s_i ^ 2. \]Proof
正交矩阵保持 Frobenious 范数,所以
\[\|A - B\|_F = \|U ^ T(A - B)V\|_F = \|\S - U ^ TBV\|_F. \]设 \(C = U ^ TBV\)。因为 \(\rank(B) = k\),所以 \(\rank(C) \leq k\)。
\[\|A - B\|_F = \|\S - C\|_F. \]因为 \(\S\) 是对角矩阵,所以 \(C ^ * = \op{diag}(\s_1, \cdots, \s_k, 0, \cdots, 0)\),解得 \(B = U_k\S_k V_k ^ T = A_k\)。\(\square\)
最优的 低秩矩阵近似。
在其它范数下的低秩矩阵近似?考虑 L2-范数
也称为矩阵的 谱范数 spectral norm。因为最大值显然在 \(\bf x\) 是单位向量时取到,所以矩阵的 2-范数等于 \(\s_1(A)\)。
Theorem 3.8
\[\nm{A - A_k}_2 ^ 2 = \s_{k + 1} ^ 2. \]Proof
考虑任意 \(\bf v = \sum_{j = 1} ^ r c_j \bf v_j\),则
\[\nm{(A - A_k)\bf v} = \l\|\sum_{i = {k + 1}} ^ r \s_i \bf u_i\bf v_i ^ T \sum_{j = 1} ^ r c_j \bf v_j\r\| = \l\|\sum_{i = k + 1} ^ r c_i\s_i \bf u_i\r\| = \sqrt {\sum_{i = k + 1} ^ r c_i ^ 2\s_i ^ 2}. \]而 \(\sum_{i = 1} ^ r c_i ^ 2 = 1\),所以最大值不超过 \(\s_{k + 1} ^ 2\)。\(\square\)
Theorem 3.9
设 \(A\) 是 \(n\times m\) 的矩阵。对于任意 \(\rank B < k\),
\[\|A - A_k\|_2 \leq \|A - B\|_2. \]将问题看成最优化子空间,而不是最优化矩阵。
Proof
如果 \(\rank A \leq k\) 那么显然,否则 \(\op{nullity}(B) \geq n - k\)。那么存在非零单位向量
\[\bf z \in \op{Null}(B) \cap \op{Span}\{\bf v_{1\sim k + 1}\}. \]于是
\[\nm{A - B}_2 ^ 2 \geq \nm{(A - B)\bf z} ^ 2 = \nm{A\bf z} ^ 2. \]而 \(\bf z\) 和所有 \(\bf v_{k + 2\sim r}\) 垂直,所以
\[\nm{A\bf z} ^ 2 = \l\|\sum_{i = 1} ^ r \s_i \bf u_i\bf v_i ^ T \bf z \r\| ^ 2 = \sum_{i = 1} ^ {k + 1}\s_i ^ 2(\bf v_i ^ T\bf z) ^ 2 \geq \s_{k + 1} ^ 2 \sum_{i = 1} ^ {k + 1} (\bf v_i ^ T\bf z) ^ 2 = \s ^ 2_{k + 1}. \]所以
\[\|A - B\|_2 ^ 2 \geq \s_{k + 1} ^ 2 = \|A - A_k\| ^ 2. \]\(\square\)
Topic 10: SVD Applications
幂迭代法 power method
设
那么
设 \(\bf x = \sum_{i = 1} ^ d c_i\bf v_i\),则
指数上的 \(k\) 放大了 \(\s_i\) 和 \(\s_1\) 之间的差异:
Theorem 3.11
设 \(V\) 是由 \(\s_i > (1 - \eps) \s_1\) 的 \(\bf v_i\) 张成的空间,单位向量 \(\bf x\in \R ^ d\) 满足 \(|\bf x ^ T\bf v_1| \geq \d\),\(k = \fr {\ln(1 / \eps \d)} {2\eps}\),则
\[\bf w = \fr {B ^ k \bf x} {|B ^ k\bf x|}. \]在垂直于 \(V\) 的方向上至多有 \(\eps\) 的分量。
Proof
由条件,\(c_1\geq \d\)。设 \(V = \op{Span}(\bf v_{1\sim m})\),则
\[|B ^ k\bf x| ^ 2 = \sum_{i = 1} ^ d \s_i ^ {4k}c_i ^ 2 \geq \s_1 ^ {4k}\d ^ 2. \]垂直于 \(V\) 的方向上的分量长度平方为
\[\sum_{i = m + 1} ^ d \s_i ^ {4k} c_i ^ 2 \leq (1 - \eps) ^ {4k} \s_1 ^ {4k}. \]于是
\[\fr {(1 - \eps) ^ {2k} \s_1 ^ {2k}} {\d \s_1 ^ {2k}} \leq \fr {\e ^ {-2k\eps}}{\d} = \eps. \]\(\square\)
如果 \(\bf x\) 是随机向量,那么满足前提条件 \(|\bf x ^ T\bf v_1| \geq \d\) 的概率?
Lemma 3.12
在单位方差球面高斯上均匀随机 \(\bf y\),正规化,得到 \(\bf x = \fr {\bf y} {\nm {\bf y}}\)。设 \(\bf v\) 是任意单位长度向量,则
\[\pr\l(|\bf x ^ T \bf v| < \fr 1 {20\sqrt d}\r) \leq \fr 1 {10} + 3\e ^ {-d / 96}. \]Proof
由 GAT,
\[\pr(|\bf y| > 2 \sqrt d) < 2\e ^ {-d / 8}. \]\(|\bf y ^ T\bf v|\sim \gd(0, 1)\),概率密度函数 \(p(x) \leq \fr 1 {\sqrt {2\pi}} < 0.5\),所以
\[\pr\l(|\bf y ^ T \bf v| < \fr 1 {10}\r) \leq \fr 1 {10}. \]\(\square\)
SVD 分解的应用 SVD applications
主成分分析 principal component analysis
SVD 用很少的维度拟合高维空间,类似 “透过现象看本质”:一个复杂现象的影响因素可能很少。
我们找到尽可能少的 “特征维度”(原维度的线性组合,因为只描述方向,所以可正规化)拟合这些数据。\(n\times d\) 矩阵 \(A\) 表示 \(n\) 个数据,\(d\) 个原维度。\(A \approx U_k\S_KV_k ^ T\),其中 \(U_k\S_k\) 是 \(n\times k\) 数据矩阵,表示每个数据在每个特征维度上的分量;\(V_k ^ T\) 是 \(k\times d\) 特征矩阵,表示每个特征维度在每个原维度上的分量。
怎么算数据矩阵 \(U_k\S_k\)?\(U_k\S_k = AV_k\)。\(V_k\) 是 \(d\times k\) 矩阵,表示每个原维度在每个特征维度上的分量。
网页排名 page rank
权威页面有权重 \(v_j\),枢纽页面有权重 \(u_i\)。矩阵 \(A_{ij}\) 描述了枢纽和权威之间是否有链接,那么合理的权重应满足 \(\bf v\propto A ^ T\bf u\) 且 \(\bf u\propto A\bf v\)。
从随机向量 \(\bf v\) 开始迭代
实际上在做幂迭代法。最后根据 \(\bf v\) 得到权威页面的权重。
社区检测 community detection
将点集划分为 \(k\) 个部分,要求可以是每个部分在空间上分布密集(高维空间的点,描述性质),也可以是内部的连边比较密集(图上的点,描述关系)。
考虑这样一个情况:\(A_{i, j} = [(i, j)\in G]\),其中若 \(i, j\) 在相同的社区,则 \(\pr ((i, j)\in G) = p\),否则概率为 \(q\)。
- 随机块模型 stochastic block model 的 \(k = 2\) 的特殊情况。
\(E[A]\) 的第一特征值 \(\la_1 = \fr {p + q} 2 n\),特征向量 \(U_1 = \fr 1 {\sqrt n} \bf 1 ^ T\)。第二特征值 \(\la_2 = \fr {p - q} 2 n\),特征向量 \(U_2 = \fr 1 {\sqrt n} \bpm \bf 1 ^ T & -\bf 1 ^ T\epm\)。
SVD 做二分类:求出 \(U_2\),用每一项的正负号分类。相当于将 \(A\) 分成期望部分 \(E[A]\) 和随机部分 \(A - E[A]\),现在需要分析随机部分对奇异向量造成的影响所导致的误差的大小。比较繁琐,有时间补。
为什么可以假定两个分类在下标上是连续的?因为以上算法不基于下标:设 \(P\) 是排列矩阵,对下标进行对应排列时,\(A' = PAP ^ T\),\(\bf v' = P\bf v\)。于是,对 \(A\) 的特征向量 \(\bf v\),
\[A'\bf v' = (PAP ^ T)(P\bf v) = PA\bf v = P\la \bf v = \la \bf v'. \]
Topic 11: Markov Chain
马尔可夫链 Markov chain
状态空间 state space \(S = \{1, 2, \cdots, m\}\)。课程仅讨论有限状态空间。
状态的概率分布 \(\bf p(t) = (p_1(t), \cdots, p_m(t)) \in [0, 1] ^ m\) 且 \(\sum_{i = 1} ^ m p_i(t) = 1\)。
马尔可夫链 是随机变量序列 \(X_0, X_1, \cdots\),其中每个随机变量 \(X_t\) 对应分布 \(p(t)\)。
转移矩阵 \(P \in [0, 1] ^ {m\times m}\),满足对所有 \(i\),\(\sum_{j = 1} ^ m P_{ij} = 1\)。状态转移 \(\bf p(t)P = \bf p(t + 1)\)。
马尔可夫性 Markovian:系统的未来状态只取决于当前状态,和历史状态无关。
初次返回的时间 first return time \(T_i = \inf(\{n\geq 1: X_n = i\})\)(空集的下确界定义为 \(\infty\))。
返回概率 return probability \(f_i = \pr_i(T_i < \infty)\)。这里的下标 \(i\) 表示 \(X_0 = i\)。
访问次数 \(N_i = 1 + \sum_{n = 1} ^ {\infty} [X_n = i]\),其中 \(X_0 = i\)。
一个状态是 常返 recurrent 的,若 \(f_i = 1\)。
Lemma
\[E_i[N_i] = \fr 1 {1 - f_i}. \]Proof
由 Markov 性,
\[E_i[N_i] = 1 + \sum_{n = 1} ^ {\infty} \pr(T_n = i)E_i[N_i] = 1 + f_iE_i[N_i]. \]
\(i\) 常返当且仅当 \(E_i[N_i] = \infty\)。
random walk on 2D lattice
一个经典 MC,\(S = \Z ^ 2\),\(P(x, y) = \fr 1 4 [\|x - y\|_1 = 1]\)。
对于一维的情况,
\[\pr(X_{2n} = 0) = \fr {\binom {2n} n} {2 ^ {2n}}. \]由 Stirling 公式 \(\binom {2n} n \sim \fr {4 ^ n} {\sqrt {\pi n}}\),可知
\[\pr(X_{2n} = 0) = \fr 1 {\sqrt {\pi n}} (1 + \al O(n ^ {-1})). \]于是
\[\pr(X_{2n} = (0, 0)) \geq \pr(X_{2n} = 0) ^ 2 = \fr 1 {\pi n}(1 + O(n ^ {-1})). \]调和级数发散,\(E_{0, 0}[N_{0, 0}] = \infty\),\(f_{0, 0} = 1\)。
因此所有格点都是常返的,因为无穷大乘以常数之后还是无穷大。
平稳分布 stationary distribution
定义 平均分布 average distribution
平均分布最终会收敛吗?如果收敛,极限值是多少?
称一个 MC 是 连通 connected 的,若对任意状态 \(i, j\),从 \(i\) 到 \(j\) 的概率不为零。对于连通 MC,我们有一个非常重要的性质:存在唯一的分布 \(\pi\) 使得 \(\pi P = \pi\)(定理 4.2),满足这个条件的 \(\pi\) 称为 平稳分布 stationary distribution。
Lemma 4.1
设 \(P\) 是连通 MC 的转移矩阵,则对于 \(n \times (n + 1)\) 矩阵 \(A = \bpm P - I &\bf 1\epm\),\(\rank (A) = n\)。
Proof
因为对任意 \(1\leq i\leq n\),\(\sum_{j = 1} ^ n P_{ij} = 1\),所以 \((\bf 1_n, 0)\) 在零空间。
假设非零向量 \((\bf x, \a)\) 在零空间且和 \((\bf 1_n, 0)\) 垂直,那么 \((P - I)\bf x + \a\bf 1 = 0\)。展开之后得到对任意 \(1\leq i\leq n\),\(x_i = \sum_{j = 1} ^ n P_{ij}x_j + \a\)。
因为 \((\bf x, \a)\) 和 \((\bf 1_n, 0)\) 垂直,所以 \(\sum_{i = 1} ^ n x_i = 0\)。因为 \((P - I)\bf x + \a\bf 1 = 0\),所以 \(\bf x\) 不全为零,否则 \(\a = 0\),矛盾。因为 MC 连通,所以存在最大值 \(x_k\) 使得 \(k\) 和某个 \(x_l < x_k\) 的 \(l\) 相邻,于是 \(x_k > \sum_{j = 1} ^ n P_{kj}x_j\),推出 \(\a > 0\)。
同理,考虑最小值 \(x_{k'}\) 可知 \(\a < 0\),矛盾,所以 \(\op{nullity}(A) = 1\),即 \(\rank A = n\)。\(\square\)
Theorem 4.2
对于连通 MC,存在唯一的平稳分布 \(\pi\),且平均分布收敛至 \(\pi\)。
注意这个定理不保证任意给定初始分布一定会收敛至平稳分布,但平均分布会收敛至平稳分布。
Proof
自然地,考虑一次转移导致的平均分布的差值:
\[\bal \bf b(t) \equiv \bf a(t)P - \bf a(t) & = \fr 1 t[\bf p(0)P + \cdots + \bf p(t - 1)P - \bf p(0) - \cdots - \bf p(t - 1)] \\ & = \fr 1 t [\bf p(t) - \bf p(0)]. \eal \]于是 \(\nm{\bf b(t)} \leq \fr 2 t\)。但是自然数倒数和不收敛,所以需要进一步分析。
考虑引理 4.1 的矩阵 \(A\)。因为 \(P - I\) 不可逆(所有行求和为 \(0\))但 \(\rank (A) = n\),所以 \(A\) 去掉第一列之后可逆,记为 \(B\)。设 \(\bf c(t)\) 为 \(\bf b(t)\) 去掉第一位,则
\[\bf a(t)B = \bpm \bf c(t) & 1 \epm \implies \bf a(t) = \bpm \bf c(t) & 1 \epm B ^ {-1} \]对 \(t\) 取极限,\(\bf c(t) \to \bf 0_{n - 1}\),\(\pi = \bpm \bf 0_{n - 1} & 1 \epm B ^ {-1}\)。这证明了 \(\pi\) 的存在性和唯一性。\(\square\)
证明了存在性之后,考虑如何判定平稳分布。最直接的方法是计算 \(\pi P\),不过我们处理的 MC 一般有更好的性质,而这个性质可以简单地判定平稳分布。
Lemma 4.3 (detailed balance equation, DBE)
若对任意 \(x, y\),\(\pi_x p_{xy} = \pi_yp_{yx}\),则 \(\pi\) 是平稳分布。
对 \(y\) 求和即可。
平稳分布不一定满足条件,但满足条件一定是平稳分布,此时称 MC 是 可逆 reversible 的。
马尔可夫链蒙特卡罗 Markov Chain Monte Carlo
MCMC 是借助 MC 进行给定分布的随机采样的算法,也可以做带权期望计算 \(E[f] = \sum_{\bf x} f(\bf x)p(\bf x)\)。
为什么需要 MCMC?当状态数很多时,直接计算较麻烦。
Metropolis-Hasting algorithm
我们希望设计一个 MC 使得其平稳分布是给定分布 \(\bf p\)。
给定分布 \(\bf p\),设计无向连通图 \(G\) 和矩阵 \(P\),其中最大度数 \(r > 1\),\(P_{ij} = \fr 1 r \min(1, \fr {p_j}{p_i})\),\(P_{ii} = 1 - \sum_{i\neq j} P_{ij}\)。
因为 MC 满足 DBE
\[p_iP_{ij} = \fr {p_i} r \min\l(1, \fr {p_j} {p_i}\r) = \fr 1 r \min(p_i, p_j) = \fr {p_j} {r} \min\l(1, \fr {p_i} {p_j}\r) = p_jP_{ji}, \]所以 \(\bf p\) 是平稳分布。
由定理 4.2,\(\lim_{t\to \pif} \bf a(t) = \bf p\),所以我们可以在较大的范围内随机选择一个数 \(t\),然后将 \(X_t\) 作为采样结果。
如果 \(G\) 是完全图,那么 MHA 还不如直接采样。很多情况下,我们的状态具有某种空间结构,这个时候可以采用下面的算法。
Gibbs sampling
如果能把状态 \(\bf x\) 表示成 \(d\) 维,考虑随机选一维进行转移而不是每一维都转移。
\[P_{\bf x\bf y} = \fr 1 d \pr(y_1 | x_2, \cdots, x_d) \]表示固定后面 \(d - 1\) 个维度等于 \(x_{2\sim d}\) 之后第一个维度等于 \(y_1\) 的概率。要除以 \(d\),因为每一维被随机到的概率是 \(\fr 1 d\)。
容易验证 DBE
\[p_{\bf {xy}} = \fr 1 d \fr {\pr(y_1| x_{2\sim d}) \pr(x_{2\sim d})} {\pr(x_{2\sim d})} = \fr 1 d\fr {\bf p(\bf y)} {\pr(x_{2\sim d})}, \]且
\[p_{\bf {yx}} = \fr 1 d \fr {\bf p(\bf x)} {\pr(x_{2\sim d})}. \]所以 \(\bf p\) 是平稳分布。
Gibbs sampling 利用状态的良好的空间结构,极大地提高了采样效率。
我们可以高效地采样任意分布吗?当然不是。
考虑最小点覆盖问题,定义 \(H(\s) = |\s|\),如果 \(\s\) 覆盖了所有边,否则为 \(\pif\)。给定参数 \(\b\),定义 \(\pi_\b(\s)\) 是 \(\e ^ {-\b H(\s)}\) 正规化后得到的分布,则
\[\lim_{\b \to \pif} \pi_\b(\s) = \bc \fr 1 {|C_{\min}|}, & \s \in C_{\min}; \\ 0, & \op{otherwise.} \ec \]其中 \(C_\min\) 是最小点覆盖集合。在这个分布上跑 MCMC 的效率会很差,因为最小点覆盖是 NPC 问题。
混合时间 mixing time
混合时间衡量了一个 MC 收敛到平稳分布的速度。混合时间越小,收敛越快。
首先要确定距离的度量。
Proposition 4.4
对于两个概率分布 \(\bf p, \bf q\),
\[\|\bf p - \bf q\|_1 = 2\sum_i (p_i - q_i) ^ + = 2\sum_i (q_i - p_i) ^ +, \]其中 \(x ^ +\) 表示 \(\max(0, x)\)。
研究 无向图上的随机游走。每条边有权值 \(w_{xy} > 0\)。设 \(w_x\) 是和 \(x\) 相邻的所有边的权值,则从 \(x\) 走到 \(y\) 的概率为 \(p_{xy} = w_{xy} / w_x\)(这是定义)。
用 DBE 证明 \(\bf w/ \|\bf w\|\) 是平稳分布,且无向图上的随机游走是可逆的。
定义 \(\eps\)-混合时间 为最小的 \(t\) 使得对任意初始分布 \(\bf p\),\(\nm{\bf a(t) - \pi}_1\leq \eps\)。
我们的直觉是图的连通性越好,混合时间越小。对于一个割集 \(S, \ov S\),考虑衡量 \(S\) 和 \(\ov S\) 之间的 ”连通度“。如果要使得连通性尽可能小,那么 \(S\) 和 \(\ov S\) 之间的 “边数” 应该尽可能少,并且显然应该考虑到点集的大小(否则只有一个点时边数最少)。
设 \(\pi(S) = \sum_{x\in S} \pi_x\),\(Q(S) = \sum_{(x, y)\in (S, \ov S)} \pi_x p_{xy}\)。
对非空真子集 \(S\subset V\),定义 归一化传导率 normalized conductance
对可逆 MC,由 DBE 可知 \(Q(S) = Q(\ov S)\),所以 \(\Phi(S) = \Phi(\ov S)\)。不妨设 \(\Phi(S) \leq \Phi(\ov S)\),那么 \(\Phi(S) = \fr {Q(S)} {\pi(S)}\),可以理解为 “表面积” 除以 “体积”。
\(\Phi(S)\) 表示对于平稳分布且 \(X\in S\),有多少概率下一步从 \(S\) 走到 \(\ov S\)。既然分布要混合起来,那必须先传播过去,所以考虑期望步数 \(\fr 1 {\Phi(S)}\)。其关于所有 \(S\) 的最大值应该是混合时间的下界。
定义该 MC 的 归一化传导率
Theorem 4.5
\(\eps\)-混合时间有上界
\[\tm{\fr {\ln(1 / \pi_{\min})} {\Phi ^ 2 \eps ^ 3}}. \]Proof
略,有时间补上。
使用定理 4.5 可以简单算出特殊图的混合时间。
- \(n\) 个点的环:砍一半,\(\Phi = \T(\fr 1 n)\)。
- \(n\times n\) 的网格图:砍一半,\(\Phi = \T(\fr 1 n)\)。
- \(n ^ d\) 的网格图:可以证明 \(\Phi = \O(\fr 1 {dn})\)。
- \(n\) 个点的团:\(\Phi = \fr 1 2\)。
- \(m\) 条边的连通图:\(\pi_x = \fr {d_x} {2m}\),所以 \(\pi_x p_{xy} = \fr 1 {2m}\)。于是 \(\Phi = \O(\fr 1 m)\),混合时间为 \(\tm{m ^ 2\ln n / \eps ^ 3}\)。

 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号