《人工智能应用数学》学习笔记 —— 线性代数还在追我😅

\[% 希腊字母 \def \a {\alpha} \def \b {\beta} \def \d {\delta} \def \eps {\varepsilon} \def \g {\gamma} \def \la {\lambda} \def \o {\omega} \def \O {\Omega} \def \ph {\varphi} \def \t {\theta} \def \D {\Delta} \def \G {\Gamma} \def \s {\sigma} \def \S {\Sigma} % mathrm & mathbb \def \dd {\mathrm{d}} \def \DD {\mathrm{D}} \def \e {\mathrm{e}} \def \i {\mathrm{i}} \def \N {\mathbb{N}} \def \Z {\mathbb{Z}} \def \Q {\mathbb{Q}} \def \R {\mathbb{R}} \def \C {\mathbb{C}} % 环境 \def \bf {\mathbf} \def \rm {\mathrm} \def \sf {\mathsf} \def \tt {\texttt} \def \al {\mathcal} \def \scr {\mathscr} \def \op {\operatorname} \def \bal {\begin{aligned}} \def \eal {\end{aligned}} \def \bc {\begin{cases}} \def \ec {\end{cases}} \def \bpm {\begin{pmatrix}} \def \epm {\end{pmatrix}} \def \bvm {\begin{vmatrix}} \def \evm {\end{vmatrix}} % 数学符号 \def \l {\left} \def \r {\right} \def \fr {\frac} \def \sq {\sqrt} \def \pr {\Pr} \def \pif {{+\infty}} \def \ov {\overline} \def \ud {\underline} \def \bs {\backslash} \def \sm {\setminus} \def \mps {\mapsto} \def \str {\stackrel} \def \dash {\textendash} \def \gr {\op{grad}} \def \rank {\op{rank}} \def \na {\nabla} \def \pa {\partial} \def \fo {\forall} \def \xeq {\xlongequal} \def \szn {\sum_{i = 0} ^ n} \def \son {\sum_{i = 1} ^ n} \newcommand{\abs}[1]{\left| #1 \right|} \newcommand{\nm}[1]{\|#1\|} \newcommand{\an}[1]{\left \langle #1 \right\rangle} \newcommand{\p}[2]{\fr {\pa #1} {\pa #2}} \newcommand{\tm}[1]{\mathcal{O}{\l(#1\r)}} % 微积分 \def \ait {\int_{-\infty} ^ \pif} % all intergral \def \git {\int_0 ^ \pif} % 质因数 \def \gd {\mathcal N} % Gaussian distribution \def \var {\mathrm {Var}} \def \T {\Theta} % 普物 \def \hx {\hat x} \def \hy {\hat y} \def \hz {\hat z} \def \hr {\hat r} \def \ht {\hat \t} \def \vr {\vec r} \def \vt {\vec \tau} \def \vv {\vec v} \def \vf {\vec F} \def \va {\vec a} \def \vl {\vec L} \def \vp {\vec p} \def \vo {\vec \omega} \def \dv {\op{div}} \def \cu {\op{curl}} % 计算理论 \def \lr {\leftrightarrow} \def \vd {\vdash} \def \vD {\vDash} \def \fo {\forall} \def \ex {\exists} \def \ra {\Rightarrow} \def \ras {\Rightarrow ^ *} \def \poly {\mathsf{poly}} \def \TIM {\mathsf{TIME}} \def \NTIM {\mathsf{NTIME}} \def \P {\mathsf{P}} \def \NP {\mathsf{NP}} \def \NPC {\mathsf{NPC}} \def \NPH {\mathsf{NPH}} \def \EXP {\mathsf{EXP}} \def \NEXP {\mathsf{NEXP}} \def \SP {\mathsf{SPACE}} \def \NSP {\mathsf{NSPACE}} \def \PSP {\mathsf{PSPACE}} \def \PSPC {\mathsf{PSPACE\, \dash \, Complete}} \def \PSPH {\mathsf{PSPACE\, \dash \, Hard}} \def \NPSP {\mathsf{NPSPACE}} \def \L {\mathsf{L}} \def \NL {\mathsf{NL}} \def \NLC {\mathsf{NLC}} \def \NLH {\mathsf{NLH}} \def \PA {\mathsf{PATH}} \def \SAT {\mathsf{SAT}} \def \TQBF {\mathsf{TQBF}} \def \UST {\mathsf{USTCON}} \]

只是一些概率论、信息论、组合数学、复分析和图论——《计算机应用数学》学习笔记

线性代数还在追我😅——《人工智能应用数学》学习笔记

期末一定要及格啊。。。

Topic 8: High Dimensional Geometry

集中不等式 concentration inequalities

由 Markov 不等式,

\[\pr(|x - \mu|\geq a) = \pr(|X - \mu| ^ k\geq a ^ k) \leq \fr {E[|X - \mu| ^ k]} {a ^ k}, \]

可知 分布的集中性来源于高阶矩的有界性

矩量母函数 moment generating function\(M_X(t) = E[\exp(tX)]\)。则 Chernoff bound 可以表示为

\[\pr(X\geq a) \leq \fr{M_X(t)} {\e ^ {ta}}. \]

Proof

\[\pr(X\geq a) = \int_a ^ {\pif} f(x)\dd x \leq \int_a ^ \pif \fr {\e ^ {tx}}{\e ^ {ta}} f(x)\dd x \leq \fr {1} {\e ^ {ta}} \ait \e ^ {tx}f(x)\dd x. \]

\(\square\)

高斯分布 \(\gd(0, \s ^ 2)\) 的 MGF 为 \(\e ^ {\s ^ 2t ^ 2 / 2}\)

高斯环面定理 Gaussian annulus theorem, theorem 2.9:对于 \(d\) 维球面高斯 \(x_i\sim \gd(0, 1)\),对任意 \(\b \leq \sq d\),至多 \(3\e ^ {-c\b ^ 2}\) 的概率质量不在 \(\sqrt d - \b \leq \|\bf x\|_2 \leq \sqrt d + \b\) 的范围内,其中 \(c\) 是固定常数。书上给出的 \(c\)\(\fr 1 {96}\),比本小节最后给出的结论要弱一点。

对比 CB,GAT 关于偏差的指数衰减是平方级别的。作业:用 CB 证明 GAT。

高维几何 high dimensional geometry

高维球壳 high dimensional shell

集合 \(A\) 缩放 \(1 - \eps\) 倍得到 \((1 - \eps)A = \{(1 - \eps)x\mid x\in A\}\)

如果 \(A\) 是球,那么球壳可以写成 \(A\sm(1 - \eps)A\)

考虑体积 \(V((1 - \eps)A) = (1 - \eps) ^ dV(A)\) 以及不等式 \(1 - \eps \leq \e ^ {-\eps}\),所以

\[\fr {V((1 - \eps)A)} {V(A)} = (1 - \eps) ^ d \leq \e ^ {-\eps d}. \]

对于高维球体,体积大量集中在球壳

Lemma 2.6

\(A(d)\)\(V(d)\)\(d\) 维单位球的表面积和体积,则

\[A(d) = \fr {2\pi ^ {\fr d 2}} {\G(\fr d 2)},\ V(d) = \fr {2\pi ^ {\fr d 2}} {d \cdot \G(\fr d 2)}. \]

对于高维球体,体积大量集中在赤道面

Theorem 2.7

\(c\geq 1\)\(d\geq 3\),至少 \(1 - \fr 2 c \e ^ {-\fr {c ^ 2} 2}\) 的体积满足 \(|x_1| \leq \fr {c} {\sqrt {d - 1}}\)

Proof

考虑半球,想法是求出不在赤道附近的上界和整个半球的下界。

不在赤道附近的上界:

\[\bal & \; \int_{\fr c {\sqrt {d - 1}}} ^ 1 (1 - x ^ 2) ^ {\fr {d - 1} 2} V(d - 1) \dd x \\ \leq & \; \int_{\fr c {\sqrt {d - 1}}} ^ 1 \fr {x \sqrt {d - 1}} c \e ^ {- \fr {d - 1} 2 x ^ 2} V(d - 1) \dd x \\ = & \; V(d - 1) \fr {\sqrt {d - 1}} c \int_{\fr c {\sqrt {d - 1}}} ^ \pif x\e ^ {- \fr {d - 1} 2 x ^ 2} \dd x \\ = & \; \fr {V(d - 1)} {c\sqrt {d - 1}}\e ^ {-\fr {c ^ 2} 2} \eal \]

半球的下界:考虑在半球内放入高度为 \(\fr 1 {\sqrt {d - 1}}\) 的圆柱,则对应半径不能超过 \(R = (1 - \fr 1 {d - 1}) ^ {\fr 1 2}\)。圆柱体积为底面积 \(R ^ {d - 1}V(d - 1)\) 乘以高,即

\[\left(1 - \fr 1 {d - 1}\right) ^ {\fr {d - 1} 2} \fr {1} {\sqrt {d - 1}}V(d - 1) \geq \fr 1 {\sqrt {\e(d - 1)} }V(d - 1) \geq \fr 1 2V(d - 1). \]

相除即得欲证不等式。\(\square\)

因为体积集中在赤道,所以 向量几乎垂直

Theorem 2.8

\(n\) 个单位球体内的随机向量,则有 \(1 - \tm {\fr 1 n}\) 的概率:

(1) \(\|\bf x_i\|_2 \geq 1 - \fr {2 \ln n} d\),因为体积集中在球壳。

(2) 对任意 \(i\neq j\)\(|\bf x_i \cdot \bf x_j| \leq \fr {\sqrt {6\ln n}} {\sqrt {d - 1}}\),因为体积集中在赤道。

Proof

由本小节一开始的不等式,

\[\Pr(\|\bf x_i\|_2 < 1 - \fr {2\ln n} d) \leq \e ^ {-(\fr {2\ln n} d)d} = \tm{n ^ {-2}}. \]

在定理 2.7 中取 \(c = \sqrt {6\ln n}\),得到 \(|\bf x_i \cdot \bf x_j| \leq \fr {c} {\sqrt {d - 1}}\) 的概率(考虑和 \(\bf x_i\) 垂直的赤道)不超过

\[\tm{\e ^ {-\fr {6 \ln n} 2}} = \tm{n ^ {-3}}. \]

用布尔不等式即可。\(\square\)

正态分布相关不等式

GAT 告诉我们高维高斯分布的体积也大量集中在球壳上。

  • 为什么是 “球壳” 呢?在任意方向上都是高斯分布。\(\bf x ^ T \S \bf x \sim \gd(0, 1)\)

除了作业以外,课上讲了另一种角度的证明。

霍夫丁不等式 Hoeffding's inequality:设 \(Z_i\in [a, b]\) 是独立有界随机变量,则

\[\pr(\fr 1 n \son (Z_i - E[Z_i]) \geq t) \leq \exp(-\fr {2nt ^ 2} {(b - a) ^ 2}). \]

Proof

Hoeffding's lemma

\(Z\in [a, b]\) 是有界随机变量,则

\[E[\e ^ {\la(Z - \mu)}] \leq \exp(\fr {\la ^ 2(b - a) ^ 2} 8). \]

证明略。

\[\bal \pr(\fr 1 n \son (Z_i - \mu) \geq t) & = \pr(\son (Z_i - \mu) \geq nt) \\ & \leq \min_\la \e ^ {-\la n t} E\l[\exp(\la \son (Z_i - \mu))\r] \\ & = \min_\la \e ^ {-\la n t} \prod_{i = 1} ^ nE[\e ^ {\la(Z_i - \mu)}] \\ & \leq \min_\la \exp(\fr {\la ^ 2 (b - a) ^ 2} 8 - \la n t) \\ & = \exp(-\fr {2nt ^ 2} {(b - a) ^ 2}). \eal \]

\(\square\)

直接对 Gaussian 使用 Hoeffding 是不可行的,因为无界。但 Chernoff 不要求变量有界,而只需 MGF 有界。根据 Gaussian 的 MGF,我们定义 亚高斯分布 sub-Gaussian:满足 \(E[\e ^ {\la(X_i - \mu_i)}]\leq \e ^ {\la ^ 2 \s ^ 2 / 2}\) 的分布。高斯分布是亚高斯分布,亚高斯的 “亚” 不是指限制更弱,而是 MGF 更小,所以限制更强。

sub-Gaussian tail bound

\(X_i\)\(\s ^ 2\)-亚高斯分布,\(S\) 是这些随机变量的和。对任意 \(t > 0\)

\[\pr(|S - E[S]|\geq t) \leq 2\exp(-\fr {t ^ 2} {2n\s ^ 2}). \]

首先有

\[E[\e ^ {\la(S - n\mu)}] = \prod_{i = 1} ^ n E[\e ^ {\la(X_i - \mu)}] \leq \e ^ {n\la ^ 2\s ^ 2 / 2}, \]

于是

\[\pr(S - n\mu \geq t) \leq \e ^ {-\la t}E[\e ^ {\la(S - n\mu)}] \leq \e ^ {-\la t + n\la ^ 2\s ^ 2 / 2}. \]

\(\la = \fr {t} {n\s ^ 2}\) 时取到最小值

\[\pr(S - n\mu \geq t) \leq \exp(-\fr {t ^ 2} {2n\s ^ 2}). \]

\(\square\)

回到 GAT。\(\son X_i ^ 2\) 服从 卡方分布 chi-square distribution,不是亚高斯分布。怎么办?

此时用另一个工具:亚指数分布 sub-exponential,参数 \(\nu\)\(b\),满足对任意 \(|\la| < \fr 1 b\)

\[E[\e ^ {\la(X_i - E[X_i])}] \leq \e ^ {\nu ^ 2 \la ^ 2 / 2}. \]

sub-exponential tail bound (Bernstein inequality)

\[\pr(|S - E[S]| \geq t) \leq 2\exp\l(-\min\left\{\fr {t ^ 2} {2n\nu ^ 2}, \fr t {2b}\right\}\r). \]

分成 \(t \leq \fr {n\nu ^ 2} b\)(对应 \(|\la| < \fr 1 b\))和 \(t > \fr {n\nu ^ 2} b\)(取 \(\la = \fr 1 b\))。

卡方分布是亚指数分布,对应参数 \((2, 4)\)\(\|\bf x\|_2\) 是参数为 \((2\sqrt d, 4)\) 的亚指数分布。

\(S = \|\bf x\|_2 ^ 2\)。根据以上不等式

\[\pr(|S - d|\geq t) \leq 2\exp(-\min\l(\fr {t ^ 2} {8d}, \fr t 8\r)). \]

\(|S - d| = \abs{\|\bf x\| + \sq d} \abs{\|\bf x\| - \sq d}\) 可知当 \(\b \leq \sqrt d\) 时,

\[\pr(\abs{\|\bf x\| - \sqrt d} \geq \b) \leq 2\exp(-\min\l(\fr {(\sq d \b) ^ 2} {8d}, \fr {\sq d \b} {8}\r)) \leq 2\e ^ {-\b ^ 2 / 8}. \]

GAT:独立同分布 independent and identically distributed, iid 的和集中,和球体积大量集中在球壳上,其实是同一件事情。

Topic 9: Low Rank Approximation

这部分内容主要目的是做数据压缩,将高维空间中的点投影到低维,同时尽量保持它们的结构特征。

除非特殊说明,所有范数都是欧几里得范数。

随机投影与 JL 引理 random projection and JL lemma

一般来说随机投影就可以做到比较好了,我们尝试建立相关结论。

构造投影 \(f : \R ^ d \to \R ^ k\)。我们在 \(\R ^ d\) 中随机采样 \(k\) 个 Gaussian \(\bf u_i\sim \gd(0, I_d)\)。对任意 \(\bf v\in \R ^ d\)\(f(\bf v) = (\bf u_i\cdot \bf v)_{i = 1} ^ k\)\(k\) 维向量。

随机投影定理 random projection theorem, theorem 2.10:存在 \(c > 0\) 使得对 \(\eps \in (0, 1)\)

\[\pr(\abs {\nm{f(\bf v)} - \sqrt k \nm {\bf v}} \geq \eps\sqrt k \nm {\bf v}) \leq 3\e ^ {-ck\eps ^ 2}. \]

其中随机性来源于 \(\bf u_i\) 的采样。

Proof

由线性性,不妨设 \(\nm{\bf v} = 1\)

\[\var(\bf u_i\cdot \bf v) = \var\l(\sum_{j = 1} ^ d u_{ij} v_j\r) = \sum_{j = 1} ^ d v_j ^ 2 \var(u_{ij}) = 1. \]

高斯分布的线性组合也是高斯分布,所以 \(f(\bf v)_i \sim \gd(0, 1)\)

根据 \(\bf u_i\)\(\bf u_j\) 独立得到 \(f(\bf v)_i\)\(f(\bf v)_j\) 独立。根据 GAT,

\[\bal \; & \pr(\abs {\nm{f(\bf v)} - \sqrt k \nm {\bf v}} \geq \eps\sqrt k \nm {\bf v}) \\ = \; & \pr(\sqrt k - \eps \sqrt k \leq \nm{f(\bf v)} \leq \sqrt k + \eps \sqrt k) \\ = \; & 3\e ^ {-c(\eps \sqrt k) ^ 2}. \eal \]

\(\square\)

JL 引理 Johnson-Lindenstrauss lemma, theorem 2.11:设 \(k\geq \fr {3} {c\eps ^ 2} \ln n\),则有 \(1 - \fr 3 {2n}\) 的概率,

\[(1 - \eps)\sqrt k \nm {\bf v_i - \bf v_j} \leq \nm {f(\bf v_i) - f(\bf v_j)\bf} \leq (1 + \eps) \sqrt k \nm {\bf v_i - \bf v_j}. \]

Proof

根据 \(f\) 的线性性,对 \(\bf v_i - \bf v_j\) 使用随机投影定理,要求 \(3\e ^ {-ck\eps ^ 2} \leq \fr 3 {n ^ 3} \implies k\geq \fr {3} {c\eps ^ 2} \ln n\)。根据布尔不等式,所有 \((i, j)\) 对均满足的概率不低于 \(1 - \binom n 2 \fr {3} {n ^ 3} \geq 1 - \fr 3 {2n}\)\(\square\)

随机投影定理说明随机投影保长度。根据保长度,考虑两个向量的差,得到 JL 引理,即随机投影保距离。

可以将 \(d\) 维向量压缩到 \(\ln n\) 维。

SVD 分解 singular value decomposition

有没有能做到更好的投影呢?有的兄弟,有的。在欧几里得范数下,SVD 分解是 理论最优 的低秩近似。为此,我们先复习一下线性代数的知识。

  • \(n\times m\) 的矩阵 \(M\) 描述了 \(\R ^ m\to \R ^ n\) 的线性变换。\(M_{ij}\)\(e_j\in \R ^ m\) 投影后在第 \(i\) 个分量的值。
  • \(r = \rank (M)\),那么 \(M\) 总可以写成 \(UV\) 的形式,其中 \(U\)\(n\times r\) 矩阵,\(V\)\(r\times m\) 矩阵。找 \(M\) 的列空间的基底即作为 \(U\),则 \(\bf m_j = \sum_{i = 1} ^ r v_{ij}\bf u_i\)。如果 \(n = m\),则此时有 \(n - r\) 个特征向量的特征值为 \(0\)
  • 如果 \(M\) 有特征分解 \(M = PDP ^ {-1}\),那么 \(M ^ n = PD ^ nP ^ {-1}\)。但当 \(M\) 没有特征分解的时候呢?

右奇异向量 right singular vector

考虑 \(n\times 2\) 矩阵,有 \(n\) 个二维的点。找一维的线性子空间 \(\bf v\)(列向量)使得拟合最好,拟合误差由投影距离平方和确定。由勾股定理,等价于最大化投影长度平方和。又因为 \(\nm{\bf v} = 1\),所以行向量 \(\bf u\) 的投影长度为 \(\bf u\bf v\)。因此,投影长度平方和等于 \(\nm{A\bf v} ^ 2\)

给定任意 \(n\times m\) 矩阵 \(A\),最好的拟合(过原点的)直线为

\[\bf v_1 = \arg \max_{\nm {\bf v} = 1} \nm{A\bf v}, \]

其中 \(\bf v\in \R ^ m\) 称为第一个 右奇异向量。对应第一个 奇异值 singular value

\[\s_1 = \max_{\nm {\bf v} = 1} \nm{A\bf v}. \]

将子空间维度增大,找第二个单位向量使得在 \(\bf v_1\) 基础上(和 \(\bf v_1\) 垂直),它们张成的子空间对应的投影长度平方和最小,即

\[\bf v_2 = \arg \max_{\nm {\bf v} = 1,\ \bf v\perp \bf v_1} \nm{A\bf v}, \]

对应第二个奇异值

\[\s_2 = \max_{\nm {\bf v} = 1,\ \bf v\perp \bf v_1} \nm{A\bf v}. \]

接下来分成两个部分,其一是引出 SVD 分解,其二是证明 SVD 分解在低秩矩阵近似上的最优性。

左奇异向量 left singular vector

\(A\bf v_i\) 单位化,定义 左奇异向量

\[\bf u_i = \fr 1 {\s_i(A)} A \bf v_i. \]

那么 theorem 3.4

\[\fo 1\leq j\leq n,\ \sum_{i = 1} ^ r \s_i \bf u_i \bf v_i ^ T\bf v_j = \s_j \bf u_j = A\bf v_j \implies A = \sum_{i = 1} ^ r \s_i\bf u_i \bf v_i ^ T = UDV ^ T. \]

称为 \(A\)奇异值分解 singular value decomposition

另一种推导方式:因为 \(\bf v_i\) 是标准正交基,所以 \(AV = UD\implies A = UDV ^ {-1} = UDV ^ T\)

可以证明 \(\bf u_i\) 在垂直于 \(\bf u_{1\sim i - 1}\) 的基础上最大化 \(\nm {\bf u ^ T A}\),这和 \(\bf v\) 是对称的。

Theorem 3.7

左奇异向量两两垂直。

Proof

\(i < j\)\(\bf u_i ^ T \cdot \bf u_j = \d > 0\)。考虑 \(\bf v'_i = \fr {\bf v_i + \eps \bf v_j} {\nm {\bf v_i + \eps \bf v_j}}\),则

\[A\bf v_i' = \fr {\s_i \bf u_i + \eps\s_j \bf u_j} {\sqrt {1 + \eps ^ 2}}. \]

平方之后发现分母是 \(\eps\) 的平方项,分子是 \(\s_i\) 乘以 \(1\) 加上 \(\eps\) 的一次项,所以 \(\nm{A\bf v_i'}\)\(\eps\) 足够小的时候大于 \(\s_i\),而 \(\bf v_i'\)\(\bf v_{1\sim i - 1}\) 垂直,和 \(\bf v_i\) 的最优性矛盾。\(\square\)

于是 \(U ^ {T}A = DV ^ {T}\)(也即 \(A ^ TU = VD\)),可知 \(\nm {\bf u_i ^ TA} = \s_i\)。假设有更大的 \(\nm{\bf u_i' ^ T A} > \s_i\),对应到 \(V\) 上就能得到 \(\bf v_i'\) 有更大的 \(\s_i' > \s_i\),和 \(\bf v_i\) 的最优性矛盾。从中,我们还可以感受到奇异值的 “对称性” lemma 3.10

\[A\bf v_i = \s_i \bf u_i,\ A ^ T\bf u_i = \s_i \bf v_i \]

类比特征值和特征向量

\[A\bf v_i = \la_i \bf v_i. \]

低秩矩阵近似 low rank approximation

我们通过依次找最优向量的方式定义了右奇异向量和奇异值,进一步得到了左奇异向量和奇异值分解。那么问题来了:每一维贪心地找,是否能保证对应的子空间是最优的呢?考虑 \(k = 2\) 的情况,相当于是否和以下等价:

\[\arg \max_{\bf v_1, \bf v_2\in \R ^ m,\ \nm{\bf v_1} = \nm{\bf v_2} = 1,\ \bf v_1\perp \bf v_2} \nm{A\bf v_1} ^ 2 + \nm{A\bf v_2} ^ 2. \]

Theorem 3.1

由以上过程得到的 \(\bf v_1, \cdots, \bf v_k\) 是最优的 \(k\)-拟合子空间。

考虑 \(k = 2\) 然后归纳。假设存在子空间 \(W\)\(V\) 更优,那么总可以选择 \(\bf w_2\perp \bf v_1\)。这样容易得到矛盾。

Lemma 3.2
由勾股定理,\(A\) 的每个向量在各个 \(\bf v_i\) 上的正交投影的长度平方和相加应该等于这个向量的长度平方和。于是

\[\sum_{j = 1} ^ n \nm{\bf a_j} ^ 2 = \sum_{j = 1} ^ n \sum_{i = 1} ^ r (\bf a_j \cdot \bf v_i) ^ 2 = \sum_{i = 1} ^ r \nm{A\bf v_i} ^ 2 = \sum_{i = 1} ^ r \s_i ^ 2(A). \]

定义 \(A\) 的 Frobenius 模长

\[\nm A_F = \sqrt {\sum_{ij} a_{ij} ^ 2}, \]

\[\sum \s_i ^ 2(A) = |A|_F ^ 2. \]

低秩矩阵近似 即给定 \(A\),最小化 \(A - B\) 在给定范数下的模长,满足 \(\rank(B)\leq k\)

Theorem 3.6

\(A_k = \sum_{i = 1} ^ k \s_i \bf u_i \bf v_i ^ T\)。对任意 \(B\) 满足 \(\rank(B) \leq k\)

\[\|A - A_k\|_F \leq \|A - B\|_F. \]

这说明最优的 \(B ^ *\) 满足

\[\|A - B ^ *\|_F ^ 2 = \sum_{i = k + 1} ^ r \s_i ^ 2. \]

Proof

正交矩阵保持 Frobenious 范数,所以

\[\|A - B\|_F = \|U ^ T(A - B)V\|_F = \|\S - U ^ TBV\|_F. \]

\(C = U ^ TBV\)。因为 \(\rank(B) = k\),所以 \(\rank(C) \leq k\)

\[\|A - B\|_F = \|\S - C\|_F. \]

因为 \(\S\) 是对角矩阵,所以 \(C ^ * = \op{diag}(\s_1, \cdots, \s_k, 0, \cdots, 0)\),解得 \(B = U_k\S_k V_k ^ T = A_k\)\(\square\)

最优的 低秩矩阵近似

在其它范数下的低秩矩阵近似?考虑 L2-范数

\[\nm A_2 = \max_{\nm {\bf x}\leq 1} \nm{A\bf x}. \]

也称为矩阵的 谱范数 spectral norm。因为最大值显然在 \(\bf x\) 是单位向量时取到,所以矩阵的 2-范数等于 \(\s_1(A)\)

Theorem 3.8

\[\nm{A - A_k}_2 ^ 2 = \s_{k + 1} ^ 2. \]

Proof

考虑任意 \(\bf v = \sum_{j = 1} ^ r c_j \bf v_j\),则

\[\nm{(A - A_k)\bf v} = \l\|\sum_{i = {k + 1}} ^ r \s_i \bf u_i\bf v_i ^ T \sum_{j = 1} ^ r c_j \bf v_j\r\| = \l\|\sum_{i = k + 1} ^ r c_i\s_i \bf u_i\r\| = \sqrt {\sum_{i = k + 1} ^ r c_i ^ 2\s_i ^ 2}. \]

\(\sum_{i = 1} ^ r c_i ^ 2 = 1\),所以最大值不超过 \(\s_{k + 1} ^ 2\)\(\square\)

Theorem 3.9

\(A\)\(n\times m\) 的矩阵。对于任意 \(\rank B < k\)

\[\|A - A_k\|_2 \leq \|A - B\|_2. \]

将问题看成最优化子空间,而不是最优化矩阵。

Proof

如果 \(\rank A \leq k\) 那么显然,否则 \(\op{nullity}(B) \geq n - k\)。那么存在非零单位向量

\[\bf z \in \op{Null}(B) \cap \op{Span}\{\bf v_{1\sim k + 1}\}. \]

于是

\[\nm{A - B}_2 ^ 2 \geq \nm{(A - B)\bf z} ^ 2 = \nm{A\bf z} ^ 2. \]

\(\bf z\) 和所有 \(\bf v_{k + 2\sim r}\) 垂直,所以

\[\nm{A\bf z} ^ 2 = \l\|\sum_{i = 1} ^ r \s_i \bf u_i\bf v_i ^ T \bf z \r\| ^ 2 = \sum_{i = 1} ^ {k + 1}\s_i ^ 2(\bf v_i ^ T\bf z) ^ 2 \geq \s_{k + 1} ^ 2 \sum_{i = 1} ^ {k + 1} (\bf v_i ^ T\bf z) ^ 2 = \s ^ 2_{k + 1}. \]

所以

\[\|A - B\|_2 ^ 2 \geq \s_{k + 1} ^ 2 = \|A - A_k\| ^ 2. \]

\(\square\)

Topic 10: SVD Applications

幂迭代法 power method

\[B = A ^ TA = \l(\sum_{i = 1} ^ d \s_i\bf v_i \bf u_i ^ T\r) \l(\sum_{j = 1} ^ d \s_j \bf u_j \bf v_j ^ T\r) = \sum_{i = 1} ^ d \s_i ^ 2\bf v_i \bf v_i ^ T, \]

那么

\[B ^ k = \sum_{i = 1} ^ d \s_i ^ {2k} \bf v_i\bf v_i ^ T. \]

\(\bf x = \sum_{i = 1} ^ d c_i\bf v_i\),则

\[B ^ k\bf x = \sum_{i = 1} ^ d \s_i ^ {2k}c_i\bf v_i. \]

指数上的 \(k\) 放大了 \(\s_i\)\(\s_1\) 之间的差异:

Theorem 3.11

\(V\) 是由 \(\s_i > (1 - \eps) \s_1\)\(\bf v_i\) 张成的空间,单位向量 \(\bf x\in \R ^ d\) 满足 \(|\bf x ^ T\bf v_1| \geq \d\)\(k = \fr {\ln(1 / \eps \d)} {2\eps}\),则

\[\bf w = \fr {B ^ k \bf x} {|B ^ k\bf x|}. \]

在垂直于 \(V\) 的方向上至多有 \(\eps\) 的分量。

Proof

由条件,\(c_1\geq \d\)。设 \(V = \op{Span}(\bf v_{1\sim m})\),则

\[|B ^ k\bf x| ^ 2 = \sum_{i = 1} ^ d \s_i ^ {4k}c_i ^ 2 \geq \s_1 ^ {4k}\d ^ 2. \]

垂直于 \(V\) 的方向上的分量长度平方为

\[\sum_{i = m + 1} ^ d \s_i ^ {4k} c_i ^ 2 \leq (1 - \eps) ^ {4k} \s_1 ^ {4k}. \]

于是

\[\fr {(1 - \eps) ^ {2k} \s_1 ^ {2k}} {\d \s_1 ^ {2k}} \leq \fr {\e ^ {-2k\eps}}{\d} = \eps. \]

\(\square\)

如果 \(\bf x\) 是随机向量,那么满足前提条件 \(|\bf x ^ T\bf v_1| \geq \d\) 的概率?

Lemma 3.12

在单位方差球面高斯上均匀随机 \(\bf y\),正规化,得到 \(\bf x = \fr {\bf y} {\nm {\bf y}}\)。设 \(\bf v\) 是任意单位长度向量,则

\[\pr\l(|\bf x ^ T \bf v| < \fr 1 {20\sqrt d}\r) \leq \fr 1 {10} + 3\e ^ {-d / 96}. \]

Proof

由 GAT,

\[\pr(|\bf y| > 2 \sqrt d) < 2\e ^ {-d / 8}. \]

\(|\bf y ^ T\bf v|\sim \gd(0, 1)\),概率密度函数 \(p(x) \leq \fr 1 {\sqrt {2\pi}} < 0.5\),所以

\[\pr\l(|\bf y ^ T \bf v| < \fr 1 {10}\r) \leq \fr 1 {10}. \]

\(\square\)

SVD 分解的应用 SVD applications

主成分分析 principal component analysis

SVD 用很少的维度拟合高维空间,类似 “透过现象看本质”:一个复杂现象的影响因素可能很少。

我们找到尽可能少的 “特征维度”(原维度的线性组合,因为只描述方向,所以可正规化)拟合这些数据。\(n\times d\) 矩阵 \(A\) 表示 \(n\) 个数据,\(d\) 个原维度。\(A \approx U_k\S_KV_k ^ T\),其中 \(U_k\S_k\)\(n\times k\) 数据矩阵,表示每个数据在每个特征维度上的分量;\(V_k ^ T\)\(k\times d\) 特征矩阵,表示每个特征维度在每个原维度上的分量。

怎么算数据矩阵 \(U_k\S_k\)\(U_k\S_k = AV_k\)\(V_k\)\(d\times k\) 矩阵,表示每个原维度在每个特征维度上的分量。

网页排名 page rank

权威页面有权重 \(v_j\),枢纽页面有权重 \(u_i\)。矩阵 \(A_{ij}\) 描述了枢纽和权威之间是否有链接,那么合理的权重应满足 \(\bf v\propto A ^ T\bf u\)\(\bf u\propto A\bf v\)

从随机向量 \(\bf v\) 开始迭代

\[\bf v = \fr {A ^ T\bf u} {\nm{A ^ T\bf u}},\ \bf u = \fr {A\bf v} {\nm{A\bf v}}. \]

实际上在做幂迭代法。最后根据 \(\bf v\) 得到权威页面的权重。

社区检测 community detection

将点集划分为 \(k\) 个部分,要求可以是每个部分在空间上分布密集(高维空间的点,描述性质),也可以是内部的连边比较密集(图上的点,描述关系)。

考虑这样一个情况:\(A_{i, j} = [(i, j)\in G]\),其中若 \(i, j\) 在相同的社区,则 \(\pr ((i, j)\in G) = p\),否则概率为 \(q\)

\[E[A] = \bpm p \bf 1 \bf 1 ^ T & q\bf 1 \bf 1 ^ T \\ q\bf 1 \bf 1 ^ T & p\bf 1 \bf 1 ^ T \\ \epm = \fr {p + q} 2 \bf 1 \bf 1 ^ T + \fr {p - q} 2 \bpm \bf 1 \\ -\bf 1\epm\bpm \bf 1 ^ T & -\bf 1 ^ T\epm. \]

  • 随机块模型 stochastic block model\(k = 2\) 的特殊情况。

\(E[A]\) 的第一特征值 \(\la_1 = \fr {p + q} 2 n\),特征向量 \(U_1 = \fr 1 {\sqrt n} \bf 1 ^ T\)。第二特征值 \(\la_2 = \fr {p - q} 2 n\),特征向量 \(U_2 = \fr 1 {\sqrt n} \bpm \bf 1 ^ T & -\bf 1 ^ T\epm\)

SVD 做二分类:求出 \(U_2\),用每一项的正负号分类。相当于将 \(A\) 分成期望部分 \(E[A]\) 和随机部分 \(A - E[A]\),现在需要分析随机部分对奇异向量造成的影响所导致的误差的大小。比较繁琐,有时间补。

为什么可以假定两个分类在下标上是连续的?因为以上算法不基于下标:设 \(P\) 是排列矩阵,对下标进行对应排列时,\(A' = PAP ^ T\)\(\bf v' = P\bf v\)。于是,对 \(A\) 的特征向量 \(\bf v\)

\[A'\bf v' = (PAP ^ T)(P\bf v) = PA\bf v = P\la \bf v = \la \bf v'. \]

Topic 11: Markov Chain

马尔可夫链 Markov chain

状态空间 state space \(S = \{1, 2, \cdots, m\}\)。课程仅讨论有限状态空间。

状态的概率分布 \(\bf p(t) = (p_1(t), \cdots, p_m(t)) \in [0, 1] ^ m\)\(\sum_{i = 1} ^ m p_i(t) = 1\)

马尔可夫链 是随机变量序列 \(X_0, X_1, \cdots\),其中每个随机变量 \(X_t\) 对应分布 \(p(t)\)

转移矩阵 \(P \in [0, 1] ^ {m\times m}\),满足对所有 \(i\)\(\sum_{j = 1} ^ m P_{ij} = 1\)状态转移 \(\bf p(t)P = \bf p(t + 1)\)

马尔可夫性 Markovian:系统的未来状态只取决于当前状态,和历史状态无关。

\[\pr(X_{t + 1} = i_{t + 1}\mid X_{t} = i_t,\cdots, X_0 = i_0) = \pr(X_{t + 1} = i_{t + 1} \mid X_t = i_t) = P_{i_ti_{t + 1}}. \]

初次返回的时间 first return time \(T_i = \inf(\{n\geq 1: X_n = i\})\)(空集的下确界定义为 \(\infty\))。

返回概率 return probability \(f_i = \pr_i(T_i < \infty)\)。这里的下标 \(i\) 表示 \(X_0 = i\)

访问次数 \(N_i = 1 + \sum_{n = 1} ^ {\infty} [X_n = i]\),其中 \(X_0 = i\)

一个状态是 常返 recurrent 的,若 \(f_i = 1\)

Lemma

\[E_i[N_i] = \fr 1 {1 - f_i}. \]

Proof

由 Markov 性,

\[E_i[N_i] = 1 + \sum_{n = 1} ^ {\infty} \pr(T_n = i)E_i[N_i] = 1 + f_iE_i[N_i]. \]

\(i\) 常返当且仅当 \(E_i[N_i] = \infty\)

random walk on 2D lattice

一个经典 MC,\(S = \Z ^ 2\)\(P(x, y) = \fr 1 4 [\|x - y\|_1 = 1]\)

对于一维的情况,

\[\pr(X_{2n} = 0) = \fr {\binom {2n} n} {2 ^ {2n}}. \]

由 Stirling 公式 \(\binom {2n} n \sim \fr {4 ^ n} {\sqrt {\pi n}}\),可知

\[\pr(X_{2n} = 0) = \fr 1 {\sqrt {\pi n}} (1 + \al O(n ^ {-1})). \]

于是

\[\pr(X_{2n} = (0, 0)) \geq \pr(X_{2n} = 0) ^ 2 = \fr 1 {\pi n}(1 + O(n ^ {-1})). \]

调和级数发散,\(E_{0, 0}[N_{0, 0}] = \infty\)\(f_{0, 0} = 1\)

因此所有格点都是常返的,因为无穷大乘以常数之后还是无穷大。

平稳分布 stationary distribution

定义 平均分布 average distribution

\[\bf a(t) = \fr 1 t (\bf p(0) + \cdots + \bf p(t - 1)). \]

平均分布最终会收敛吗?如果收敛,极限值是多少?

称一个 MC 是 连通 connected 的,若对任意状态 \(i, j\),从 \(i\)\(j\) 的概率不为零。对于连通 MC,我们有一个非常重要的性质:存在唯一的分布 \(\pi\) 使得 \(\pi P = \pi\)(定理 4.2),满足这个条件的 \(\pi\) 称为 平稳分布 stationary distribution

Lemma 4.1

\(P\) 是连通 MC 的转移矩阵,则对于 \(n \times (n + 1)\) 矩阵 \(A = \bpm P - I &\bf 1\epm\)\(\rank (A) = n\)

Proof

因为对任意 \(1\leq i\leq n\)\(\sum_{j = 1} ^ n P_{ij} = 1\),所以 \((\bf 1_n, 0)\) 在零空间。

假设非零向量 \((\bf x, \a)\) 在零空间且和 \((\bf 1_n, 0)\) 垂直,那么 \((P - I)\bf x + \a\bf 1 = 0\)。展开之后得到对任意 \(1\leq i\leq n\)\(x_i = \sum_{j = 1} ^ n P_{ij}x_j + \a\)

因为 \((\bf x, \a)\)\((\bf 1_n, 0)\) 垂直,所以 \(\sum_{i = 1} ^ n x_i = 0\)。因为 \((P - I)\bf x + \a\bf 1 = 0\),所以 \(\bf x\) 不全为零,否则 \(\a = 0\),矛盾。因为 MC 连通,所以存在最大值 \(x_k\) 使得 \(k\) 和某个 \(x_l < x_k\)\(l\) 相邻,于是 \(x_k > \sum_{j = 1} ^ n P_{kj}x_j\),推出 \(\a > 0\)

同理,考虑最小值 \(x_{k'}\) 可知 \(\a < 0\),矛盾,所以 \(\op{nullity}(A) = 1\),即 \(\rank A = n\)\(\square\)

Theorem 4.2

对于连通 MC,存在唯一的平稳分布 \(\pi\),且平均分布收敛至 \(\pi\)

注意这个定理不保证任意给定初始分布一定会收敛至平稳分布,但平均分布会收敛至平稳分布。

Proof

自然地,考虑一次转移导致的平均分布的差值:

\[\bal \bf b(t) \equiv \bf a(t)P - \bf a(t) & = \fr 1 t[\bf p(0)P + \cdots + \bf p(t - 1)P - \bf p(0) - \cdots - \bf p(t - 1)] \\ & = \fr 1 t [\bf p(t) - \bf p(0)]. \eal \]

于是 \(\nm{\bf b(t)} \leq \fr 2 t\)。但是自然数倒数和不收敛,所以需要进一步分析。

考虑引理 4.1 的矩阵 \(A\)。因为 \(P - I\) 不可逆(所有行求和为 \(0\))但 \(\rank (A) = n\),所以 \(A\) 去掉第一列之后可逆,记为 \(B\)。设 \(\bf c(t)\)\(\bf b(t)\) 去掉第一位,则

\[\bf a(t)B = \bpm \bf c(t) & 1 \epm \implies \bf a(t) = \bpm \bf c(t) & 1 \epm B ^ {-1} \]

\(t\) 取极限,\(\bf c(t) \to \bf 0_{n - 1}\)\(\pi = \bpm \bf 0_{n - 1} & 1 \epm B ^ {-1}\)。这证明了 \(\pi\) 的存在性和唯一性。\(\square\)

证明了存在性之后,考虑如何判定平稳分布。最直接的方法是计算 \(\pi P\),不过我们处理的 MC 一般有更好的性质,而这个性质可以简单地判定平稳分布。

Lemma 4.3 (detailed balance equation, DBE)

若对任意 \(x, y\)\(\pi_x p_{xy} = \pi_yp_{yx}\),则 \(\pi\) 是平稳分布。

\(y\) 求和即可。

平稳分布不一定满足条件,但满足条件一定是平稳分布,此时称 MC 是 可逆 reversible 的。

马尔可夫链蒙特卡罗 Markov Chain Monte Carlo

MCMC 是借助 MC 进行给定分布的随机采样的算法,也可以做带权期望计算 \(E[f] = \sum_{\bf x} f(\bf x)p(\bf x)\)

为什么需要 MCMC?当状态数很多时,直接计算较麻烦。

Metropolis-Hasting algorithm

我们希望设计一个 MC 使得其平稳分布是给定分布 \(\bf p\)

给定分布 \(\bf p\),设计无向连通图 \(G\) 和矩阵 \(P\),其中最大度数 \(r > 1\)\(P_{ij} = \fr 1 r \min(1, \fr {p_j}{p_i})\)\(P_{ii} = 1 - \sum_{i\neq j} P_{ij}\)

因为 MC 满足 DBE

\[p_iP_{ij} = \fr {p_i} r \min\l(1, \fr {p_j} {p_i}\r) = \fr 1 r \min(p_i, p_j) = \fr {p_j} {r} \min\l(1, \fr {p_i} {p_j}\r) = p_jP_{ji}, \]

所以 \(\bf p\) 是平稳分布。

由定理 4.2,\(\lim_{t\to \pif} \bf a(t) = \bf p\),所以我们可以在较大的范围内随机选择一个数 \(t\),然后将 \(X_t\) 作为采样结果。

如果 \(G\) 是完全图,那么 MHA 还不如直接采样。很多情况下,我们的状态具有某种空间结构,这个时候可以采用下面的算法。

Gibbs sampling

如果能把状态 \(\bf x\) 表示成 \(d\) 维,考虑随机选一维进行转移而不是每一维都转移。

\[P_{\bf x\bf y} = \fr 1 d \pr(y_1 | x_2, \cdots, x_d) \]

表示固定后面 \(d - 1\) 个维度等于 \(x_{2\sim d}\) 之后第一个维度等于 \(y_1\) 的概率。要除以 \(d\),因为每一维被随机到的概率是 \(\fr 1 d\)

容易验证 DBE

\[p_{\bf {xy}} = \fr 1 d \fr {\pr(y_1| x_{2\sim d}) \pr(x_{2\sim d})} {\pr(x_{2\sim d})} = \fr 1 d\fr {\bf p(\bf y)} {\pr(x_{2\sim d})}, \]

\[p_{\bf {yx}} = \fr 1 d \fr {\bf p(\bf x)} {\pr(x_{2\sim d})}. \]

所以 \(\bf p\) 是平稳分布。

Gibbs sampling 利用状态的良好的空间结构,极大地提高了采样效率。

我们可以高效地采样任意分布吗?当然不是。

考虑最小点覆盖问题,定义 \(H(\s) = |\s|\),如果 \(\s\) 覆盖了所有边,否则为 \(\pif\)。给定参数 \(\b\),定义 \(\pi_\b(\s)\)\(\e ^ {-\b H(\s)}\) 正规化后得到的分布,则

\[\lim_{\b \to \pif} \pi_\b(\s) = \bc \fr 1 {|C_{\min}|}, & \s \in C_{\min}; \\ 0, & \op{otherwise.} \ec \]

其中 \(C_\min\) 是最小点覆盖集合。在这个分布上跑 MCMC 的效率会很差,因为最小点覆盖是 NPC 问题。

混合时间 mixing time

混合时间衡量了一个 MC 收敛到平稳分布的速度。混合时间越小,收敛越快。

首先要确定距离的度量。

Proposition 4.4

对于两个概率分布 \(\bf p, \bf q\)

\[\|\bf p - \bf q\|_1 = 2\sum_i (p_i - q_i) ^ + = 2\sum_i (q_i - p_i) ^ +, \]

其中 \(x ^ +\) 表示 \(\max(0, x)\)

研究 无向图上的随机游走。每条边有权值 \(w_{xy} > 0\)。设 \(w_x\) 是和 \(x\) 相邻的所有边的权值,则从 \(x\) 走到 \(y\) 的概率为 \(p_{xy} = w_{xy} / w_x\)(这是定义)。

用 DBE 证明 \(\bf w/ \|\bf w\|\) 是平稳分布,且无向图上的随机游走是可逆的。

定义 \(\eps\)-混合时间 为最小的 \(t\) 使得对任意初始分布 \(\bf p\)\(\nm{\bf a(t) - \pi}_1\leq \eps\)

我们的直觉是图的连通性越好,混合时间越小。对于一个割集 \(S, \ov S\),考虑衡量 \(S\)\(\ov S\) 之间的 ”连通度“。如果要使得连通性尽可能小,那么 \(S\)\(\ov S\) 之间的 “边数” 应该尽可能少,并且显然应该考虑到点集的大小(否则只有一个点时边数最少)。

\(\pi(S) = \sum_{x\in S} \pi_x\)\(Q(S) = \sum_{(x, y)\in (S, \ov S)} \pi_x p_{xy}\)

对非空真子集 \(S\subset V\),定义 归一化传导率 normalized conductance

\[\Phi(S) = \fr {Q(S)} {\min(\pi(S), \pi(\ov S))}. \]

对可逆 MC,由 DBE 可知 \(Q(S) = Q(\ov S)\),所以 \(\Phi(S) = \Phi(\ov S)\)。不妨设 \(\Phi(S) \leq \Phi(\ov S)\),那么 \(\Phi(S) = \fr {Q(S)} {\pi(S)}\),可以理解为 “表面积” 除以 “体积”。

\(\Phi(S)\) 表示对于平稳分布且 \(X\in S\),有多少概率下一步从 \(S\) 走到 \(\ov S\)。既然分布要混合起来,那必须先传播过去,所以考虑期望步数 \(\fr 1 {\Phi(S)}\)。其关于所有 \(S\) 的最大值应该是混合时间的下界。

定义该 MC 的 归一化传导率

\[\Phi = \min_{0 < \pi(S) \leq 0.5} \Phi(S). \]

Theorem 4.5

\(\eps\)-混合时间有上界

\[\tm{\fr {\ln(1 / \pi_{\min})} {\Phi ^ 2 \eps ^ 3}}. \]

Proof

略,有时间补上。

使用定理 4.5 可以简单算出特殊图的混合时间。

  • \(n\) 个点的环:砍一半,\(\Phi = \T(\fr 1 n)\)
  • \(n\times n\) 的网格图:砍一半,\(\Phi = \T(\fr 1 n)\)
  • \(n ^ d\) 的网格图:可以证明 \(\Phi = \O(\fr 1 {dn})\)
  • \(n\) 个点的团:\(\Phi = \fr 1 2\)
  • \(m\) 条边的连通图:\(\pi_x = \fr {d_x} {2m}\),所以 \(\pi_x p_{xy} = \fr 1 {2m}\)。于是 \(\Phi = \O(\fr 1 m)\),混合时间为 \(\tm{m ^ 2\ln n / \eps ^ 3}\)
posted @ 2025-04-30 17:48  qAlex_Weiq  阅读(576)  评论(7)    收藏  举报