英属智利大战印属直隶
I. High-Dimensional Space
大数定律:样本增多时,平均值趋向于期望。具体而言,
可以被 Chebyshev 证明。
\(d\) 维空间的固定半径球,随着维数增加体积趋于 \(0\)。单位球的场合,有 \(1-e^{-\epsilon d}\) 的体积集中在 \(S\setminus(1-\epsilon)S\) 的 annulus 里面,也即绝大部分体积集中在 \(O(1/d)\) 的球壳中。
嗯积可以得到,\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\).
质量集中于 equator。\(1-\dfrac2ce^{-c^2/2}\) 的体积集中于 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\) 的赤道中。
推论:从单位球中随机取 \(n\) 个点,以 \(1-O(1/n)\) 的概率,对于所有点有:
- \(\|\bf x_i\|\geq1-\dfrac{2\ln n}d\);
- \(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)。
如何生成球内的随机点?使用 Spherical Gaussian,即在每一维上都是标准 Gaussian。其在每个方向的分布均相同,于是可以将结果 normalize,得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点;该关于半径的随机函数与每个半径的球面面积成正比,也即 PDF 与 \(r^{d-1}\) 成正比。
Gaussian Annulus Theorem:对于所有方向都以 unit variance 分布的 Spherical Gaussian,对于一切 \(\beta\leq\sqrt d\) 以 \(1-3e^{-c\beta^2}\) 的概率 \(\sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta\)。
Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据,则用 Spherical Gaussian 生成 \(k\) 个随机向量并计算其在每个向量方向投影长度,构成一个 \(k\) 阶数据。以大概率地,这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言,
家人们,还是看看远处的 [Vershynin] HDP 吧。
首先有一些基础的概念,例如变量的 \(p\) 阶矩 \(EX^p\) 和 \(p\) 阶绝对矩 \(E|X|^p\)。然后有 \(L^p\) norm \(\|X\|_{L^p}=(E|X|^p)^{1/p}\),\(p\) 为 \((0,+\infty)\) 中实数。其可以被扩张至 \(\|X\|_{L^\infty}=\operatorname{ess}\sup|X|\),也即 \(|X|\) 的 essential supremum 本质上确界,指忽略那些测度为零的集合后的上确界。\(|X|\) 以零测的概率取到什么奇怪的东西都会被扔掉。\(L^p\) 空间中包含了所有 \(L^p\) norm 存在的随机变量。当 \(p\in[1,\infty]\) 时 \(L^p\) norm 确实是 norm,但当 \(p<1\) 时其不是 norm。
\(L^p\) norm 其实和向量空间中的 \(\|\bf x\|_p\) norm 类似。或者其本来就是 \(\|\bf x\|_p\) 在无限维线性空间上的一种推广。
首先,我们有一个朴素的 Hoeffding Inequality(虽然形式可能和普通的 Hoeffding 有些区别):
-
定义 Symmetric Bernoulli 是 \(\Pr(X=-1)=\Pr(X=1)=\dfrac12\) 的分布。
-
对于独立随机的 Sym-Ber \(X_1,\dots,X_n\) 和 \(a=(a_1,\dots,a_n)\),有:对于一切 \(t>0\),
\[\Pr(\sum\limits_{i=1}^na_iX_i\geq t)\leq\exp(-\dfrac{t^2}{2\|a\|^2}) \]
以及更泛用的 Hoe-Ine:
- 对于每个 \(X_i\) 都被 \([a_i,b_i]\) bound 的随机变量,则\[\Pr(\sum_{i=1}^nX_i-EX_i\geq t)\leq\exp(-\dfrac{2t^2}{\sum(b_i-a_i)^2}) \]
Hoe-Ine 只适用于有界随机变量。如何将其扩展为适用于无界随机变量的不等式,或者说满足何种条件的随机变量有着和 Hoe-Ine 相似的不等式约束?
定义,一个变量是 Sub-Gaussian 的,如果其满足如下五者之一,同时另外四者可以由选中的条件推出;所有的 \(K_i\) 都可以被一个通用的常量 \(C\) 限制,即满足 \(K_j\leq CK_i\) 均成立,而这个 \(C\) 与选择的变量无关;
- \(\Pr(|X|\geq t)\leq2\exp(-t^2/K_1^2)\),即其 tail distribution 被类似 Mill 不等式的限制 bound。
- \(\|X\|_{L^p}=(E|X|^p)^{1/p}\leq K_2\sqrt p\) 对于一切 \(p\geq1\) 均成立。其中,\(\|X\|_{L^p}\) 即为 \(X\) 的 \(p\)-阶矩……的相关形式吧。毕竟 \(p\)-阶矩是 \(E|X|^p\),没有外面的开根。
- \(X^2\) 的 MGF 满足 \(E\exp(\lambda^2X^2)\leq\exp(K_3^2\lambda^2)\),对于一切 \(|\lambda|\leq\dfrac1{K_3}\) 的 \(\lambda\) 均成立。
- \(X^2\) 的 MGF 在某点有界,即 \(E\exp(X^2/K_4^2)\leq2\)。
特别地,对于期望为 \(0\) 的 \(X\),上述四者存在第五种阐述:
- \(X\) 的 MGF 满足 \(E\exp(\lambda X)\leq\exp(K_5^2\lambda^2)\) 对于一切 \(\lambda\in\R\) 均成立。
Sub-Gaussian 变量可以定义对应的 Sub-Gaussian norm \(\|X\|_{\psi_2}\),指最小的满足 sub-Gaussian 定义的 \(K_4\),即
每个 Sub-Gau 的变量均满足如下 bound:
Gaussian、Sym-Ber、以及有界的随机变量都是 Sub-Gau 分布。
对于独立的、期望为零的 Sub-Gau 分布,有 \(\sum X_i\) 亦是 Sub-Gau,且
其中 \(C\) 是 absolute constant。
于是有 ex-Hoe-Ine: 对于独立、零期望的 Sub-Gau 们,
存在比 Sub-Gau 更紧的一类,即 Sub-Exponential Distribution。
累了,不列那么多 Sub-Exp 的性质了。
- 满足 \(\Pr(|X|\geq t)\leq2\exp(-t/K)\) 即可。
Sub-Exp norm
\(X\) 是 Sub-Gau 当且仅当 \(X^2\) 是 Sub-Exp。且有着
的牛性质。事实上,两个 Sub-Gau 的积是 Sub-Exp 的。
Bernstein's Inequality: 对于独立、零期望、Sub-Exp 的随机变量,
进一步,令 \(K\) 表示 \(\max\|X_i\|_{\psi_1}\),有
Gau 是 Sub-Gau 的,所以 Gau 方就是 Sub-Exp 的。对 Gau 方用 Ber-Ine,可以得到 Gau-Annu-Thm。
II. Singular Value Decomposition
有一个 \(m\times n\) 矩阵,满足 \(\rank A\ll m,n\)。试图将其拆成 \(A=USV^T=(m\times r)(r\times r)(n\times r)^T\),满足:
- \(U,V\) 是正交单位 orthonormal 阵,即满足 \(U^TU=V^TV=I_R\),即 \(U,V\) 的列向量都是单位向量且彼此正交。
- \(S\) 是对角矩阵 \(\text{diag}(\sigma_1,\dots,\sigma_r)\),其中 \(\sigma\) 被称作 singular value。
- \(U\) 中列向量被称作 left singular vectors,\(V\) 中被称作 right singular vectors。
对于对称阵 \(M=M^T\),其必然存在 orthonormal 的特征向量 \(\bf u_1,\dots,\bf u_n\),于是有 \(MU=U\Lambda\)。orthonormal 矩阵有着 \(U^{-1}=U^T\) 的优秀性质,所以 \(M=U\Lambda U^T\)。
对于对称半正定的 \(M\),有 \(\Lambda\) 中的所有 \(\lambda\geq0\),于是令 \(X=U\sqrt{\Lambda}\),则 \(M=XX^T\)。
进一步,对于二次型 \(f_M(\bf y)=\bf y^TM\bf y\),有 \(f_M(\bf y)=\|X^T\bf y\|^2\)。
假设 \(A=USV^T\),则 \(A^TA=VS^2V^T,AA^T=US^2U^T\)。于是,一种可行的想法是,令 \(V\) 成为 \(A^TA\) 的特征向量集合,\(U\) 成为 \(AA^T\) 的特征向量集合,此时如果 \(A^TA\) 和 \(AA^T\) 具有相同的特征值分布,则这构成 \(A\) 的 SVD。
若 \(\bf v\) 是 \(A^TA\) 的特征向量,即 \(A^TA\bf v=\lambda\bf v\),则 \(AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v)\),于是 \(A\bf v\) 是 \(AA^T\) 的特征向量。
有 \(\|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2\)。因此取一组 orthonormal 的 \(\bf v\) 后,通过令 \(S=\sqrt\Lambda\), \(U=AVS^{-1}\) 即可得到 orthonormal 的 \(\bf u\) 集合。
通过此法定义的 SVD,有:\(U=(m\times n),S=(n\times n),V=(n\times n)\)。
这个东西没有对称性。(在 \(m\geq n\) 的场合)可以将 \(U,S\) 人工拉长为 \(U=(m\times m),S=(m\times n)\) 来保证对称性,此时的分解称作 full SVD。在 \(m<n\) 的场合应该反过来选择从 \(U\) 生成 \(V\) 来得到 full SVD。
注意 full SVD 的 \(A=USV^T\) 其实展开来是 \(A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i\) 的式子;实对称矩阵 \(AA^T\) 的非零特征值数目等于其秩,而 \(\rank(AA^T)=\rank(A)\),因此可以剪裁掉 \(S\) 中那些零特征值式对应的部分,得到 \(A=(m\times r)\times(r\times r)\times(n\times r)^T\) 的 reduce SVD。
full SVD 有着如下效果:
- \(U\) 的前 \(r\) 列是 \(A\) 列空间的单位正交基。
- \(U\) 的后 \(m-r\) 列是 \(A\) 零空间的单位正交基。
- \(V\) 的前 \(r\) 列是 \(A^T\) 列空间的单位正交基。
- \(V\) 的后 \(n-r\) 列是 \(A^T\) 零空间的单位正交基。
SVD 的应用:
定义矩阵的 Frobenious Norm \(\|M\|_F=\sqrt{\sum\limits_{i,j}m_{i,j}^2}=\sqrt{\tr M^TM}\)。将 \(M\) 奇异值分解后,会发现 \(\|M\|_F^2\) 其实就是 \(A^TA\) 奇异值平方和,也即 \(A^TA\)、\(AA^T\) 共有的一组特征值之和,也就是 trace。
令 \(A_h\) 为所有 rank 为 \(h\) 的矩阵中,与 \(A\) 差的 Frobenious Norm 最小的那个矩阵。
声称,将 \(S\) 的元素重排使得奇异值从左上到右下递减后,\(A_h\) 可以由 \(U\) 的前 \(h\) 列、\(S\) 的左上角 \(h\times h\)、\(V\) 的前 \(h\) 列的转置三者相乘得到。
记 \(\sigma_i(X)\) 为矩阵 \(X\) 的第 \(i\) 大奇异值。则:
对于一切 rank 为 \(h\) 的矩阵 \(M\),声称 \(\sigma_{i+h}(A)\leq\sigma_i(M-A)\)。
若 \(M\) 的秩为 \(h\),则其零空间的秩为 \(n-h\)。于是 \(\text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\}\) 必然不可能仅含零向量。取其中的非零向量 \(\omega\),则
\[\|A\omega\|=\|(A-M)\omega\|\leq\sigma_1(A-M)\|\omega\| \]\[\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2 \\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2 \\=\sigma_{h+1}^2(A)\|\omega\|^2 \]于是 \(\sigma_1(A-M)\geq\sigma_{h+1}(A)\)。
然后知 \(A_h\) 取到下界。
PCA 问题:对于 \(\R^m\) 中 \(\bf x_1,\dots,\bf x_n\) 共 \(n\) 个点,找到位于 \(k\) 维子空间的 \(\tilde{\bf x}_1,\dots,\tilde{\bf x}_n\),最小化 \(\sum\|\bf x_i-\tilde{\bf x}_i\|^2\)。
第一步是把所有 \(\bf x_i\) 减去平均值,使得其靠近中心。
然后构建如下的算法:
- 找到单位球上 \(\bf v_1\),最大化 \(\bf v_1\) 与所有 \(\bf x_i\) 的点积的平方和。
- 找到单位球上 \(\bf v_2\),垂直于 \(\bf v_1\),最大化点积平方和。
- ……
- 每一步,在单位球上新找一个向量,垂直于之前所有向量,并最大化点积平方和。
- 如果进行到某一步增量为零,则当前子空间已经覆盖全体 \(\bf x_i\),算法终止。
该算法与 SVD 等价。

浙公网安备 33010602011771号