英属智利大战印属直隶

\[\newcommand{\bf}{\mathbf} \]

I. High-Dimensional Space

大数定律：样本增多时，平均值趋向于期望。具体而言，

\[\Pr\left(\left|\dfrac1n\sum x_i-E(x)\right|\geq\epsilon\right)\leq\dfrac{V(x)}{n\epsilon^2} \]

可以被 Chebyshev 证明。

\(d\) 维空间的固定半径球，随着维数增加体积趋于 \(0\)。单位球的场合，有 \(1-e^{-\epsilon d}\) 的体积集中在 \(S\setminus(1-\epsilon)S\) 的 annulus 里面，也即绝大部分体积集中在 \(O(1/d)\) 的球壳中。

嗯积可以得到，\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\).

质量集中于 equator。\(1-\dfrac2ce^{-c^2/2}\) 的体积集中于 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\) 的赤道中。

推论：从单位球中随机取 \(n\) 个点，以 \(1-O(1/n)\) 的概率，对于所有点有：

\(\|\bf x_i\|\geq1-\dfrac{2\ln n}d\)；
\(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)。

如何生成球内的随机点？使用 Spherical Gaussian，即在每一维上都是标准 Gaussian。其在每个方向的分布均相同，于是可以将结果 normalize，得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点；该关于半径的随机函数与每个半径的球面面积成正比，也即 PDF 与 \(r^{d-1}\) 成正比。

Gaussian Annulus Theorem：对于所有方向都以 unit variance 分布的 Spherical Gaussian，对于一切 \(\beta\leq\sqrt d\) 以 \(1-3e^{-c\beta^2}\) 的概率 \(\sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta\)。

Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据，则用 Spherical Gaussian 生成 \(k\) 个随机向量并计算其在每个向量方向投影长度，构成一个 \(k\) 阶数据。以大概率地，这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言，

\[\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2} \]

家人们，还是看看远处的 [Vershynin] HDP 吧。

首先有一些基础的概念，例如变量的 \(p\) 阶矩 \(EX^p\) 和 \(p\) 阶绝对矩 \(E|X|^p\)。然后有 \(L^p\) norm \(\|X\|_{L^p}=(E|X|^p)^{1/p}\)，\(p\) 为 \((0,+\infty)\) 中实数。其可以被扩张至 \(\|X\|_{L^\infty}=\operatorname{ess}\sup|X|\)，也即 \(|X|\) 的 essential supremum 本质上确界，指忽略那些测度为零的集合后的上确界。\(|X|\) 以零测的概率取到什么奇怪的东西都会被扔掉。\(L^p\) 空间中包含了所有 \(L^p\) norm 存在的随机变量。当 \(p\in[1,\infty]\) 时 \(L^p\) norm 确实是 norm，但当 \(p<1\) 时其不是 norm。

\(L^p\) norm 其实和向量空间中的 \(\|\bf x\|_p\) norm 类似。或者其本来就是 \(\|\bf x\|_p\) 在无限维线性空间上的一种推广。

首先，我们有一个朴素的 Hoeffding Inequality（虽然形式可能和普通的 Hoeffding 有些区别）：

定义 Symmetric Bernoulli 是 \(\Pr(X=-1)=\Pr(X=1)=\dfrac12\) 的分布。
对于独立随机的 Sym-Ber \(X_1,\dots,X_n\) 和 \(a=(a_1,\dots,a_n)\)，有：对于一切 \(t>0\)，

\[\Pr(\sum\limits_{i=1}^na_iX_i\geq t)\leq\exp(-\dfrac{t^2}{2\|a\|^2}) \]

以及更泛用的 Hoe-Ine:

对于每个 \(X_i\) 都被 \([a_i,b_i]\) bound 的随机变量，则
\[\Pr(\sum_{i=1}^nX_i-EX_i\geq t)\leq\exp(-\dfrac{2t^2}{\sum(b_i-a_i)^2}) \]

Hoe-Ine 只适用于有界随机变量。如何将其扩展为适用于无界随机变量的不等式，或者说满足何种条件的随机变量有着和 Hoe-Ine 相似的不等式约束？

定义，一个变量是 Sub-Gaussian 的，如果其满足如下五者之一，同时另外四者可以由选中的条件推出；所有的 \(K_i\) 都可以被一个通用的常量 \(C\) 限制，即满足 \(K_j\leq CK_i\) 均成立，而这个 \(C\) 与选择的变量无关；

\(\Pr(|X|\geq t)\leq2\exp(-t^2/K_1^2)\)，即其 tail distribution 被类似 Mill 不等式的限制 bound。
\(\|X\|_{L^p}=(E|X|^p)^{1/p}\leq K_2\sqrt p\) 对于一切 \(p\geq1\) 均成立。其中，\(\|X\|_{L^p}\) 即为 \(X\) 的 \(p\)-阶矩……的相关形式吧。毕竟 \(p\)-阶矩是 \(E|X|^p\)，没有外面的开根。
\(X^2\) 的 MGF 满足 \(E\exp(\lambda^2X^2)\leq\exp(K_3^2\lambda^2)\)，对于一切 \(|\lambda|\leq\dfrac1{K_3}\) 的 \(\lambda\) 均成立。
\(X^2\) 的 MGF 在某点有界，即 \(E\exp(X^2/K_4^2)\leq2\)。

特别地，对于期望为 \(0\) 的 \(X\)，上述四者存在第五种阐述：

\(X\) 的 MGF 满足 \(E\exp(\lambda X)\leq\exp(K_5^2\lambda^2)\) 对于一切 \(\lambda\in\R\) 均成立。

Sub-Gaussian 变量可以定义对应的 Sub-Gaussian norm \(\|X\|_{\psi_2}\)，指最小的满足 sub-Gaussian 定义的 \(K_4\)，即

\[\|X\|_{\psi_2}=\inf\{t>0:E\exp(X^2/t^2)\leq2\} \]

每个 Sub-Gau 的变量均满足如下 bound：

\[\Pr(|X|\geq t)\leq2\exp(-ct^2/\|X\|_{\psi_2}^2)\text{ for all }t>0\\ \|X\|_{L^p}\leq C\|X\|_{\psi_2}^2\sqrt p\text{ for all }p\geq1\\ E\exp(X^2/\|X\|_{\psi_2}^2)\leq2\\ \text{if }EX=0\text{ then }E\exp(\lambda X)\leq\exp(C\lambda^2\|X\|_{\psi^2}^2)\text{ for all }\lambda\in\R \]

Gaussian、Sym-Ber、以及有界的随机变量都是 Sub-Gau 分布。

对于独立的、期望为零的 Sub-Gau 分布，有 \(\sum X_i\) 亦是 Sub-Gau，且

\[\left\|\sum X_i\right\|_{\psi_2}^2\leq C\sum\|X_i\|_{\psi_2}^2 \]

其中 \(C\) 是 absolute constant。

于是有 ex-Hoe-Ine: 对于独立、零期望的 Sub-Gau 们，

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-\dfrac{ct^2}{\sum\|X_i\|_{\psi_2}^2}) \]

存在比 Sub-Gau 更紧的一类，即 Sub-Exponential Distribution。

累了，不列那么多 Sub-Exp 的性质了。

满足 \(\Pr(|X|\geq t)\leq2\exp(-t/K)\) 即可。

Sub-Exp norm

\[\|X\|_{\psi_1}=\inf\{t>0:E\exp(|X|/t)\leq2\} \]

\(X\) 是 Sub-Gau 当且仅当 \(X^2\) 是 Sub-Exp。且有着

\[\|X^2\|_{\psi_1}=\|X\|_{\psi_2}^2 \]

的牛性质。事实上，两个 Sub-Gau 的积是 Sub-Exp 的。

Bernstein's Inequality: 对于独立、零期望、Sub-Exp 的随机变量，

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-c\min\left\{\dfrac{t^2}{\sum\|X_i\|_{\psi_1}^2},\dfrac t{\max\|X_i\|_{\psi_1}}\right\}) \]

进一步，令 \(K\) 表示 \(\max\|X_i\|_{\psi_1}\)，有

\[\Pr(\left|\sum a_iX_i\right|\geq t)\leq2\exp(-c\min\left\{\dfrac{t^2}{K^2\|a\|_2^2},\dfrac t{K\|a\|_\infty}\right\}) \]

Gau 是 Sub-Gau 的，所以 Gau 方就是 Sub-Exp 的。对 Gau 方用 Ber-Ine，可以得到 Gau-Annu-Thm。

II. Singular Value Decomposition

有一个 \(m\times n\) 矩阵，满足 \(\rank A\ll m,n\)。试图将其拆成 \(A=USV^T=(m\times r)(r\times r)(n\times r)^T\)，满足：

\(U,V\) 是正交单位 orthonormal 阵，即满足 \(U^TU=V^TV=I_R\)，即 \(U,V\) 的列向量都是单位向量且彼此正交。
\(S\) 是对角矩阵 \(\text{diag}(\sigma_1,\dots,\sigma_r)\)，其中 \(\sigma\) 被称作 singular value。
\(U\) 中列向量被称作 left singular vectors，\(V\) 中被称作 right singular vectors。

对于对称阵 \(M=M^T\)，其必然存在 orthonormal 的特征向量 \(\bf u_1,\dots,\bf u_n\)，于是有 \(MU=U\Lambda\)。orthonormal 矩阵有着 \(U^{-1}=U^T\) 的优秀性质，所以 \(M=U\Lambda U^T\)。

对于对称半正定的 \(M\)，有 \(\Lambda\) 中的所有 \(\lambda\geq0\)，于是令 \(X=U\sqrt{\Lambda}\)，则 \(M=XX^T\)。

进一步，对于二次型 \(f_M(\bf y)=\bf y^TM\bf y\)，有 \(f_M(\bf y)=\|X^T\bf y\|^2\)。

假设 \(A=USV^T\)，则 \(A^TA=VS^2V^T,AA^T=US^2U^T\)。于是，一种可行的想法是，令 \(V\) 成为 \(A^TA\) 的特征向量集合，\(U\) 成为 \(AA^T\) 的特征向量集合，此时如果 \(A^TA\) 和 \(AA^T\) 具有相同的特征值分布，则这构成 \(A\) 的 SVD。

若 \(\bf v\) 是 \(A^TA\) 的特征向量，即 \(A^TA\bf v=\lambda\bf v\)，则 \(AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v)\)，于是 \(A\bf v\) 是 \(AA^T\) 的特征向量。

有 \(\|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2\)。因此取一组 orthonormal 的 \(\bf v\) 后，通过令 \(S=\sqrt\Lambda\)， \(U=AVS^{-1}\) 即可得到 orthonormal 的 \(\bf u\) 集合。

通过此法定义的 SVD，有：\(U=(m\times n),S=(n\times n),V=(n\times n)\)。

这个东西没有对称性。（在 \(m\geq n\) 的场合）可以将 \(U,S\) 人工拉长为 \(U=(m\times m),S=(m\times n)\) 来保证对称性，此时的分解称作 full SVD。在 \(m<n\) 的场合应该反过来选择从 \(U\) 生成 \(V\) 来得到 full SVD。

注意 full SVD 的 \(A=USV^T\) 其实展开来是 \(A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i\) 的式子；实对称矩阵 \(AA^T\) 的非零特征值数目等于其秩，而 \(\rank(AA^T)=\rank(A)\)，因此可以剪裁掉 \(S\) 中那些零特征值式对应的部分，得到 \(A=(m\times r)\times(r\times r)\times(n\times r)^T\) 的 reduce SVD。

full SVD 有着如下效果：

\(U\) 的前 \(r\) 列是 \(A\) 列空间的单位正交基。
\(U\) 的后 \(m-r\) 列是 \(A\) 零空间的单位正交基。
\(V\) 的前 \(r\) 列是 \(A^T\) 列空间的单位正交基。
\(V\) 的后 \(n-r\) 列是 \(A^T\) 零空间的单位正交基。

SVD 的应用：

定义矩阵的 Frobenious Norm \(\|M\|_F=\sqrt{\sum\limits_{i,j}m_{i,j}^2}=\sqrt{\tr M^TM}\)。将 \(M\) 奇异值分解后，会发现 \(\|M\|_F^2\) 其实就是 \(A^TA\) 奇异值平方和，也即 \(A^TA\)、\(AA^T\) 共有的一组特征值之和，也就是 trace。

令 \(A_h\) 为所有 rank 为 \(h\) 的矩阵中，与 \(A\) 差的 Frobenious Norm 最小的那个矩阵。

声称，将 \(S\) 的元素重排使得奇异值从左上到右下递减后，\(A_h\) 可以由 \(U\) 的前 \(h\) 列、\(S\) 的左上角 \(h\times h\)、\(V\) 的前 \(h\) 列的转置三者相乘得到。

记 \(\sigma_i(X)\) 为矩阵 \(X\) 的第 \(i\) 大奇异值。则：

对于一切 rank 为 \(h\) 的矩阵 \(M\)，声称 \(\sigma_{i+h}(A)\leq\sigma_i(M-A)\)。

若 \(M\) 的秩为 \(h\)，则其零空间的秩为 \(n-h\)。于是 \(\text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\}\) 必然不可能仅含零向量。取其中的非零向量 \(\omega\)，则

\[\|A\omega\|=\|(A-M)\omega\|\leq\sigma_1(A-M)\|\omega\| \]
\[\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2 \\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2 \\=\sigma_{h+1}^2(A)\|\omega\|^2 \]
于是 \(\sigma_1(A-M)\geq\sigma_{h+1}(A)\)。

然后知 \(A_h\) 取到下界。

PCA 问题：对于 \(\R^m\) 中 \(\bf x_1,\dots,\bf x_n\) 共 \(n\) 个点，找到位于 \(k\) 维子空间的 \(\tilde{\bf x}_1,\dots,\tilde{\bf x}_n\)，最小化 \(\sum\|\bf x_i-\tilde{\bf x}_i\|^2\)。

第一步是把所有 \(\bf x_i\) 减去平均值，使得其靠近中心。

然后构建如下的算法：

找到单位球上 \(\bf v_1\)，最大化 \(\bf v_1\) 与所有 \(\bf x_i\) 的点积的平方和。
找到单位球上 \(\bf v_2\)，垂直于 \(\bf v_1\)，最大化点积平方和。
……
每一步，在单位球上新找一个向量，垂直于之前所有向量，并最大化点积平方和。
如果进行到某一步增量为零，则当前子空间已经覆盖全体 \(\bf x_i\)，算法终止。

该算法与 SVD 等价。

posted @ 2024-05-13 14:58 Troverld 阅读(116) 评论(1) 收藏举报

刷新页面返回顶部

Troverld

博客渲染出问题了那是博客的锅，本人什么都不会做的。

英属智利大战印属直隶

I. High-Dimensional Space

II. Singular Value Decomposition