英属智利大战印属直隶

\[\newcommand{\bf}{\mathbf} \]

I. High-Dimensional Space

大数定律:样本增多时,平均值趋向于期望。具体而言,

\[\Pr\left(\left|\dfrac1n\sum x_i-E(x)\right|\geq\epsilon\right)\leq\dfrac{V(x)}{n\epsilon^2} \]

可以被 Chebyshev 证明。

\(d\) 维空间的固定半径球,随着维数增加体积趋于 \(0\)。单位球的场合,有 \(1-e^{-\epsilon d}\) 的体积集中在 \(S\setminus(1-\epsilon)S\) 的 annulus 里面,也即绝大部分体积集中在 \(O(1/d)\) 的球壳中。

嗯积可以得到,\(A(d)=\dfrac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\dfrac{2\pi^{d/2}}{d\Gamma(d/2)}\).

质量集中于 equator。\(1-\dfrac2ce^{-c^2/2}\) 的体积集中于 \(|x_1|\leq\dfrac c{\sqrt{d-1}}\) 的赤道中。

推论:从单位球中随机取 \(n\) 个点,以 \(1-O(1/n)\) 的概率,对于所有点有:

  • \(\|\bf x_i\|\geq1-\dfrac{2\ln n}d\)
  • \(|\bf x_i\cdot\bf x_j|\leq\dfrac{\sqrt{6\ln n}}{\sqrt{d-1}}\)

如何生成球内的随机点?使用 Spherical Gaussian,即在每一维上都是标准 Gaussian。其在每个方向的分布均相同,于是可以将结果 normalize,得到在球面上的随机点。球面随机点乘以一个关于半径的随机函数得到球体的随机点;该关于半径的随机函数与每个半径的球面面积成正比,也即 PDF 与 \(r^{d-1}\) 成正比。

Gaussian Annulus Theorem:对于所有方向都以 unit variance 分布的 Spherical Gaussian,对于一切 \(\beta\leq\sqrt d\)\(1-3e^{-c\beta^2}\) 的概率 \(\sqrt d-\beta\leq\|\bf x\|\leq\sqrt d+\beta\)

Random Projection Theorem 是一种大概率保距离的压缩数据的方式。假如要将 \(d\) 阶数据压缩为 \(k\) 阶数据,则用 Spherical Gaussian 生成 \(k\) 个随机向量并计算其在每个向量方向投影长度,构成一个 \(k\) 阶数据。以大概率地,这种压缩有 \(\|f(\bf x)\|\approx\sqrt k\|\bf x\|\)。具体而言,

\[\Pr(\big|\|f(\bf v)\|-\sqrt k\|\bf v\|\big|\geq\epsilon\sqrt k\|\bf v\|)\leq3e^{-ck\epsilon^2} \]


家人们,还是看看远处的 [Vershynin] HDP 吧。

首先有一些基础的概念,例如变量的 \(p\) 阶矩 \(EX^p\)\(p\) 阶绝对矩 \(E|X|^p\)。然后有 \(L^p\) norm \(\|X\|_{L^p}=(E|X|^p)^{1/p}\)\(p\)\((0,+\infty)\) 中实数。其可以被扩张至 \(\|X\|_{L^\infty}=\operatorname{ess}\sup|X|\),也即 \(|X|\) 的 essential supremum 本质上确界,指忽略那些测度为零的集合后的上确界。\(|X|\) 以零测的概率取到什么奇怪的东西都会被扔掉。\(L^p\) 空间中包含了所有 \(L^p\) norm 存在的随机变量。当 \(p\in[1,\infty]\)\(L^p\) norm 确实是 norm,但当 \(p<1\) 时其不是 norm。

\(L^p\) norm 其实和向量空间中的 \(\|\bf x\|_p\) norm 类似。或者其本来就是 \(\|\bf x\|_p\) 在无限维线性空间上的一种推广。

首先,我们有一个朴素的 Hoeffding Inequality(虽然形式可能和普通的 Hoeffding 有些区别):

  • 定义 Symmetric Bernoulli 是 \(\Pr(X=-1)=\Pr(X=1)=\dfrac12\) 的分布。

  • 对于独立随机的 Sym-Ber \(X_1,\dots,X_n\)\(a=(a_1,\dots,a_n)\),有:对于一切 \(t>0\)

    \[\Pr(\sum\limits_{i=1}^na_iX_i\geq t)\leq\exp(-\dfrac{t^2}{2\|a\|^2}) \]

以及更泛用的 Hoe-Ine:

  • 对于每个 \(X_i\) 都被 \([a_i,b_i]\) bound 的随机变量,则

    \[\Pr(\sum_{i=1}^nX_i-EX_i\geq t)\leq\exp(-\dfrac{2t^2}{\sum(b_i-a_i)^2}) \]

Hoe-Ine 只适用于有界随机变量。如何将其扩展为适用于无界随机变量的不等式,或者说满足何种条件的随机变量有着和 Hoe-Ine 相似的不等式约束?

定义,一个变量是 Sub-Gaussian 的,如果其满足如下五者之一,同时另外四者可以由选中的条件推出;所有的 \(K_i\) 都可以被一个通用的常量 \(C\) 限制,即满足 \(K_j\leq CK_i\) 均成立,而这个 \(C\) 与选择的变量无关;

  • \(\Pr(|X|\geq t)\leq2\exp(-t^2/K_1^2)\),即其 tail distribution 被类似 Mill 不等式的限制 bound。
  • \(\|X\|_{L^p}=(E|X|^p)^{1/p}\leq K_2\sqrt p\) 对于一切 \(p\geq1\) 均成立。其中,\(\|X\|_{L^p}\) 即为 \(X\)\(p\)-阶矩……的相关形式吧。毕竟 \(p\)-阶矩是 \(E|X|^p\),没有外面的开根。
  • \(X^2\) 的 MGF 满足 \(E\exp(\lambda^2X^2)\leq\exp(K_3^2\lambda^2)\),对于一切 \(|\lambda|\leq\dfrac1{K_3}\)\(\lambda\) 均成立。
  • \(X^2\) 的 MGF 在某点有界,即 \(E\exp(X^2/K_4^2)\leq2\)

特别地,对于期望为 \(0\)\(X\),上述四者存在第五种阐述:

  • \(X\) 的 MGF 满足 \(E\exp(\lambda X)\leq\exp(K_5^2\lambda^2)\) 对于一切 \(\lambda\in\R\) 均成立。

Sub-Gaussian 变量可以定义对应的 Sub-Gaussian norm \(\|X\|_{\psi_2}\),指最小的满足 sub-Gaussian 定义的 \(K_4\),即

\[\|X\|_{\psi_2}=\inf\{t>0:E\exp(X^2/t^2)\leq2\} \]

每个 Sub-Gau 的变量均满足如下 bound:

\[\Pr(|X|\geq t)\leq2\exp(-ct^2/\|X\|_{\psi_2}^2)\text{ for all }t>0\\ \|X\|_{L^p}\leq C\|X\|_{\psi_2}^2\sqrt p\text{ for all }p\geq1\\ E\exp(X^2/\|X\|_{\psi_2}^2)\leq2\\ \text{if }EX=0\text{ then }E\exp(\lambda X)\leq\exp(C\lambda^2\|X\|_{\psi^2}^2)\text{ for all }\lambda\in\R \]

Gaussian、Sym-Ber、以及有界的随机变量都是 Sub-Gau 分布。

对于独立的、期望为零的 Sub-Gau 分布,有 \(\sum X_i\) 亦是 Sub-Gau,且

\[\left\|\sum X_i\right\|_{\psi_2}^2\leq C\sum\|X_i\|_{\psi_2}^2 \]

其中 \(C\) 是 absolute constant。

于是有 ex-Hoe-Ine: 对于独立、零期望的 Sub-Gau 们,

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-\dfrac{ct^2}{\sum\|X_i\|_{\psi_2}^2}) \]

存在比 Sub-Gau 更紧的一类,即 Sub-Exponential Distribution。

累了,不列那么多 Sub-Exp 的性质了。

  • 满足 \(\Pr(|X|\geq t)\leq2\exp(-t/K)\) 即可。

Sub-Exp norm

\[\|X\|_{\psi_1}=\inf\{t>0:E\exp(|X|/t)\leq2\} \]

\(X\) 是 Sub-Gau 当且仅当 \(X^2\) 是 Sub-Exp。且有着

\[\|X^2\|_{\psi_1}=\|X\|_{\psi_2}^2 \]

的牛性质。事实上,两个 Sub-Gau 的积是 Sub-Exp 的。

Bernstein's Inequality: 对于独立、零期望、Sub-Exp 的随机变量,

\[\Pr(\left|\sum X_i\right|\geq t)\leq2\exp(-c\min\left\{\dfrac{t^2}{\sum\|X_i\|_{\psi_1}^2},\dfrac t{\max\|X_i\|_{\psi_1}}\right\}) \]

进一步,令 \(K\) 表示 \(\max\|X_i\|_{\psi_1}\),有

\[\Pr(\left|\sum a_iX_i\right|\geq t)\leq2\exp(-c\min\left\{\dfrac{t^2}{K^2\|a\|_2^2},\dfrac t{K\|a\|_\infty}\right\}) \]

Gau 是 Sub-Gau 的,所以 Gau 方就是 Sub-Exp 的。对 Gau 方用 Ber-Ine,可以得到 Gau-Annu-Thm。

II. Singular Value Decomposition

有一个 \(m\times n\) 矩阵,满足 \(\rank A\ll m,n\)。试图将其拆成 \(A=USV^T=(m\times r)(r\times r)(n\times r)^T\),满足:

  • \(U,V\) 是正交单位 orthonormal 阵,即满足 \(U^TU=V^TV=I_R\),即 \(U,V\) 的列向量都是单位向量且彼此正交。
  • \(S\) 是对角矩阵 \(\text{diag}(\sigma_1,\dots,\sigma_r)\),其中 \(\sigma\) 被称作 singular value。
  • \(U\) 中列向量被称作 left singular vectors,\(V\) 中被称作 right singular vectors。

对于对称阵 \(M=M^T\),其必然存在 orthonormal 的特征向量 \(\bf u_1,\dots,\bf u_n\),于是有 \(MU=U\Lambda\)。orthonormal 矩阵有着 \(U^{-1}=U^T\) 的优秀性质,所以 \(M=U\Lambda U^T\)

对于对称半正定的 \(M\),有 \(\Lambda\) 中的所有 \(\lambda\geq0\),于是令 \(X=U\sqrt{\Lambda}\),则 \(M=XX^T\)

进一步,对于二次型 \(f_M(\bf y)=\bf y^TM\bf y\),有 \(f_M(\bf y)=\|X^T\bf y\|^2\)

假设 \(A=USV^T\),则 \(A^TA=VS^2V^T,AA^T=US^2U^T\)。于是,一种可行的想法是,令 \(V\) 成为 \(A^TA\) 的特征向量集合,\(U\) 成为 \(AA^T\) 的特征向量集合,此时如果 \(A^TA\)\(AA^T\) 具有相同的特征值分布,则这构成 \(A\) 的 SVD。

\(\bf v\)\(A^TA\) 的特征向量,即 \(A^TA\bf v=\lambda\bf v\),则 \(AA^T(A\bf v)=A(A^TA\bf v)=A\lambda\bf v=\lambda(A\bf v)\),于是 \(A\bf v\)\(AA^T\) 的特征向量。

\(\|A\bf v\|^2=\bf v^TA^TA\bf v=\lambda\|\bf v\|^2\)。因此取一组 orthonormal 的 \(\bf v\) 后,通过令 \(S=\sqrt\Lambda\)\(U=AVS^{-1}\) 即可得到 orthonormal 的 \(\bf u\) 集合。

通过此法定义的 SVD,有:\(U=(m\times n),S=(n\times n),V=(n\times n)\)

这个东西没有对称性。(在 \(m\geq n\) 的场合)可以将 \(U,S\) 人工拉长为 \(U=(m\times m),S=(m\times n)\) 来保证对称性,此时的分解称作 full SVD。在 \(m<n\) 的场合应该反过来选择从 \(U\) 生成 \(V\) 来得到 full SVD。

注意 full SVD 的 \(A=USV^T\) 其实展开来是 \(A=\sum\limits_{i=1}^{\min(n,m)}\sigma_i\bf u_i\bf v_i\) 的式子;实对称矩阵 \(AA^T\) 的非零特征值数目等于其秩,而 \(\rank(AA^T)=\rank(A)\),因此可以剪裁掉 \(S\) 中那些零特征值式对应的部分,得到 \(A=(m\times r)\times(r\times r)\times(n\times r)^T\) 的 reduce SVD。

full SVD 有着如下效果:

  • \(U\) 的前 \(r\) 列是 \(A\) 列空间的单位正交基。
  • \(U\) 的后 \(m-r\) 列是 \(A\) 零空间的单位正交基。
  • \(V\) 的前 \(r\) 列是 \(A^T\) 列空间的单位正交基。
  • \(V\) 的后 \(n-r\) 列是 \(A^T\) 零空间的单位正交基。

SVD 的应用:

定义矩阵的 Frobenious Norm \(\|M\|_F=\sqrt{\sum\limits_{i,j}m_{i,j}^2}=\sqrt{\tr M^TM}\)。将 \(M\) 奇异值分解后,会发现 \(\|M\|_F^2\) 其实就是 \(A^TA\) 奇异值平方和,也即 \(A^TA\)\(AA^T\) 共有的一组特征值之和,也就是 trace。

\(A_h\) 为所有 rank 为 \(h\) 的矩阵中,与 \(A\) 差的 Frobenious Norm 最小的那个矩阵。

声称,将 \(S\) 的元素重排使得奇异值从左上到右下递减后,\(A_h\) 可以由 \(U\) 的前 \(h\) 列、\(S\) 的左上角 \(h\times h\)\(V\) 的前 \(h\) 列的转置三者相乘得到。

\(\sigma_i(X)\) 为矩阵 \(X\) 的第 \(i\) 大奇异值。则:

对于一切 rank 为 \(h\) 的矩阵 \(M\),声称 \(\sigma_{i+h}(A)\leq\sigma_i(M-A)\)

\(M\) 的秩为 \(h\),则其零空间的秩为 \(n-h\)。于是 \(\text{Null}(M)\cap\text{Span}\{\bf v_1,\dots,\bf v_{h+1}\}\) 必然不可能仅含零向量。取其中的非零向量 \(\omega\),则

\[\|A\omega\|=\|(A-M)\omega\|\leq\sigma_1(A-M)\|\omega\| \]

\[\|A\omega\|^2=\sum_{i=1}^{h+1}\sigma_i^2(\bf v_i^T\omega)^2 \\\geq\sigma_{h+1}^2\sum_{i=1}^{h+1}(\bf v_i^T\omega)^2 \\=\sigma_{h+1}^2(A)\|\omega\|^2 \]

于是 \(\sigma_1(A-M)\geq\sigma_{h+1}(A)\)

然后知 \(A_h\) 取到下界。

PCA 问题:对于 \(\R^m\)\(\bf x_1,\dots,\bf x_n\)\(n\) 个点,找到位于 \(k\) 维子空间的 \(\tilde{\bf x}_1,\dots,\tilde{\bf x}_n\),最小化 \(\sum\|\bf x_i-\tilde{\bf x}_i\|^2\)

第一步是把所有 \(\bf x_i\) 减去平均值,使得其靠近中心。

然后构建如下的算法:

  • 找到单位球上 \(\bf v_1\),最大化 \(\bf v_1\) 与所有 \(\bf x_i\) 的点积的平方和。
  • 找到单位球上 \(\bf v_2\),垂直于 \(\bf v_1\),最大化点积平方和。
  • ……
  • 每一步,在单位球上新找一个向量,垂直于之前所有向量,并最大化点积平方和。
  • 如果进行到某一步增量为零,则当前子空间已经覆盖全体 \(\bf x_i\),算法终止。

该算法与 SVD 等价。

posted @ 2024-05-13 14:58  Troverld  阅读(116)  评论(1)    收藏  举报