有趣的高维几何与集中不等式

前言

依然是机智应数课,但是今天讲的内容很有意思!讲课的内容大部分是基于 Blum, Hopcroft, Kannan 写的 《Foundation of Data Science》 这本书。本来想写课堂笔记的,然后发现作业要求读书所以也变成了读书笔记。

在与人工智能有关的数学中,我们往往需要研究一个高维向量的概率分布性质。而高维空间充满着反直觉的事实。比方说下面提到的,对于在足够高维的超球上的均匀分布,采样点既会聚集在赤道附近,也会聚集在球壳附近,而且采样点对应的向量将会以很大概率两两近乎垂直!

与之前的尾部概率知识相关性还是挺大的:Tail Bounds

以下都把维数记为 \(d\)

高维球体的表面积与体积

由于行列式的几何意义就是高维几何体线性变换之后的体积放缩率。因此对于最简单的伸缩变换矩阵 \(|\lambda I|=\lambda^d\)。对于单位球体的表面积 \(A(d)\)/体积 \(V(d)\),半径为 \(r\) 的球体表面积 \(r^{d-1}A(d)\)/体积 \(r^dV(d)\)

上课丢的公式是这样的,说是微积分基础内容:

\[A(d)=\frac{2\pi^{d/2}}{\Gamma(d/2)},V(d)=\frac{2\pi^{d/2}}{d\Gamma(d/2)} \]

我还没修微积分怎么办?

首先对于三维的情况,一个经典的证明方式是考虑将球体表面积映射成一个圆柱体的侧面积,证明这两个面积实际上是相等的:三维情况的直观感受

这样一个经典的想法同样能扩展到高维表面积,并同理推导高维体积。参考文章

球体的表面积与体积实际上是相同的两个问题。\(V(d)(r+\epsilon)^d-V(d)r^d\) 近似于表面积乘上微分 \(\epsilon\)。因此 \(A(d)=dV(d)\)

而对于一个超球表面上的点 \((x_1,x_2,\dots,x_n)\),将其映射到 \(\left(\frac{rx_1}{\sqrt{x_1^2+x_2^2}},\frac{rx_2}{\sqrt{x_1^2+x_2^2}},x_3,\dots,x_n\right)\)。这样映射要求前两维在一个圆周上(而不是圆内),要求后面的维度在一个 \(d-2\) 维超球内部。我们可以证明这个映射并不改变表面积大小,因此:

\[dV(d)=A(d)=A(2)\cdot V(d-2)=2\pi V(d-2) \]

\(V(0)=1,V(1)=2\),递推即可求出所有的 \(V(d),A(d)\)

球体的体积与表面积公式告诉我们这样一个神奇的事实,随着维度的增加,高维单位球体的体积趋近于 \(0\)(分子指数增长,分母阶乘增长)。

关于球壳的集中不等式

对于单位超球上的均匀分布,生成的点满足 \(|x|>1-\epsilon\) 的概率至少为 \(1-\exp(-\epsilon d)\)

考虑违反该条件的概率,就是 \((1-\epsilon)^d\le \exp(-\epsilon d)\)

这一个集中不等式揭示了高维超球中采样点会集中分布于球壳附近。

更进一步的,类似上一节提到的,超球体积的微分关于半径的微分就是表面积,即 \(\mathrm dV=A(d)r^{d-1}\mathrm dr\),而 \(A(d)=dV(d)\),均匀分布概率密度函数就是 \(\frac{1}{V(d)}\),我们就得到了单位超球上的均匀分布,其模长的分布的概率密度函数就是 \(dx^{d-1}\)。这是符合直觉的,也就是模长在某一点的概率密度正比于过这一点的超球壳的表面积。

关于赤道的集中不等式

超球的赤道指的是包含球心的某个 \(d-1\) 维超平面与球相交的部分。我们总是可以变换坐标系,使得赤道的方程为 \(\sum_{i=1}^{d-1} x_i^2\le 1,x_d=0\)

\(\forall c\ge 1,d\ge 3\),对于单位超球上的均匀分布,生成的点满足某一维坐标 \(|x_i|<\frac{c}{\sqrt{d-1}}\) 的概率至少为 \(1-\frac{2}{c}\exp\left(-\frac{c^2}{2}\right)\)

同样考虑违反该条件的概率,该概率是一个超球刨掉赤道附近的一个扁圆盘之后的体积除以超球本身的体积。我们考虑估计分子的上界以及分母的下界,这样就可以估计出分数的上界了!

对于分子的上界,考虑枚举 \(x_i\) 这一维,并对 \(x_i=t\) 的超平面截取超球的体积(截取后的部分是一个半径为 \(\sqrt {1-t^2}\)\(d-1\) 维超球)积分:

\[V'=2\int_{\frac{c}{\sqrt {d-1}}}^{1} \left(\sqrt {{1-t^2}}\right)^{d-1}V(d-1)\mathrm dt \]

由于 \(\exp(-x)\ge 1-x\),我们有:

\[V'\le 2 \int_{\frac{c}{\sqrt {d-1}}}^{\infty} \exp\left (-\frac{d-1}{2}t^2\right)V(d-1)\mathrm dt \]

类似证明 Markov 的思想,我们乘上在该范围内一个恒大于等于一的函数 \(\frac{t\sqrt {d-1}}{c}\),我们有:

\[\begin{aligned} V'&\le 2\int_{\frac{c}{\sqrt{d-1}}}^{\infty} \frac{t\sqrt{d-1}}{c}\exp\left(-\frac{d-1}{2}t^2\right)V(d-1)\mathrm dt\\ &= V(d-1)\frac{\sqrt{d-1}}{c}\int_{\frac{c}{\sqrt{d-1}}}^{\infty}2te^{-\frac{d-1}{2}t^2} \mathrm dt \\ &=V(d-1)\frac{\sqrt{d-1}}{c}\int_{\frac{c^2}{d-1}}^{\infty}e^{-\frac{d-1}{2}t^2} \mathrm dt^2\\ &=\frac{2V(d-1)}{c\sqrt{d-1}} e^{-\frac{c^2}{2}} \end{aligned} \]

我们转而考虑分母的下界,也就是超球体积的下界。当 \(\frac{c}{\sqrt {d-1}}>1\) 时原式显然成立(超过半径)。考虑在超球内部垂直于赤道截取一个高度为 \(2h\) 的超圆柱体。亦即对于单位超球 \(\sum_{i=1}^d x_i^2\le 1\),截取出 \(\sum_{i=1}^{d-1} x_i^2\le 1-h^2,|x_d|\le h\) 的部分。

考虑超圆柱的体积就是超球体积的一个下界:

\[2V(d-1){\left(\sqrt {1-h^2}\right)}^{d-1}h \]

注意到 \((1-x^2)^ax\)\(x\in(0,1)\) 时于 \(x=\frac{1}{\sqrt {1+2a}}\) 取到最大值,因此取 \(h=\frac{1}{\sqrt d}\)

\[2V(d-1)\left(1-\frac{1}{d}\right)^{(d-1)/2} \frac{1}{\sqrt d} \]

\(f(d)=(1-\frac{1}{d})^{d/2}\),原式等于:

\[\frac{2V(d-1)f(d)}{\sqrt {d-1}} \]

综上所述,分子比分母,也就是概率的上界是:

\[\frac{1}{f(d)c}\exp \left(-\frac{c^2}{2}\right) \]

考虑 \(f(d)\) 的性质,运用几何均值不等式 \(\left(1-\frac{1}{n}\right)^n= 1\cdot \left(1-\frac{1}{n}\right)^n\le \left[\frac{1+n\cdot(1-\frac{1}{n})}{n+1}\right]^{n+1}=\left(1-\frac{1}{n+1}\right)^{n+1}\),我们得到了 \(f(d)\)\(d\ge 1\) 时单调递增,发现 \(f(3)\ge 0.5\),所以我们成功得到了 \(\frac{2}{c}\exp \left(-\frac{c^2}{2}\right)\) 这个想要的结果。

是不是觉得这个式子眼熟?这与 \(e\) 的定义式极其相似,事实上我们也有 \(\lim_{n\to \infty} \left(1+\frac{a}{n}\right)^n=e^a\)\(f(d)\) 随着 \(d\) 的增大快速趋近于 \(e^{-1/2}\)。所以在当 \(d\) 充分大的时候,余项的常数也可以近似视为 \(\frac{\sqrt e}{c}\)

这一个集中不等式揭示了对于任意一个赤道,高维超球的中采样点会集中分布于它附近。

采样向量

在单位超球中随机采样 \(n\) 个点,将原点到这个点的向量视作向量 \(\vec s_i\)。那么以至少 \(1-O(n^{-1})\) 的概率,如下声明成立:

  • \(\forall i,|\vec s_i|\ge 1-\frac{2\ln n}{d}\)

  • \(\forall i\ne j,|\vec s_i\cdot \vec s_j|\le \frac{\sqrt{6\ln n}}{\sqrt{d-1}}\)

对于第一个声明,由关于球壳的集中不等式,单个事件发生的概率是 \(O(n^{-2})\),再对 \(n\) 个事件进行 Union Bound 即得证。

感性理解,两个向量近乎垂直等价于一个向量在一另一个向量为法向量的超平面截出来的赤道附近,所以我们应该用关于赤道的集中不等式解决第二个声明。

形式化地说,我们旋转坐标系使得 \(\vec s_j\) 成为超平面 \(x_1=0\) 的法向量。此时 \(s_j\) 的坐标表示中只有第一维有值,等于其模长,这样 \(|\vec s_i\cdot \vec s_j|\) 就等于 \(\vec s_i\) 第一维的长度乘上 \(\vec s_j\) 的模长。由于大部分的概率集中于球壳附近,我们直接放缩 \(|\vec s_j|\le 1\),这样只需要要求 \(\vec s_i\) 的第一维坐标 \(|x_1|\le \frac{\sqrt{6\ln n}}{\sqrt {d-1}}\),带入关于赤道的集中不等式就得到对于某一对 \(i,j\),事件不成立的概率是 \(O(n^{-3})\) 的,再次使用 Union Bound 即证明了第二个声明。

这体现了一些单位超球均匀分布的奇怪性质,即自己和自己的点积接近 \(1\),而自己和别人的点积却接近于 \(0\)

关于高维正态分布

正态分布之所以重要,是因为由于中心极限定理,一大堆独立的随机变量加起来会趋近于正态分布。对于独立的随机向量,我们也有同样的结果。

定义两个变量的协方差 \(\operatorname{Cov}(X_i,X_j)=\mathrm E\{[X_i-\mathrm E(X_i)][X_j-\mathrm E(X_j)]\}\),定义协方差矩阵 \(\Sigma_{i,j}=\operatorname{Cov}(X_i,X_j)\)\(\Sigma\) 是一个对称正定矩阵,可以谱分解为 \(Q\Lambda Q^{-1}\),其中 \(\Lambda\) 是对角矩阵 \(Q\) 是正交矩阵,即 \(Q^T=Q^{-1}\)。(欸,我也没修线代,这些东西我也全都不会证!)这也就是说,\(\Sigma\) 的任意实数次幂存在(只需改变谱分解中 \(\Lambda\) 的幂次即可)。

高维正态分布的 PDF 为:

\[f_N(\vec x)=(2\pi)^{-d/2} |\Sigma|^{-1/2} \exp\left(-\frac{1}{2}(\vec x-\vec \mu)^\mathrm T\Sigma^{-1} (\vec x-\vec \mu)\right) \]

标准高维正态分布取 \(\vec \mu=\vec 0,\Sigma=I\),得到:

\[f_N(\vec x)=(2\pi)^{-d/2} \exp\left(-\frac{1}{2}|\vec x|^2\right) \]

观察这个式子,发现一个重要性质:\(f_N(\vec x)\) 只与 \(|\vec x|\) 有关,一个点的概率密度只取决于模长,也就是说标准高维正态分布在各个方向上都是相同的!这为后一节我们的讨论打下了基础。

如何生成超球均匀随机向量

以上讨论的三个性质仅仅是反直觉,而并不是所谓“悖论”。其实 Textbook 已经点出了这样一个让我们能理解这三个性质如何同时发生的理解方式。考虑均匀超球分布生成的点大多接近于 \((\pm d^{-1/2},\pm d^{-1/2},\dots,\pm d^{-1/2})\) 这种形式。因此自然会有在球壳附近、接近于赤道、自己跟自己的点积接近于 \(1\)、自己跟别人的点积接近于 \(0\) 种种性质。

这些性质让我们知道了超球均匀分布并不是一个简单的分布,如果我们想要写程序生成一个超球均匀分布,怎么做呢?

欸,有人会说我会 Monte Carlo,直接在超立方体里随点,如果在超球里就接受!很遗憾,这个方法虽然在维数低的时候起作用,但是根据我们的讨论,维数一大起来,随机撒的点在超球里的概率几乎是零。用我们刚才开头提到的感性理解,随机撒的点每一维坐标绝对值 \(\le d^{-1/2}\) 的概率本身都不高,还要 \(d\) 次幂一下,这个算法关于 \(d\) 将会是期望超指数级的(\(O(d^d)?\)

正确的方法是随机 \(d\) 个独立均匀的标准正态分布变量(亦即 \(d\) 维的标准正态分布),然后再把向量归一化(模长调整成 \(1\))。由于标准高维正态分布在每一个方向上都相同,这样就得到了超球面上的均匀分布。然后再利用我们提到过的,超球均匀分布模长的分布概率密度函数 \(dx^{d-1}\) 生成具体的模长,就成功生成了超球内部的随机向量。

逆函数法

读到这里的时候我稍微好奇了一下,作为一个前 OIer,我想要写出生成超球均匀分布的代码,如何实现呢?

也就是说,我们要完成两个工作:生成正态分布的随机变量;生成服从 \(dx^{d-1}\) PDF 分布的随机变量。

先来解决较为简单的后者。我们有一个聪明的想法,直接生成一个 \([0,1]\) 上的均匀随机变量 \(U\),那么 \(U^{1/d}\) 就服从分布 \(dx^{d-1}\)

这个想法很有扩展性,被称作“逆函数法”。机械地来说,对于一个已知 CDF 为 \(F\) 函数,求其 CDF 的逆函数 \(F^{-1}\)(定义域就是 \([0,1]\)),那么对于在 \([0,1]\) 上的均匀随机变量 \(U\) 来说,其决定的变量 \(X=F^{-1}(U)\) 满足 \(\Pr\{X\le a\}=\Pr\{F^{-1}(U)\le a\}=\Pr\{U\le F(a)\}=F(a)\),即服从 CDF \(F\) 分布。

然而对于正态分布的 CDF,其甚至没有解析的表达式,逆函数法难以运用。我们需要更好的想法。

高维随机向量变换

回顾我们生成分布的方式,我们通过一个能够简单生成的分布经过一个函数映射之后就得到了一个复杂的分布。我们总是期望能找到这样一个函数。那么我们就得先理解,经过一个映射后,原先的分布如何改变?

由于分布实际上就是由概率的微分/积分定义得到的,所以分布的换元实际上就类似于多元微积分的换元,我们可以使用雅可比行列式处理这个问题。

对于高维随机向量 \(\vec X\),其 PDF 为 \(f_{\vec X}(\vec x)\)\(\vec Y=g(\vec X)\),如果 \(g\) 偏导数连续且是一个双射(设其逆函数 \(h\)),则 \(f_{\vec Y}(\vec y)=f_{\vec Y}(h(\vec y))\cdot |\det J_h(\vec y)|\)(即,双射前后概率密度函数乘上的系数就是该点的雅可比行列式)。\(J_h(\vec y)\) 是指 \(h\)\(y\) 处的雅可比矩阵。这正是由于 \(\mathrm d\vec x=\det J_h(\vec y)\cdot \mathrm d\vec y\)

Box-Muller 算法

现在考虑一个奇妙的操作,我们生成在单位正方形 \([0,1]\times [0,1]\) 上的均匀分布 \((U_1,U_2)\),考虑如下映射:

\[\begin{cases} X_1=\sqrt {-2\ln U_1}\cos(2\pi U_2) \\ X_2=\sqrt {-2\ln U_1}\sin(2\pi U_2) \end{cases} \]

计算其逆映射的雅可比行列式(当然,我自个没算)之后发现这就生成了二维正态分布,其边缘分布就是一维正态分布了!

这个算法被称为 Box-Muller 算法。我们也许会好奇这么精妙的变换,是怎么构造出来的?

仔细思考之后我发现这个算法可以这么理解,\(\cos(2\pi U_2),\sin(2\pi U_2)\) 生成了单位圆周上的随机向量。由于二维标准正态分布在所有方向上均匀,所以我们只需要关注二维正态分布模长的分布是什么样的就行啦!

Box-Muller 算法的一大关键就是求出高维正态分布模长的分布,然后再用逆函数法去生成采样点。

卡方(\(\chi^2\))分布的定义就是独立标准正态分布的变量的平方和。那么其平方根就是模长的分布,卡(\(\chi\))分布。

通过查资料法,自由度为 \(d\) (就是由 \(d\) 维单位正态分布生成的)的卡方分布的 PDF 为:

\[f_{\chi^2}(x)=\frac{\exp(-x/2)x^{d/2-1}}{\Gamma(d/2)2^{d/2}} \]

由随机向量变换公式,卡分布的 PDF 为:

\[f_{\chi}(x)=f_{\chi^2}(x^2)\cdot \left |\frac{\mathrm dx^2}{\mathrm dx}\right |=\frac{\exp(-x^2/2)x^{d-1}}{\Gamma(d/2)2^{d/2}} \]

在二维情况下:

\[f_\chi(x)=x\exp(-x^2/2) \]

其 CDF 为:

\[\begin{aligned} F_\chi(t)&=\int_{0}^{t} x\exp(-x^2/2)\mathrm dx\\ &=\int_{0}^{t^2/2} \exp(-x^2/2)\mathrm d\frac{x^2}{2}\\ &=1-\exp(-t^2/2) \end{aligned} \]

其逆函数就是:

\[\sqrt {-2\ln(1-t)} \]

随机生成 \([0,1]\) 上的均匀随机变量 \(U_1=1-t\),我们就得到了模长的生成方式。

我们因为朴素生成超球的办法在维数高的情况下行不通,所以要生成正态分布,为了生成正态分布生成了二维超球,归根结底还是朴素生成了低维度超球hhh。

下面的这个集中不等式揭示了更多关于高维正态分布的模长分布的性质。

高斯环带定理

哈哈哈,机智应数是不是大半个学期都在学集中不等式啊。引入高维正态分布之后,我们又要处理一个新的集中不等式啦(悲)!老师上课讲了一个利用次高斯、次指数 Tail Bounds 的证法,Textbook 上是一个新的证法,作业又引导用另一种方法证明这个不等式。

又一个关于高维空间的反直觉事实:单位高维正态分布的概率质量集中于哪个区域呢?你思考,一维单位正态分布的概率质量分布于原点附近,所以说高维的概率质量肯定也聚集在原点附近吧!

可惜这个想法是错误的。球心在原点常数半径的超球,在维数升高的时候,其概率质量会趋近于 \(0\),这是因为卡分布的期望为 \(\sqrt d\),随着维度的增大,常半径超球远离其典型值。

事实上,高斯分布的概率质量集中在半径为 \(\sqrt d\) 球心在原点处的超球球壳附近,我们有高斯环带定理(对于常数半径的环带,其概率质量下界只与半径有关而与维度无关):

\(\forall 0<\beta \le \sqrt d\),对于服从单位高维正态分布的向量 \(\vec x\)

\[\exists c>0,\Pr\{\sqrt d-\beta\le |\vec x|\le \sqrt d+\beta\}\ge 1-3\exp(-c\beta^2) \]

次高斯分布

这里需要好好回看一下上一篇讲 Tail Bounds 的博客了。

正态(高斯)分布的 MGF 是 \(\exp(\mu t+\sigma^2t^2/2)\),次高斯分布是指的尾部衰减得比正态分布还要快的分布。也就是满足 MGF \(\forall t,M_X(t)\le \exp(\sigma^2t^2/2)\) 的分布(以下均不讨论期望 \(\mu\),默认已经将所有变量中心化,即平移至期望为 \(0\))。

考虑若干独立次高斯分布的变量之和 \(S_n=\sum_{i=1}^n X_i\),其满足如下 Tail Bound:

\[\Pr\{|S_n|\ge c\}\le 2\exp\left(-\frac{c^2}{2n\sigma^2}\right) \]

证明非常类似于 Chernoff Bound 的思想,我们有:

\[\begin{aligned} M_{S_n}(t)&=\prod_{i=1}^n M_X(t)\\ &\le \prod_{i=1}^n \exp(\sigma^2t^2/2)\\ &=\exp(n\sigma^2t^2/2) \end{aligned} \]

由于上篇博客用到的经典的 \(\Pr\{X\ge c\}\le e^{-ct}M_X(t)\)

\[\Pr\{S_n\ge c\}\le \exp(-ct+n\sigma^2t^2/2) \]

选择 \(t=\frac{c}{n\sigma^2}\) 最小化右侧得到:

\[\Pr\{S_n\ge c\}\le \exp(-\frac{c^2}{2n\sigma^2}) \]

由于次高斯分布正负对称,所以说下尾同理,证毕。

次指数分布

次高斯还是有点限制太强了,有没有限制稍微松一点的 Tail Bound 呢?

同样类似于次高斯分布(同样假设期望都被平移成 \(0\),即中心化过了),次指数分布对 MGF 提出了要求。称 \(X\) 服从参数 \((\nu,b)\) 的次指数分布当且仅当:

\[\forall |t|<\frac{1}{b},M_X(t)\le \exp(\nu^2t^2/2) \]

指数分布就是次指数分布的典型例子(说废话啊)。指数分布的 PDF 为 \(\lambda \exp(-\lambda x)(x\ge 0)\),平移后的 MGF 为 \(\frac{\exp(-t/\lambda)}{1-t/\lambda}\)

卡方分布也是典型的次指数分布。张老师上课提了嘴,就是似乎任何次高斯分布的平方分布都是次指数分布?

与次高斯分布完全相同的是,我们可以得到:

\[\Pr\{X\ge c\}\le \exp(-ct+n\nu^2t^2/2) \]

取定义域内最优的 \(t\)(需要保证其不超过 \(1/b\)),我们可以得到:

\[\Pr\{|S_n|\ge c\}\le 2\exp\left\{\min\left(\frac{c^2}{2n\nu^2},\frac{c}{2b}\right)\right\} \]

\(n\) 个独立同分布次指数变量的和仍然是次指数的,参数为 \((\sqrt n \nu,b)\)

高斯环带定理的证明

考虑模长的平方服从卡方分布。

自由度为 \(1\) 的卡方分布中心化后的 MGF 为 \(\exp(-t)(1-2t)^{-1/2}\),服从参数为 \((2,4)\) 的次指数分布。

因此模长的平方服从 \((2\sqrt d,4)\) 的次指数分布。

我们有:

\[\Pr\{|\vec x^2-d|\ge t\}\le 2\exp\left\{-\min\left(\frac{t^2}{8d},\frac{t}{8}\right)\right\} \]

\(|\vec x-\sqrt d|\ge \beta \Rightarrow |\vec x^2-d|=|\vec x-\sqrt d||\vec x+\sqrt d|\ge \beta \sqrt d\),将 \(\beta \sqrt d\) 带入,得到在 \(\beta \le \sqrt d\) 时:

\[\Pr\{|\vec x-\sqrt d|\ge \beta\}\le 2\exp(-\beta^2/8) \]

这就是我们想要的。

为啥环带定理的声明看起来更松一点?是因为定理是抄的 Textbook 上的,证明好像又是别处来的。有些细节感觉有点迷惑,如果发现有错误可以告诉我。

随机投影法

在高维问题中,一个需要频繁调用的函数式给定一个高维点集,反复查询距离一个点最近的一个点是什么。

在维数很高的时候,这个问题很难用数据结构维护。所以我们的一个想法就是降维,确定一个到 \(k\) 维空间的投影映射 \(f:\R^d\to \R^k\),使得点对欧式距离间的大小关系能尽量保持。

映射方法是生成 \(k\)\(d\) 维标准正态分布的向量 \(\mathbf u_i\)

\[f(\mathbf v)=(\mathbf u_1 \cdot \mathbf v,\mathbf u_2 \cdot \mathbf v,\dots,\mathbf u_k \cdot \mathbf v) \]

我们断言在 \(f\) 的映射下,模长伸缩率接近 \(\sqrt k\)

随机投影定理

\[\exists c>0,\forall \epsilon \in(0,1),\Pr \left\{\left|f(\mathbf v)-\sqrt k|\mathbf v|\right|\ge \epsilon\sqrt k|\mathbf v|\right\}\le 3\exp\left(-ck\epsilon ^2\right) \]

注意到投影为线性映射,所以说我们只需要证明该不等式对于 \(|\mathbf v|=1\) 成立。

\[\operatorname{Var}(\mathbf u_i\cdot \mathbf v)=\sum_{j=1}^d v_j^2 \operatorname{Var}(u_{i,j})=\sum_{j=1}^d v_j^2=1 \]

所以 \(\mathbf u_i\cdot \mathbf v\) 是独立的标准正态分布的随机变量。\(f(\mathbf v)\) 也就是标准 \(d\) 维正态分布的,套用高斯环带定理即证随机投影定理。

我们作业和课上证出的高斯环带给出的具体一点的 Bound 是 \(2\exp(-\frac{k\epsilon^2}{8})\)

Johnson-Lindenstrauss 引理

对于任意 \(n\)\(d\) 维向量,\(\forall \epsilon\in(0,1),\forall k\ge \frac{3\ln n}{c\epsilon ^2}\),如下事实以至少 \(1-\frac{3}{2n}\) 的概率成立:

\[\forall 1\le i<j\le n,(1-\epsilon)\sqrt k |\mathbf v_i-\mathbf v_j|\le |f(\mathbf v_i)-f(\mathbf v_j)|\le (1+\epsilon)\sqrt k |\mathbf v_i-\mathbf v_j| \]

其中 \(c\) 是随机投影定理/高斯环带定理中的常数。

由于 \(f\) 是线性映射,\(f(\mathbf v_i)-f(\mathbf v_j)=f(\mathbf v_i-\mathbf v_j)\)

代入随机投影定理,发现单个条件失败的概率不超过 \(\frac{3}{n^3}\),施加 Union Bound 即得。

posted @ 2025-04-16 11:38  yyyyxh  阅读(287)  评论(0)    收藏  举报