萨尔大学高维分析笔记-全-

萨尔大学高维分析笔记(全)

001:引言与概览

在本节课中,我们将要学习高维分析的基本概念,特别是随机矩阵理论及其在机器学习中的应用。我们将从理解神经网络的基本结构开始,探讨高维数据带来的挑战与机遇,并介绍如何利用概率分布和随机矩阵理论来分析和处理这些数据。

神经网络的基本结构

上一节我们介绍了课程的整体目标,本节中我们来看看神经网络的基本构成。神经网络本质上是一个从高维空间到实数集(或更高维空间)的特定形式的函数。

具体来说,我们通常研究的是全连接前馈神经网络。这是一个函数 F,它从一个高维空间(例如 R^P)映射到实数 R。这里的 P 代表数据的维度,通常非常大,这也是高维现象发生的关键所在。

神经网络并非任意函数,它具有特定的结构。以下是其核心组成部分:

  • 输入层:输入是一个 P 维向量 X ∈ R^P,代表数据点。
  • 隐藏层:输入通过一系列“层”进行变换。每一层包含两个操作:
    1. 线性变换:通过一个矩阵 W 进行映射。例如,第一层矩阵 W1 将数据从 P 维映射到 M 维。
    2. 非线性激活:对线性变换后的向量的每个分量,应用一个固定的非线性函数 σ: R → R(例如 ReLU 函数)。这个操作是逐分量进行的。
  • 输出层:经过 L 层隐藏层后,最后一个线性变换 W_{L+1}M 维向量投影到一维实数 R,作为最终输出。

因此,整个网络函数由参数(所有矩阵 W1, ..., W_{L+1})和固定的非线性激活函数 σ 决定。L 是网络的深度,M 是网络的宽度。

机器学习的目标与挑战

上一节我们定义了神经网络的结构,本节中我们来看看如何用它解决实际问题。在机器学习中,我们的目标是用神经网络来表征或区分不同的数据集。

例如,我们可能有一个包含猫和狗图片的数据集。每张图片可以表示为一个高维向量(P 很大)。我们希望训练一个神经网络函数 F,使得对于猫的图片输出接近1,对于狗的图片输出接近0。

然而,我们并不知道如何显式地定义这个函数。传统的编程方法是告诉计算机识别猫狗的规则,但这通常效果不佳。现代机器学习的方法是:我们只提供大量示例(数据),让计算机通过调整网络参数(即那些矩阵 W)来自动“学习”这个函数。这个过程称为训练。

一个令人惊讶且尚未完全解开的谜题是:神经网络通常被严重过度参数化(参数数量远大于训练样本数)。根据经典学习理论,这容易导致“过拟合”,即模型只记住了训练数据而无法泛化到新数据。但事实上,深度神经网络在这种过度参数化的情况下依然表现出优秀的泛化能力。

高维数据的概率建模

为了从数学上分析神经网络的行为,我们需要对输入数据本身进行建模。由于真实数据(如图片)的分布非常复杂,我们通常用概率分布来描述它们。

在高维空间中,高斯分布(正态分布)是一个特别有用的模型,因为我们可以对其进行大量精确计算。一个均值为0的 P 维高斯向量 X 完全由其协方差矩阵 Σ 决定,其中 Σ_{ij} = E[X_i X_j]

虽然真实数据很少是完美的高斯分布,但一个关键的数学洞察是:如果我们从一个高斯向量出发,对其施加李普希茨连续函数的变换,所得到的新向量虽然不再是高斯分布,但它会保留高斯分布的一个重要性质——集中性。这意味着许多函数在这个新向量的分布下,其值会高度集中在平均值附近。这种“集中随机向量”可能更接近真实数据的特性。

从样本中估计协方差矩阵

在实际应用中,我们并不知道真实的概率分布,只能通过有限的观测样本来推断。假设我们有 n 个独立的 P 维观测样本 X_1, ..., X_n

我们想要估计真实协方差矩阵 Σ。一个自然的估计量是样本协方差矩阵

Ŝ = (1/n) Σ_{k=1}^{n} X_k X_k^T

在经典统计学中,我们固定维度 P,让样本量 n 趋于无穷。此时,样本协方差矩阵 会收敛到真实协方差矩阵 Σ

高维比例渐近框架

然而,在大数据时代,我们面临的往往是另一种情况:数据维度 P 和样本量 n 都很大,并且处于同一数量级(例如 P/n → 常数)。在这种“高维比例”框架下, 不会收敛到 Σ

但令人振奋的是,我们仍然可以在这个新的框架下进行严格的数学分析。当 P, n → ∞ 且比例固定时,样本协方差矩阵 的特征值分布会收敛到一个确定的极限分布(如马琴科-帕斯图分布),而这个极限分布可以通过真实协方差矩阵 Σ 计算出来。这为我们理解高维数据提供了新的强大工具。

高维空间中的集中现象

高维空间既带来“维数灾难”,也带来“维数福音”。福音的核心就是集中现象

考虑一个简单的例子:一个 P 维标准高斯随机向量。当 P 增大时,其欧几里得长度会越来越集中在理论平均值 √P 附近。同样,两个独立高斯随机向量之间的夹角余弦(内积)会越来越集中在0附近,意味着它们在高维空间中几乎总是近似正交的。

这种集中现象不仅限于高斯向量,也适用于更广泛的“集中随机向量”。对于神经网络这类复杂函数,当输入是高维集中随机向量时,其输出行为也可能变得更加可预测和稳定,这或许是深度学习成功的一个数学基础。

随机矩阵理论的应用实例:信号检测

随机矩阵理论在高维统计中有一个经典应用:信号检测中的“尖峰”模型。

假设我们的数据由一个强信号分量和大量噪声分量组成。真实协方差矩阵的特征值包含一个大的“信号”特征值和许多小的“噪声”特征值。当我们从有限样本计算样本协方差矩阵 时,在经典框架下(n 很大,P 固定),大特征值应该能被清晰识别。

但在高维比例框架下(P, n 都大且成比例),情况不同了。噪声特征值的分布会散开成一个连续的谱。只有当信号强度足够大,超过某个明确的阈值(由噪声谱的边缘决定)时,它才会在样本特征值分布中表现为一个可分离的“尖峰”。如果信号强度低于这个阈值,它就会淹没在噪声谱中而无法被检测到。随机矩阵理论可以精确地描述这个阈值和“尖峰”的位置。

本节课中我们一起学习了高维分析课程的概览。我们介绍了神经网络的基本数学形式,讨论了在高维数据中利用概率模型和随机矩阵理论进行分析的动机。我们看到了从经典统计到高维比例渐近框架的转变,并初步领略了高维集中现象的威力及其在信号检测等领域的应用。这些概念和工具将为我们后续深入理解机器学习的数学原理奠定基础。

002:高维空间中的体积 📐

在本节课中,我们将要学习高维空间中体积的基本概念,特别是超球体和超立方体的体积行为。我们将看到,随着维度的增加,体积会表现出一些反直觉的特性,例如“集中”现象。

上一节我们介绍了课程的整体目标,即理解高维数据及其上的函数。本节中,我们来看看如何衡量高维集合的“大小”,这通常通过体积或概率分布来实现。

体积与概率分布

我们考虑一个高维空间中的集合,例如一个数据集。衡量其大小的最简单方法是计算其体积。在概率论的语境下,如果我们考虑集合上的均匀分布,那么某个子集的概率就是其体积与整个集合体积的比值。

以下是定义体积的数学公式:

[
\text{vol}(A) = \int_{A} d\mathbf{x} = \int_{\mathbb{R}^p} \mathbb{1}_A(\mathbf{x}) , d\mathbf{x}
]

其中,(\mathbb{1}_A) 是集合 (A) 的指示函数,(\mathbf{x} = (t_1, \ldots, t_p)) 是 (p) 维向量。

核心几何对象:球体与立方体

为了具体理解体积行为,我们研究两个基本几何对象:超球体和超立方体。

超立方体

(p) 维超立方体 (C_p(R)) 定义为:

[
C_p(R) = { \mathbf{x} \in \mathbb{R}^p : |t_i| \leq R, , \forall i = 1, \ldots, p }
]

其体积计算非常简单,是各边长的乘积:

[
\text{vol}(C_p(R)) = (2R)^p
]

特别地,当 (R = 1/2) 时,我们得到单位立方体,其体积为 1。

超球体

(p) 维超球体 (B_p(R)) 定义为:

[
B_p(R) = { \mathbf{x} \in \mathbb{R}^p : t_1^2 + \ldots + t_p^2 \leq R^2 }
]

其体积可以通过积分计算。首先,体积随半径 (R) 的缩放关系为:

[
\text{vol}(B_p(R)) = R^p \cdot \text{vol}(B_p(1))
]

因此,关键在于计算单位球体 (B_p(1)) 的体积。

单位球体体积的计算

通过极坐标变换和递归关系,我们可以推导出单位球体体积的精确公式。

以下是递归推导的核心步骤。我们通过积分最后两个变量(使用极坐标)来建立递归关系:

[
\text{vol}(B_p(1)) = \frac{2\pi}{p} \cdot \text{vol}(B_{p-2}(1))
]

迭代这个关系,并区分维度 (p) 为奇数或偶数,我们得到最终公式。

对于偶数维度 (p = 2k):

[
\text{vol}(B_{2k}(1)) = \frac{\pi^k}{k!}
]

对于奇数维度 (p = 2k+1):

[
\text{vol}(B_{2k+1}(1)) = \frac{2^{k+1} \pi^k}{(2k+1)!!} \quad \text{其中} \quad (2k+1)!! = (2k+1)(2k-1)\cdots 3 \cdot 1
]

这两个公式可以统一用伽马函数 (\Gamma) 表示:

[
\text{vol}(B_p(1)) = \frac{\pi^{p/2}}{\Gamma\left(\frac{p}{2} + 1\right)}
]

高维下的渐近行为

为了理解高维下的体积行为,我们使用斯特林公式来近似伽马函数。

斯特林公式指出,对于大的 (s):

[
\Gamma(s+1) \sim \sqrt{2\pi s} \left( \frac{s}{e} \right)^s
]

将其应用于单位球体体积公式,我们得到对于大的维度 (p):

[
\text{vol}(B_p(1)) \sim \frac{1}{\sqrt{\pi p}} \left( \frac{2\pi e}{p} \right)^{p/2}
]

从这个近似中,我们可以得出几个关键结论。

结论一:固定半径球体的体积趋于零

对于任何固定的半径 (R),当维度 (p \to \infty) 时,球体体积趋于零:

[
\lim_{p \to \infty} \text{vol}(B_p(R)) = 0
]

这与低维的直觉相反。

结论二:保持单位体积所需的半径

如果我们希望球体的体积与单位立方体(体积为1)相当,那么半径 (R) 必须随维度增长而增大。具体来说,(R) 需要按 (\sqrt{p}) 的尺度增长:

[
R \sim \sqrt{\frac{p}{2\pi e}}
]

高维体积的集中现象

上述计算引出了高维几何中几个著名的“集中”现象。以下是三个核心观察:

  1. 体积集中在球面附近:在高维球体中,绝大部分体积都集中在靠近球表面的一个薄壳内。
  2. 体积集中在赤道附近:对于任意选定的“北极”方向,绝大部分体积都集中在垂直于该方向的赤道平面附近。
  3. 向量几乎正交:在高维单位球体中随机选取两个向量,它们几乎总是近似正交的。

这些现象在低维空间中并不明显,但在高维空间中成为主导特性。它们对于理解高维数据分析和机器学习中的许多现象至关重要。

总结

本节课中我们一起学习了高维空间体积的基本计算。我们推导了超球体和超立方体的体积公式,并利用斯特林公式分析了其在高维下的渐近行为。我们发现,固定半径的球体体积在高维下会收缩至零,而要保持体积恒定,半径需按 (\sqrt{p}) 增长。最后,我们介绍了高维体积的集中现象,这将是后续课程中深入探讨随机向量行为的基础。下一节,我们将使这些集中现象的表述更加精确,并开始证明它们。

003:体积的集中现象

在本节课中,我们将要学习高维空间中一个非常有趣的现象:体积的集中。具体来说,我们将探讨在一个高维球体中,其体积(或质量)是如何高度集中在球体表面附近、赤道附近,以及随机向量之间是如何几乎正交的。我们将把这些直观的描述转化为精确的数学陈述和证明。

体积集中在表面附近

上一节我们介绍了高维空间中的体积概念。本节中,我们来看看第一个集中现象:体积集中在球体表面附近。

这意味着,如果我们观察一个高维单位球体,其大部分体积都位于一个非常薄的“外壳”中,这个外壳距离球体表面非常近。为了精确描述这一点,我们考虑一个随机向量 x 均匀分布在 P 维单位球中。我们关注其范数接近1的概率。

ε 是一个小的正数。我们想要计算随机向量 x 的范数大于 1 - ε 的概率。这个概率等于满足该条件的向量体积与整个单位球体积的比值。

根据体积公式,我们可以直接计算这个概率:

P(||x|| > 1 - ε) = 1 - (1 - ε)^P

当维度 P 趋于无穷大时,对于任何固定的 ε(1 - ε)^P 项会趋于0。因此,概率趋于1。这严格证明了在高维空间中,几乎所有的点都位于距离表面 ε 以内的薄壳中。

为了更直观地理解这个薄壳有多薄,我们可以让 εP 变化。如果我们希望薄壳内的体积保持一个常数比例(例如大约63%),那么 ε 应该按 1/P 的比例缩放。具体来说,当 ε = 1/P 时,我们有近似关系:

P(||x|| > 1 - 1/P) ≈ 1 - 1/e ≈ 0.632

这意味着,在一个厚度仅为 1/P 的极薄外壳中,集中了超过60%的体积。

为了得到更精确的不等式估计,我们可以使用以下引理:对于任意 P ≥ 1ε ∈ (0, 1),有:

(1 - ε)^P ≤ e^{-εP}

利用这个不等式,我们可以得到概率的下界估计:

P(||x|| > 1 - ε) ≥ 1 - e^{-εP}

这是一个典型的指数型集中不等式,明确显示了维度 P 和容差 ε 如何共同影响集中速度。

体积集中在赤道附近

上一节我们看到了体积如何集中在球体表面。本节中,我们探讨第二个现象:体积集中在任何一个赤道附近。

在高维球体中,“赤道”是指与某个给定方向(例如“北极”方向)垂直的超平面。由于赤道本身是 P-1 维的,其 P 维体积为零。因此,我们讨论的是在赤道的一个 ε 邻域内的体积。

具体来说,我们固定最后一个坐标轴方向为北极方向。那么,赤道由所有最后一个分量为零的向量构成。我们关注的是最后一个分量绝对值小于 ε 的向量集合的概率。

这个概率可以通过积分计算。设 x = (x1, ..., xP),我们想要计算 P(|xP| < ε)。通过迭代积分和利用球体体积公式,我们可以将这个概率表达为:

P(|xP| < ε) = [Γ(P/2 + 1) / (√π Γ((P-1)/2 + 1))] * ∫_{-ε}^{ε} (1 - t^2)^{(P-1)/2} dt

虽然这个表达式看起来很复杂,但我们可以通过渐近分析来理解其行为。利用斯特林公式处理伽马函数,并对积分进行变量替换 t = s / √(P/2),我们可以证明,对于任何固定的 ε > 0,当 P → ∞ 时,有:

lim_{P→∞} P(|xP| < ε) = 1

这意味着,在高维空间中,几乎所有的点都位于任何一个选定赤道的附近。

更重要的是,我们可以控制集中的速度。通过更精确的估计(这将是课后作业的一部分),可以证明存在如下不等式:

P(|xP| < ε) ≥ 1 - e^{- (P-1) ε^2 / (2π)}

这个不等式再次显示了指数级的集中。它告诉我们,为了使这个概率保持在一个常数值,ε 应该按 1/√P 的比例缩放。也就是说,高维球体中一个随机向量的任何一个特定分量,其典型大小约为 1/√P

由于对称性,这个结论对每一个坐标分量都成立。因此,高维球体中的向量,其所有分量通常都非常小,约为 1/√P。即使我们同时考虑多个不同的赤道(即多个坐标方向),只要数量有限,体积仍然会高度集中在所有这些赤道的交集附近,这在低维空间中是难以想象的。

随机向量几乎正交

上一节我们讨论了向量分量集中在零附近的现象。本节中,我们将其推广,看看两个独立随机向量之间的关系。

第三个集中现象是:从高维单位球中随机选取的两个向量,它们几乎总是近似正交的。精确地说,我们考虑两个独立的随机向量 xy,都均匀分布在单位球中。我们关注它们之间夹角余弦值(即归一化内积)很小的概率。

我们希望估计概率 P(|<x, y>| / (||x|| ||y||) < ε)。由于问题的旋转对称性,我们可以固定其中一个向量 y 而不失一般性。特别地,我们可以选择 y = (0, 0, ..., 0, 1),即最后一个分量为1的单位向量。

在这种情况下,内积 <x, y> 就是 x 的最后一个分量 xP。因此,我们的问题简化为估计:

P( |xP| / ||x|| < ε )

为了控制这个比值,我们需要同时控制分子 |xP| 和分母 ||x||。我们引入一个中间参数 η,使得 η / (1 - η) = ε(对于小的 εη ≈ ε)。

然后,我们可以利用前两节的结果:

  1. 控制分量P(|xP| < η) ≥ 1 - e^{- (P-1) η^2 / (2π)}
  2. 控制范数P(||x|| > 1 - η) ≥ 1 - e^{-Pη}

如果事件 A = {|xP| < η} 和事件 B = {||x|| > 1 - η} 同时发生,那么根据 η 的定义,有 |xP| / ||x|| < ε

利用概率论的基本不等式(并集概率小于等于概率之和),事件 A ∩ B 的概率满足:

P(A ∩ B) ≥ 1 - [e^{- (P-1) η^2 / (2π)} + e^{-Pη}]

由于 A ∩ B{|xP| / ||x|| < ε} 的一个子集,后者的概率至少和 P(A ∩ B) 一样大。因此,我们得到了两个随机向量几乎正交的概率下界。

这个估计表明,随着维度 P 增大,两个随机向量夹角接近90度的概率会以指数速度趋近于1。其中一项要求 η ~ 1/√P,另一项要求 η ~ 1/P,最终占主导地位的项决定了收敛速度。

总结

本节课中我们一起学习了高维球体中体积集中的三个核心现象:

  1. 表面集中:体积高度集中在球体表面一个极薄的壳层内。概率下界由 1 - e^{-εP} 给出。
  2. 赤道集中:体积高度集中在任何一个赤道(即与某坐标轴垂直的超平面)附近。一个随机向量的任一特定分量以高概率小于 ε,其概率下界约为 1 - e^{-P ε^2},这意味着典型分量的幅度为 O(1/√P)
  3. 向量正交:随机选取的两个向量几乎总是近似正交的。我们可以通过结合前两个现象的估计,得到其概率的下界。

这些现象通过精确的数学公式和不等式得以体现,例如使用 (1 - ε)^P ≤ e^{-εP} 进行指数估计。它们揭示了高维几何与低维直觉的深刻差异,并为理解后续更复杂的随机结构(如高斯随机向量)的集中性质奠定了基础。在下一讲中,我们将把注意力转向高斯分布,看看类似的集中现象如何在那里体现。

004:高斯随机向量及其范数的集中性

概述

在本节课中,我们将学习如何描述和分析高维空间中的函数,特别是当数据点服从高斯分布时。我们将重点探讨高斯随机向量的性质,并研究其范数(长度)的集中性现象。这意味着,在高维空间中,随机向量的长度会以极高的概率集中在一个特定的值附近。我们将从线性函数的集中性开始,介绍马尔可夫不等式和切比雪夫不等式等基本工具,并最终为高斯向量范数的集中性提供一个证明思路。

高斯随机向量

上一节我们讨论了单位球上的均匀分布。本节中,我们将转向数学上更易处理、也更常见的数据模型:高斯随机向量。

定义与密度函数

我们考虑一个随机向量 x ∈ ℝ^p,其分量是独立同分布的。每个分量都服从标准高斯分布(均值为0,方差为1)。这样的向量称为标准高斯随机向量

其概率密度函数可以明确写出。由于各分量独立,联合密度是各分量密度的乘积。每个分量 T_i 的密度为:

ψ_i(t_i) = (1/√(2π)) * exp(-t_i² / 2)

因此,整个向量 x = (T_1, ..., T_p) 的联合密度函数为:

ψ(x) = ψ(t_1, ..., t_p) = (1/(2π)^(p/2)) * exp(-||x||² / 2)

其中 ||x||² = t_1² + ... + t_p² 是向量 x 的欧几里得范数的平方。

我们记作:

x ~ N(0, I_p)

其中 0 是零向量(均值),I_p 是 p×p 的单位矩阵(协方差矩阵)。

期望计算

我们首先计算一个简单但重要的量:向量范数平方的期望值。

E[||x||²] = E[t_1² + ... + t_p²] = Σ_{i=1}^p E[t_i²]

由于每个 t_i ~ N(0,1),其方差 E[t_i²] = 1。因此:

E[||x||²] = p

这个结果很直观:在高维空间中,随机向量的“典型”长度平方大约是维度 p。我们期望其范数 ||x|| 则集中在 √p 附近。

集中性现象与证明目标

从数值模拟(如第一次作业中的直方图)中,我们观察到高斯向量的范数确实集中在 √p 附近。现在,我们希望从理论上证明这一点。

具体来说,我们希望证明以下形式的集中性不等式:对于重新标度后的向量 x̃ = x / √p(其期望范数约为1),存在某个常数 C,使得对于任意 ε > 0,有:

P( | ||x̃|| - 1 | > ε ) ≤ 2 * exp(-C * p * ε²)

这个不等式表明,偏离典型值 1 超过 ε 的概率随着维度 p 的增加而呈指数级衰减,这就是高维集中性的核心。

为了证明这一点,我们首先需要一些概率论工具。

基本概率不等式

在深入证明之前,我们需要回顾两个基础但强大的一般性概率不等式。它们不依赖于分布的具体形式,适用于任何随机变量。

马尔可夫不等式

马尔可夫不等式适用于非负随机变量。它用期望值来界定随机变量取大值的概率。

定理(马尔可夫不等式):设 Y 是一个随机变量(或随机向量),F(Y) 是一个非负可测函数。则对于任意 α > 0,有:

P( F(Y) > α ) ≤ E[F(Y)] / α

证明思路:将期望 E[F(Y)] 的积分区域分解为 {F(Y) > α} 和其补集。在 {F(Y) > α} 上,用常数 α 下界估计 F(Y),然后移项即可得到结论。

马尔可夫不等式非常通用,但它要求函数非负,并且对于控制围绕均值的偏差不太直接。

切比雪夫不等式

切比雪夫不等式利用方差来量化随机变量偏离其均值的程度。

定理(切比雪夫不等式):设 F(Y) 是一个随机变量,其期望 E[F(Y)] 和方差 Var(F(Y)) 有限。则对于任意 ε > 0,有:

P( | F(Y) - E[F(Y)] | > ε ) ≤ Var(F(Y)) / ε²

证明思路:将切比雪夫不等式转化为马尔可夫不等式的形式。考虑非负函数 G(Y) = (F(Y) - E[F(Y)])²。注意到 E[G(Y)] = Var(F(Y))。然后对 G(Y) 和阈值 ε² 应用马尔可夫不等式即可。

切比雪夫不等式给出了偏差概率的一个上界,但这个上界是 1/ε² 量级的,衰减速度不如我们期望的指数衰减快。

应用于高斯向量范数平方

现在,让我们尝试将切比雪夫不等式应用于我们的问题,看看能得到什么。

我们考虑函数 F(x) = ||x||²。我们已经知道 E[F(x)] = p。接下来需要计算方差 Var(F(x))

由于 ||x||² = Σ_{i=1}^p t_i²,且 {t_i} 独立,方差具有可加性:

Var(||x||²) = Σ_{i=1}^p Var(t_i²)

每个 t_i ~ N(0,1)。计算 Var(t_i²) = E[t_i⁴] - (E[t_i²])²。标准高斯分布的四阶矩 E[t_i⁴] = 3,二阶矩 E[t_i²] = 1。因此:

Var(t_i²) = 3 - 1² = 2

所以:

Var(||x||²) = p * 2 = 2p

现在,我们想用切比雪夫不等式来估计 ||x||² 偏离其期望 p 的概率。回顾我们之前的目标,对于范数本身,我们关心的是 | ||x|| - √p | > ε。通过简单代数变换(两边乘以 ||x|| + √p),可以将其关联到:

P( | ||x|| - √p | > ε ) ≤ P( | ||x||² - p | > ε * √p )

因此,我们对右边应用切比雪夫不等式,其中 ε' = ε√p

P( | ||x||² - p | > ε√p ) ≤ Var(||x||²) / (ε√p)² = (2p) / (ε² p) = 2 / ε²

这个结果 2/ε² 是一个不依赖于维度 p 的常数上界。虽然它确实表明偏差概率是有界的,但并没有显示出我们期望的、随着 p 增大而指数衰减的集中性。它比我们目标中的指数型上界 2 * exp(-C p ε²) 要弱得多。

总结与展望

本节课中,我们一起学习了:

  1. 高斯随机向量的定义及其概率密度函数。
  2. 高斯向量范数平方的期望值 E[||x||²] = p,这暗示其范数应集中在 √p 附近。
  3. 两个基础概率不等式:
    • 马尔可夫不等式:用期望控制大值概率。
    • 切比雪夫不等式:用方差控制偏离均值的概率。
  4. 将切比雪夫不等式应用于高斯向量范数平方,得到了一个 O(1/ε²) 的概率上界,但这不足以证明强烈的指数集中性。

切比雪夫不等式只利用了二阶矩(方差)的信息。为了得到更紧的、指数衰减的界,我们需要利用分布的所有矩的信息,或者利用高斯分布和独立性的特殊结构。这引导我们走向更强大的工具,例如切尔诺夫界(Chernoff Bound) 或利用矩母函数的方法。

下一节课,我们将沿着这个思路,通过考虑随机变量的矩母函数,并利用独立性和高斯分布的特性,来证明高斯向量范数(以及更广泛的李普希茨函数)的指数型集中不等式。这将使我们能够完成本节开头所陈述定理的证明。

005:高斯随机向量范数的指数集中性

在本节课中,我们将学习如何证明高斯随机向量的集中现象。目前,我们正尝试为其线性函数证明这一点。首先,让我们回顾一下将要证明的内容,并发展一些更通用的工具。

具体来说,我们想要证明以下情况。我们观察一个具有正态分布的P维高斯随机向量。这是最简单的情况,即均值全为0,协方差矩阵是单位矩阵。这意味着我的P维向量的所有分量都是独立的,且每个分量都服从标准高斯分布。

我们想要证明,这样一个向量的范数会集中在期望值附近。这个期望值是P。具体来说,我们想要证明,对于满足范数与期望值距离较大的向量,其概率可以被指数形式地估计。

更精确地说,我们想要证明以下不等式对于介于0和某个较小值之间的ε成立。这里“较小”是指相对于期望值而言。我们也可以将其重写为缩放后的版本,这样ε可以是一个很小的量,因为维度P很大时,指数衰减会非常快。

从范数到范数平方

上一节我们介绍了要证明的目标,本节中我们来看看证明的第一步。为了处理方便,我们不是直接处理x的范数,而是处理x的范数平方,因为范数平方是独立分量的和,这更容易控制。

我们可以通过以下关系将范数的集中性问题转化为范数平方的集中性问题:

概率( | ||x|| - √P | > ε ) ≤ 概率( | ||x||² - P | > ε√P )

因此,如果我们能证明范数平方的集中性,也就证明了范数的集中性。关键在于,||x||² 是各分量平方的和,而各分量是独立的。因此,我们面对的是一个独立随机变量之和的函数,这可以利用集中性工具来处理。

一般性工具:马尔可夫与切比雪夫不等式

在深入具体证明之前,我们先回顾一些一般性的概率不等式,它们是构建更高级工具的基础。

马尔可夫不等式告诉我们,对于一个非负随机变量,其期望值如何限制其取大值的概率。如果随机变量只取正值,并且我们知道其期望值,那么它不可能以高概率取非常大的值,否则会拉高期望值。

基于马尔可夫不等式,我们有切比雪夫不等式,它利用方差来提供概率界限。然而,仅仅使用期望和方差(二阶矩)可能不够。为了获得更精确的集中性界限,我们需要考虑更高阶的矩。

矩生成函数与切尔诺夫界

上一节我们提到了高阶矩,但直接处理矩很复杂。更好的方法是使用矩生成函数,它本质上类似于傅里叶变换,将所有矩的信息打包到一个函数中。由于指数函数的性质,它能很好地处理独立性。

设Y是我们的随机向量,f(Y)是我们感兴趣的标量函数。我们定义其矩生成函数为:

M(λ) = E[ exp(λ f(Y)) ]

其中λ是一个我们稍后会优化的参数。对指数函数进行幂级数展开:

exp(λ f(Y)) = Σ_{k=0}^{∞} (λ f(Y))^k / k!

取期望后,我们得到:

M(λ) = Σ_{k=0}^{∞} (λ^k / k!) * E[ f(Y)^k ]

可以看到,矩生成函数包含了f(Y)的所有矩的信息。通过选择不同的λ,我们可以调整不同阶矩的权重。

现在,我们想估计概率 P( f(Y) > α )。利用指数函数的单调性(当λ>0时),我们可以将这个概率转化为对矩生成函数的估计。具体步骤如下:

  1. 因为当 f(Y) > α 时,有 exp(λ f(Y)) > exp(λ α)。
  2. 因此,P( f(Y) > α ) = P( exp(λ f(Y)) > exp(λ α) )。
  3. 对正随机变量 exp(λ f(Y)) 应用马尔可夫不等式:
    P( exp(λ f(Y)) > exp(λ α) ) ≤ E[ exp(λ f(Y)) ] / exp(λ α)
    
  4. 这给出了对于任意λ>0都成立的界限:
    P( f(Y) > α ) ≤ exp(-λ α) * E[ exp(λ f(Y)) ]
    
  5. 为了得到最紧的界限,我们对所有λ>0取右边表达式的最小值(下确界):
    P( f(Y) > α ) ≤ inf_{λ>0} { exp(-λ α) * E[ exp(λ f(Y)) ] }
    

这个不等式非常强大,但需要我们知道矩生成函数 E[ exp(λ f(Y)) ] 的具体形式或上界。

应用于独立和的情况

上一节我们得到了一个通用不等式,本节中我们来看看当函数f具有特殊形式——即独立随机变量之和时,情况如何简化。

现在,我们引入更具体的信息。假设随机向量Y的分量是独立的。并且函数f是各分量函数的和:

f(Y) = f1(Y1) + f2(Y2) + ... + fP(YP)

在我们的具体问题中,Y就是高斯向量x,而f(x) = ||x||²,即每个fi(Yi) = Yi²。

由于分量独立,且指数函数将和转化为积,矩生成函数可以因子化:

E[ exp(λ f(Y)) ] = E[ exp(λ Σ_i fi(Yi)) ] = E[ Π_i exp(λ fi(Yi)) ]

利用独立性,乘积的期望等于期望的乘积:

E[ Π_i exp(λ fi(Yi)) ] = Π_i E[ exp(λ fi(Yi)) ]

因此,问题简化为计算或估计每个单项的期望 E[ exp(λ fi(Yi)) ]。在我们的设定中,所有fi相同(都是平方函数),所有Yi的分布也相同(标准高斯)。所以我们需要估计:

E[ exp(λ (T² - 1)) ]

其中T ~ N(0,1),并且我们减去了1,因为我们要处理的是 ||x||² - P = Σ_i (Xi² - 1)。

估计高斯平方的矩生成函数

现在我们需要具体计算或估计 E[ exp(λ (T² - 1)) ]。直接计算这个积分是可行的。

我们有:

E[ exp(λ (T² - 1)) ] = e^{-λ} * E[ exp(λ T²) ]

而 E[ exp(λ T²) ] 可以通过积分计算。经过计算(完成平方等技巧),我们得到:

E[ exp(λ T²) ] = 1 / √(1 - 2λ), 对于 λ < 1/2

因此:

E[ exp(λ (T² - 1)) ] = e^{-λ} / √(1 - 2λ), 对于 λ < 1/2

当λ ≥ 1/2时,该期望值为无穷大。所以我们的参数λ必须限制在(0, 1/2)区间内。

然而,这个显式表达式在后续优化中不太直观。我们更希望有一个形如 exp(C λ²) 的上界,因为这样更容易处理。可以证明以下引理:

引理:对于标准高斯变量T,当 0 ≤ λ ≤ 1/4 时,有

E[ exp(λ (T² - 1)) ] ≤ exp(2 λ²)

(注:常数2可能因证明细节而异,可能是4或其他常数,但这不影响指数衰减的本质。)

这个引理的证明可以通过直接分析上述显式函数,或者通过矩估计来完成。一种方法是先估计 (T² - 1) 的矩,然后利用矩生成函数是矩的级数这一事实。

以下是利用矩估计的思路概要:

  1. 估计 E[ |T² - 1|^k ]。
  2. 利用 |T² - 1|^k ≤ 1 + |T|^{2k} 等放缩,将其与高斯变量的 2k 阶矩联系起来。
  3. 高斯的 2k 阶矩是 (2k-1)!!(双阶乘)。可以将其放缩为 C^k * k! 的形式。
  4. 将矩的界代入矩生成函数的级数展开式:
    E[ exp(λ (T² - 1)) ] = Σ_{k=0}^{∞} (λ^k / k!) E[ (T² - 1)^k ]
    
  5. 利用矩的估计 E[ (T² - 1)^k ] ≤ C^k * k!,我们得到:
    E[ exp(λ (T² - 1)) ] ≤ Σ_{k=0}^{∞} (C λ)^k = 1 / (1 - C λ), 对于 Cλ < 1
    
  6. 进一步地,1/(1-Cλ) ≤ exp(C‘ λ) ≤ exp(C’‘ λ²) 对于小λ成立。

通过这样的论证,我们可以得到形如 exp(C λ²) 的上界。

完成高斯范数的集中性证明

现在,我们拥有所有工具来完成主要定理的证明。我们想要证明:

P( | ||x|| - √P | > ε ) ≤ 2 exp( -ε² / 8 )

(常数可能是8或16,取决于之前的细节。)

回顾一下,我们已经将其转化为:

P( | ||x|| - √P | > ε ) ≤ P( | ||x||² - P | > ε√P )

而右边绝对值事件是两个单边事件的并:

P( | ||x||² - P | > ε√P ) = P( ||x||² - P > ε√P ) + P( ||x||² - P < -ε√P )

由于分布的对称性,这两个概率相等。因此,我们只需要估计其中一个,比如 P( ||x||² - P > ε√P ),然后乘以2。

设 α = ε√P。我们应用切尔诺夫界:

P( ||x||² - P > α ) ≤ inf_{λ>0} { exp(-λ α) * (E[ exp(λ (T² - 1)) ])^P }

这里我们用了因子化: (E[ exp(λ (T² - 1)) ])^P。

利用引理,当 0 ≤ λ ≤ 1/4 时,有 E[ exp(λ (T² - 1)) ] ≤ exp(2 λ²)。代入得:

P( ||x||² - P > α ) ≤ inf_{0≤λ≤1/4} { exp(-λ α) * exp(2P λ²) } = inf_{0≤λ≤1/4} exp( -λ α + 2P λ² )

现在,我们需要找到指数函数内部二次函数的最小值。令:

g(λ) = -λ α + 2P λ²

对λ求导并令其为零:

g'(λ) = -α + 4P λ = 0  =>  λ* = α / (4P)

我们需要检查 λ* 是否在 [0, 1/4] 区间内。由于我们考虑 ε 相对于 √P 较小(这是定理的条件),所以 α = ε√P,从而 λ* = ε / (4√P) 确实是一个小量,在条件范围内。

将 λ* 代回 g(λ):

g(λ*) = -(α²/(4P)) + 2P * (α²/(16 P²)) = -α²/(4P) + α²/(8P) = -α²/(8P)

再将 α = ε√P 代入:

g(λ*) = - (ε² P) / (8P) = -ε² / 8

因此,我们得到:

P( ||x||² - P > ε√P ) ≤ exp( -ε² / 8 )

考虑到另一边以及从范数到范数平方的转换,最终得到:

P( | ||x|| - √P | > ε ) ≤ 2 exp( -ε² / 8 )

这就完成了证明。

总结与展望

本节课中我们一起学习了如何证明高斯随机向量范数的指数集中性。我们主要步骤如下:

  1. 将问题从范数转化为范数平方。
  2. 回顾并应用了基于矩生成函数的切尔诺夫界这一通用工具。
  3. 利用随机变量分量的独立性,将矩生成函数因子化。
  4. 具体估计了高斯平方随机变量 (T² - 1) 的矩生成函数,得到了形如 exp(C λ²) 的上界。
  5. 通过优化切尔诺夫界中的参数λ,得到了最终的指数概率界。

我们所证明的实际上是更广泛现象的一个特例:对于独立随机变量之和,如果每个变量满足其矩生成函数有指数平方上界(即属于次指数分布),那么和就会表现出指数集中性。高斯变量的平方就是一个次指数分布的例子。

这种基于矩生成函数的方法非常强大,是证明许多集中不等式(如霍夫丁不等式、伯恩斯坦不等式)的基础。然而,目前我们处理的是线性函数(或可化为独立和)。对于机器学习,我们经常需要处理非线性函数。下一次,我们将探讨更一般的集中性不等式,例如利普希茨函数的集中性(通过塔尔格兰不等式等),这可以应用于更广泛的非线性场景。


本节课中我们一起学习了:

  1. 高斯随机向量范数集中在√P附近的概率界限。
  2. 利用切尔诺夫界和矩生成函数证明集中性的通用框架。
  3. 如何通过因子化和矩估计处理独立随机变量之和。
  4. 次指数分布的概念及其在集中性中的作用。

006:利普希茨函数下高斯随机向量的非线性集中性

在本节课中,我们将要学习高斯随机向量在更一般的非线性函数下的集中性。上一节我们讨论了线性函数的集中性,本节中我们来看看当函数满足利普希茨条件时,如何证明类似的集中不等式。

概述

我们考虑一个从 R^p 映射到 R 的函数 f。我们假设 fL-利普希茨 的,这意味着对于所有 x, y ∈ R^p,有:

|f(x) - f(y)| ≤ L * ||x - y||

其中 L 是利普希茨常数。我们将研究当输入 x 是一个 p 维标准高斯随机向量(即各分量独立且服从标准正态分布)时,函数值 f(x) 在其期望值附近的集中现象。

利普希茨函数简介

首先,我们需要明确什么是利普希茨函数及其性质。利普希茨条件保证了函数不会变化得太快。

定义与基本性质

一个函数 f: R^p → R 被称为 L-利普希茨 的,如果存在常数 L ≥ 0,使得对于所有 x, y ∈ R^p,都有:

|f(x) - f(y)| ≤ L * ||x - y||

常数 L 被称为该函数的利普希茨常数。如果 L=1,则称函数为 1-利普希茨

以下是关于利普希茨函数的一些关键点:

  • 与连续性的关系:利普希茨函数一定是(一致)连续的。
  • 与可微性的关系:如果一个可微函数 f 的梯度范数处处有界,即 ||∇f(x)|| ≤ L 对所有 x 成立,那么 fL-利普希茨 的。反之,可微的利普希茨函数其梯度范数也以 L 为界。
  • 非可微的例子:在神经网络中常用的 ReLU 激活函数 σ(t) = max(0, t)1-利普希茨 的,尽管它在 t=0 处不可微。

运算下的封闭性

在构建复杂模型(如神经网络)时,我们经常组合简单的函数。利普希茨性质在两种基本操作下是封闭的。

1. 逐分量应用

假设我们有 p 个利普希茨函数 f_i: R → R,每个的利普希茨常数都为 L。我们定义一个新函数 F: R^p → R^p,其第 i 个分量为 f_i(x_i)。那么 F 也是 L-利普希茨 的。重要的是,常数 L 不随维度 p 增大而变差。

2. 函数复合

假设 f: R^p → R^mL1-利普希茨 的,g: R^m → R^nL2-利普希茨 的。那么复合函数 h = g ∘ f: R^p → R^n(L1 * L2)-利普希茨 的。特别地,如果 fg 都是 1-利普希茨 的,那么 h 也是 1-利普希茨 的。

高斯集中不等式定理陈述

现在,我们可以陈述本节课的核心定理。

定理(高斯向量的利普希茨集中性):设 f: R^p → R 是一个 L-利普希茨 函数。令 X ∼ N(0, I_p) 为一个 p 维标准高斯随机向量。那么,对于任意 α > 0,有:

P( |f(X) - E[f(X)]| ≥ α ) ≤ 2 * exp( -α² / (2L²) )

这个不等式表明,f(X) 以高概率集中在它的期望值附近,偏离超过 α 的概率随着 α 呈指数级衰减。

证明思路与简化

我们将概述定理的证明。一个完整的证明会用到一些技巧,但思路非常优雅。首先,我们可以对问题做一些简化。

简化1:中心化
我们可以定义新函数 g(x) = f(x) - E[f(X)]。函数 g 的期望为0,且利普希茨常数不变。因此,我们只需证明当 E[f(X)] = 0 时,有 P( f(X) ≥ α ) ≤ exp( -α²/(2L²) )。通过同样处理 -f,并利用概率的并集界,就能得到带因子2的绝对值的界。

简化2:处理单边估计
如上所述,我们集中证明 P( f(X) ≥ α ) 的上界。

简化3:光滑化近似
我们可以将一般的利普希茨函数用光滑的利普希茨函数来逼近。因此,在证明中我们可以假设 f 是可微的。这样,利普希茨条件就等价于梯度范数有界:||∇f(x)|| ≤ L 对所有 x 成立。

证明的起点:矩生成函数与马尔可夫不等式

和上一讲证明线性集中性时类似,我们通过矩生成函数和马尔可夫不等式来开始。对于任意 λ > 0,有:

P( f(X) ≥ α ) = P( e^{λ f(X)} ≥ e^{λα} ) ≤ E[ e^{λ f(X)} ] / e^{λα}

这里我们应用了马尔可夫不等式。我们的目标是证明 E[ e^{λ f(X)} ] ≤ e^{λ² L² / 2}(或类似形式),这样代入上式后,通过优化选择 λ,就能得到形如 exp(-α²/(2L²)) 的界。

关键技巧:引入独立副本与詹森不等式

直接估计 E[ e^{λ f(X)} ] 是困难的。一个巧妙的技巧是引入一个与 X 独立同分布的副本 Y ∼ N(0, I_p)。首先,注意到由于 E[f(X)] = 0,根据詹森不等式(因为指数函数是凸函数),我们有:

E[ e^{-λ f(Y)} ] ≥ e^{-λ E[f(Y)]} = e^0 = 1

因此,1 ≤ E[ e^{-λ f(Y)} ]。我们可以利用这个不等式来“乘以1”:

E[ e^{λ f(X)} ] = E[ e^{λ f(X)} ] * 1 ≤ E[ e^{λ f(X)} ] * E[ e^{-λ f(Y)} ]

由于 XY 独立,两个期望的乘积等于乘积的期望:

E[ e^{λ f(X)} ] * E[ e^{-λ f(Y)} ] = E[ e^{λ (f(X) - f(Y))} ]

于是,问题转化为估计 E[ e^{λ (f(X) - f(Y))} ]

核心观察:路径积分与高斯旋转不变性

现在,我们处理 f(X) - f(Y)。由于我们假设 f 是可微的,我们可以用路径积分来表示这个差值。考虑连接 YX 的路径:

Z(θ) = cos(θ) * Y + sin(θ) * X,   θ ∈ [0, π/2]

θ=0 时,Z(0)=Y;当 θ=π/2 时,Z(π/2)=X。根据微积分基本定理:

f(X) - f(Y) = ∫_{0}^{π/2} (d/dθ) f(Z(θ)) dθ

计算导数:

(d/dθ) f(Z(θ)) = ⟨∇f(Z(θ)), (d/dθ)Z(θ)⟩ = ⟨∇f(Z(θ)), -sin(θ)Y + cos(θ)X ⟩

这里 ⟨·,·⟩ 表示内积。现在,关键的高斯性质出现了:

  • XY 是独立的标准高斯向量。
  • 对于每个固定的 θZ(θ)W(θ) = -sin(θ)Y + cos(θ)X 都是高斯向量的线性组合。
  • 更重要的是,可以验证 Z(θ)W(θ)独立的,并且都服从标准高斯分布(协方差矩阵为单位阵)。这是高斯分布特有的旋转不变性

此外,由利普希茨条件(可微时等价于梯度有界),我们有 ||∇f(Z(θ))|| ≤ L

完成证明

利用上述观察,我们可以将 f(X)-f(Y) 表示为一个关于 θ 的积分,其中被积函数是两个独立标准高斯变量的内积,其中一个因子(梯度)的范数以 L 为界。通过计算这个积分的矩生成函数,并利用高斯变量的性质(例如,两个独立标准高斯内积的分布),最终可以证明存在常数 c(例如 c=2/π²),使得:

E[ e^{λ (f(X) - f(Y))} ] ≤ e^{c * λ² L² / 2}

将此结果代回最初的马尔可夫不等式:

P( f(X) ≥ α ) ≤ e^{c * λ² L² / 2 - λα}

现在,选择 λ 来最小化这个上界,即令 λ = α / (c L²)。代入得到:

P( f(X) ≥ α ) ≤ exp( -α² / (2c L²) )

这就给出了单边估计。结合对 -f 的同样处理,就得到了定理中形式的集中不等式(常数可能略有不同,但指数衰减的形式一致)。

总结

本节课中我们一起学习了:

  1. 利普希茨函数的定义与性质,它是描述函数“光滑性”和“变化幅度”的重要工具。
  2. 利普希茨函数在逐分量应用复合运算下具有良好的封闭性。
  3. 对于高斯随机向量,任何利普希茨函数的值都以其期望为中心呈指数级集中。这就是高斯利普希茨集中不等式
  4. 定理的证明运用了多个关键思想:中心化简化、通过矩生成函数和马尔可夫不等式转化问题、引入独立副本并利用詹森不等式、以及通过路径积分高斯分布的旋转不变性来利用利普希茨条件。这个证明展示了处理非线性函数集中性问题的强大技巧。

这个定理是理解高维统计和机器学习中许多现象的基础,它告诉我们,即使是非常复杂的非线性函数,只要其变化不太剧烈(利普希茨常数控制),在高维高斯输入下,其输出也会表现出强烈的确定性。

007:高斯随机向量非线性集中性的证明 🧮

在本节课中,我们将学习如何证明高斯随机向量在非线性函数作用下的集中性不等式。我们将看到,即使函数不是简单的线性组合,只要它满足利普希茨条件,其取值也会高度集中在期望值附近。

概述

我们将证明一个核心定理:对于一个利普希茨函数 f 和一个标准高斯随机向量 X,其函数值 f(X) 偏离其期望 E[f(X)] 的概率可以被一个高斯型尾部所控制。具体来说,我们将证明对于任意 t > 0,有:
P(|f(X) - E[f(X)]| ≥ t) ≤ 2 exp(-t² / (2L²))
其中 L 是函数 f 的利普希茨常数。

证明思路与设定

上一节我们介绍了集中性不等式的概念以及证明此类不等式的一般策略——利用马尔可夫不等式对矩生成函数进行估计。本节中,我们将具体针对高斯分布和利普希茨函数来执行这一策略。

我们的设定如下:

  • f: R^p → R 是一个利普希茨函数,其利普希茨常数为 L。这意味着对于所有 x, y ∈ R^p,有 |f(x) - f(y)| ≤ L ||x - y||
  • X 是一个 p 维标准高斯随机向量,即 X ~ N(0, I_p),其各分量独立且服从标准正态分布 N(0,1)
  • 为简化证明,我们可以不失一般性地假设 E[f(X)] = 0(否则考虑 f(x) - E[f(X)])。同时,我们可以假设 f 是光滑的(可通过逼近得到),因此其梯度 ∇f 存在且满足 ||∇f(x)|| ≤ L

我们的目标是证明:
P(f(X) ≥ t) ≤ exp(-t² / (2L²))
通过对称性,即可得到包含绝对值的完整不等式。

证明步骤

第一步:矩生成函数的初步估计

证明的核心是估计矩生成函数 E[exp(λ f(X))],其中 λ > 0 是一个待优化的参数。我们引入一个与 X 独立同分布的副本 Y(即 Y 也是 N(0, I_p))。

利用詹森不等式,我们可以进行第一次估计:
E[exp(λ f(X))] ≤ E[exp(λ (f(X) - f(Y)))]
这是因为 E[f(Y)] = 0,且指数函数是凸函数。

第二步:利用微积分基本定理展开差值

现在,我们处理差值 f(X) - f(Y)。由于 f 是光滑的,我们可以沿着连接 XY 的路径进行积分。我们选择如下参数化路径:
X(θ) = cosθ * Y + sinθ * X,其中 θ ∈ [0, π/2]
θ=0 时,X(0)=Y;当 θ=π/2 时,X(π/2)=X。根据微积分基本定理:
f(X) - f(Y) = ∫_{0}^{π/2} (d/dθ) f(X(θ)) dθ
= ∫_{0}^{π/2} <∇f(X(θ)), X‘(θ)> dθ
其中 X‘(θ) = -sinθ * Y + cosθ * X<·, ·> 表示内积。

第三步:关键引理——旋转不变性

以下是证明中的一个关键引理,它利用了高斯分布特有的旋转不变性。

引理:对于任意固定的角度 θ,由 X(θ)X‘(θ) 组成的 2p 维随机向量,仍然是一个由 2p 个独立的标准高斯随机变量组成的向量。特别地,X(θ)X‘(θ) 是相互独立的 p 维标准高斯随机向量。

简要证明:将 (X, Y) 视为 R^{2p} 中的一个向量。从 (X, Y)(X(θ), X‘(θ)) 的变换是一个正交(旋转)变换。高斯分布在正交变换下保持不变,因此变换后的向量 (X(θ), X‘(θ)) 的分布与 (X, Y) 相同,即各分量独立且服从 N(0,1)

这个性质是证明仅适用于高斯分布的核心原因。

第四步:再次应用詹森不等式

现在,我们将第一步的估计与第二步的积分形式结合:
E[exp(λ f(X))] ≤ E[exp(λ ∫_{0}^{π/2} <∇f(X(θ)), X‘(θ)> dθ)]
为了将指数移到积分内部,我们对积分(视为一个期望)再次应用詹森不等式。注意 ∫_{0}^{π/2} dθ 的总测度为 π/2,我们将其归一化为概率测度。
≤ E[ (2/π) ∫_{0}^{π/2} exp( (λπ/2) <∇f(X(θ)), X‘(θ)> ) dθ ]
= (2/π) ∫_{0}^{π/2} E[ exp( (λπ/2) <∇f(X(θ)), X‘(θ)> ) ] dθ

第五步:利用独立性与梯度界进行估计

根据关键引理,对于每个固定的 θX(θ)X‘(θ) 独立。我们先固定 X(θ)(即固定了 ∇f(X(θ)) 这个向量),然后对 X‘(θ) 求期望。
对于固定的 X(θ),内积 <∇f(X(θ)), X‘(θ)> 是独立标准高斯变量的线性组合,因此它本身服从一个一维高斯分布,其方差为 ||∇f(X(θ))||²
根据利普希茨条件(光滑版本),我们有 ||∇f(X(θ))|| ≤ L。因此,该高斯分布的方差不超过
对于一个方差为 σ² 的高斯变量 Z,其矩生成函数为 E[exp(sZ)] = exp(s²σ²/2)。应用到这里:
E[ exp( (λπ/2) <∇f(X(θ)), X‘(θ)> ) | X(θ) ] ≤ exp( ( (λπ/2)² L² ) / 2 )
由于这个上界与 X(θ) 的具体值无关,所以对 X(θ) 求期望后,上界保持不变。又因为这个上界与 θ 无关,所以对 θ 的积分只是乘以因子 π/2,与之前的 2/π 相消。
最终我们得到:
E[exp(λ f(X))] ≤ exp( (λ² π² L²) / 8 )

第六步:应用马尔可夫不等式并优化参数

现在我们有了矩生成函数的界,可以应用马尔可夫不等式来估计尾部概率:
P(f(X) ≥ t) = P(exp(λ f(X)) ≥ exp(λ t)) ≤ E[exp(λ f(X))] / exp(λ t)
≤ exp( (λ² π² L²)/8 - λ t )
对于任意 λ > 0 都成立。为了得到最紧的界,我们选择 λ 来最小化指数部分 (λ² π² L²)/8 - λ t
令其关于 λ 的导数为零:
(λ π² L²)/4 - t = 0 => λ* = (4t) / (π² L²)
λ* 代回不等式:
P(f(X) ≥ t) ≤ exp( - (2t²) / (π² L²) )

第七步:得到最终形式

通过对称性(考虑 -f),我们可以得到双边不等式:
P(|f(X) - E[f(X)]| ≥ t) ≤ 2 exp( - (2t²) / (π² L²) )
虽然常数 2/π² 不是最优的(最优常数是 1/(2L²),可通过其他更复杂的证明得到),但它清晰地展示了尾部概率以 exp(-O(t²/L²)) 的形式衰减,这正是高斯型集中性的特征。

总结

本节课中我们一起学习了高斯随机向量非线性集中性不等式的证明。我们回顾并运用了以下核心技巧:

  1. 矩生成函数方法:通过马尔可夫不等式将概率估计转化为对矩生成函数的分析。
  2. 对称化与副本技巧:引入独立副本 Y,将问题转化为处理函数差值。
  3. 路径积分与微积分:利用微积分基本定理将函数差值表示为梯度沿路径的积分。
  4. 高斯分布的特有性质:关键引理利用了高斯分布在正交变换下的不变性,这是证明的核心。
  5. 参数优化:通过选择最优的 λ 来得到最紧的概率上界。

这个证明展示了如何将针对线性函数(如霍夫丁不等式)的集中性分析,通过巧妙的数学工具推广到满足利普希茨条件的非线性函数上,揭示了高斯分布在高维几何和分析中的优美性质。

008:线性与非线性集中不等式的一般性评述

在本节课中,我们将对集中不等式进行一般性评述,总结其核心形式、适用条件,并探讨如何从高斯分布推广到更广泛的分布类别。我们还将介绍子高斯和子指数分布的定义,并简要讨论非线性情况下的推广。

集中不等式的核心形式

上一节我们介绍了集中不等式的具体应用,本节中我们来看看其一般性框架。

集中不等式通常具有以下形式。我们有一组输入变量,这些变量是独立的,并服从某种分布。然后,我们考虑这些变量的函数,得到输出。我们的目标是控制这个输出,即函数值,使其表现出某种集中性。输入通常是独立变量,并且到目前为止,我们主要考虑这些变量服从高斯分布的情况。当然,我们希望将结论推广到更一般的情形。

对于函数,我们主要考虑过两种情况。以下是这两种情况:

  • 线性函数:即独立变量之和。
  • 非线性函数:更一般的函数,我们通常要求其满足利普希茨条件。

在输出方面,集中性本质上意味着函数值在其期望值附近集中,其尾部衰减类似于高斯分布,即形如 e^{-t^2}。通常,维度也会以某种形式出现在指数中,以体现高维下的集中现象。

从高斯分布到更一般的分布

问题是,当我们离开高斯分布时,结论还能在多大程度上成立?在线性情况下,结论确实可以推广。在我们之前的所有方法中,核心是控制量 E[e^{λ f(x)}]。这本质上依赖于马尔可夫不等式,然后我们需要控制这个期望。

在线性情况下,控制这个量最终归结为控制输入分布的矩母函数。这意味着,如果输入分布的矩母函数行为与我们证明所需的行为相似,那么结论仍然成立。最理想的情况是,输入分布也具有类似高斯的尾部行为,那么这种性质会传递到输出(至少在线性情况下)。具有这种性质的分布非常重要,它们被称为子高斯分布

此外,我们可能还会遇到尾部衰减稍慢,仅为指数衰减(形如 e^{-t})的分布,这类分布被称为子指数分布。这是两个主要的分布类别。

子高斯与子指数分布的定义

让我们正式定义这些分布。这里讨论的是一维随机变量的性质。当我们考虑多变量函数时,要求每个独立变量都具有特定的分布性质,即子高斯性或子指数性。

子高斯分布

X 是一个一维随机变量。为简化起见,我们假设其均值为零。X 或其分布被称为子高斯的,如果以下两个等价性质之一成立(这里给出两个主要性质):

  1. 尾部性质:存在常数 C > 0,使得对所有 α > 0,有:
    P(|X| > α) ≤ 2 exp(-α^2 / C)
  2. 矩母函数性质:存在常数 C' > 0,使得对所有 λ ∈ R,有:
    E[e^{λX}] ≤ exp(C' λ^2)

这两个性质是等价的。子高斯分布在高斯集中不等式的证明中行为类似。

子指数分布

X 被称为子指数的,如果以下两个等价性质之一成立:

  1. 尾部性质:存在常数 C > 0,使得对所有 α > 0,有:
    P(|X| > α) ≤ 2 exp(-α / C)
  2. 矩母函数性质:存在常数 C' > 0,使得对所有满足 |λ| ≤ 1/C'λ,有:
    E[e^{λX}] ≤ exp(C' λ^2)

注意,在子指数分布中,矩母函数的估计只在一个区间内成立,而不是对所有 λ 成立。这比子高斯条件要弱。

例子与关系

以下是几个重要的例子和关系:

  • 子高斯蕴含子指数:显然,子高斯分布也是子指数分布,因为子高斯的矩母函数性质对所有 λ 成立,自然在某个小区间内也成立。
  • 高斯分布:正态分布是子高斯的。
  • 卡方分布:如果 X 服从标准正态分布,则 X^2 - 1 是子指数的,但不是子高斯的。我们在证明向量范数的集中不等式时计算过它的矩母函数,它只在有限区间内存在。
  • 有界随机变量:任何有界随机变量都是子高斯的。这是一个重要的结论,意味着对于有界随机变量之和,我们也能得到高斯型的集中不等式。

线性情况的推广定理

对于独立随机变量之和,我们可以处理相当广泛的分布类别。以下是子高斯情况下的一个典型定理(通常称为 Hoeffding 型不等式):

T1, ..., Tp 是独立的实值随机变量。每个 Ti 都是子高斯的,具有参数 (σ_i, μ_i)。这意味着对于所有 λ,有:
E[e^{λ (T_i - μ_i)}] ≤ exp(σ_i^2 λ^2 / 2)
那么,对于所有 α > 0,有:
P(|∑_{i=1}^p (T_i - μ_i)| > α) ≤ 2 exp(-α^2 / (2∑_{i=1}^p σ_i^2))

这个定理表明,子高斯随机变量的和仍然是子高斯的。

对于子指数分布,也有类似结论(通常称为 Bernstein 型不等式),但行为更复杂。它给出两种不同的估计:

  • 小偏差:当偏差 α 较小时,尾部行为类似于 e^{-α^2}(子高斯型)。
  • 大偏差:当偏差 α 较大时,尾部行为类似于 e^{-α}(子指数型)。

这意味着,即使输入是子指数的,其和在小偏差范围内也能表现出更好的子高斯集中性,而在大偏差范围内则反映出输入本身的子指数特性。

非线性情况的推广

我们之前为高斯分布证明了利普希茨函数的集中不等式。然而,该证明无法直接推广到更一般的分布。要将定理推广到非高斯输入,需要额外的假设,其中最主要的假设是凸性

以下是 Talagrand 不等式的一个基本版本(针对有界变量):

T1, ..., Tp 是独立随机变量,且存在常数 K,使得对所有 i,有 |Ti| ≤ K。设函数 f: R^p → RL-利普希茨的,并且是凸函数。那么,存在通用常数 C1, C2 > 0,使得对于所有 α > 0,有:
P(|f(T1,...,Tp) - E[f(T1,...,Tp)]| > αK) ≤ C1 exp(-C2 α^2 / L^2)

这个定理表明,对于有界、独立变量,凸的利普希茨函数仍然表现出子高斯型的集中性。需要注意的是,凸性条件是必要的,存在反例表明非凸的利普希茨函数可能不具备这种集中性。这对于神经网络等应用场景是一个需要注意的限制,因为神经网络的函数通常利普希茨但不一定凸。而在高斯输入的情况下,我们不需要凸性假设,这显得更为优越。

总结

本节课中我们一起学习了集中不等式的一般框架。我们回顾了集中不等式的核心形式,并探讨了如何从高斯输入推广到更一般的子高斯和子指数输入。在线性情况下,我们得到了明确的推广定理。在非线性情况下,我们看到了 Talagrand 不等式,它通过引入凸性假设,将结论推广到了有界独立变量的情形。这些工具为我们接下来分析更复杂的对象,如随机矩阵,奠定了重要的基础。

009:Wishart随机矩阵及最大特征值的集中性 🧮

在本节课中,我们将要学习Wishart随机矩阵,并探讨其最大特征值(或矩阵范数)的集中性现象。我们将看到,如何利用高斯集中不等式和ε-网(epsilon-net)技术,将涉及无限多个条件的矩阵范数估计问题,转化为有限个条件的控制问题。

Wishart随机矩阵

我们考虑的随机矩阵通常被称为Wishart随机矩阵。在统计学的背景下,数据矩阵通常不是对称的,甚至不是方阵,这与Wigner或高斯随机矩阵不同。Wishart矩阵由统计学家Wishart引入,在统计问题中尤其相关。

在我们的设定中,数据通常被建模为随机向量。假设我们有一个p维随机向量X,服从正态分布,其协方差矩阵为Σ。在统计问题中,我们通常有n个独立的观测值,即独立地从该分布中抽取向量。我们可以将这些p维观测向量排列成一个p×n的数据矩阵X,其中每一列是一个观测向量。

为了从观测中估计未知的协方差矩阵Σ,一个经典的估计量是样本协方差矩阵:
[
\hat{\Sigma} = \frac{1}{n} X X^T = \frac{1}{n} \sum_{k=1}^{n} X_k X_k^T
]
这个估计量(\hat{\Sigma})就是一个Wishart矩阵。当观测数量n趋于无穷时,它会收敛到真实的Σ。然而,在现代高维数据中,特征维度p和观测数量n通常是可比的,因此我们需要理解其谱性质。

矩阵范数与集中性

我们特别感兴趣的是矩阵的谱行为,例如特征值。一个重要的量是最大特征值,它等于矩阵的算子范数(operator norm)。对于矩阵X,其算子范数定义为:
[
|X| = \sup_{|v|=1} |X v|
]
其中v是n维单位球面上的向量。这个范数也等于(X X^T)的最大特征值,即X的最大奇异值。

我们希望理解这个范数的典型行为及其波动。算子范数可以看作是从矩阵空间(可视为(\mathbb{R}^{p \times n}))到实数的一个函数。这个函数是Lipschitz连续的,且Lipschitz常数为1,因为它满足:
[
||X| - |Y|| \leq |X - Y| \leq |X - Y|_F
]
这里(|\cdot|_F)是Frobenius范数(即所有元素平方和的平方根)。这个性质不依赖于维度p和n。

应用高斯集中不等式

如果我们假设数据矩阵X的所有元素是独立的标准高斯随机变量(即均值为0,方差为1),那么将整个矩阵视为一个(p \times n)维的高斯随机向量,其协方差矩阵是单位阵。对于这个高斯向量,算子范数作为一个Lipschitz函数,满足高斯集中不等式:
[
P(||X| - \mathbb{E}[|X|]| \geq t) \leq 2 e{-t2/2}
]
这个不等式告诉我们,矩阵范数高度集中在其期望值附近。然而,它并没有告诉我们期望值(\mathbb{E}[|X|])具体是多少。计算这个期望值通常需要其他工具。

通过ε-网控制范数

为了更深入地理解范数的行为,我们可以利用其定义。算子范数等价于:
[
|X| = \max_{|v|=1, |w|=1} \langle w, X v \rangle
]
这里v和w分别来自n维和p维的单位球面。对于每一对固定的(v, w),内积(\langle w, X v \rangle)是矩阵元素的一个线性组合,因此它本身是一个高斯随机变量,我们对其有很好的控制。

问题在于我们需要对无限多对(v, w)取最大值。解决这个问题的关键思想是使用ε-网。我们可以用有限个点来覆盖单位球面,使得球面上的任何一点都与网中的某个点距离不超过ε。

以下是构造ε-网的核心思路:

  • 我们希望在单位球内放置尽可能多的、半径为ε/2且互不相交的小球。
  • 所有这些小球都必须包含在一个半径为1+ε/2的大球内。
  • 通过比较体积,我们可以得到网中点数量的上界。具体地,存在一个ε-网,其基数(点的数量)最多为((2/\epsilon + 1)^n)(对于n维球)和((2/\epsilon + 1)^p)(对于p维球)。

利用ε-网,我们可以将算子范数与网中有限个点上的最大值联系起来。具体推导如下:设v和w是使得范数达到最大值的向量,v‘和w’分别是它们在对应ε-网中的近似点(距离≤ε)。那么:
[
\langle w, X v \rangle = \langle w', X v' \rangle + \langle w-w', X v' \rangle + \langle w, X (v-v') \rangle
]
利用范数的性质和三角不等式,可以证明:
[
|X| \leq \frac{1}{1 - 2\epsilon} \max_{v' \in \mathcal{N}, w' \in \mathcal{M}} \langle w', X v' \rangle
]
其中(\mathcal{N})和(\mathcal{M})分别是n维和p维单位球的ε-网。如果我们选择ε=1/4,那么系数为2。这样,我们就把控制无限多个高斯变量最大值的问题,转化为了控制有限个(尽管数量随维度指数增长)高斯变量最大值的问题。对于有限个高斯变量,我们可以利用联合界(union bound)等技术来估计其最大值的概率行为。

总结

本节课中我们一起学习了Wishart随机矩阵的背景和定义,它是样本协方差矩阵,在高维统计中至关重要。我们关注其算子范数(最大特征值),并证明了它作为矩阵元素的函数是Lipschitz连续的,从而满足高斯集中不等式。为了更细致地分析范数,我们引入了ε-网的技术,将无限维的优化问题转化为有限维问题,为后续定量分析其期望值和尾概率界奠定了基础。下一节,我们将利用这个框架,推导出矩阵范数更具体的概率估计。

010:最大特征值集中性的证明

在本节课中,我们将学习如何证明随机矩阵最大特征值(或算子范数)的集中性。我们将从一个具体的随机矩阵模型出发,利用ε-网和概率论工具,推导出最大特征值以高概率集中在某个值附近。

概述

我们目前正在研究随机矩阵。我们已经从随机向量过渡到随机矩阵,并希望理解特征值的集中性,以及在有意义的范围内特征值的分布情况。

具体设定如下:我们讨论的是随机矩阵。假设数据服从高斯分布,即 X ~ N(0, Σ),其中 Σ 是 R^p 中的协方差矩阵。我们假设有从这个分布中独立抽取的样本,即我们有该向量的独立副本:X1, X2, ..., Xn,每个都是 R^p 中的向量。

我们将这些向量放入一个数据矩阵 X 中,其中这些向量是矩阵的列。因此,我们得到一个 p × n 的矩阵。从这个矩阵可以形成一个重要的方阵,即协方差矩阵的估计量,我们称之为 Σ̂,其定义为:

Σ̂ = (1/n) * X * X^T

或者写成向量形式:

Σ̂ = (1/n) * Σ_{k=1}^{n} X_k * X_k^T

这是一个 p × p 的矩阵。根据大数定律,当 n → ∞ 且 p 固定时,它会收敛到 Σ。然而,我们感兴趣的不是这个范围。

最大特征值的集中性

我们首先关注的是这个矩阵的特征值,特别是最大特征值。我们想了解它是否围绕其期望值集中,以及期望值是多少。

最大特征值实际上是矩阵的一个 Lipschitz 函数,这意味着我们可以利用高斯测度下 Lipschitz 函数的集中现象。问题在于,我们通常不知道期望值的确切表达式。对于像随机矩阵特征值这样的非线性函数,计算期望值并不容易。

上一节我们开始探讨如何解决这个问题。关键在于,最大特征值(即矩阵的算子范数)与矩阵 X 的范数有关。我们想要理解的是 X 的范数,也就是矩阵的最大奇异值。

根据定义,算子范数有一个公式表示。它是衡量矩阵 X 能多大程度上增加向量长度的最大值。具体可以写成:

||X|| = max_{||v||≤1, ||w||≤1} <Xv, w>

这里 v ∈ R^n, w ∈ R^p。这是一个在无限多个点上的最大值,直接处理很困难。

利用ε-网进行有限近似

为了解决无限最大值的问题,我们引入ε-网的概念。思路是,我们可以用有限个点组成的集合(ε-网)来覆盖整个球体,使得球内任何一点都与网中的某个点距离在 ε 以内。这样,我们只需要在有限个点上控制这个量,就能近似整个最大值。

我们证明了以下不等式:

||X|| ≤ (1/(1-2ε)) * max_{v∈N_ε, w∈M_ε} <Xv, w>

其中 N_ε 是 R^n 中单位球的 ε-网,M_ε 是 R^p 中单位球的 ε-网。我们可以控制这种网的大小。例如,选择 ε = 1/4,则网的大小满足 |N_ε| ≤ 9^n, |M_ε| ≤ 9^p

现在,我们想得到 ||X|| 大于某个值 α 的概率上界。如果 ||X|| > α,根据上述不等式,意味着存在网中的点 vw,使得 <Xv, w> > α * (1-2ε)

因此,事件 {||X|| > α} 被包含在所有形如 {<Xv, w> > α(1-2ε)} 的事件的并集中。根据概率的次可加性,并集的概率小于等于各个事件概率之和:

P(||X|| > α) ≤ Σ_{v∈N_ε, w∈M_ε} P( <Xv, w> > α(1-2ε) )

分析内积项的分布

现在,我们分析内积项 <Xv, w>。矩阵 X 的条目 X_ij 是独立的标准高斯随机变量。内积可以展开为:

<Xv, w> = Σ_{i=1}^{p} Σ_{j=1}^{n} X_ij * v_j * w_i

对于固定的 vw,这是一个独立高斯变量的线性组合,因此它本身服从高斯分布,均值为0,方差为:

σ² = Σ_{i,j} (v_j * w_i)² = (Σ_j v_j²) * (Σ_i w_i²) = ||v||² * ||w||²

由于 vw 来自单位球的ε-网,它们的范数小于等于1,因此方差 σ² ≤ 1

一个方差为 σ² ≤ 1 的高斯变量超过阈值 t 的概率有一个标准的上界:

P( Gaussian > t ) ≤ (1/2) * exp( -t² / 2 )

在我们的情况下,阈值 t = α(1-2ε)。代入 ε = 1/4,得到 t = α/2

因此,对于网中任意一对固定的 (v, w),有:

P( <Xv, w> > α/2 ) ≤ (1/2) * exp( -α² / 8 )

综合概率估计

将上述估计代入我们的求和式中:

P(||X|| > α) ≤ |N_ε| * |M_ε| * (1/2) * exp( -α² / 8 )

代入网的大小估计 |N_ε| ≤ 9^n, |M_ε| ≤ 9^p,并注意到 9 < e³,我们可以进一步放缩:

P(||X|| > α) ≤ (1/2) * exp(3n) * exp(3p) * exp( -α² / 8 ) = (1/2) * exp( 3n + 3p - α²/8 )

为了使这个概率随着维度增长而变小(即得到有意义的集中性),我们需要 α²/8 的增长速度超过 3n + 3p。这提示 α 的量级应为 √n√p

为了更清晰地看出集中点,我们令:

α = √(24) * (√n + √p) + u

其中 u 是一个额外的偏差项。将 α 代入概率上界,经过计算(利用 (a+b)² ≥ a² + b²),可以得到:

P( ||X|| > √(24)(√n + √p) + u ) ≤ (1/2) * exp( -u² / 8 )

这个结果告诉我们,矩阵 X 的范数以高概率不会超过 √(24)(√n + √p) 太多,偏差 u 被指数概率 exp(-u²/8) 所控制。因此,√(24)(√n + √p) 给出了算子范数(即最大特征值)期望值的一个量级估计。特别地,当 np 同阶时,最大特征值的量级是 O(√n)

总结

本节课中,我们一起学习了如何证明随机矩阵最大特征值的集中性。

  1. 我们从一个由独立高斯向量列构成的数据矩阵 X 出发。
  2. 我们关注其算子范数 ||X||,它等于最大奇异值,也与协方差估计矩阵的最大特征值相关。
  3. 为了处理范数定义中的最大值,我们引入了 ε-网 技术,将无限维的最大值问题转化为有限个点上的控制问题。
  4. 通过概率的并集上界(次可加性),我们将矩阵范数大的概率,转化为有限多个高斯二次型大的概率之和。
  5. 我们分析了每个内积项 <Xv, w> 的高斯分布性质,并利用其尾概率估计。
  6. 综合网的大小和高斯尾概率,我们最终推导出集中性不等式:P( ||X|| > √(24)(√n + √p) + u ) ≤ (1/2) exp(-u²/8)
  7. 这个结果表明,最大特征值以高概率集中在量级为 O(√n + √p) 的值附近,为理解随机矩阵的谱性质奠定了基础。

下一节,我们将不再局限于最大特征值,而是尝试同时研究所有特征值,探索它们的整体分布规律。

011:Wishart矩阵的Marchenko-Pastur定律

在本节课中,我们将要学习Wishart矩阵的特征值分布,并理解其在大维极限下的行为。我们将看到,在适当的缩放下,特征值的经验分布会收敛到一个确定的极限分布,即Marchenko-Pastur分布。我们将探讨如何利用集中性现象来简化证明,并介绍证明该定律的核心方法。

特征值的集中性

上一节我们介绍了随机矩阵的基本概念,本节中我们来看看Wishart矩阵特征值的集中性。

我们考虑一个简单的设置:我们有P维的随机向量,其分量是独立的标准高斯分布。我们进行N次独立观测,得到一个P×N的数据矩阵X。我们关注的是样本协方差矩阵,即Wishart矩阵:
Σ̂ = (1/N) X X^T

这是一个P×P的对称矩阵,因此有P个实的特征值,记为λ₁ ≤ λ₂ ≤ ... ≤ λ_P。

一个重要的问题是:这些特征值是否表现出集中性?我们知道,对于高斯随机变量,利普希茨函数具有集中性。因此,我们需要检查特征值映射是否是利普希茨的。

对于任意对称矩阵A和B,其特征值满足韦尔不等式:
|λ_i(A) - λ_i(B)| ≤ ||A - B||_{op}
其中||·||_{op}表示算子范数。这意味着将矩阵映射到其第i个特征值的函数是利普希茨的。更进一步,将矩阵映射到其所有特征值构成的向量(即特征值谱)的函数也是利普希茨的。

然而,我们感兴趣的是从原始数据矩阵X到其Wishart矩阵特征值的复合映射:
X → 特征值( (1/N) X X^T )

我们需要验证这个复合映射的利普希茨性质。通过逐步分析,我们可以得到其利普希茨常数L的界:
L ≤ (2/N) * max(||X||{op}, ||Y||)

不同渐近机制下的分析

以下是两种重要的渐近机制:

  1. 经典统计机制:数据维度P固定,观测数量N趋于无穷大。

    • 在这种机制下,算子范数||X||_{op}的量级约为√(P*N)。
    • 因此,利普希茨常数L的量级为(1/√N)。
    • 当N→∞时,L→0,这导致非常强的集中性,偏差概率以exp(-c * N * α²)的速率衰减。
  2. 高维数据分析机制:P和N以相同速率趋于无穷大,即P/N → γ (一个固定常数,例如0<γ<1)。

    • 在这种机制下,算子范数||X||_{op}的量级约为√N。
    • 因此,利普希茨常数L的量级仍为(1/√N)。
    • 我们同样能得到良好的集中性,偏差概率以exp(-c * N * α²)的速率衰减。

关键结论是:在高维机制下(P与N成比例增长),Wishart矩阵的特征值分布会集中在其均值(期望分布)附近。这意味着,对于一次随机实现,其特征值直方图与平均直方图非常接近。

Marchenko-Pastur定律

虽然集中性告诉我们特征值分布是稳定的,但它没有告诉我们这个极限分布具体是什么。这个极限分布由Marchenko-Pastur定律描述。

设X是一个P×N的随机矩阵,其所有元素X_ij是独立同分布的标准高斯随机变量。令P, N → ∞,且满足P/N → γ,其中0 < γ ≤ 1。那么,样本协方差矩阵Σ̂ = (1/N) X X^T的特征值经验分布(直方图)几乎必然收敛到Marchenko-Pastur分布。

Marchenko-Pastur分布的概率密度函数ψ_γ(t)为:
ψ_γ(t) = (1/(2πγt)) * √((t - γ⁻)(γ⁺ - t)), 当 t ∈ [γ⁻, γ⁺]
否则为0。
其中:
γ⁺ = (1 + √γ)²
γ⁻ = (1 - √γ)²

这个密度函数的支撑集是区间[γ⁻, γ⁺]。它描述了在极限下,特征值在该区间内是如何分布的。例如,在区间[a, b]内的特征值比例收敛于密度函数在该区间上的积分。

证明思路

直接证明直方图收敛是困难的。通常采用两种等价的函数类方法:

  1. 矩方法:证明特征值的各阶矩收敛到Marchenko-Pastur分布的对应矩。这涉及大量的组合计算。

  2. 留数(或Stieltjes变换)方法:证明特征值的Stieltjes变换收敛。对于复数z(不在实轴上),Stieltjes变换定义为:
    m(z) = (1/P) * Tr( (Σ̂ - zI)^(-1) ) = (1/P) * Σ_{i=1}^P 1/(λ_i - z)
    证明m(z)收敛到一个确定的函数,然后通过逆变换即可恢复出极限密度ψ_γ(t)。这是一种更解析的方法。

利用之前建立的集中性,我们只需证明这些收敛性在平均意义下成立(即对期望值证明),那么几乎所有的单个实现也会具有相同的极限行为。

本节课中我们一起学习了Wishart矩阵特征值的集中性现象,并介绍了其极限分布——Marchenko-Pastur定律。我们了解到,在高维设定下(P与N成比例增长),特征值分布会稳定地收敛到一个具有明确表达式的确定性分布。这为理解高维随机矩阵的谱性质奠定了基础。下一讲,我们将深入探讨证明Marchenko-Pastur定律的核心思想。

012:Marchenko-Pastur定律证明的准备工作

在本节课中,我们将学习如何证明Marchenko-Pastur定律。该定律描述了高维随机矩阵的特征值分布。我们将通过一系列准备工作,将复杂的特征值问题转化为更易处理的矩阵迹问题,并引入关键的工具和公式。

核心目标与设定

我们关注的是Wishart随机矩阵的渐近特征值分布。具体设定如下:

  • X 是一个 P × N 的随机矩阵,其所有元素独立同分布,服从标准高斯分布(均值为0,方差为1)。
  • 我们研究对应的样本协方差矩阵(Wishart矩阵):Σ̂ = (1/N) X Xᵀ。这是一个 P × P 的对称矩阵。
  • 我们考虑一个渐近区域:PN 都趋于无穷大,但它们的比值 P/N → γ,其中 γ ∈ (0, 1)

Marchenko-Pastur定律指出,在此极限下,矩阵 Σ̂ 的特征值经验分布收敛到一个确定的概率密度函数,即Marchenko-Pastur密度 ρ_MP(t)

ρ_MP(t) = (1/(2πγt)) √((t - γ₋)(γ₊ - t))

其中,γ₊ = (1 + √γ)²γ₋ = (1 - √γ)²,且 t ∈ [γ₋, γ₊]

证明策略:从特征值到Stieltjes变换

直接证明特征值直方图的收敛性很困难,因为我们无法直接控制特征值。因此,我们采用一个等价但更易处理的方法:证明特征值的平均函数收敛。

具体来说,对于任意“足够好”的函数 f,我们希望证明:
(1/P) Σ_{i=1}^{P} f(λ_i) → ∫ f(t) ρ_MP(t) dt

然而,特征值 λ_i 难以直接处理。一个关键技巧是,对于某些特殊的函数,我们可以将特征值的和转化为矩阵的迹,从而回到矩阵元素本身。

上一节我们介绍了证明的核心思路,本节中我们来看看具体如何实现这一转化。

我们将重点研究一类特殊的函数:f_z(λ) = 1/(λ - z),其中 z 是一个不在实轴上的复数。这个函数的优势在于,它对矩阵 A 的作用可以明确写为矩阵的逆:
(1/P) Σ_{i=1}^{P} 1/(λ_i - z) = (1/P) Tr[ (A - z I_P)^{-1} ]

这里,Tr 表示迹运算,I_PP×P 单位矩阵。这个量被称为矩阵 AStieltjes变换,记作 S_A(z)

因此,证明Marchenko-Pastur定律等价于证明:对于Wishart矩阵 Σ̂,其Stieltjes变换 S_n(z)n→∞ 时,收敛到Marchenko-Pastur分布的Stieltjes变换 S_MP(z)

由于随机矩阵的集中性,我们只需研究其期望值 E[S_n(z)] 的极限即可。

关键工具:Sherman-Morrison公式

为了推导 S_n(z) 满足的方程,我们需要一个处理矩阵微小扰动的有力工具:Sherman-Morrison公式。

该公式描述了如何计算一个矩阵加上一个秩-1矩阵后的逆。

公式陈述
A 是一个可逆的 P×P 矩阵,xyP 维列向量。如果 1 + yᵀ A⁻¹ x ≠ 0,则矩阵 A + x yᵀ 也可逆,且其逆矩阵为:
(A + x yᵀ)^{-1} = A⁻¹ - (A⁻¹ x yᵀ A⁻¹) / (1 + yᵀ A⁻¹ x)

公式推导思路
证明的核心是利用几何级数(Neumann级数)展开。我们将 A + x yᵀ 写成 A(I + A⁻¹x yᵀ),然后对 I + M 的逆进行形式上的级数展开。在展开过程中,注意到 yᵀ A⁻¹ x 是一个标量,可以提取出来,最终级数求和得到一个简洁的封闭形式。

这个公式及其推论将在后续步骤中起到至关重要的作用,它允许我们将包含第 N 个数据向量的矩阵与不包含它的矩阵联系起来。

另一个关键引理:高斯向量的二次型期望

在应用Sherman-Morrison公式后,我们会遇到形如 E[ xᵀ B x ] 的项,其中 x 是标准高斯向量,B 是一个与 x 独立的矩阵。

以下是关于这个期望值的一个简单而重要的引理。

引理
x ~ N(0, I_P) 是标准高斯随机向量,B 是一个 P×P 矩阵(可以是随机的),且 Bx 独立。那么有:
E[ xᵀ B x ] = Tr[ E ]

证明
我们将二次型展开为分量求和形式:
xᵀ B x = Σ_{i,j=1}^{P} x_i B_{ij} x_j
对其取期望,并利用 Bx 的独立性:
E[ xᵀ B x ] = Σ_{i,j} E[ B_{ij} x_i x_j ] = Σ_{i,j} E[ B_{ij} ] E[ x_i x_j ]
由于 x 的分量独立且 E[x_i x_j] = δ_{ij}(当 i=j 时为1,否则为0),上式简化为:
Σ_{i=1}^{P} E[ B_{ii} ] = E[ Σ_{i=1}^{P} B_{ii} ] = E[ Tr(B) ] = Tr[ E ]
证毕。

这个引理使得我们可以将涉及随机向量的复杂期望,转化为熟悉的矩阵迹的期望。

总结与下步展望

本节课中,我们一起为证明Marchenko-Pastur定律做好了核心的理论准备:

  1. 明确了证明目标:将特征值分布问题转化为证明Stieltjes变换的收敛性 E[S_n(z)] → S_MP(z)
  2. 引入了核心工具Sherman-Morrison公式,用于处理由单个数据向量引起的秩-1矩阵扰动。
  3. 证明了关键引理:关于高斯向量二次型期望的引理,它将随机二次型与矩阵的迹联系起来。

在下一节课中,我们将把这些工具结合起来。具体步骤是:将Wishart矩阵 Σ̂ 分解为前 N-1 个数据向量的和加上最后一个数据向量的秩-1扰动。然后,应用Sherman-Morrison公式将 S_n(z)S_{n-1}(z) 表示,并利用独立性和高斯向量的性质进行化简。最终,我们将导出一个关于极限 S(z) 的方程,并验证 S_MP(z) 是该方程的唯一解,从而完成证明。

013:Stieltjes变换的Marchenko-Pastur方程证明

概述

在本节课中,我们将学习如何利用Stieltjes变换来证明Marchenko-Pastur定律。我们将整合之前学到的工具,通过一系列代数变换和渐进论证,最终推导出Stieltjes变换所满足的方程。

证明思路与初始设定

上一节我们介绍了Stieltjes变换和秩一摄动公式。本节中,我们将利用这些工具来推导Marchenko-Pastur方程。

我们的目标是控制样本协方差矩阵的Stieltjes变换。设样本矩阵为 ( X \in \mathbb{R}^{p \times n} ),其列向量为 ( x_1, \dots, x_n )。样本协方差矩阵为:
[
S_n = \frac{1}{n} \sum_{k=1}^{n} x_k x_k^T
]
我们考虑其Stieltjes变换:
[
s_n(z) = \frac{1}{p} \operatorname{Tr} \left[ (S_n - zI_p)^{-1} \right]
]
为了证明方便,我们考虑未归一化的矩阵 ( B = \sum_{k=1}^{n} x_k x_k^T - n z I_p ),其Stieltjes变换与 ( s_n(z) ) 密切相关。

证明的核心思想是对矩阵 ( B ) 进行分解,并应用秩一摄动公式。

关键分解与秩一摄动

我们首先将矩阵 ( B ) 分解为两部分:一个包含前 ( n-1 ) 个样本的矩阵 ( A ),以及最后一个样本的秩一摄动。
[
B = A + x_n x_n^T
]
其中:
[
A = \sum_{k=1}^{n-1} x_k x_k^T - n z I_p
]
根据矩阵求逆引理(秩一摄动公式),我们有:
[
(B^{-1}){nn} = \frac{x_n^T A^{-1} x_n}{1 + x_n^T A^{-1} x_n}
]
这里,( (B^{-1})
) 表示在由 ( x_n ) 张成的子空间上的投影。由于 ( x_n ) 独立于构成矩阵 ( A ) 的其他样本,根据大数定律和集中性,量 ( x_n^T A^{-1} x_n ) 会接近其期望值,即 ( \operatorname{Tr}(A^{-1}) )。

因此,我们可以近似得到:
[
x_n^T B^{-1} x_n \approx \frac{\operatorname{Tr}(A^{-1})}{1 + \operatorname{Tr}(A^{-1})}
]

对称性与求和技巧

上述推导是针对最后一个样本 ( x_n ) 进行的。然而,由于样本的独立同分布性质,我们可以对任何一个样本 ( x_k ) 进行相同的分解和论证,结论在渐进意义下是相同的。

因此,对于任意 ( k = 1, \dots, n ),我们都有:
[
x_k^T B^{-1} x_k \approx \frac{\operatorname{Tr}(A_k^{-1})}{1 + \operatorname{Tr}(A_k^{-1})}
]
其中 ( A_k ) 是移除了第 ( k ) 个样本后的矩阵。在渐进极限下,所有 ( \operatorname{Tr}(A_k^{-1}) ) 都趋于相同的值。

现在,我们考虑对所有 ( k ) 求和:
[
\sum_{k=1}^{n} x_k^T B^{-1} x_k \approx n \cdot \frac{\operatorname{Tr}(A^{-1})}{1 + \operatorname{Tr}(A^{-1})}
]

迹的线性性质与矩阵重组

接下来,我们处理求和式的左边。利用迹的线性性质和循环置换性质,我们可以重写每一项:
[
x_k^T B^{-1} x_k = \operatorname{Tr}(x_k^T B^{-1} x_k) = \operatorname{Tr}(x_k x_k^T B^{-1})
]
因此,求和式变为:
[
\sum_{k=1}^{n} \operatorname{Tr}(x_k x_k^T B^{-1}) = \operatorname{Tr}\left( \left( \sum_{k=1}^{n} x_k x_k^T \right) B^{-1} \right)
]
注意到 ( \sum_{k=1}^{n} x_k x_k^T = B + n z I_p )。将其代入上式:
[
\operatorname{Tr}\left( (B + n z I_p) B^{-1} \right) = \operatorname{Tr}(I_p) + n z \operatorname{Tr}(B^{-1}) = p + n z \operatorname{Tr}(B^{-1})
]

推导渐进方程

现在,我们将左右两边联系起来。我们有:
[
p + n z \operatorname{Tr}(B^{-1}) \approx n \cdot \frac{\operatorname{Tr}(A^{-1})}{1 + \operatorname{Tr}(A^{-1})}
]
两边同时除以 ( n ),并引入比例系数 ( \gamma_n = p/n ):
[
\frac{p}{n} + z \operatorname{Tr}(B^{-1}) \approx \frac{\operatorname{Tr}(A^{-1})}{1 + \operatorname{Tr}(A^{-1})}
]
回忆Stieltjes变换的定义。对于矩阵 ( B ),其(未归一化的)Stieltjes变换与 ( \operatorname{Tr}(B^{-1}) ) 相关。更精确地说,在渐进意义下,当 ( n, p \to \infty ) 且 ( \gamma_n \to \gamma > 0 ) 时,我们有:
[
\operatorname{Tr}(B^{-1}) \approx \gamma \cdot s(z)
]
[
\operatorname{Tr}(A^{-1}) \approx \gamma \cdot s(z)
]
其中 ( s(z) ) 是极限Stieltjes变换。

将上述近似代入方程,我们得到关于极限Stieltjes变换 ( s(z) ) 的方程:
[
\gamma + z \gamma s(z) \approx \frac{\gamma s(z)}{1 + \gamma s(z)}
]
两边同时除以 ( \gamma )(假设 ( \gamma > 0 )),我们得到Marchenko-Pastur方程的核心形式:
[
1 + z s(z) = \frac{s(z)}{1 + \gamma s(z)}
]

总结

本节课中,我们一起学习了如何证明Marchenko-Pastur定律的Stieltjes变换方程。我们通过以下关键步骤完成了证明:

  1. 将样本协方差矩阵分解为主部分和一个秩一摄动。
  2. 应用矩阵求逆引理和样本的独立性,将涉及随机向量的二次型近似为矩阵的迹。
  3. 利用样本的对称性,对所有样本求和,从而将问题转化为对矩阵迹的控制。
  4. 巧妙地利用迹的线性性质和循环置换,将求和式重组为包含目标矩阵 ( B^{-1} ) 的迹的形式。
  5. 在渐进极限 ( n, p \to \infty, p/n \to \gamma ) 下,推导出极限Stieltjes变换 ( s(z) ) 所满足的方程:
    [
    1 + z s(z) = \frac{s(z)}{1 + \gamma s(z)}
    ]

这个方程是一个关于 ( s(z) ) 的二次方程,求解它即可得到Marchenko-Pastur分布的Stieltjes变换的显式表达式,进而通过Stieltjes反演公式可以恢复出特征值的极限谱密度。整个证明过程融合了矩阵分析、概率论和渐进分析的思想,是随机矩阵理论中的一个经典范例。

014:Marchenko-Pastur定律与Stieltjes反演公式的证明 🧮

在本节课中,我们将学习如何证明Marchenko-Pastur定律,该定律描述了Wishart矩阵的渐近特征值分布。我们将使用Stieltjes变换,并通过Stieltjes反演公式,从变换的解析表达式中推导出具体的概率密度函数。

概述

我们考虑一个Wishart矩阵,其定义为 W = (1/n) X X^T。其中,X 是一个 p × n 的矩阵,其列向量是独立同分布的高斯随机向量,均值为0,协方差矩阵为单位矩阵 I。这意味着 X 中的所有元素都是独立且服从标准正态分布。

我们关注当 np 以相同速率趋于无穷大时的渐近情况,即 p/n → γ,其中 γ 介于0和1之间。我们的目标是证明,在此极限下,Wishart矩阵的经验谱分布收敛于Marchenko-Pastur分布。

Stieltjes变换与关键方程

上一节我们介绍了Stieltjes变换作为分析特征值分布的工具。对于我们的矩阵 W,其Stieltjes变换定义为:

S_n(z) = (1/p) E[ Tr( (W - zI)^{-1} ) ]

其中,z 位于复平面的上半平面,Ip×p 的单位矩阵。

通过比较具有 n 个观测值和 n-1 个观测值的矩阵,我们推导出了 S_n(z) 满足的近似方程。在 n, p → ∞p/n → γ 的极限下,该方程变为极限Stieltjes变换 S(z) 的精确方程:

1 + z S(z) = S(z) / (1 + γ S(z))

这是一个关于 S(z) 的二次方程。将其重写为标准二次形式:

γ z S(z)^2 - (1 - z - γ) S(z) + 1 = 0

求解Stieltjes变换

我们可以解这个二次方程。其解为:

S(z) = [ (1 - z - γ) + √( (z + γ - 1)^2 - 4γ z ) ] / (2γ z)

由于Stieltjes变换在复平面上半平面的 z 处取值也必须在上半平面,我们选择了根号前的正号(“+”),以确保结果的虚部为正。

至此,我们得到了Marchenko-Pastur分布的极限Stieltjes变换的显式表达式。

Stieltjes反演公式

为了从Stieltjes变换 S(z) 中恢复出概率密度函数 ρ(t),我们需要使用Stieltjes反演公式。

以下是Stieltjes反演公式的表述:
ρ(t) 是一个连续的概率密度函数。其Stieltjes变换 S(z) 在复平面上半平面有定义,并且可以连续延拓到实轴。那么,密度函数可以通过以下极限得到:

ρ(t) = (1/π) lim_{ε→0⁺} Im[ S(t + iε) ]

其中,Im[·] 表示取复数的虚部。

这个公式的直观理解是,表达式 (1/π) Im[ S(t + iε) ]ε → 0 时,会收敛到狄拉克δ函数与密度函数 ρ 的卷积,从而在极限下精确给出 ρ(t)

应用反演公式推导密度

现在,我们将反演公式应用于我们求得的 S(z)。我们将 z 替换为 t + iε,并取 ε → 0 的极限。关键在于分析平方根项 √( (t + iε + γ - 1)^2 - 4γ (t + iε) ) 在实轴上的行为。

定义两个关键点:
γ₊ = (1 + √γ)²
γ₋ = (1 - √γ)²

可以验证,平方根内的表达式在实轴上为:
(t - γ₊)(t - γ₋)

以下是分析结果:

  • t 在区间 [γ₋, γ₊] 之外时,(t - γ₊)(t - γ₋) > 0。平方根是实数,因此 S(t) 的虚部为零。根据反演公式,ρ(t) = 0
  • t 在区间 (γ₋, γ₊) 之内时,(t - γ₊)(t - γ₋) < 0。平方根是纯虚数(i 乘以一个正实数)。此时 S(t) 具有非零虚部。

计算此区间内的虚部,我们得到密度函数:

ρ(t) = (1/(2πγ t)) √( (γ₊ - t)(t - γ₋) ), 对于 t ∈ [γ₋, γ₊]

这正是Marchenko-Pastur定律所描述的密度函数。

总结与拓展

本节课中,我们一起学习了证明Marchenko-Pastur定律的完整流程:

  1. 我们为Wishart矩阵的Stieltjes变换建立了一个方程。
  2. 在渐近极限下求解该方程,得到了Stieltjes变换的显式解。
  3. 我们介绍了Stieltjes反演公式,它建立了Stieltjes变换与概率密度函数之间的联系。
  4. 最后,我们将反演公式应用于我们的解,直接推导出了Marchenko-Pastur密度函数。

这种方法具有普适性。例如,对于著名的Wigner矩阵(其元素为独立同分布的随机变量),可以采用类似的思路推导出其特征值的渐近分布——Wigner半圆律。此外,对于协方差矩阵不是单位矩阵的更一般Wishart矩阵,虽然导出的方程可能更复杂(非二次),无法获得显式解,但依然可以通过数值迭代方法求解其Stieltjes变换,进而研究其谱分布。这些拓展练习将帮助你更深入地掌握高维随机矩阵的分析技巧。

015:尖峰信号加噪声模型

在本节课中,我们将要学习一种重要的统计模型——尖峰信号加噪声模型。我们将探讨当协方差矩阵在单位矩阵基础上增加一个“信号”方向时,对应的Wishart矩阵的特征值会发生什么变化,以及我们如何从观测数据中检测到这个信号。

上一节我们介绍了标准的Marchenko-Pastur分布,它描述了当数据向量各分量独立同分布时,样本协方差矩阵的特征值分布。本节中我们来看看,如果我们在背景噪声中加入一个特定的信号方向,情况会发生怎样的变化。

模型设定

考虑一个随机向量,其协方差矩阵不再是简单的单位矩阵,而是在一个特定方向上进行了增强。具体形式如下:

公式
[
\Sigma = I_p + \mu u u^T
]

其中:

  • ( I_p ) 是 ( p \times p ) 的单位矩阵,代表背景噪声。
  • ( \mu > 0 ) 是一个正数,代表信号强度。
  • ( u ) 是一个 ( p ) 维的单位向量 (( |u|=1 )),代表信号的方向。
  • ( u u^T ) 是一个秩为1的矩阵。

这个模型被称为“尖峰模型”或“信号加噪声模型”。核心问题是:当我们观测由这种分布生成的样本协方差矩阵(即Wishart矩阵)时,我们能否从其特征值谱中检测到这个额外的信号 ( \mu )?

直观理解与核心问题

我们回顾一下标准情况(( \Sigma = I_p ))。此时,样本协方差矩阵的特征值服从Marchenko-Pastur分布,其支撑集为 ( [\gamma_-, \gamma_+] ),其中 ( \gamma_\pm = (1 \pm \sqrt{\gamma})^2 ),( \gamma = p/n )。在有限样本下,特征值会紧密地集中在这个支撑集附近,最大特征值非常接近 ( \gamma_+ )。

现在,我们加入一个尖峰信号。直观上,如果 ( \mu ) 足够大,我们期望在样本协方差矩阵的特征值谱中,除了看到代表噪声的Marchenko-Pastur“主体”分布外,还会在 ( \gamma_+ ) 的右侧看到一个孤立的“离群”特征值。这个离群值就对应着隐藏的信号。

以下是核心问题:

  1. 信号强度 ( \mu ) 需要多大,这个离群特征值才会出现?
  2. 这个离群特征值的位置 ( \lambda ) 与原始信号强度 ( \mu ) 之间有什么关系?

主要定理

对于上述模型,在渐近 regime(( n, p \to \infty ), ( p/n \to \gamma \in (0, \infty) ))下,样本协方差矩阵的最大特征值 ( \lambda_{\max} ) 的行为由以下定理描述:

定理

  • 如果 ( \mu > \sqrt{\gamma} ),那么最大特征值 ( \lambda_{\max} ) 会脱离Marchenko-Pastur分布的主体,并收敛到:
    [
    \lambda \to 1 + \mu + \frac{\gamma \mu}{1 + \mu}
    ]
  • 如果 ( \mu \leq \sqrt{\gamma} ),那么最大特征值 ( \lambda_{\max} ) 仍然收敛到Marchenko-Pastur分布的右端点:
    [
    \lambda \to \gamma_+ = (1 + \sqrt{\gamma})^2
    ]

这个转变点 ( \mu = \sqrt{\gamma} ) 被称为 BBP相变(Baik, Ben Arous, Péché)。当 ( \mu ) 跨越此临界值时,可检测的离群特征值突然出现。

理论推导思路

我们的目标是求解形如 ( S = \frac{1}{n} X X^T ) 的矩阵的特征值,其中 ( X ) 的每一列服从 ( N(0, \Sigma) ) 分布,且 ( \Sigma = I + \mu u u^T )。

以下是推导的关键步骤:

步骤1:转化为标准Wishart矩阵
我们可以将 ( X ) 写作 ( X = \Sigma^{1/2} Y ),其中 ( Y ) 的每一列服从 ( N(0, I) )。于是样本协方差矩阵变为:
[
S = \frac{1}{n} \Sigma^{1/2} Y Y^T \Sigma^{1/2}
]
这里 ( \frac{1}{n} Y Y^T ) 就是一个协方差为单位矩阵的标准Wishart矩阵,其特征值服从Marchenko-Pastur分布。

步骤2:建立特征方程
我们寻找一个特征值 ( \lambda ),它位于Marchenko-Pastur支撑集之外(即 ( \lambda > \gamma_+ ))。这满足特征方程:
[
\det(S - \lambda I) = 0
]
将 ( S ) 的表达式代入,并利用 ( \Sigma ) 可逆的性质,可以将方程转化为:
[
\det\left( \frac{1}{n} Y Y^T - \lambda \Sigma^{-1} \right) = 0
]

步骤3:利用Sherman-Morrison公式
由于 ( \Sigma = I + \mu u u^T ) 是单位矩阵的秩1扰动,其逆矩阵有显式公式(Sherman-Morrison公式):
[
\Sigma^{-1} = I - \frac{\mu}{1+\mu} u u^T
]
将此式代入特征方程。

步骤4:分离出已知部分
经过代数整理,特征方程可以写为:
[
\det\left( \frac{1}{n} Y Y^T - \lambda I \right) \cdot \det\left( I + \frac{\lambda \mu}{1+\mu} \left( \frac{1}{n} Y Y^T - \lambda I \right)^{-1} u u^T \right) = 0
]
因为我们假设 ( \lambda ) 不是标准Wishart矩阵 ( \frac{1}{n} Y Y^T ) 的特征值(它在支撑集外),所以第一个行列式非零。因此,方程简化为第二个行列式为零:
[
\det\left( I + c \cdot \left( \frac{1}{n} Y Y^T - \lambda I \right)^{-1} u u^T \right) = 0, \quad c = \frac{\lambda \mu}{1+\mu}
]

步骤5:应用Sylvester行列式恒等式
上式中,矩阵 ( A = c \left( \frac{1}{n} Y Y^T - \lambda I \right)^{-1} u ) (( p \times 1 ) 矩阵)和 ( B = u^T ) (( 1 \times p ) 矩阵)的乘积构成了一个秩1矩阵。Sylvester恒等式指出:
[
\det(I_p + A B) = \det(I_1 + B A)
]
左边是 ( p \times p ) 矩阵的行列式,右边是 ( 1 \times 1 ) 矩阵(即一个标量)的行列式。应用此恒等式,我们的方程神奇地简化成了一个标量方程:
[
1 + \frac{\lambda \mu}{1+\mu} \cdot u^T \left( \frac{1}{n} Y Y^T - \lambda I \right)^{-1} u = 0
]

步骤6:联系到Stieltjes变换
注意到 ( u^T ( \frac{1}{n} Y Y^T - \lambda I )^{-1} u ) 这一项,当 ( n, p ) 很大时,根据遍历性,它近似等于矩阵 ( \frac{1}{n} Y Y^T ) 的Stieltjes变换 ( m(\lambda) ) 在点 ( \lambda ) 的值。对于Marchenko-Pastur分布,其Stieltjes变换有已知的解析形式。

步骤7:求解最终方程
将Marchenko-Pastur分布的Stieltjes变换公式代入上述标量方程,我们得到一个关于 ( \lambda ) 和 ( \mu ) 的方程。解这个方程,并注意到解存在的条件(( \lambda ) 为实数且 ( > \gamma_+ )),最终就能推导出定理中给出的关系:
[
\lambda = 1 + \mu + \frac{\gamma \mu}{1 + \mu}, \quad \text{当且仅当} \quad \mu > \sqrt{\gamma}
]
而当 ( \mu \leq \sqrt{\gamma} ) 时,该方程在 ( \lambda > \gamma_+ ) 范围内无解,意味着最大特征值仍位于 ( \gamma_+ )。


本节课中我们一起学习了尖峰信号加噪声模型。我们了解到,并非任何微弱的信号都能从高维噪声中被检测到。只有当信号强度 ( \mu ) 超过一个由数据维度比 ( \gamma ) 决定的临界值 ( \sqrt{\gamma} ) 时,它才会在样本协方差矩阵的谱中产生一个可观测的离群特征值,其位置由 ( \lambda = 1 + \mu + \frac{\gamma \mu}{1 + \mu} ) 给出。这一现象被称为BBP相变。推导过程巧妙地将一个复杂的矩阵行列式计算问题,通过Sylvester恒等式简化为了一个标量方程,展示了随机矩阵理论中代数技巧的强大力量。

016:信号加噪声定理的证明 🧮

在本节课中,我们将学习如何证明信号加噪声模型(也称为尖峰模型)中的一个核心定理。该定理描述了当我们在一个随机矩阵(如Wishart矩阵)上施加一个低秩扰动(例如秩为1的扰动)时,最大的特征值会发生什么变化。我们将看到,只有当扰动强度足够大时,它才会在谱中“显现”出来。

模型设定与定理陈述

上一节我们介绍了信号加噪声模型的基本概念。本节中,我们来看看该模型的具体形式以及我们要证明的定理。

我们考虑一个Wishart矩阵模型,其协方差矩阵本质上是单位矩阵,但受到一个秩为1的扰动。具体来说,我们有一个协方差矩阵 Σ,其形式为:
Σ = I + μ u u^T
其中,I 是 p×p 的单位矩阵,u 是一个单位向量(||u||=1),μ 是一个正数。因此,Σ 有一个特征值为 1+μ,对应的特征向量是 u

我们从这个分布中抽取 n 个独立的 p 维高斯向量,构成数据矩阵 X。然后我们考虑样本协方差矩阵(即Wishart矩阵):
Σ̂ = (1/n) X X^T

我们关注的是当 p 和 n 都以相同的速度趋于无穷大时的渐近情况,即它们的比值固定为一个常数 γ:
p / n → γ, 其中 0 < γ < 1。

我们要研究的是 Σ̂ 的最大特征值 λ_max 的渐近行为。定理陈述如下:

  • 如果 μ > √γ,那么最大特征值会从Marchenko-Pastur分布的支撑集(其右端点为 (1+√γ)²)中“弹出”,并收敛到一个确定的值:
    λ_max → (1+μ) (1 + γ/μ)
  • 如果 μ ≤ √γ,那么最大特征值将收敛到Marchenko-Pastur分布的右端点,即:
    λ_max → (1+√γ)²
    这意味着我们无法从谱中检测到这个尖峰信号。

证明思路:利用特征方程

证明的核心思想是利用特征方程。对于一个矩阵 A,其特征值 λ 满足:
det(A - λ I) = 0

对于我们的矩阵 Σ̂,直接求解这个方程是困难的,因为它是一个 p×p 的矩阵。然而,由于扰动是秩为1的,我们可以设法将扰动的影响与基础的Marchenko-Pastur部分分离开。

以下是证明的关键步骤概述:

  1. 变量变换:首先,我们将具有协方差 Σ 的向量 X,通过变换 X = Σ^{1/2} Y,转换为具有单位协方差 I 的向量 Y。这样,Y 就对应于标准的(未扰动的)Wishart矩阵。
  2. 重写特征方程:将 Σ̂ 的特征方程用 Y 表示出来。经过一系列矩阵运算和分解(利用矩阵行列式引理,即Sylvester恒等式),我们可以将原始的 p×p 行列式方程,化简为一个关于标量的方程。
  3. 联系Stieltjes变换:化简后的方程中,会出现形如 u^T ( (1/n)Y Y^T - λ I )^{-1} u 的项。这正是样本协方差矩阵的Stieltjes变换在向量 u 上的取值。由于 Y 的协方差是单位阵,其分布是旋转不变的,因此对于任何单位向量 u,这个值都近似等于Stieltjes变换的迹(即平均)。在极限下,它收敛到Marchenko-Pastur分布的Stieltjes变换 s(λ)
  4. 得到最终方程:最终,我们得到一个关于 λ 的标量方程:
    1 + [λμ/(1+μ)] * s(λ) = 0
    或者等价地:
    λ * s(λ) = -(1+μ)/μ
  5. 求解方程:我们需要找到满足上述方程的 λ,并且这个 λ 要大于Marchenko-Pastur支撑集的右端点 (1+√γ)²。我们利用已知的Marchenko-Pastur分布的Stieltjes变换所满足的方程:
    s(λ) = 1 / [1 - λ - γ λ s(λ)]
    通过巧妙的代数操作(目的是消去 s(λ) 而保留 λ s(λ)),我们可以将两个方程结合,直接解出 λ 关于 μ 和 γ 的表达式。

证明过程详解

现在,让我们一步步地完成上述代数推导。

我们从关键方程开始:
λ * s(λ) = -(1+μ)/μ (方程 A)

我们知道Marchenko-Pastur分布的Stieltjes变换 s(λ) 满足以下方程:
s(λ) = 1 / [1 - λ - γ λ s(λ)] (方程 B)

我们的目标是将方程 B 改写成包含 λ s(λ) 的形式,然后代入方程 A。

首先,对方程 B 两边取倒数:
1 / s(λ) = 1 - λ - γ λ s(λ)

将包含 λ s(λ) 的项移到一边:
1 - λ - γ λ s(λ) = 1 / s(λ)

现在,我们注意到方程 A 给出了 λ s(λ) 的值。但我们还需要处理左边的 1/s(λ)。我们可以再次利用方程 B 的原始形式。由方程 B 可得:
1 + λ s(λ) = 1 / [1 - λ - γ λ s(λ)] ? 让我们仔细推导。

实际上,从方程 B: s(λ) = 1 / [1 - λ - γ λ s(λ)],我们可以写出:
1 - λ - γ λ s(λ) = 1 / s(λ)

这和我们上面得到的一样。但我们想要一个包含 (1 + λ s(λ)) 的表达式。观察方程 B,我们可以将其写为:
s(λ) * [1 - λ - γ λ s(λ)] = 1
展开得:
s(λ) - λ s(λ) - γ λ [s(λ)]² = 1
这看起来不是直接有用的形式。

一个更有效的方法是,将方程 B 改写为:
1 = s(λ) * (1 - λ - γ λ s(λ))
=> 1 = s(λ) - λ s(λ) - γ λ [s(λ)]²
=> γ λ [s(λ)]² + (λ - 1) s(λ) + 1 = 0
这是一个关于 s(λ) 的二次方程。但我们可以用另一种方式。

让我们回到这个等式:
1 - λ - γ λ s(λ) = 1 / s(λ)

我们想要求解 λ。将方程 A (λ s(λ) = -(1+μ)/μ) 代入上式:
1 - λ - γ * [ -(1+μ)/μ ] = 1 / s(λ)
=> 1 - λ + γ(1+μ)/μ = 1 / s(λ) (方程 C)

现在,我们需要用已知量表示 1/s(λ)。由方程 A,我们有 s(λ) = -(1+μ)/(μλ)。因此:
1 / s(λ) = -μλ / (1+μ)

将上述代入方程 C:
1 - λ + γ(1+μ)/μ = -μλ / (1+μ)

现在,我们得到了一个关于 λ 的线性方程。为了求解 λ,进行以下操作:

  1. 将项 -μλ/(1+μ) 移到左边:
    1 - λ + γ(1+μ)/μ + μλ/(1+μ) = 0
  2. 合并包含 λ 的项:
    λ [ -1 + μ/(1+μ) ] + 1 + γ(1+μ)/μ = 0
  3. 化简 λ 的系数: -1 + μ/(1+μ) = [-(1+μ) + μ] / (1+μ) = -1/(1+μ)
  4. 因此方程变为:
    λ * [-1/(1+μ)] + 1 + γ(1+μ)/μ = 0
  5. 两边乘以 (1+μ):
    -λ + (1+μ) + γ(1+μ)²/μ = 0
  6. 最后,解出 λ:
    λ = (1+μ) + γ(1+μ)²/μ = (1+μ) (1 + γ(1+μ)/μ)? 注意检查。

让我们仔细计算第5步:
-λ + (1+μ) + [γ(1+μ)²]/μ = 0
=> λ = (1+μ) + [γ(1+μ)²]/μ
提取公因子 (1+μ):
λ = (1+μ) [ 1 + γ(1+μ)/μ ]

这与定理中陈述的 λ_max → (1+μ) (1 + γ/μ) 一致吗?注意,定理中是 (1 + γ/μ),而我们得到的是 (1 + γ(1+μ)/μ)。这里似乎有出入。

我们需要回溯。定理的标准陈述是:λ → (1+μ) (1 + γ/μ)。我们检查一下推导。一个常见的推导结果是:
λ = 1 + μ + γ + γ/μ
因式分解: = (1+μ) (1 + γ/μ)? 展开 (1+μ)(1+γ/μ) = 1 + γ/μ + μ + γ。是的,这等于 1 + μ + γ + γ/μ。所以我们的推导目标应该是得到 λ = 1 + μ + γ + γ/μ。

从我们的方程: -λ + (1+μ) + γ(1+μ)²/μ = 0
=> λ = (1+μ) + γ(1+μ)²/μ
展开 (1+μ)² = 1 + 2μ + μ²
=> λ = 1+μ + γ(1 + 2μ + μ²)/μ = 1+μ + γ/μ + 2γ + γμ
这显然是错误的,因为它包含了 2γ 和 γμ 项。

错误出现在哪里?很可能出现在从方程 C 代入的步骤。方程 C 是:
1 - λ + γ(1+μ)/μ = 1 / s(λ)
而 1/s(λ) = -μλ/(1+μ)
所以:
1 - λ + γ(1+μ)/μ = -μλ/(1+μ)

现在正确求解这个方程:
两边乘以 (1+μ) 以消去分母:
(1+μ)(1 - λ) + γ(1+μ)²/μ = -μλ

展开左边第一项:(1+μ)(1 - λ) = 1+μ - λ - λμ
所以整个方程为:
1+μ - λ - λμ + γ(1+μ)²/μ = -μλ

注意,左边有 -λμ,右边有 -μλ,它们是相同的项,可以抵消。
抵消后得到:
1+μ - λ + γ(1+μ)²/μ = 0

现在,将 -λ 移到右边:
1+μ + γ(1+μ)²/μ = λ

所以 λ = 1+μ + γ(1+μ)²/μ。
展开 γ(1+μ)²/μ = γ(1 + 2μ + μ²)/μ = γ/μ + 2γ + γμ。
因此 λ = 1 + μ + γ/μ + 2γ + γμ。

这仍然不对。我意识到问题可能出在最初的方程 A 上。在视频推导中,方程是:
1 + [λμ/(1+μ)] s(λ) = 0
=> [λμ/(1+μ)] s(λ) = -1
=> λ s(λ) = -(1+μ)/μ
这是正确的。

但方程 B(Stieltjes变换方程)的标准形式是(对于协方差为 I 的Wishart矩阵):
s(λ) = \frac{1 - γ - λ + \sqrt{(λ - (1-\sqrtγ)²)((1+\sqrtγ)² - λ)}}{2γλ} (当 λ 在支撑集外)
或者,它满足方程:
λ s(λ)² + (λ + γ - 1) s(λ) + 1 = 0
让我们使用这个二次形式来验证。

我们有 λ s(λ) = - (1+μ)/μ。令 t = λ s(λ),则 t = - (1+μ)/μ。
同时,s(λ) = t / λ。

代入二次方程:
λ * (t/λ)² + (λ + γ - 1) * (t/λ) + 1 = 0
=> t²/λ + (λ + γ - 1)t/λ + 1 = 0
两边乘以 λ:
t² + (λ + γ - 1)t + λ = 0

现在代入 t = - (1+μ)/μ:
[-(1+μ)/μ]² + (λ + γ - 1)*[-(1+μ)/μ] + λ = 0
=> (1+μ)²/μ² - (λ + γ - 1)(1+μ)/μ + λ = 0

两边乘以 μ² 以消去分母:
(1+μ)² - μ(1+μ)(λ + γ - 1) + λ μ² = 0

这是一个关于 λ 的方程。展开:
(1+μ)² - μ(1+μ)λ - μ(1+μ)(γ-1) + λ μ² = 0
合并 λ 项: λ [ -μ(1+μ) + μ² ] = λ [ -μ - μ² + μ² ] = -λ μ
常数项: (1+μ)² - μ(1+μ)(γ-1) = (1+μ)² - μ(1+μ)γ + μ(1+μ)

所以方程变为:
-λ μ + (1+μ)² - μ(1+μ)γ + μ(1+μ) = 0
=> -λ μ + (1+μ)² + μ(1+μ) - μ(1+μ)γ = 0
提取 (1+μ): -λ μ + (1+μ)[ (1+μ) + μ - μγ ] = 0
=> -λ μ + (1+μ)[ 1 + 2μ - μγ ] = 0
=> λ μ = (1+μ)(1 + 2μ - μγ)
=> λ = (1+μ)(1 + 2μ - μγ) / μ

这看起来也很复杂。标准结果应该是 λ = (1+μ)(1 + γ/μ)。

看来直接代入二次方程的方法也未能快速得到简洁结果。视频中采用的方法是通过Stieltjes变换方程的另一形式进行代数操作,从而线性化方程。让我们信任视频中的推导路径,其最终得到线性方程后的解法是简洁的。

根据视频转录,从方程 1 - λ + γ(1+μ)/μ = -μλ/(1+μ) 开始,正确推导如下(转录第100-110行附近):
1 - λ + γ(1+μ)/μ = -μλ/(1+μ)
两边乘以 (1+μ)
(1+μ)(1 - λ) + γ(1+μ)²/μ = -μλ
展开 (1+μ)(1 - λ) = 1+μ - λ - λμ
1+μ - λ - λμ + γ(1+μ)²/μ = -μλ
现在,左边的 -λμ 和右边的 -μλ 是同类项,将它们移到同一边。将右边的 -μλ 移到左边:
1+μ - λ - λμ + γ(1+μ)²/μ + μλ = 0
-λμ+μλ 相互抵消,得到:
1+μ - λ + γ(1+μ)²/μ = 0
所以 λ = 1+μ + γ(1+μ)²/μ
这与之前一致。但视频中随后说“This means lambda... I have this plus gamma 1 plus mu divided by mu. And that's it.” 似乎他得到了 λ = 1 + μ + γ(1+μ)/μ。这可能是转录遗漏或口误,或者是通过另一种Stieltjes变换的方程形式得到的。

实际上,使用Stieltjes变换方程 s(λ) = 1 / (1 - λ - γ λ s(λ)),并利用 λ s(λ) = - (1+μ)/μ,我们可以直接得到:
代入 s(λ) = t/λ,其中 t = - (1+μ)/μ
t/λ = 1 / (1 - λ - γ t)
=> t(1 - λ - γ t) = λ
=> t - tλ - γ t² = λ
=> t - γ t² = λ + tλ = λ(1+t)
=> λ = (t - γ t²) / (1+t)

现在代入 t = - (1+μ)/μ
分子: t - γ t² = t(1 - γ t) = - (1+μ)/μ * [1 - γ ( - (1+μ)/μ ) ] = - (1+μ)/μ * [1 + γ(1+μ)/μ ]
分母: 1+t = 1 - (1+μ)/μ = (μ - (1+μ)) / μ = -1/μ
因此,
λ = [ - (1+μ)/μ * (1 + γ(1+μ)/μ) ] / [ -1/μ ] = (1+μ) * (1 + γ(1+μ)/μ)
这与我们之前得到的结果一致:λ = (1+μ) + γ(1+μ)²/μ

然而,文献中标准的“尖峰模型”定理结论是(参见Johnstone‘2001等):
如果 μ > √γ,则 λ_max → (1+μ) (1 + γ/μ)
我们的结果是 (1+μ) (1 + γ(1+μ)/μ),多了一个 (1+μ)。不一致的原因是什么?

关键点在于模型定义的细微差别。在经典的尖峰模型中,协方差矩阵的结构通常是:
Σ = I + β v v^T,其中 β 是尖峰强度,v 是单位向量。
而我们模型中的 μ 定义在 Σ 上,使得一个特征值为 1+μ
在Johnstone的表述中,如果潜在的单因素(尖峰)的方差是 1+β,那么样本最大特征值的极限是 (1+β)(1+γ/β)
在我们的推导中,μ 对应的是 β。所以结果应该是 (1+μ)(1+γ/μ)

检查我们的推导:我们从方程 1 + [λμ/(1+μ)] s(λ) = 0 开始。这个方程来源于将行列式化简后得到 det(I + [λμ/(1+μ)] * u^T G u) = 0,其中 G 是解析函数。如果我们的模型是 Σ = I + μ u u^T,那么这个推导是自洽的。

让我们重新审视Stieltjes变换方程。对于协方差为 Σ 的Wishart矩阵,其极限谱分布的Stieltjes变换 s(λ) 满足方程:
∫ τ / (1 + τ s(λ)) dH(τ) = 1 - 1/(λ s(λ)),其中 H(τ)Σ 的特征值的极限分布。
在我们的例子中,Σ 的特征值分布是:一个质量为 1/p 在点 1+μ,其余质量为 (p-1)/p 在点 1。当 p→∞ 时,H(τ) 是:一个质量为 0 的点质量在 1+μ(因为 1/p → 0),和一个质量为 1 的点质量在 1。因此,方程变为:
1 / (1 + 1 * s(λ)) = 1 - 1/(λ s(λ))
这正是Marchenko-Pastur方程,对应 Σ = I 的情况。这意味着,在极限下,总体协方差矩阵的谱中尖峰部分的质量消失,因此Stieltjes变换感觉不到它。这解释了为什么我们使用的是 Σ = I 对应的Stieltjes变换方程。

然而,样本最大特征值却能“感觉”到有限强度的尖峰,只要 μ 足够大。我们的推导正是要找出这个条件。

在推导中,我们使用了 s(λ),它是 未扰动 的(协方差为 I 的)Wishart矩阵的Stieltjes变换。这个 s(λ) 满足的方程是(对于 λ 在支撑集外):
s(λ) = 1 / (1 - λ - γ λ s(λ)) (MP方程)

现在,从我们模型的特定计算中,我们得到了关系式:
λ s(λ) = - (1+μ)/μ (模型特定方程)

将模型特定方程代入MP方程:
s(λ) = 1 / (1 - λ - γ * [ - (1+μ)/μ ] ) (因为 γ λ s(λ) = γ * (-(1+μ)/μ)
=> s(λ) = 1 / (1 - λ + γ(1+μ)/μ)

但我们也从模型特定方程知道 s(λ) = - (1+μ)/(μλ)。因此:
- (1+μ)/(μλ) = 1 / (1 - λ + γ(1+μ)/μ)
取倒数:
- μλ/(1+μ) = 1 - λ + γ(1+μ)/μ
=> 1 - λ + γ(1+μ)/μ + μλ/(1+μ) = 0
两边乘以 (1+μ)
(1+μ)(1 - λ) + γ(1+μ)²/μ + μλ = 0
展开 (1+μ)(1-λ) = 1+μ - λ - λμ
1+μ - λ - λμ + γ(1+μ)²/μ + μλ = 0
-λμ+μλ 抵消:
1+μ - λ + γ(1+μ)²/μ = 0
=> λ = 1+μ + γ(1+μ)²/μ = (1+μ) (1 + γ(1+μ)/μ)

为了与标准结果 (1+μ)(1+γ/μ) 一致,我们需要 γ(1+μ)/μ = γ/μ,这要求 μ 被重新定义。实际上,在标准尖峰模型中,总体协方差矩阵通常写为:
Σ = I + (β/γ) v v^T? 或者样本数 n 的影响被考虑在内。

查阅常见文献(如Paul‘2007),定理陈述为:设样本协方差矩阵为 S_n = (1/n) ∑ x_i x_i^T,其中 x_i 是独立同分布的 p 维向量,均值为0,协方差为 Σ_p。设 Σ_p 有特征值 1+α(单个)和 1p-1 重)。设 p/n → γ > 0。则当 n→∞ 时,S_n 的最大特征值几乎必然收敛到:
φ(α) = (1+α)(1+γ/α),若 α > √γ
(1+√γ)²,若 0 ≤ α ≤ √γ
其中 α 就是我们这里的 μ

因此,我们的推导结果 (1+μ)(1+γ(1+μ)/μ) 与标准结果 (1+μ)(1+γ/μ) 不一致。差异在于我们多了一个 (1+μ) 因子。可能的原因是在变量变换 X = Σ^{1/2} Y 时,我们对 Σ 的处理方式影响了最终方程中的系数。也许在推导中,从 XY 的变换引入了一个因子,导致我们模型中的 μ 与标准模型中的 α 关系为 α = μ/(1+μ) 或类似形式。

由于时间关系,我们不再深入追究这个细微的差异。重要的是掌握证明的核心思想:利用秩为1扰动的特性,通过矩阵行列式引理将问题化简,并最终与已知的Stieltjes变换方程相联系,从而在极限下求解出最大特征值的行为

结论与意义

本节课中,我们一起学习了信号加噪声(尖峰)模型定理的证明。

  • 我们首先明确了模型:一个受到秩为1扰动的Wishart矩阵。
  • 证明的核心策略是利用特征方程,并通过矩阵技巧(特别是Sylvester恒等式)将扰动的影响分离出来。
  • 分离后,问题归结为求解一个涉及未扰动矩阵的Stieltjes变换的标量方程。
  • 通过结合Stieltjes变换已知的方程,我们最终可以将问题化为一个可解的方程,从而得到最大特征值在极限下的表达式。
  • 定理清晰地给出了信号能够被检测到的阈值(μ > √γ)以及检测到时特征值的具体位置。

这个定理是高维统计和随机矩阵理论中的一个基石,它量化了在噪声中检测微弱信号的可能性,对主成分分析等机器学习方法有重要的指导意义。

017:双下降与超定情况下的线性回归 🧠📉

在本节课中,我们将探讨神经网络与随机矩阵的联系,并聚焦于一个现代机器学习中的重要现象——“双下降”。我们将从一个最简单的神经网络模型——线性回归入手,分析其在数据过参数化与欠参数化情况下的表现差异。

上一节我们介绍了随机矩阵的基本理论,本节中我们来看看如何将其应用于理解机器学习模型,特别是线性回归中的“双下降”现象。

神经网络简介

神经网络是一种特殊形式的高维函数。它通常将高维空间映射到实数空间,其结构由一系列线性映射(矩阵)和特定的非线性函数(逐元素作用)组合而成。

一个典型的神经网络函数 F 可以表示为:

F(x) = w_L · σ( W_{L-1} · σ( ... σ( W_1 · x ) ... ) )

其中:

  • x 是输入向量(维度为 P)。
  • W_1, W_2, ..., W_{L-1} 是权重矩阵(线性映射)。
  • σ 是非线性激活函数,逐元素作用于向量。
  • w_L 是最后一层的权重向量(线性映射至实数输出)。

当处理多个数据样本时,我们将输入向量堆叠成矩阵 X(P × N),输出堆叠成向量 y(1 × N)。此时,网络的作用可以类似地表示为矩阵运算。

关于神经网络,主要有两类数学问题:

  1. 固定网络的分析:给定一个网络(固定所有权重),研究输入 X 的统计特性与输出 y 的统计特性之间的关系。在权重随机且网络宽度(即中间层维度 M)趋于无穷的极限下,随机神经网络会收敛于高斯过程。
  2. 网络的构建(训练):给定训练数据集 (X, y),如何选择权重参数,使得网络函数 F 能够很好地拟合这些数据,并且能够泛化到未见过的数据。这是应用中的核心问题。

传统学习理论认为,模型参数过多(过参数化)会导致过拟合,从而损害泛化能力。然而,现代神经网络的成功挑战了这一观点,它们在过参数化时依然表现优异,甚至出现“双下降”现象。

经典学习理论与双下降现象

以下是经典学习理论与现代观察(双下降)的对比:

  • 经典学习理论曲线

    • 训练误差:随着模型复杂度(参数数量)增加,训练误差持续下降,最终在参数足够多时可以完美拟合(插值)训练数据。
    • 测试误差:随着复杂度增加,测试误差先下降后上升。在模型刚好能完美拟合训练数据的“插值阈值”处,测试误差达到峰值。这对应了过拟合
    • 最佳点:通常在测试误差最低点选择模型,此时模型复杂度适中,既不过拟合也不欠拟合。
  • 双下降现象(现代观察)

    • 在神经网络中,当模型复杂度超过插值阈值,进入过参数化区域后,测试误差会再次下降,形成第二个下降区域。
    • 这意味着过参数化不仅无害,反而可能有益,这与经典理论相悖。

为了理解这一现象的数学本质,我们分析最简单的“神经网络”——线性回归模型。

线性回归模型设定

我们考虑一个没有隐藏层和非线性激活函数的模型,即简单的线性回归:

y = w · x

其中 w 是一个 P 维行向量,x 是一个 P 维列向量。

给定 N 个训练样本,输入数据矩阵为 X(P × N),观测到的输出向量为 (1 × N)。我们假设真实的输入输出关系是线性的,但观测受到噪声干扰:

ŷ = w · X + n

这里 w 是真实的未知权重向量,n 是噪声向量(假设服从均值为0、协方差为 σ² I_N 的高斯分布)。

我们的目标是:根据观测数据 (X, ),找到一个估计的权重向量 ŵ,使得 ŵ · X 尽可能接近 。这等价于求解线性方程组:

ŷ = ŵ · X

这个方程组有 N 个方程(样本数),P 个未知数(权重维度)。解的性质取决于 N 和 P 的关系。

过定情况下的线性回归

N > P 时,方程组是过定的(方程数多于未知数)。通常,不存在精确解 ŵ 使得等式严格成立。

最小二乘解

我们转而寻找最小二乘解,即最小化误差的平方和:

min_ŵ || ŷ - ŵ · X ||²

该问题的解由正规方程给出:

ŵ · (X X^T) = ŷ · X^T

由于 X X^T 是一个 P × P 的矩阵,并且在数据(假设为高斯随机矩阵)满秩的情况下通常是可逆的,我们可以解得:

ŵ = ŷ · X^T · (X X^T)^{-1}

估计误差分析

我们关心估计权重 ŵ 与真实权重 w 之间的误差。将 ŷ = w · X + n 代入 ŵ 的表达式,经过推导,可得误差主要来源于噪声:

w - ŵ ≈ - n · X^T · (X X^T)^{-1}

计算该误差的期望平方范数(对噪声求平均):

E[ || w - ŵ ||² ] = σ² · Tr( (X X^T)^{-1} )

这里 Tr 表示矩阵的迹。

渐近分析与随机矩阵

假设输入数据 X 的每个元素是独立同分布的标准高斯随机变量。那么,S = (1/N) X X^T 就是一个维希矩阵(Wishart matrix)。在大维极限下,令 N, P → ∞,且其比值 P/N → γ(0 < γ < 1,因为 N > P)。

此时,归一化的误差可以表示为:

(1/P) * E[ || w - ŵ ||² ] → σ² · γ · s(0)

其中 s(0) 是维希矩阵的 S 变换(Stieltjes变换)在 0 点的值。

对于 Marchenko-Pastur 分布,其 S 变换满足方程:

1 = s(z) / (1 + γ s(z)) - z s(z)

z = 0,解得:

s(0) = 1 / (1 - γ)

因此,在过定情况下,归一化估计误差的渐近极限为:

(1/P) * E[ || w - ŵ ||² ] → σ² · γ / (1 - γ)

结果解读

这个结果清晰地展示了经典过拟合区域的行为:

  • γ = P/N → 0(即数据量 N 远大于参数 P),误差趋于 0,估计很好。
  • γ 增大(即数据量相对减少),误差逐渐增大。
  • γ → 1(即 N ≈ P,达到插值阈值),误差 爆炸式增长 (→ ∞)。这对应了经典理论中测试误差的峰值点,即过拟合最严重的区域。

本节课中我们一起学习了双下降现象的背景,并通过分析过定情况下的线性回归,从数学上验证了经典学习理论中测试误差在插值阈值处恶化的结论。这对应于双下降曲线第一个上升段的峰值。

下一节,我们将分析欠定情况(N < P)下的线性回归。我们将看到,通过选择适当的正则化或优化准则(如最小范数解),在过参数化区域,测试误差可以再次下降,从而在数学上揭示双下降现象的成因。

018:双下降与欠定情况下的线性回归

在本节课中,我们将学习线性回归模型在“欠定”情况下的表现,即当参数数量多于观测数据量时。我们将看到,这与上一节讨论的“过定”情况有显著不同,并最终会得到一个被称为“双下降”现象的理论曲线。

我们从最简单的神经网络——线性回归开始。这个模型没有隐藏层,也没有非线性激活函数,但它能帮助我们理解高维情况下的核心现象,特别是过参数化与欠参数化之间的差异。

线性回归模型的形式如下:输入为 x,输出为 y,它们之间通过一个线性权重矩阵 W 连接。我们建模的函数形式为 y = Wx

我们考虑一个带有噪声的线性关系模型:y = Wx + n。其中 n 是噪声。我们已知观测数据 x 和带噪声的输出 Y_hat,目标是找到一个线性关系 W_hat,使其能最好地描述数据。

这本质上是一个线性方程组。我们有两个关键参数:P 是向量 x 的维度,N 是观测数量。矩阵 XP x N 维的。根据 PN 的大小关系,我们得到过定或欠定的方程组。

上一节我们讨论了过定情况(N > P),即方程多于变量,通常没有精确解。我们通过最小二乘法寻找最佳近似解,其解为 W_hat = Y_hat * X^T * (X * X^T)^(-1)。我们计算了估计误差,在 N, P 趋于无穷且比例 γ = P/N 固定的极限下,平均误差为 σ² * γ / (1 - γ),其中 σ² 是噪声方差。当 γ 接近 1 时,误差会爆炸式增长。

本节我们将探讨相反的情况,即欠定或过参数化情况。

欠定情况

现在考虑 N < P 的情况,即观测数量少于未知参数数量。这意味着在一般情况下,方程组有无穷多解。我们假设矩阵 X 具有最大秩 N,以确保方程相容。

我们的方程是 Y_hat = W_hat * X。我们希望从无穷多解中找到一个“最好”的解。通常,我们选择具有最小范数(最小长度)的解。

这个最小范数解可以用一个与过定情况类似的公式表示,只需将逆运算替换为伪逆。具体而言,W_hat 可以写为:
W_hat = Y_hat * X^T * (X * X^T)^(+)
其中 (+) 表示伪逆。

然而,我们可以通过调整公式,再次得到一个包含常规逆的表达式。实际上,最小范数解等价于:
W_hat = Y_hat * (X^T * X)^(-1) * X^T
注意,这里 (X^T * X) 是一个 N x N 矩阵,在最大秩假设下是可逆的。而之前过定情况下的 (X * X^T)P x P 矩阵。

为了确认这个公式确实给出了最小范数解,我们引入一个引理。

以下是关于线性方程组解的引理。

考虑线性方程组 A * x = y(记作方程 *),其中 AN x P 矩阵(N < P),xP 维向量,yN 维向量。假设 A 具有满秩 N,这意味着 A * A^T 是一个可逆的 N x N 矩阵。

那么,向量
x0 = A^T * (A * A^T)^(-1) * y
是方程 * 的一个解,并且是所有解中欧几里得范数最小的解。

证明

  1. 验证是解:将 x0 代入方程,A * x0 = A * A^T * (A * A^T)^(-1) * y = y。成立。
  2. 验证最小范数:设 x 是任意其他解,即 A * x = y。考虑内积 <x - x0, x0>
    利用 x0 的表达式:
    <x - x0, x0> = (x - x0)^T * [A^T * (A * A^T)^(-1) * y]
    A^T 移到左侧(利用内积性质 u^T * v = v^T * u):
    = [A * (x - x0)]^T * (A * A^T)^(-1) * y
    因为 A*x = yA*x0 = y,所以 A*(x - x0) = 0。因此上述内积为 0。
    这表明 x - x0x0 正交。
    由勾股定理,||x||² = ||x - x0||² + ||x0||²
    由于 ||x - x0||² ≥ 0,所以 ||x||² ≥ ||x0||²,等号成立当且仅当 x = x0。证毕。

将这个引理应用到我们的线性回归问题(Y_hat = W_hat * X),对其转置得到 X^T * W_hat^T = Y_hat^T。这里 A = X^Tx = W_hat^Ty = Y_hat^T。应用引理并转置回来,就得到了之前所述的最小范数解公式:
W_hat = Y_hat * (X^T * X)^(-1) * X^T

这个解精确地拟合了所有数据点 Y_hat,包括其中的噪声。接下来我们评估这个估计的误差。

误差分析

我们想要计算真实权重 W 与估计权重 W_hat 之间的误差。将 W_hat 的表达式和真实模型 Y_hat = W * X + n 代入:

W - W_hat = W - [ (W*X + n) * (X^T * X)^(-1) * X^T ]

展开并整理:
= W - W * X * (X^T * X)^(-1) * X^T - n * (X^T * X)^(-1) * X^T

我们可以证明,上式中的前两项(与 W 相关的部分)和最后一项(与噪声 n 相关的部分)是相互正交的。因此,误差的平方范数可以分解为两部分之和:

||W - W_hat||² = ||W * [I - X*(X^T*X)^(-1)*X^T] ||² + || n * (X^T*X)^(-1)*X^T ||²

在统计学习中,这两部分通常分别称为 偏差(Bias)项方差(Variance)项

方差项计算

方差项包含噪声 n。我们假设噪声 n 是均值为零、方差为 σ² 的高斯随机向量,并对其取期望。

E[ || n * (X^T*X)^(-1)*X^T ||² ] = σ² * Tr( (X^T*X)^(-1) )

这里 Tr 表示迹(trace)运算。这与上一节过定情况下的方差项形式完全对称,只是 XX^T 的角色互换,相应地 NP 的角色也互换了。

在过定情况下,方差项极限为 σ² * γ / (1 - γ),其中 γ = P/N < 1
在欠定情况下,经过变量替换(γ -> 1/γ),我们得到方差项的极限为:
σ² * (1/γ) / (1 - 1/γ) = σ² / (γ - 1)
其中现在 γ = P/N > 1

偏差项计算

偏差项不依赖于噪声。我们计算其平方范数:
||W * [I - X*(X^T*X)^(-1)*X^T] ||²

经过代数运算(展开并利用迹的循环性质),并假设数据矩阵 X 的分布是旋转不变的(如高斯分布),我们可以证明,对于任何单位范数的权重向量 W/||W||,以下二次型的结果都相同:
(W/||W||) * X * (X^T*X)^(-1) * X^T * (W/||W||)^T

由于旋转对称性,这个值等于对所有标准正交基向量取该二次型的平均值,即等于 (1/P) * Tr( X * (X^T*X)^(-1) * X^T )

再次利用迹的循环性质,Tr( X * (X^T*X)^(-1) * X^T ) = Tr( (X^T*X)^(-1) * X^T * X ) = Tr( I_N ) = N,其中 I_NN x N 单位矩阵。

因此,偏差项可以化简为:
||W||² * [1 - N/P] = ||W||² * (1 - 1/γ)

最终结果与双下降现象

综合偏差项和方差项,在 N, P 趋于无穷且 γ = P/N 固定的极限下,线性回归在欠定情况 (γ > 1) 下的平均估计误差为:

误差 = ||W||² * (1 - 1/γ) + σ² / (γ - 1)

现在,我们可以将两种情形的结果总结在一起:

  • 过定情况 (γ < 1):误差 = σ² * γ / (1 - γ)
  • 欠定情况 (γ > 1):误差 = ||W||² * (1 - 1/γ) + σ² / (γ - 1)

如果以 γ 为横轴,误差为纵轴绘图,我们会观察到典型的“双下降”曲线:

  • γ 从 0 增加到 1 时,误差随着 γ 接近 1 而急剧上升至无穷大(过拟合区域)。
  • γ 超过 1 后,误差从无穷大下降。其中方差项 σ²/(γ-1) 随着 γ 增大而衰减,偏差项 ||W||²*(1-1/γ) 则从 0 开始上升并渐近趋于 ||W||²。两者之和形成一个先下降后可能缓慢上升的“U”形谷,构成了误差曲线的第二个下降区域。

本节课中我们一起学习了线性回归在欠定情况下的理论分析。我们推导了最小范数解,并将其估计误差分解为偏差和方差两部分。通过计算这两部分在高维极限下的表达式,并与过定情况的结果对比,我们从理论上解释了“双下降”现象的产生机制:在参数数量刚好等于数据数量 (γ=1) 的临界点附近,模型表现最差;而当模型进入过参数化区域 (γ>1) 后,性能反而可能得到改善。这为理解现代复杂机器学习模型(如深度神经网络)在过参数化下的良好表现提供了经典的理论视角。

019:随机特征模型的一般性评述 🧠

在本节课中,我们将探讨如何将之前讨论的简单线性模型扩展为更复杂的网络结构,特别是随机特征模型。我们将分析其中涉及的数学问题,包括随机矩阵的乘法以及对其元素应用非线性函数。


从线性模型到更复杂的网络

上一节我们介绍了线性回归模型。本节中,我们来看看如何通过添加层和非线性变换来构建更复杂的网络。

一个简单的扩展是在线性映射后引入非线性激活函数。假设我们有一个输入数据矩阵 X,首先通过一个随机权重矩阵 W 进行线性映射,然后应用一个逐元素的非线性函数 σ,最后通过另一个权重向量 w 进行线性组合得到输出。

因此,我们的函数 f 可以表示为:

f(X) = w^T * σ(W * X)

这里,W 将输入映射到一个中间隐藏层(维度为 M),σ 是逐元素应用的非线性激活函数,w 是最终的线性权重。

在这种设置下,网络通常只在最后一层(即 w)进行学习。这意味着,我们实际上不是直接对原始输入 X 进行线性回归,而是对通过 Wσ 计算得到的“特征”进行回归。这些特征被称为随机特征,而整个模型则称为随机特征模型


理解随机特征模型中的数学问题

为了像分析线性模型一样理解这个更复杂的模型,我们需要解决两个核心的数学问题。

以下是两个需要理解的关键部分:

  1. 随机矩阵的乘法:我们需要理解 F = σ(WX) 的分布,特别是 F F^T 的谱特性。这涉及到两个随机矩阵 WX 的乘积。
  2. 对矩阵元素应用非线性函数:我们需要理解对矩阵 WX 的每个元素应用函数 σ 会产生什么影响。这是一个在经典随机矩阵理论中不常见的操作。

问题一:随机矩阵的乘法

首先考虑线性部分 WX。假设 WX 都是高斯随机矩阵,那么 W W^TX X^T 在极限下具有Marchenko-Pastur分布。

我们关心的是 F F^T = W X X^T W^T 的特征值分布。这本质上是一个具有非单位协方差矩阵的Wishart矩阵。这里的协方差矩阵由 W W^T 决定。

在之前的练习中,我们已经处理过协方差矩阵具有离散特征值的情况。对于这里更一般的连续分布情况,其思路是相似的:我们可以推导出一个关于Stieltjes变换的定点方程。这个方程可能没有解析解,但可以通过数值方法求解。

因此,虽然问题变得更复杂,但原则上我们可以沿用经典随机矩阵理论中的工具来处理随机矩阵的乘法及其对协方差结构的影响。


问题二:应用非线性函数

现在考虑第二个问题:对矩阵元素应用非线性函数 σ

如果我们将 σ 直接应用于一个高斯随机矩阵 X,会发生什么?此时,矩阵的每个元素都经过了相同的非线性变换,但元素之间的独立性保持不变。我们得到的是一个元素独立同分布(但非高斯分布)的随机矩阵。

对于像Marchenko-Pastur定律这样的经典结果,高斯分布假设并非必需。只要矩阵元素是独立同分布的(满足某些矩条件),极限谱分布仍然成立。因此,仅仅对一个独立同分布的随机矩阵施加逐元素的非线性变换,并不会改变其渐近特征值分布


组合的挑战与非线性的随机矩阵理论

然而,在我们的随机特征模型 σ(WX) 中,情况要复杂得多。我们首先将两个矩阵相乘得到 WXWX 的元素之间已经存在相关性。然后再对其应用非线性函数 σ

这种“先乘后非线性变换”的组合操作,产生了一个其元素具有复杂依赖结构的矩阵。经典随机矩阵理论并未直接研究这类对象。理解和分析这类矩阵的谱性质,是当前随机矩阵理论研究的一个新方向,很大程度上受到神经网络研究的推动。这可以被称为非线性的随机矩阵理论

对于这类组合问题,我们需要调整甚至开发新的数学工具。虽然已经取得了一些进展,但要完全理解多层非线性网络的行为,仍然是一个活跃且富有挑战性的研究领域。


总结

本节课中我们一起学习了如何从简单的线性模型过渡到随机特征模型。我们识别了分析此类模型时需要解决的两个核心数学问题:随机矩阵的乘法,以及对矩阵元素应用非线性函数。第一个问题可以通过推广经典Wishart矩阵理论来处理,而第二个问题在元素独立时是平凡的。然而,当两者结合时,便引出了“非线性随机矩阵理论”这一新的研究领域,旨在理解具有复杂依赖结构的随机矩阵的谱性质。

022:预解方法与累积量展开

在本节课中,我们将探讨如何将预解方法推广到更复杂的特征矩阵分布计算中。我们将遇到一个核心问题:当矩阵的条目不再是独立高斯分布时,如何继续我们的推导?为了解决这个问题,我们将引入一个强大的工具——累积量展开,它是斯坦因恒等式在非高斯情况下的推广。

从高斯到非高斯的挑战

上一节我们介绍了预解方法在标准高斯矩阵中的应用。本节中我们来看看,当我们想要计算更复杂矩阵(例如特征矩阵)的分布时,情况会如何变化。

我们考虑一个特征矩阵 F,它由权重矩阵 W 和数据矩阵 X 通过非线性变换得到,其形式为 F = σ(WX/√p)。这里,X 是一个 M×N 的矩阵,W 是一个 P×N 的矩阵,因此 F 是一个 M×P 的矩阵。我们的目标是研究其经验谱分布,这涉及到矩阵 FF^T / N 的预解式 G(z) = (FF^T/N - zI_M)^{-1} 及其施蒂尔杰斯变换 m(z) = E[tr(G(z))]/M

我们像之前一样开始推导,得到如下表达式:

(1 + z m(z)) = (1/N) * E[tr(FF^T G(z))]

将其展开为矩阵元素求和的形式:

= (1/(N*M)) * Σ_{i,j} E[ f_{ij} * (F^T G(z))_{ji} ]

这里,f_{ij} 是矩阵 F 的条目。问题出现了:在标准高斯矩阵 X 的情况下,我们曾利用斯坦因恒等式,将乘以 x_{ij} 的期望转化为对其余变量函数的导数期望。然而,F 的条目 f_{ij} 不再是独立的高斯变量,因此经典的斯坦因恒等式不再直接适用。

累积量展开:斯坦因恒等式的推广

那么,对于更一般的分布,我们是否还有类似斯坦因恒等式的工具呢?答案是肯定的,这就是累积量展开。为了理解其本质,我们先从一维情况入手。

在一维情况下,若随机变量 t 服从标准高斯分布,斯坦因恒等式表明:

E[ t * h(t) ] = E[ h'(t) ]

其核心思想是,乘以变量 t 的效应等价于对函数 h 求导的效应。对于非高斯分布,这个等式不再成立。我们可以选择保持等式左边不变,而将右边推广为包含高阶导数的线性组合,其系数由称为“累积量”的量决定。

具体来说,对于任意随机变量 t(假设各阶矩存在),我们定义其特征函数的对数的幂级数展开系数为累积量 κ_l

log E[ e^{i t s} ] = Σ_{l=1}^{∞} κ_l * (i s)^l / l!

那么,对于光滑函数 h,有以下累积量展开公式:

E[ t * h(t) ] = Σ_{l=0}^{∞} (κ_{l+1} / l!) * E[ h^{(l)}(t) ]

其中 h^{(l)}hl 阶导数。当 t 是标准高斯时,只有二阶累积量 κ_2 = 1 非零,其他累积量为零,上述公式就退化回经典的斯坦因恒等式。

多维累积量展开

我们需要处理的是矩阵的多个条目,因此需要多维版本的累积量展开。设有一组随机变量 T_1, ..., T_K(在我们的问题中,它们对应矩阵 F 的所有条目)。

首先定义多维累积量。令 s = (s_1, ..., s_K),多维累积量 κ(T_{i_1}, ..., T_{i_r}) 定义为多维特征函数对数的幂级数展开系数:

log E[ exp(i Σ_{k=1}^{K} s_k T_k) ] = Σ_{r=1}^{∞} (i^r / r!) * Σ_{i_1,..., i_r} κ(T_{i_1}, ..., T_{i_r}) * s_{i_1} ... s_{i_r}

那么,对于光滑函数 H(T_1, ..., T_K),多维累积量展开公式为:

E[ T_a * H(T) ] = Σ_{r=0}^{∞} (1/r!) * Σ_{i_1, ..., i_r} κ(T_a, T_{i_1}, ..., T_{i_r}) * E[ ∂^{r} H(T) / (∂T_{i_1} ... ∂T_{i_r}) ]

这个公式看起来复杂,但其核心思想是清晰的:乘以某个变量 T_a 的期望,可以表示为该函数所有可能偏导数的期望的线性组合,组合系数由包含 T_a 的相应阶数的累积量给出。

累积量与矩的组合关系

累积量的定义比较抽象,但它们与更熟悉的“矩”有着深刻的组合联系。这种联系可以通过在上述展开公式中,选择 H 为变量的单项式函数来揭示。

以下是几个低阶例子,展示了矩如何用累积量表示:

  • 一阶矩(均值): 令 H = 1,公式给出 E[T_a] = κ(T_a)。即一阶累积量就是均值。
  • 二阶矩(协方差): 令 H = T_b,公式给出:
    E[T_a T_b] = κ(T_a)κ(T_b) + κ(T_a, T_b)
    
    这可以理解为:二阶矩等于两个一阶累积量的乘积(变量独立部分)加上二阶累积量(变量关联部分)。
  • 三阶矩: 令 H = T_b T_c,公式经过计算可整理为:
    E[T_a T_b T_c] = κ(T_a)κ(T_b)κ(T_c) + κ(T_a, T_b)κ(T_c) + κ(T_a, T_c)κ(T_b) + κ(T_b, T_c)κ(T_a) + κ(T_a, T_b, T_c)
    

从这些例子中,我们可以观察到一个优美的组合模式:随机变量集合的矩,等于将该集合的所有可能划分(partition)所对应的累积量乘积求和。例如,对于集合 {a, b, c}

  • 划分 { {a}, {b}, {c} } 对应项:κ(T_a)κ(T_b)κ(T_c)
  • 划分 { {a, b}, {c} } 对应项:κ(T_a, T_b)κ(T_c)
  • 划分 { {a, c}, {b} } 对应项:κ(T_a, T_c)κ(T_b)
  • 划分 { {b, c}, {a} } 对应项:κ(T_b, T_c)κ(T_a)
  • 划分 { {a, b, c} } 对应项:κ(T_a, T_b, T_c)

所有划分对应的项之和正好等于三阶矩 E[T_a T_b T_c]。这个关系对任意阶矩都成立,它提供了计算和理解累积量的一种强大而直观的组合视角。

总结

本节课中我们一起学习了将预解方法应用于非高斯矩阵的关键步骤。我们认识到,当矩阵条目不满足独立高斯假设时,斯坦因恒等式需要被推广。我们引入了累积量的概念,它通过特征函数对数的幂级数来定义。最重要的工具是累积量展开公式,它将乘以一个随机变量的期望,表达为该函数各阶导数期望的加权和,权重由累积量决定。

此外,我们还揭示了累积量与矩之间深刻的组合关系:矩等于对所有可能划分下,对应子集累积量乘积的求和。这为我们分析复杂随机矩阵的谱性质提供了新的切入点。在接下来的课程中,我们将利用累积量展开这个工具,继续推导特征矩阵经验谱分布所满足的方程。

023:累积量的性质及其应用

在本节课中,我们将系统性地学习累积量这一重要概念。我们将从其定义出发,探讨其核心性质,特别是它与随机变量独立性之间的关系,并学习如何处理乘积的累积量。这些知识对于后续分析随机特征模型至关重要。

累积量的定义与组合解释

上一节我们引入了累积量展开的概念,作为高斯情形下Stein恒等式的推广。本节中,我们将更精确地定义累积量,并理解其组合意义。

首先,我们需要定义集合的分划。对于一个给定的集合S(例如数字1到n),一个分划π将其分解为若干个非空、互不相交的子集(称为块),这些块的并集等于S。我们用P(S)或P_n表示所有分划的集合。最小的分划是每个元素单独成块,记为0_n;最大的分划是所有元素在一个块中,记为1_n。

现在,我们考虑一个由随机变量构成的代数A(例如所有多项式),以及其上的期望函数E。累积量κ_n被定义为从A^n到R的n线性函数,它们通过所谓的“矩-累积量公式”与矩相联系。

矩-累积量公式:对于任意n个随机变量T_1, ..., T_n,其矩(即乘积的期望)可以表示为所有分划上累积量乘积的和:

E[T_1 ... T_n] = Σ_{π ∈ P_n} κ_π(T_1, ..., T_n)

其中,对于分划π,κ_π定义为各块的累积量的乘积。具体地,若π的块为V_1, ..., V_r,则:

κ_π(T_1, ..., T_n) = ∏_{i=1}^{r} κ_{|V_i|}(T_{j_1}, ..., T_{j_{|V_i|}})

这里,κ_{|V_i|}是阶数为块大小的累积量,其参数为该块对应的随机变量。

这个公式隐式地定义了累积量。我们可以通过递归求解来理解它。

以下是前几个低阶累积量的求解示例:

  • n=1:唯一分划是1_1。公式给出 E[T_1] = κ_1(T_1)。因此,一阶累积量就是期望:κ_1(T) = E[T]
  • n=2:分划有两个:1_2(一个块)和0_2(两个块)。公式为:
    E[T_1 T_2] = κ_2(T_1, T_2) + κ_1(T_1)κ_1(T_2)
    
    由此可解出二阶累积量,即协方差:
    κ_2(T_1, T_2) = E[T_1 T_2] - E[T_1]E[T_2]
    
  • n=3:分划有五个。公式为:
    E[T_1 T_2 T_3] = κ_3(T_1, T_2, T_3) + κ_2(T_1, T_2)κ_1(T_3) + κ_2(T_1, T_3)κ_1(T_2) + κ_2(T_2, T_3)κ_1(T_1) + κ_1(T_1)κ_1(T_2)κ_1(T_3)
    
    可以递归地解出κ_3,它是三阶矩减去所有低阶累积量组合的贡献。

上述定义过程也可以通过默比乌斯反演得到显式的“累积量-矩公式”,将累积量表达为带符号和阶乘系数的矩的求和,但其结构复杂性使得显式计算在n较大时不切实际。我们更关注其结构性性质。

累积量与独立性

我们引入累积量的主要动机之一是它能简洁地刻画随机变量的独立性。这正是累积量比矩更有用的核心原因之一。

核心定理:考虑随机变量代数A中的若干个子集{T_i}。这些子集中的变量相互独立,当且仅当所有“混合累积量”为零。

所谓混合累积量,是指累积量κ_n(T_1, ..., T_n)的参数至少来自两个不同的子集T_i和T_j。也就是说,只要累积量的参数不是全部来自同一个子集,其值就为零。

证明思路(充分性):假设混合累积量为零。我们需要证明独立性,即乘积的矩可以因子化。考虑一个包含来自不同子集的变量T和S的混合矩E[...T...S...]。利用矩-累积量公式将其展开为对分划的求和。由于混合累积量为零,任何连接了来自不同子集变量的分划块(即混合块)其对应的累积量贡献为零。因此,只有那些每个块内的变量都来自同一子集的分划才有贡献。这样的分划自然地分解为对各子集变量位置的分划的独立选择,其累积量贡献也相应因子化。最终,对分划的求和也因子化为各子集变量矩的乘积,这正是独立性所要求的因子化性质。

这个定理表明,独立性等价于累积量在跨组时的“退耦”。在近似独立的情况下,讨论累积量的“小性”比讨论矩的“近似因子化”通常更为方便和直接。

乘积的累积量

在实际应用中(例如我们的随机特征模型),我们经常需要处理随机变量的乘积。因此,理解如何用单个变量的累积量来表达乘积的累积量至关重要。

乘积累积量公式:假设我们将n个随机变量T_1, ..., T_n分成M组相乘,得到新的随机变量(大写)T_1, T_2, ..., T_M,其中每个T_I是某组小t变量的乘积。那么,这些新变量T_I的M阶累积量可以通过原始小变量t_i的累积量来表达:

κ_M(T_1, ..., T_M) = Σ_{π ∈ P_n} κ_π(t_1, ..., t_n)

这里的求和仅限于满足特定条件的分划π:该分划必须“连接”所有M个组。这意味着,在分划的块结构中,不能存在一个子集,使得其中的块完全由来自某几个组(但不是所有组)的变量构成;每个块都必须以某种方式帮助连接不同的组。

示例说明

  • 无乘积情形:每个T_I就是一个t_i。此时,条件要求分划连接所有单个变量,唯一满足条件的分划就是最大分划1_n。公式退化为κ_n(t_1,...,t_n) = κ_n(t_1,...,t_n),是平凡的。
  • 全乘积情形:所有t_i乘在一起,得到单个变量T_1。此时M=1,没有“连接所有组”的条件(因为只有一组)。公式要求对所有分划π求和,这正是矩-累积量公式的逆过程,结果等于E[∏ t_i],与κ_1就是期望的定义一致。
  • 具体例子:计算κ_3(T_1, T_2, T_3),其中T_1 = t_1 * t_2T_2 = t_3T_3 = t_4。我们需要找出所有连接了组{t_1,t_2}{t_3}{t_4}的分划。可能的连接方式包括:一个块包含所有四个变量(κ_4);或者通过若干二阶累积量(κ_2)将不同组的变量两两连接,同时确保所有组都被连通。

这个公式虽然项数可能很多,但其结构清晰。它告诉我们,乘积的累积量可以表示为原始变量累积量的和,其中只保留那些“桥接”了所有乘积因子的分划结构。在后续分析随机特征矩阵F = φ(WX)时,其元素是W和X矩阵元素的乘积(再经过非线性函数φ)。我们将利用此公式,结合W和X中元素的独立性(其累积量性质简单),来分析F的累积量结构,进而研究其特征值分布。

总结

本节课我们一起深入学习了累积量。我们从其通过矩-累积量公式的递归定义出发,理解了其组合解释。最重要的性质是,随机变量的独立性等价于其混合累积量为零,这为检验独立性提供了有力工具。最后,我们学习了处理随机变量乘积的累积量公式,该公式只对连接了所有乘积项的分划进行求和。这些工具将为我们在下一课中分析更复杂的随机特征模型奠定基础。

024:随机特征值分布的计算

在本节课中,我们将学习如何计算随机特征模型中特征矩阵的特征值分布。我们将重点介绍累积量的概念,并展示如何利用累积量展开来分析随机矩阵乘积的谱特性。我们将从高斯矩阵的累积量开始,逐步扩展到随机特征模型中的非线性变换。


高斯矩阵的累积量

上一节我们介绍了累积量的基本概念和性质。本节中,我们来看看如何计算高斯随机矩阵的累积量。

设矩阵 X 是一个 P × N 的标准高斯随机矩阵,其所有元素 X_ij 独立且服从标准正态分布 N(0, 1)。对于这些随机变量,其累积量具有非常简单的结构。

命题 1: 对于标准高斯随机矩阵 X 的元素 X_ij,其累积量 κ_nn ≠ 2 时均为零。唯一的非零累积量是二阶累积量,即协方差:

\[\kappa_2(X_{ij}, X_{kl}) = \delta_{ik} \delta_{jl} \]

其中 δ 是克罗内克δ函数。这意味着只有当两个元素完全相同时,其二阶累积量(协方差)为1,否则为0。

推导:

  1. 由于所有 X_ij 相互独立,根据累积量的性质,混合累积量为零。因此,非零累积量只能出现在所有变量都相同的情况下。
  2. 对于单个标准高斯变量,其所有高于二阶的累积量均为零。因此,只有当 n=2 时,累积量才可能非零。
  3. 对于二阶累积量,即协方差,对于标准高斯变量有 E[X_{ij}^2] = 1,且 E[X_{ij}] = 0,因此 κ_2(X_{ij}, X_{ij}) = 1

这个结果为我们分析更复杂的矩阵乘积奠定了基础。


矩阵乘积 G = WX 的累积量

现在,我们考虑一个更复杂的场景:两个独立高斯矩阵的乘积。设 WM × P 的标准高斯矩阵,XP × N 的标准高斯矩阵。我们定义矩阵 G 为:

\[G = \frac{1}{\sqrt{P}} W X \]

G 是一个 M × N 的矩阵,其元素为 G_ij。我们的目标是计算这些元素的累积量。

首先,我们计算一阶累积量(期望):

\[\kappa_1(G_{ij}) = \mathbb{E}[G_{ij}] = \frac{1}{\sqrt{P}} \sum_{k=1}^{P} \mathbb{E}[W_{ik} X_{kj}] = 0 \]

因为 WX 独立且均值为零。

接下来,我们计算二阶累积量:

\[\kappa_2(G_{i_1 j_1}, G_{i_2 j_2}) = \frac{1}{P} \sum_{k_1, k_2=1}^{P} \kappa_2(W_{i_1 k_1} X_{k_1 j_1}, W_{i_2 k_2} X_{k_2 j_2}) \]

利用累积量的乘积公式和 WX 的高斯性质,非零贡献仅来自于将 W 项配对、X 项配对,并且所有 K 索引必须相同的情况。最终结果为:

\[\kappa_2(G_{i_1 j_1}, G_{i_2 j_2}) = \delta_{i_1 i_2} \delta_{j_1 j_2} \]

这与单个高斯矩阵的情况类似。

对于高阶累积量,情况变得复杂。奇数阶累积量由于无法完成所有变量的配对而为零。偶数阶累积量可能非零,但具有特定的结构。

命题 2: 对于矩阵 G 的元素,其 2R 阶累积量 κ_{2R}(G_{i_1 j_1}, ..., G_{i_{2R} j_{2R}}) 仅在索引 {(i_r, j_r)} 能排列成一种循环结构时才非零。具体来说,存在一个排列 σ ∈ S_{2R},使得索引满足以下循环条件:

\[j_{\sigma(1)} = i_{\sigma(2)},\quad j_{\sigma(2)} = i_{\sigma(3)},\quad ...,\quad j_{\sigma(2R)} = i_{\sigma(1)} \]

在这种情况下,累积量的主导阶为 O(1/P^{R-1})。如果索引不满足任何循环结构,则累积量为零。

这种循环结构源于矩阵乘法和累积量配对规则的结合。它意味着 G 的元素不再是独立的,但其高阶相关性受到严格限制。


应用累积量展开到 Stieltjes 变换

为了计算矩阵 GG^T 的经验谱分布,我们像处理 Marchenko-Pastur 定律一样,研究其 Stieltjes 变换 S(z)

\[S(z) = \frac{1}{M} \mathbb{E}[\mathrm{Tr}((GG^T / N - z I_M)^{-1})] \]

其中 z ∈ ℂ^+

推导过程涉及对 G 的元素使用累积量展开公式。展开式将包含无穷级数:

\[\mathbb{E}[G_{ij} \cdot (\text{某个函数})] = \sum_{L=0}^{\infty} \frac{1}{L!} \sum_{p_1, q_1, ..., p_L, q_L} \kappa_{L+1}(G_{ij}, G_{p_1 q_1}, ..., G_{p_L q_L}) \cdot \mathbb{E}\left[ \frac{\partial^L (\text{该函数})}{\partial G_{p_1 q_1} ... \partial G_{p_L q_L}} \right] \]

以下是关键步骤:

  1. 主导项(L=0): 对应一阶导数项,这与 Marchenko-Pastur 证明中的项相同,会产生一个包含 S(z) 的方程部分。
  2. 高阶项(L≥1): 这些项包含 G 的高阶累积量。根据命题2,许多高阶累积量为零或具有 1/P 的衰减因子。在渐近极限下(M, N, P → ∞,比例固定),只有满足特定循环结构且阶数最低的项会保留。
  3. 方程推导: 通过系统性地处理这些项(例如,对高阶导数项进行部分积分,将其递归地表达为 S(z) 的函数),最终可以推导出 S(z) 所满足的方程。这个方程比 Marchenko-Pastur 方程更复杂,包含了来自矩阵乘积结构的修正项。

虽然计算过程繁琐,但原理是清晰的:G 的累积量的特殊结构使得高阶项在渐近意义下可控制,最终导出一个闭合的方程。


扩展到非线性变换:随机特征模型

现在,我们考虑完整的随机特征模型。定义特征矩阵 F

\[F = \sigma(G) = \sigma\left( \frac{1}{\sqrt{P}} W X \right) \]

其中 σ(·) 是一个逐元素应用的非线性激活函数。F 的元素为 F_{ij} = σ(G_{ij})

我们需要计算 F 的元素的累积量,以便对 FF^T 进行类似的谱分析。

命题 3: 假设激活函数 σ 满足 ∫ σ(t) φ(t) dt = 0(其中 φ 是标准高斯密度),即其关于高斯分布的期望为零。那么,F 的累积量具有与 G 类似的结构:

  1. 奇数阶累积量为零:κ_{2R+1}(...) = 0
  2. 二阶累积量:κ_2(F_{ij}, F_{kl}) = δ_{ik} δ_{jl} · θ_1,其中 θ_1 = ∫ σ(t)^2 φ(t) dt
  3. 高阶(2R阶,R≥2)累积量:仅当索引满足与命题2相同的循环结构时才非零。此时,其主导阶为 O(1/P^{R-1}),并且值为 (θ_2)^R,其中 θ_2 = [∫ σ'(t) φ(t) dt]^2

推导思路:

  1. 中心化假设: 条件 ∫ σ(t) φ(t) dt = 0 确保了 κ_1(F_{ij}) = 0。这是因为根据中心极限定理,每个 G_{ij}P 很大时近似服从高斯分布 N(0,1)
  2. 二阶累积量: 直接计算 𝔼[σ(G_{ij})^2],同样利用 G_{ij} 的渐近高斯性,得到 θ_1
  3. 高阶累积量: 这是最核心的部分。我们将 σ 视为多项式(通过近似),则 F 的高阶累积量涉及 G 的幂的乘积。利用累积量的乘积公式,主导贡献来自于:
    • 一个连接了所有 R 个变量组(每组对应一个 F)的“大块”,它贡献因子 1/P^{R-1}(来自 G 的累积量结构)。
    • 在每个变量组内部,剩余的 G 变量(“大块”已取走一个)相互配对。由于 G_{ij} 是渐近高斯的,配对计算相当于求其矩,最终导出每个组贡献一个因子 ∫ σ'(t) φ(t) dt。共有 2R 个这样的因子,但“大块”连接本身已消耗了 R 个配对,故最终剩余 R 个因子,即 (θ_2)^{R/2}?需要仔细核对指数。详细推导表明,最终结果是 (θ_2)^R

这个结果意义重大:非线性变换并未破坏累积量的循环结构,但改变了其数值。二阶累积量由 σ 的二阶矩 θ_1 控制,而所有更高阶的偶数累积量则由其导数的矩 θ_2 控制。


总结与展望

本节课中我们一起学习了:

  1. 高斯矩阵的累积量:非常简单,只有二阶累积量非零。
  2. 矩阵乘积 G = WX 的累积量:具有特殊的循环结构,高阶累积量按 1/P 的幂次衰减。
  3. 累积量展开的应用:利用该展开可以推导出 GG^T 的 Stieltjes 变换方程,尽管计算复杂,但原理基于累积量的衰减性质。
  4. 随机特征模型中的非线性变换F = σ(G) 的累积量保留了循环结构,其值由 θ_1θ_2 两个参数刻画。这解释了定理中出现的这些常数。

一个深刻的见解是:随机特征模型 FF^T 的谱性质,在某种意义上等价于一个带有附加噪声的线性模型 GG^T 的谱性质,其中噪声的强度与 θ_2 相关。这为理解神经网络中非线性层的效应提供了直观的数学视角。我们将在下一节课中进一步探讨这一观点。

025:非线性随机特征的高斯等效原理

在本节课中,我们将学习非线性随机特征模型,并理解其如何通过高斯等效原理,在渐近意义上等价于一个添加了噪声的线性模型。

上一节我们介绍了非线性随机特征模型,并分析了其矩阵元素的累积量结构。本节中,我们将基于该累积量结构,推导出该模型与一个特定线性模型的等价性。

累积量结构回顾

首先,我们回顾一下非线性随机特征矩阵 F 的累积量结构。矩阵元素为 F_ij,其累积量具有特定的“无环”结构。

  • 对于二阶累积量(即协方差),其值为 θ₁(ω),其中 ω 代表我们使用的非线性函数。
  • 对于所有偶数阶(四阶、六阶等)且阶数大于二的累积量,其结构是“无环”的。这意味着在累积量 κ(F_{i₁j₁}, ..., F_{i₁j_R}) 中,下标 i 和 j 以特定模式重复出现,且所有下标均不相同。其渐近值为 (1/P^{R-1}) * θ₂(ω),其中 P 是数据维度。

以下是该累积量结构的核心公式表示:

  • 二阶累积量:κ₂(F_{ij}, F_{ij}) = θ₁
  • 高阶(2R阶,R>1)无环累积量:κ_{2R}(F_{i₁j₁}, ..., F_{i₁j_R}) = (1/P^{R-1}) * θ₂

这里,θ₁θ₂ 是由非线性函数 ω 计算出的两个常数。

高斯等效原理

基于上述累积量结构,我们可以证明一个关键结论:在渐近极限下(当 P 趋于无穷时),原始的非线性随机特征模型与一个特定的线性模型具有相同的特征值分布。

具体而言,我们构造一个线性模型

F̃ = √θ₂ * (WX/√P) + √(θ₁ - θ₂) * Z

其中:

  • WX/√P 是原始的线性部分(未施加非线性)。
  • Z 是一个独立于 W 和 X 的标准高斯随机矩阵。
  • θ₁θ₂ 是来自原始非线性模型的常数,且 θ₁ > θ₂

接下来,我们验证 的累积量与原始 F 的累积量在主导阶上相同。

高阶累积量等价性

考虑 的 2R 阶(R>1)累积量。由于 的每一项都是两个独立随机变量(来自线性部分和噪声部分)的和,且累积量具有多重线性,我们可以将其展开。独立随机变量的混合累积量为零,因此只剩下纯来自线性部分或纯来自噪声部分的项。

  • 噪声部分 Z 是高斯矩阵,其高于二阶的累积量为零,因此不贡献高阶项。
  • 线性部分 WX/√P 的高阶累积量具有与 F 相同的无环结构,但其值为 (1/P^{R-1})(相当于原模型中 θ₂=1 的情况)。

由于 的线性部分带有系数 √θ₂,在计算 2R 阶累积量时,该系数会出现 2R 次,即贡献因子 θ₂^R。因此, 的高阶无环累积量为:

κ_{2R}(F̃_{i₁j₁}, ..., F̃_{i₁j_R}) = θ₂^R * (1/P^{R-1}) = (1/P^{R-1}) * θ₂

这与原始非线性模型 F 的高阶累积量公式完全一致。

二阶累积量等价性

现在考虑二阶累积量。同样展开 的项:

κ₂(F̃_{ij}, F̃_{ij}) = κ₂( √θ₂ * G_{ij} + √(θ₁-θ₂) * Z_{ij}, √θ₂ * G_{ij} + √(θ₁-θ₂) * Z_{ij} )

其中 G = WX/√P。由于独立性和累积量的性质,交叉项为零,我们得到:

κ₂(...) = θ₂ * κ₂(G_{ij}, G_{ij}) + (θ₁ - θ₂) * κ₂(Z_{ij}, Z_{ij})

已知 GZ 的元素的二阶累积量均为 1(在适当的归一化下)。代入得:

κ₂(F̃_{ij}, F̃_{ij}) = θ₂ * 1 + (θ₁ - θ₂) * 1 = θ₁

这也与原始非线性模型 F 的二阶累积量 θ₁ 完全相同。

结论与总结

通过以上推导,我们证明了在主导阶意义上,构造的线性模型 与原始非线性随机特征模型 F 具有完全相同的累积量结构。由于随机矩阵的渐近特征值分布由其累积量决定,因此两个模型的特征值分布也相同。

本节课中我们一起学习了高斯等效原理在非线性随机特征模型中的具体体现。核心结论是:对随机矩阵元素施加非线性变换,在渐近意义上等效于保留其线性部分并添加一个适当强度的独立高斯噪声。这一原理揭示了某些非线性模型背后隐藏的线性结构,并为其分析提供了强有力的简化工具。该原理也被认为在更广泛的场景中可能成立,是当前研究的一个活跃方向。

026:线性回归的梯度下降法 🧠

在本节课中,我们将学习线性回归问题,并重点探讨如何使用梯度下降法来求解。我们将从线性回归的基本设定开始,逐步引入梯度下降算法,并讨论其在欠定(过参数化)情况下的局限性。最后,我们将介绍一种改进方法——岭回归,它通过引入正则化项来确保算法收敛到一个具有良好性质的解。


线性回归问题回顾 📝

上一节我们讨论了随机特征模型。本节中,我们回到一个更基础但核心的问题:线性回归。线性回归的目标是找到一个权重向量 W,使得对于给定的输入数据矩阵 X 和期望输出向量 ,有 Ŷ ≈ WX

在欠定情况下,数据点数量 N 小于特征维度 P,方程组 Ŷ = WX 通常有无穷多解。此时,一个常见的选择准则是寻找范数最小的解,其显式公式为:

Ŵ = Ŷ Xᵀ (X Xᵀ)⁻¹

然而,直接计算这个逆矩阵在数值上可能不高效或不稳定,因此我们需要一种迭代算法。


作为优化问题的线性回归 🔍

我们可以将求解 W 的问题转化为一个最小化问题。具体来说,我们希望最小化损失函数 L(W),它衡量了预测值与真实值之间的差距:

L(W) = ||Ŷ - WX||²

L(W) = 0 时,我们得到了精确解。这个损失函数是凸函数,其最小值点可以通过令梯度为零来找到。

以下是计算梯度所需的步骤:

  1. 将损失函数展开:L(W) = ŶŶᵀ - 2ŶXᵀWᵀ + W X Xᵀ Wᵀ
  2. W 求梯度(结果为行向量):∇ₓL(W) = -2ŶXᵀ + 2W X Xᵀ
  3. 令梯度为零,得到正规方程:W X Xᵀ = Ŷ Xᵀ

在过定情况下,X Xᵀ 可逆,我们可以直接解出 W。但在欠定情况下,X Xᵀ 不可逆,正规方程不能给出唯一解,梯度下降法的行为也会变得复杂。


梯度下降算法 ⬇️

梯度下降是一种迭代优化算法。它从初始猜测 W₀ 开始,沿着损失函数梯度的反方向(即下降最快的方向)逐步更新参数,以逼近最小值点。

算法的更新规则如下:

W_{t+1} = W_t - η ∇ₓL(W_t)

其中:

  • W_t 是第 t 次迭代的权重。
  • η 是步长,在神经网络中常被称为学习率。
  • ∇ₓL(W_t) 是损失函数在 W_t 处的梯度。

在过定(凸且唯一解)的情况下,选择合适的 η,梯度下降能保证收敛到最小二乘解。但在欠定情况下,由于存在无穷多解,梯度下降会收敛到其中一个解,但这个解不一定是我们期望的范数最小的“最佳”解。


一个简单的例子 📐

为了理解欠定情况下的问题,我们考虑一个极简例子:设 P=2, N=1,数据 X = [0, 1]ᵀ,期望输出 Ŷ = 1。我们的模型是 f(x) = θ₁x₁ + θ₂x₂

根据方程 Ŷ = WX,我们得到 θ₂ = 1,而 θ₁ 可以是任意值。范数最小的解显然是 θ₁=0, θ₂=1

现在应用梯度下降法:

  • 损失函数梯度为 ∇L = 2( [θ₁, θ₂] X Xᵀ - Ŷ Xᵀ ) = 2( [0, θ₂] - [0, 1] ) = [0, 2(θ₂ - 1)]
  • 更新规则为:
    • θ₁(t+1) = θ₁(t) (梯度中对应分量为0,永不更新)
    • θ₂(t+1) = θ₂(t) - 2η (θ₂(t) - 1)

可以看到,θ₂ 会收敛到1,但 θ₁ 始终保持在初始值,不会自动优化到0。因此,除非初始值恰好设对,否则梯度下降无法得到范数最小的最佳解。


岭回归:引入正则化 🏔️

为了解决上述问题,并确保解的优良性质(如小范数、平滑性等),我们修改损失函数,加入一个正则化(惩罚)项。这种方法称为岭回归。

新的损失函数为:

L_λ(W) = ||Ŷ - WX||² + λ ||W||²

其中 λ > 0 是正则化系数。这项 λ ||W||² 会惩罚较大的权重,促使算法寻找一个在拟合数据和保持权重较小之间取得平衡的解。

计算新损失函数的梯度并令其为零,我们得到:

W (X Xᵀ + λI) = Ŷ Xᵀ

由于 λ > 0,矩阵 (X Xᵀ + λI) 总是可逆的(因为 λI 将特征值提升了 λ)。因此,我们可以得到唯一解:

Ŵ_λ = Ŷ Xᵀ (X Xᵀ + λI)⁻¹

现在,优化问题变成了强凸的,有唯一解。梯度下降法应用到这个新的损失函数上,能够保证收敛到这个唯一的岭回归解。


岭回归与原始解的联系 🔗

值得注意的是,岭回归解 Ŵ_λ 与原始的最小范数解 之间存在紧密联系。当正则化系数 λ 趋近于0时,岭回归解会收敛到原始问题中范数最小的那个解:

lim_{λ→0⁺} Ŵ_λ = Ŵ = Ŷ Xᵀ (X Xᵀ)⁺

其中 (X Xᵀ)⁺ 表示 X Xᵀ 的伪逆。这为计算最小范数解提供了一种稳定的数值方法:通过求解一个 λ 很小的岭回归问题来近似它。


总结 🎯

本节课我们一起学习了线性回归的梯度下降法。

  1. 我们首先将线性回归问题形式化为一个最小化损失函数 ||Ŷ - WX||² 的优化问题。
  2. 接着,我们介绍了梯度下降算法,它通过迭代更新权重来寻找损失函数的最小值。
  3. 通过一个简单的二维例子,我们展示了在欠定情况下,标准梯度下降法可能无法收敛到期望的“最小范数解”。
  4. 为了克服这个问题,我们引入了岭回归,通过在损失函数中添加 λ ||W||² 正则化项,确保了解的唯一性和算法收敛性。
  5. 最后,我们看到了当 λ → 0 时,岭回归解会逼近原始的最小范数解,从而将两种方法统一起来。

理解梯度下降在线性回归中的行为,是进一步研究其在更复杂神经网络中应用的重要基础。在接下来的课程中,我们将尝试将这里的思路延伸到特征学习等更高级的设定中。

027:学习过程的时间演化与神经正切核

在本节课中,我们将要学习如何训练一个单隐藏层神经网络。我们将从线性回归的梯度下降法出发,探讨如何将其推广到更复杂的神经网络模型。我们将重点关注参数如何随时间演化,并引入一个核心概念——神经正切核,它描述了学习过程的动态特性。


上一节我们介绍了线性回归的梯度下降法,本节中我们来看看如何将其应用于单隐藏层神经网络。

我们的神经网络是一个函数,其形式如下:

公式:
[
f_\theta(x) = a^T \sigma(Wx)
]

其中:

  • ( x ) 是 ( p ) 维的输入数据向量。
  • ( W ) 是一个 ( m \times p ) 的矩阵(权重)。
  • ( \sigma ) 是一个逐元素应用的非线性激活函数。
  • ( a ) 是一个 ( m ) 维的向量(权重)。
  • 所有参数集合记为 ( \theta ),它包含了向量 ( a ) 和矩阵 ( W ) 中的所有元素,总维度为 ( m + m \times p )。

我们的目标是训练这个网络,使其能够拟合给定的 ( n ) 个观测数据对 ( (x_1, y_1), \dots, (x_n, y_n) )。我们希望找到参数 ( \theta ),使得对于所有观测数据 ( k ),都有 ( f_\theta(x_k) = y_k )。

为了衡量当前参数下的网络输出与目标值之间的差距,我们定义一个损失函数。最常用的损失函数是均方误差。

公式:
[
L(\theta) = \frac{1}{2} \sum_{k=1}^{n} (f_\theta(x_k) - y_k)^2
]

我们希望通过改变参数 ( \theta ) 来最小化这个损失函数。实现这一目标的标准方法是梯度下降法。

梯度下降法的核心思想是:参数沿着损失函数梯度的反方向进行更新,以减少损失值。其更新规则可以写为:

公式:
[
\theta_{t+1} = \theta_t - \eta \nabla_\theta L(\theta_t)
]

其中 ( \eta ) 是学习率(步长)。如果我们考虑一个连续的时间极限,将更新步长视为无穷小的时间增量 ( \Delta t ),那么梯度下降过程可以用一个微分方程来描述。

公式:
[
\frac{d\theta_t}{dt} = -\eta \nabla_\theta L(\theta_t)
]

这个方程描述了参数 ( \theta ) 随时间 ( t ) 的演化过程。然而,我们真正关心的是网络函数 ( f_t(x) = f_{\theta_t}(x) ) 本身如何随时间变化。


上一节我们得到了参数演化的微分方程,本节中我们来看看这个演化如何导致网络输出 ( f_t(x) ) 的变化。

根据链式法则,网络输出 ( f_t(x) ) 对时间的导数,来源于参数 ( \theta_t ) 对时间的导数。具体计算如下:

公式:
[
\frac{d f_t(x)}{dt} = \nabla_\theta f_t(x)^T \frac{d\theta_t}{dt}
]

将参数演化的方程 ( d\theta_t/dt = -\eta \nabla_\theta L(\theta_t) ) 代入上式。

公式:
[
\frac{d f_t(x)}{dt} = -\eta \nabla_\theta f_t(x)^T \nabla_\theta L(\theta_t)
]

接下来,我们需要计算损失函数 ( L(\theta_t) ) 的梯度。根据损失函数的定义,其梯度为:

公式:
[
\nabla_\theta L(\theta_t) = \sum_{k=1}^{n} (f_t(x_k) - y_k) \nabla_\theta f_t(x_k)
]

将这个梯度表达式代回 ( f_t(x) ) 的演化方程中,我们得到:

公式:
[
\frac{d f_t(x)}{dt} = -\eta \sum_{k=1}^{n} \nabla_\theta f_t(x)^T \nabla_\theta f_t(x_k) \cdot (f_t(x_k) - y_k)
]

观察这个方程,我们发现求和项中的核心部分 ( \nabla_\theta f_t(x)^T \nabla_\theta f_t(x_k) ) 是一个内积,它依赖于两个输入点 ( x ) 和 ( x_k )。这个量在神经网络理论中至关重要。

我们定义神经正切核如下:

公式:
[
K_t(x, x') = \nabla_\theta f_t(x)^T \nabla_\theta f_t(x')
]

神经正切核是一个核函数,它衡量了在参数空间中,网络函数在两点 ( x ) 和 ( x' ) 处的梯度方向的一致性。利用NTK,网络输出的演化方程可以简洁地写为:

公式:
[
\frac{d f_t(x)}{dt} = -\eta \sum_{k=1}^{n} K_t(x, x_k) \cdot (f_t(x_k) - y_k)
]

这个方程表明,网络在任意点 ( x ) 处的输出变化,由它在所有训练数据点 ( x_k ) 处的误差 ( (f_t(x_k) - y_k) ) 加权求和所驱动,权重正是神经正切核 ( K_t(x, x_k) )。


上一节我们引入了神经正切核来描述学习动态,本节中我们来看看它的两个关键性质,这些性质使得分析变得可行。

首先,在神经网络的宽度 ( m ) 趋向于无穷大的极限下(即过参数化极限),随机初始化的神经正切核 ( K_t ) 会收敛到一个确定的(非随机的)矩阵。

其次,更为重要的是,在这个极限下,神经正切核在训练过程中基本保持不变,即 ( K_t \approx K_0 )。这意味着,尽管参数 ( \theta_t ) 在不断变化,但由它们定义的梯度内积结构(即NTK)在训练初期就固定了下来,并且在整个训练过程中近似为常数。

此外,在合理的条件下,可以证明初始的NTK矩阵 ( K_0 ) 是正定的,并且其特征值远离零。这保证了梯度下降优化过程在所有方向上都有稳定的收敛速率。

由于NTK近似为常数矩阵,我们可以显式地求解网络在训练数据点上的演化方程。将训练数据收集为矩阵 ( X = [x_1, \dots, x_n] ) 和向量 ( Y = [y_1, \dots, y_n]^T ),网络在训练集上的输出向量 ( F_t = [f_t(x_1), \dots, f_t(x_n)]^T ) 满足:

公式:
[
\frac{d}{dt}(F_t - Y) = -\eta K \cdot (F_t - Y)
]

其中 ( K ) 是 ( n \times n ) 的常数NTK矩阵,其元素为 ( K_{ij} = K_0(x_i, x_j) )。这是一个标准的线性微分方程,其解为:

公式:
[
F_t - Y = e^{-\eta K t} (F_0 - Y)
]

由于 ( K ) 正定,当时间 ( t \to \infty ) 时,指数项 ( e^{-\eta K t} \to 0 ),这意味着训练误差 ( F_t - Y ) 以指数速度衰减到零。也就是说,网络能够完美拟合所有训练数据:

公式:
[
F_\infty = Y
]

对于一个新的、未见过的数据点 ( x ),其最终输出 ( f_\infty(x) ) 也可以通过求解相应的微分方程得到。假设网络初始输出 ( f_0(x) = 0 )(可以通过适当的初始化或中心化实现),其解具有以下形式:

公式:
[
f_\infty(x) = K(x, X) K(X, X)^{-1} Y
]

这个公式具有深刻的意义:在无限宽网络的极限下,使用梯度下降法训练得到的最終网络,其预测行为等价于一个使用神经正切核 ( K ) 的核回归方法。网络的预测值是所有训练标签 ( Y ) 的线性组合,权重由新点 ( x ) 与所有训练点 ( X ) 之间的核函数关系决定。


上一节我们得到了网络预测的最终形式,本节中我们来看看神经正切核的具体表达式,并将其与我们已经学过的随机矩阵理论联系起来。

对于我们的单隐藏层网络 ( f_\theta(x) = a^T \sigma(Wx) ),其参数梯度可以显式计算:

  • 关于 ( a ) 的梯度:( \nabla_a f_\theta(x) = \sigma(Wx) )
  • 关于 ( W ) 的第 ( i ) 行 ( w_i^T ) 的梯度:( \nabla_{w_i} f_\theta(x) = a_i \sigma'(w_i^T x) x )

因此,神经正切核 ( K(x, x') = \nabla_\theta f_\theta(x)^T \nabla_\theta f_\theta(x') ) 由两部分组成:

公式:
[
K(x, x') = \underbrace{\sigma(Wx)^T \sigma(Wx')}{\text{来自 } a} + \underbrace{\sum^m a_i^2 \sigma'(w_i^T x) \sigma'(w_i^T x') (x^T x')}_{\text{来自 } W}
]

当我们将输入从单个向量 ( x ) 推广到数据矩阵 ( X ) 时,NTK 就成为一个矩阵。它的第一项 ( \sigma(WX)^T \sigma(WX) ) 正是我们在研究随机特征模型时遇到过的协方差矩阵类型。第二项则更为复杂,涉及非线性导数 ( \sigma' ) 以及参数 ( a_i ) 的平方。

尽管表达式复杂,但关键在于,神经正切核 ( K(X, X) ) 最终可以表示为关于随机矩阵 ( W )、( X ) 和随机向量 ( a ) 的一个(非线性)函数。更具体地说,通过一些技巧(例如将非线性函数作用于高斯矩阵乘积的结果,近似视为原乘积加上一个独立的噪声矩阵),整个表达式可以化简为这些随机矩阵的一个有理函数。

这意味着,要分析梯度下降下网络的泛化性能(例如计算测试误差),就需要计算这个复杂有理函数矩阵的期望或谱分布。这正是自由概率理论可以大显身手的地方。它为我们提供了一套系统性的工具,用于处理随机矩阵多项式甚至有理函数的谱分析,从而使得理论上分析这类过参数化神经网络的行为成为可能。


本节课中我们一起学习了单隐藏层神经网络训练过程的时间演化。我们从梯度下降法出发,推导出了网络输出变化的微分方程,并在此过程中引入了核心概念——神经正切核。我们了解到,在无限宽网络的极限下,NTK在训练过程中近似为常数且正定,这保证了训练误差的指数级收敛。最终的网络预测等价于一个基于NTK的核回归。最后,我们看到NTK的具体表达式可以归结为随机矩阵的有理函数,这将其与自由概率理论联系起来,为后续的理论分析奠定了基础。在接下来的课程中,我们将进一步探讨NTK为何在训练中保持恒定,并简要介绍如何使用自由概率的工具分析此类模型。

028:神经正切核的性质 🔬

在本节课中,我们将深入探讨神经正切核(NTK)的性质。上一节我们介绍了NTK作为无限宽神经网络的一种线性近似。本节中,我们将具体分析为何在极限情况下,NTK会收敛为一个确定性的、与时间无关的核,并探讨其背后的数学原理。我们还将通过一个具体例子(ReLU激活函数)来计算NTK的显式表达式,并解释在训练过程中NTK保持近似不变的原因。

模型设定与NTK回顾

我们考虑一个简化的神经网络模型。该网络的输出函数为:

f_\theta(x) = \frac{1}{\sqrt{M}} \sum_{i=1}^{M} a_i \sigma(w_i^T x)

其中:

  • xp 维输入数据,我们假设其范数为1,即 ||x|| = 1
  • w_ip 维权重向量,构成矩阵 W 的行。
  • a_i 是输出层的权重,我们将其固定为从 {-1, +1} 中均匀随机选取的值,因此 a_i^2 = 1
  • σ 是激活函数。
  • M 是隐藏层的宽度(神经元数量)。
  • 参数 θ 在这里特指所有权重向量 w_i 的集合,而 a_i 在训练过程中保持固定。

我们关注的是对权重 W 的优化。神经正切核定义为梯度向量的内积:

K_\theta(x, x') = \langle \nabla_\theta f_\theta(x), \nabla_\theta f_\theta(x') \rangle

由于我们只优化 W,梯度仅对 w_i 求导。经过计算,NTK的具体形式为:

K_\theta(x, x') = (x^T x') \cdot \frac{1}{M} \sum_{i=1}^{M} \sigma'(w_i^T x) \sigma'(w_i^T x')

NTK的确定性极限

上一节我们提到,当隐藏层宽度 M → ∞ 时,随机核 K_θ 会收敛到一个确定性的核 K*。现在我们来理解其原因。

在当前的模型设定下,权重向量 w_i 被初始化为独立同分布的标准高斯随机向量。因此,求和项中的每一项 σ'(w_i^T x) σ'(w_i^T x') 对于不同的 i 也是独立同分布的随机变量。

根据大数定律,独立同分布随机变量的平均值会收敛到其期望值。因此,当 M 很大时,有:

\frac{1}{M} \sum_{i=1}^{M} \sigma'(w_i^T x) \sigma'(w_i^T x') \xrightarrow[M \to \infty]{} \mathbb{E}_v[\sigma'(v^T x) \sigma'(v^T x')]

其中 v 是一个与 w_i 同分布的 p 维标准高斯随机向量。

于是,我们得到了极限的确定性神经正切核:

K^*(x, x') = (x^T x') \cdot \mathbb{E}_v[\sigma'(v^T x) \sigma'(v^T x')]

对于足够大的 M,实际网络的NTK将以高概率非常接近这个极限核。

示例:ReLU激活函数的NTK计算

为了更具体地理解极限核 K*,我们以ReLU激活函数为例进行计算。ReLU函数为 σ(t) = max(0, t),其导数(几乎处处)为:

\sigma'(t) = \begin{cases}
1, & \text{if } t > 0 \\
0, & \text{if } t < 0
\end{cases}

因此,对于ReLU,期望项变为:

\mathbb{E}_v[\sigma'(v^T x) \sigma'(v^T x')] = \mathbb{P}_v (v^T x > 0 \text{ 且 } v^T x' > 0)

即计算高斯随机向量 v 与两个给定单位向量 xx' 的内积同时为正的概率。

α = x^T x' 为两个输入向量之间的余弦相似度。随机变量 t1 = v^T xt2 = v^T x' 是均值为0、方差为1的联合高斯随机变量,其协方差恰好为 α

我们可以通过一个几何论证来巧妙地计算这个概率,而无需进行复杂的积分。考虑二维情况,因为问题本质在于由 xx' 张成的平面。一个标准高斯随机向量 v 的方向(归一化后)在单位圆上是均匀分布的。

我们需要单位圆上的均匀随机方向与 xx' 的内积同时为正。这对应于方向向量位于与 xx' 都成锐角的扇形区域内。设 θxx' 之间的夹角,则满足条件的扇形角度为 π - θ

因此,概率为:

\mathbb{P} = \frac{\pi - \theta}{2\pi}

由于 α = cos(θ),即 θ = arccos(α),我们得到:

\mathbb{E}_v[\sigma'(v^T x) \sigma'(v^T x')] = \frac{\pi - \arccos(\alpha)}{2\pi}

最终,ReLU激活函数下的极限神经正切核为:

K^*(x, x') = (x^T x') \cdot \frac{\pi - \arccos(x^T x')}{2\pi}

这是一个清晰、确定的解析表达式。

训练过程中NTK的(近似)不变性

一个关键且令人惊讶的结论是,在训练过程中,即使参数 W 被更新,神经正切核也几乎保持不变。这源于在无限宽极限下,权重本身的变化非常微小。

让我们分析权重的演化。根据梯度下降,参数 w_i 的时间导数由损失函数的梯度给出:

\frac{d w_i(t)}{dt} = -\frac{1}{\sqrt{M}} \sum_{k=1}^{n} (f_t(x_k) - y_k) \cdot a_i \cdot \sigma'(w_i(t)^T x_k) \cdot x_k

其中 n 是训练样本数,(x_k, y_k) 是训练数据对。

我们想估计从初始时间 0 到时间 t 的权重变化量 ||w_i(t) - w_i(0)||。通过对时间导数积分并取范数,我们可以进行粗略量级分析:

||w_i(t) - w_i(0)|| \approx \left\| \int_0^t \frac{d w_i}{dt} d\tau \right\| = O\left( \frac{n \cdot t}{\sqrt{M}} \right)

这里的关键是,求和项中的每个分量(预测误差、激活函数导数等)的量级大致为 O(1),对 n 个样本求和得到 O(n),乘以时间 t,再除以归一化因子 1/√M

因此,权重的变化幅度为 O( n t / √M )。当隐藏层宽度 M → ∞ 时,只要训练样本数 n 固定,这个变化量就趋于 0。这意味着在极限情况下,权重几乎不移动,始终停留在初始化附近。

由于神经正切核 K_θ 是权重 W 的函数,且权重变化极小,因此核本身在训练过程中的变化也微乎其微。这就是NTK在无限宽神经网络中表现出近似不变性的根本原因。在实际的有限宽度网络中,NTK会有微小变化,但其主要特征仍由初始化时的随机核决定。

总结

本节课中我们一起学习了神经正切核的核心性质。我们首先回顾了模型,并利用大数定律解释了NTK如何收敛到一个确定性的极限核。接着,我们以ReLU函数为例,通过巧妙的几何论证计算了该极限核的具体解析形式。最后,我们分析了梯度下降训练的动态过程,发现由于权重变化量级为 O(1/√M),在无限宽极限下权重几乎不变,从而导致NTK在训练过程中保持近似不变。这一性质是将复杂神经网络训练简化为线性核方法研究的关键。

029:自由概率理论与非线性问题的线性化

在本节课中,我们将学习自由概率理论,这是一个处理非交换随机变量(如随机矩阵)的强大数学框架。我们将看到,自由概率不仅能够处理自由随机变量之和(对应于独立随机矩阵之和的极限),还能通过其算子值版本处理随机矩阵的多项式甚至有理函数。核心思想是将非线性问题“线性化”,即通过引入矩阵系数,将标量值多项式问题转化为算子值线性问题,从而利用自由卷积等工具求解。

自由概率理论概述

上一节我们介绍了随机矩阵在机器学习模型分析中的重要性。本节中,我们来看看一个专门为此类非交换随机对象设计的现代理论——自由概率理论。

自由概率理论由 Dan Voiculescu 在 20 世纪 80 年代创立和发展,至今仍是数学中一个活跃的领域。它类似于经典概率论,但核心处理对象是非交换的随机变量,例如随机矩阵。在随机矩阵的极限下,我们观察到一种特殊的结构,这自然引出了自由概率中的核心概念:自由累积量和自由独立性。

随机矩阵的极限结构与自由累积量

考虑一个 N×N 的实对称随机矩阵 X,其元素为 X_ij = X_ji。我们之前看到,在计算大 N 极限下的特征值分布时,矩阵元素的经典累积量中,只有那些具有特定循环索引结构的项会贡献主导阶。

具体来说,对于矩阵元素 X 的 L 阶累积量,只有当索引呈循环结构(如 X_{i1 i2}, X_{i2 i3}, ..., X_{iL i1})时,它才以 N^{-(L-1)} 的阶次贡献。我们定义对应的自由累积量 R_L 为这个主导阶的极限值:

公式:R_L = lim_{N→∞} N^{L-1} ⋅ κ_L( X_{i1 i2}, X_{i2 i3}, ..., X_{iL i1} )

其中 κ_L 表示经典累积量,且假设索引 i1, ..., iL 互不相同。

矩阵 X 的 L 阶矩(即归一化迹 E[ tr( X^L ) / N ])在大 N 极限下,可以通过自由累积量 {R_L} 来计算。其计算公式类似于经典矩-累积量公式,但求和中只包含非交叉划分

以下是几个低阶矩的例子:

  • L=1: M_1 = R_1
  • L=2: M_2 = R_2 + R_1^2
  • L=4 (假设 R_1 = R_3 = 0): M_4 = R_4 + 2 R_2^2

在 L=4 的例子中,划分 { {1,3}, {2,4} } 是交叉的,它在 N→∞ 时贡献为零。只有非交叉划分(如 { {1,2,3,4} }, { {1,2}, {3,4} }, { {1,4}, {2,3} } )的贡献得以保留。这种只对非交叉划分求和的矩-累积量关系,正是自由概率理论中的自由矩-累积量公式

自由独立性与自由卷积

自由累积量的一个关键性质是,它可以刻画一种新的独立性概念——自由独立性(或称“freeness”)。

如果两个随机矩阵 XY 的矩阵元素是经典独立的,那么它们对应的混合自由累积量将为零。这一性质类似于经典独立随机变量的混合累积量为零。因此,我们将满足所有混合自由累积量为零的两个非交换随机变量称为自由独立的。

自由独立性的一个直接结果是可加性:如果 XY 自由独立,那么它们的和的自由累积量等于各自自由累积量之和。这使得计算自由随机变量之和的分布成为可能,对应的运算称为自由卷积。这类似于经典概率中,独立随机变量之和的分布可以通过卷积计算。

从求和到多项式:算子值自由概率与线性化

然而,在机器学习模型中,我们常常需要处理更复杂的表达式,而不仅仅是随机矩阵之和。例如,我们可能需要分析 XY + YX + X^2 这样的多项式。此时,X*YY*X 等项不再是自由独立的,因此不能直接应用自由卷积。

为了解决多项式问题,我们需要借助算子值自由概率理论。其核心思想是“线性化”:将一个标量值的非线性(多项式)问题,嵌入到一个具有矩阵系数的线性问题中。

以下是一个线性化的具体示例。假设我们想研究多项式 P = XY + YX + X^2 的史提尔杰斯变换 G_P(z) = E[ tr( (P - zI)^{-1} ) / N ]。直接求逆 (P - zI)^{-1} 很困难。

我们可以构造一个 3×3 的块矩阵,将问题嵌入其中:

代码/矩阵表示

[ P - zI   *   * ]   =   [ 1   0   0 ]   [ -zI   X   Y+X/2 ]   [ 1   Y+X/2   X ]
[   *     *   * ]       [ *   1   0 ]   [  X   -I    0   ]   [ 0    1      0 ]
[   *     *   * ]       [ *   *   1 ]   [ Y+X/2  0   -I  ]   [ 0    0      1 ]

(* 表示我们不关心的部分)

关键点在于,经过分解后,右侧三个矩阵中的每一个,其关于 XY 的部分都是线性的(尽管带有常数矩阵系数)。而原多项式 (P - zI) 的逆,恰好等于这个大的 3×3 块矩阵逆的 (1,1) 块元素。

进一步,我们可以将整个问题重写为:
(P - zI)^{-1} 的 (1,1) 块 = [ ( \hat{P} - \Lambda(z) )^{-1} ] 的 (1,1) 块
其中 \hat{P} 是一个关于 XY线性多项式(但系数是 3×3 矩阵),\Lambda(z) 是一个包含参数 z 的对角矩阵。

于是,计算原多项式 P 的史提尔杰斯变换问题,转化为了计算一个算子值线性函数 \hat{P} 的算子值史提尔杰斯变换问题。在算子值自由概率的框架下,即使系数是矩阵,我们也有工具处理这类自由变量之和(即 \hat{P})的分布。

这种方法可以推广到任意多项式甚至有理函数。虽然计算变得更复杂,但原则上为我们提供了分析随机矩阵复杂函数的系统性工具。

总结

本节课中我们一起学习了自由概率理论的核心思想及其在分析随机矩阵中的应用。

首先,我们看到了随机矩阵在大维极限下如何自然引出自由累积量和自由矩-累积量公式,其中只有非交叉划分贡献。

其次,我们了解了自由独立性作为经典独立性在非交换情形的类比,它允许我们处理自由随机变量之和(自由卷积)。

最后,也是最重要的,我们探讨了如何通过“线性化”技术,将随机矩阵的非线性多项式问题,转化为算子值自由概率中的线性问题。这通过将原问题嵌入到一个具有矩阵系数的更高维线性问题中实现,从而使得我们能够利用自由概率的工具箱来处理机器学习中出现的更复杂的随机矩阵表达式。

自由概率理论为理解高维随机矩阵的行为,特别是那些由独立矩阵构成的多项式的渐近谱性质,提供了一个强大而概念清晰的数学框架。

030:高维度的诅咒与祝福 🧭

在本节课中,我们将探讨高维空间的两个核心特性:诅咒与祝福。我们将通过观察随机向量和随机矩阵的分布直方图,直观地理解为何高维空间既是挑战也是机遇。

上一节我们介绍了高维分析的基本背景,本节中我们来看看高维空间的具体表现。

高维度的诅咒 😨

高维度的诅咒意味着高维空间极其庞大。如果你试图在其中采样,几乎不可能完整地捕捉到某个事物的真实分布。高维空间非常广阔且稀疏。对于许多算法和统计方法而言,高维是灾难性的,因为事物会呈指数级爆炸增长,你需要访问空间中过多的点,而这在计算上是不可行的。

高维度的祝福 😇

然而,高维度也带来了祝福。其核心思想是集中现象:如果你取高维向量的平滑一维函数,它们通常会集中在一个值附近。这是高维分析中的一个关键优势,也是我们将重点讨论的内容。

随机向量的集中现象 📊

为了直观展示,让我们从随机向量开始。以下是观察随机向量长度分布的过程。

一维高斯分布

首先,我们看一维高斯分布。取一个方差为1的高斯分布向量,绘制其直方图。即使在一维中,为了获得正态分布的清晰图像,也需要大量采样(例如100万个样本)。

在一维中,向量的长度映射为 R^p -> R。由于在 R 中,长度就是向量本身的绝对值(负值被翻转到正侧),因此长度的分布本质上就是高斯分布绝对值的两倍。

二维高斯分布

现在考虑二维高斯向量。向量的两个分量是独立的高斯分布,我们将其归一化,使得向量的平均长度为1(每个分量的方差为 1/√2)。绘制10万个此类向量的长度分布直方图,可以看到长度分布在0到2之间,仍然较为分散。

更高维度

当我们进入更高维度时,无法直接绘制向量本身,但可以观察其长度。以下是随着维度 p 增加,向量长度分布的变化:

  • p=1, 2: 长度分布分散。
  • p=5, 20, 80, 320, 1000: 长度分布越来越集中在平均值1附近。

这表明,虽然向量本身在高维球面上广泛分布,但其长度(一个一维函数)却高度集中。这就是集中现象的核心:向量不集中,但其某些函数(如范数)会集中。

随机向量的正交性 📐

另一个有趣的现象涉及两个独立高斯向量的正交性。

我们观察两个独立高斯向量之间归一化内积(即夹角余弦)的分布:
cos(θ) = (x·y) / (||x|| ||y||)

以下是不同维度下的分布情况:

  • p=1: 内积仅为+1或-1(完全平行或反平行)。
  • p=2: 分布较广,存在接近平行、反平行和正交的向量。
  • p=5, 20, 80, 320, 1000: 分布越来越集中在0附近。

在低维,向量可能平行;但在高维,两个随机向量几乎总是近似正交的。其内积的平均值始终为0,但在高维中,实际值也紧密地集中在0附近,这与低维中可能远离0的情况(如±1)形成对比。

协方差矩阵估计的应用 📈

现在,让我们将视角转向更接近实际数据的问题:协方差矩阵估计。

假设我们有一个 p 维高斯随机向量,其分量独立,但方差不同:一半分量的方差为1,另一半为2。因此,真实的协方差矩阵 Σ 是对角矩阵,其特征值一半为1,一半为2。

经典统计视角

我们进行 n 次独立观测,并用样本协方差矩阵 S_n = (1/n) Σ_{i=1}^n X_i X_i^T 来估计 Σ

  • 设定 p=100, n=100。绘制样本协方差矩阵的100个特征值的直方图。我们看不到清晰的1和2,而是看到一个连续的分布。
  • 固定 p=100,逐步增加 n (1000, 10000, 100000)。随着 n 极大增加,特征值分布才开始在1和2附近出现分离。

经典统计学告诉我们,当 n 远大于 p 时,估计会收敛。但在 pn 可比拟的现代数据场景中,我们无法获得如此多的样本。

高维极限视角

我们考虑另一种极限:让 pn 以相同的速率趋向于无穷大 (p, n → ∞, p/n → 常数)。

  • 我们观察 pn 同步增大的情况(如500x500, 4000x4000矩阵)。特征值分布会收敛到一个光滑的极限曲线,即Marchenko-Pastur分布
  • 我们 p=n=200 的实际观测结果,已经与这个高维极限分布非常接近。

因此,虽然我们看不到真实的特征值1和2,但观测到的分布是真实矩阵 Σ 的一个可计算、可控制的函数。理解这个极限分布,比等待不现实的巨大样本量更有用。这正是随机矩阵理论,特别是Wishart矩阵极限谱分析的内容。

信号加噪声模型 📡

我们进一步考虑一个更实际的“信号+噪声”模型。

设定维度 p=1000。假设其中一个分量是信号,其方差为 C;其余999个分量是噪声,其中一半方差为1,一半为2。

信号检测

我们观察样本协方差矩阵的特征值分布 (p=n=1000):

  1. 无信号 (C=1): 得到标准的Marchenko-Pastur分布,特征值全部位于“噪声谱”内。
  2. 强信号 (C=7): 在噪声谱范围之外,出现一个离群的特征值(图中用更高的柱表示)。虽然真实信号特征值是7,但观测值约为9。信号没有被噪声淹没,而是清晰可辨。
  3. 中等信号 (C=5, C=4): 离群特征值依然可见,但随着 C 减小,它逐渐向噪声谱边缘移动。
  4. 弱信号 (C=3): 离群特征值消失,融入噪声谱中,无法再被区分。

核心结论

这个现象揭示了高维统计中的一个重要原理:

  • 当信号强度足够大(超过某个由噪声谱边缘决定的临界值),它会产生一个可观测的离群特征值。
  • 观测到的离群特征值位置与真实信号强度之间存在确定的数学关系,我们可以通过理论反推真实信号强度。
  • 噪声谱本身非常稳定,其内部不会自发产生类似的离群值。

本节课中我们一起学习了高维度的双重特性。诅咒体现在空间的广阔和采样的困难;而祝福则体现在集中现象上,使得随机向量的某些函数(如范数、内积)以及随机矩阵的谱分布,在高维下会呈现出确定性的、可预测的行为。我们通过协方差矩阵估计和信号检测模型,看到了如何利用这些高维极限理论来理解和处理实际中 pn 可比拟的数据。这正是高维分析赋予我们的强大工具。

posted @ 2026-03-26 13:11  布客飞龙IV  阅读(26)  评论(0)    收藏  举报