IHES-数据科学统计与计算机科学笔记-全-

IHES 数据科学统计与计算机科学笔记（全）

001：入门与部分成果

在本节课中，我们将要学习强化学习的基础概念。我们将从理解什么是强化学习开始，然后探讨其核心数学模型——马尔可夫决策过程，最后介绍一些前沿的研究成果。

什么是强化学习？

上一节我们介绍了课程概述，本节中我们来看看强化学习的核心思想。

强化学习与一种称为“序列决策”的问题相关。在经典的机器学习中，我们通常关注如何做出单一的预测或决策。然而，在现实世界中，一个决策往往会产生后果，从而改变环境的状态。因此，我们不能依赖经典机器学习中常见的独立同分布假设。强化学习旨在处理这种情况。

我们关注的是这样一种情境：最终结果并非由单一决策决定，而是由一系列决策共同导致。这意味着，当你做出一个选择时，你需要考虑这个选择带来的后续影响，才能判断其好坏。这与监督学习框架不同，在监督学习中，你通常能立即或在短时间内获得决策好坏的反馈。

序列决策问题在某种意义上比无监督学习更简单，因为我们可以用一种非常具体的方式来定义目标，从而将其与优化问题联系起来。

马尔可夫决策过程模型

为了进行数学分析，我们需要一个具体的模型来描述序列决策问题。最常用且简单的模型是马尔可夫决策过程。

我们设想一个智能体在一个环境中行动。在每个离散的时间步 t，智能体观察到环境的状态 s_t，并基于此选择一个动作 a_t。环境随后会反馈一个标量奖励 r_t，并转移到下一个状态 s_{t+1}。我们的目标是学习一种策略（即从状态到动作的映射），以最大化长期累积奖励。

为了简化分析，我们做出以下关键假设：

马尔可夫性：下一个状态 s_{t+1} 和奖励 r_t 的概率分布仅依赖于当前状态 s_t 和当前动作 a_t，而与历史无关。
有限性：状态空间、动作空间和奖励集合都是有限的（或可处理的）。
折扣回报：我们通过折扣累积奖励（即回报 G_t）来衡量长期表现。其定义为：
G_t = r_t + γ * r_{t+1} + γ^2 * r_{t+2} + ...
其中折扣因子 γ 满足 0 ≤ γ < 1。引入折扣因子是为了保证无限时间序列的回报总和是有限的。

基于此模型，我们定义两个核心函数：

状态价值函数 V^π(s)：表示在策略 π 下，从状态 s 开始所能获得的期望回报。
动作价值函数 Q^π(s, a)：表示在策略 π 下，从状态 s 执行动作 a 后所能获得的期望回报。

我们的核心问题可以归结为：

策略评估：给定一个策略 π，计算其价值函数 V^π 或 Q^π。
策略优化：寻找一个最优策略 π*，使得其价值函数在所有策略中是最优的。

已知模型下的求解：动态规划

如果我们完全了解环境的动态（即状态转移概率和奖励函数），问题就转化为一个规划问题。我们可以使用动态规划方法求解。

策略评估可以通过求解贝尔曼方程来完成。对于给定策略 π，其状态价值函数满足以下线性方程：
V^π(s) = Σ_{a} π(a|s) Σ_{s‘, r} p(s‘, r | s, a) [ r + γ * V^π(s‘) ]
我们可以通过迭代法（如值迭代）求解这个方程，因为对应的贝尔曼期望算子是一个压缩映射。

策略改进则基于一个简单的思想：如果在某个状态，存在一个动作能带来比当前策略下更好的即时奖励加上后续状态的价值，那么改变这个状态下的策略就能得到一个更优的策略。这引出了策略迭代算法。

寻找最优策略可以直接通过求解贝尔曼最优方程来实现：
V*(s) = max_{a} Σ_{s‘, r} p(s‘, r | s, a) [ r + γ * V*(s‘) ]
同样，贝尔曼最优算子也是压缩映射，可以通过值迭代求解。得到最优价值函数 V* 后，最优策略 π* 就是每个状态选择能使上述等式右侧最大化的动作。

未知模型下的学习：强化学习

在更现实的强化学习设定中，我们不知道环境的完整模型（转移概率 p）。我们只能通过与环境的交互（尝试动作、观察奖励和状态转移）来学习。

以下是解决此问题的几种主要思路：

蒙特卡洛方法：通过运行完整的回合（从开始到终止），收集观测到的回报，然后直接对回报进行平均来估计价值函数。这种方法简单，但需要等到回合结束才能更新，且方差可能较高。

时序差分学习：结合了蒙特卡洛的采样思想和动态规划的自举思想。其核心更新公式（以TD(0)为例）为：
V(s_t) ← V(s_t) + α [ r_t + γ * V(s_{t+1}) - V(s_t) ]
其中 α 是学习率。我们用当前估计 V(s_{t+1}) 来替代真实的未来回报，从而实现在线、增量式的更新。

Q-learning：一种直接学习最优动作价值函数 Q* 的时序差分算法。其更新规则为：
Q(s_t, a_t) ← Q(s_t, a_t) + α [ r_t + γ * max_{a} Q(s_{t+1}, a) - Q(s_t, a_t) ]
学习到 Q* 后，最优策略即为 π*(s) = argmax_a Q*(s, a)。

函数近似与策略梯度

当状态或动作空间很大时，存储每个状态（或状态-动作对）的价值表变得不现实。此时需要使用函数近似，例如用参数化函数 V_θ(s) 或 Q_θ(s, a) 来近似价值函数。

然而，价值函数近似会引入新的挑战，比如近似误差可能导致算法不稳定或不收敛。另一种思路是直接参数化策略 π_θ(a|s)，并优化其参数 θ 以最大化期望回报 J(θ)。这引出了策略梯度方法。

策略梯度定理给出了目标函数 J(θ) 梯度的表达式：
∇_θ J(θ) ∝ E_π [ Q^π(s, a) ∇_θ log π_θ(a|s) ]
我们可以通过采样来估计这个梯度，并使用随机梯度上升法更新策略参数。

现代最成功的算法（如Actor-Critic）通常结合了价值函数近似和策略梯度，同时学习一个价值函数（Critic）来评估当前策略，并利用这个评估来更新策略（Actor）。为了保证稳定性，通常让策略（Actor）的更新速度慢于价值函数（Critic）的更新速度。

研究成果举例

最后，我们简要介绍三个由学生完成的研究方向，以展示强化学习的应用与拓展。

应用于医学超声检查：与产科医生合作，将胎儿超声检查流程建模为一个寻找最短路径到达诊断目标的序列决策问题。使用强化学习来优化探头的移动路径，减少检查时间和操作步骤，相关成果已转化为创业公司的产品原型。
大规模MDP的高效数值求解：针对已知模型但规模巨大的MDP，研究如何通过巧妙的参数化和算法设计，在理论上保证收敛的同时，在实践中获得比传统动态规划更快的求解速度。这项工作涉及对大量基准问题的系统评测。
鲁棒强化学习：研究当环境动态可能发生变化或存在对抗性扰动时，如何学习一个鲁棒的策略。理论分析表明，求解一个考虑最坏情况扰动的鲁棒优化问题，有时比求解原始的非鲁棒问题更容易，因为扰动起到了正则化的作用。在函数近似设定下，这种带有“悲观”估计的鲁棒方法甚至能在稳定环境中带来更好的性能。

总结

本节课中我们一起学习了强化学习的基础。我们从序列决策的概念出发，引入了马尔可夫决策过程这一核心数学模型。我们探讨了在已知模型下如何使用动态规划进行策略评估与优化，以及在未知模型下如何通过与环境交互进行学习，包括蒙特卡洛法、时序差分学习和Q-learning。面对大规模问题，我们介绍了价值函数近似和直接优化策略的策略梯度方法。最后，我们通过几个研究实例看到了强化学习在医疗、算法优化和鲁棒性研究等方面的应用与前沿进展。强化学习是一个连接决策、优化与学习的强大框架，在人工智能领域具有广泛的应用前景。

002：理论洞见与应用

概述

在本节课中，我们将要学习如何处理机器学习问题中的缺失值。我们将探讨缺失值的理论基础、常见的处理方法，并通过实验分析不同策略对预测性能的影响。课程将涵盖缺失值机制的分类、理论上的最优预测器构建，以及在实际应用中如何权衡插补质量与预测性能。

缺失值问题的动机

我们通常会在临床数据库等实际数据中遇到缺失值问题。数据集中几乎每个临床变量和每个患者都至少有一个缺失值。当需要训练预测模型时，我们必须首先处理这些缺失值，因为大多数模型无法原生处理缺失数据。

那么，核心问题是：我们应该怎么做？

缺失值处理的文献回顾

自20世纪70年代以来，已有大量关于缺失值的文献，主要集中于插补和统计推断两个任务。

插补是指用可能的值填充缺失条目的任务。经典方法包括：

期望最大化算法
链式方程多元插补
矩阵分解方法
近年来，也出现了基于生成对抗网络、变分自编码器、图神经网络和最优传输等新方法。

统计推断则试图在存在缺失值的情况下估计某些变量的均值或方差。教科书中的方法主要基于：

基于似然的推断
多重插补
逆概率加权

大多数上述方法都依赖于对缺失机制的特定假设。

缺失值机制的分类

缺失值如何产生被分为三种机制，同样在70年代被提出。

完全随机缺失：这是最强的假设。在MCAR机制下，一个变量缺失的概率是常数，不依赖于任何其他变量。公式表示为：P(M=1) = constant，其中M是表示变量是否缺失的二元指示符。
随机缺失：在MAR机制下，一个变量缺失的概率可以依赖于其他已被观测到的变量，但不能依赖于其自身的未观测值。MCAR是MAR的一个特例。
非随机缺失：在MNAR机制下，一个变量缺失的概率可能依赖于其自身的未观测值。例如，当变量取值较高时，它更可能缺失。

之前提到的大多数推断和插补方法都要求数据满足MAR假设。

监督学习中的缺失值

我们更感兴趣的是监督学习中的缺失值问题。在监督学习中，输入的设计矩阵中可能存在缺失值。如果数据有D个变量，理论上可能存在多达 2^D 种缺失模式，这带来了巨大的统计挑战。

人们通常的做法是：先对数据进行插补，然后按常规方法训练模型。这引出了几个关键问题：

这种“先插补，后回归”的普遍做法是否有理论依据？
在实践中，为了预测得好，我们是否需要插补得好？
不同方法在真实临床数据库中的表现如何？

接下来，我们将从理论结果开始探讨。

理论结果：插补后回归程序

为了形式化分析，我们讨论形如 G(Φ) 的函数。其中，Φ 是一个插补函数，G 是应用于插补后数据的预测函数。

我们提出三个理论问题：

这类函数能否达到贝叶斯最优，即在有缺失值的数据集上达到最佳可能性能？
应如何选择插补函数 Φ，以使其可能达到贝叶斯最优？
如果数据是非随机缺失的，会发生什么？

理论设定与定义

我们假设响应变量 Y 是完整数据的函数加上一些噪声。我们关注最小化在不完整数据上的平方损失风险。贝叶斯最优预测器是这个风险的最小化解，其表达式为 E[Y | 观测数据, 缺失指示符]。贝叶斯风险是最低可达到的风险。

核心定理

定理：考虑 G*(Φ) 是在插补后数据上风险的最小化解。假设插补函数是光滑的，并且响应 Y 由某个函数 F* 生成。那么，对于几乎所有插补函数和所有缺失数据机制（包括MNAR），G*(Φ) 都是贝叶斯最优的。

这意味着：

渐近性：只要有足够的数据，无论选择何种插补函数（即使是简单的均值插补），你都能达到最佳性能。
机制无关：这个结论适用于包括非随机缺失在内的所有缺失机制。这表明，在监督学习设定下，MCAR/MAR/MNAR的分类并不像在统计推断中那么关键。

定理证明思路

证明思路基于两个关键点：

流形映射：插补后，具有相同初始缺失模式的数据点会被映射到特定的低维流形上。
横截性：对于几乎所有的插补函数，这些流形都是“横截”相交的，这意味着它们的交集维度更低。因此，从插补后的空间几乎总能反推出数据点原始的缺失模式。一旦知道缺失模式，就可以为每个模式在插补后的空间上构建最优的预测函数。

理论意义总结

理论结果表明，对于监督学习目标，即使使用简单的均值插补，只要有足够的数据和足够灵活的模型，最终也能学习到贝叶斯最优预测器。然而，这是一个渐近结果。在有限样本下，良好的插补是否能使学习问题更容易？这是我们接下来要通过实证研究回答的问题。

实证研究：是否需要良好插补以获得良好预测？

这是一个并不显而易见的问题。尽管已有一些文献对此进行基准测试，但我们发现许多研究存在局限性，可能影响结论，例如：在训练集和测试集上分别进行插补、未进行超参数优化、仅在单个随机选择的变量中引入缺失值、仅使用线性模型、使用的数据集数量过少等。

为了获得更有用的见解，我们设计了实验，旨在：

计算插补质量与预测质量之间的相关性。
确定插补何时以及为何能改善预测。
考虑下游预测模型的影响、缺失指示符的作用、结果的非线性以及足够多的数据集。

实验设置

数据集：我们使用了20个回归任务数据集，仅包含数值特征。我们以MCAR机制人为添加缺失值，为插补影响预测创造一个有利环境。此外，我们还为每个数据集创建了一个半合成版本，其中结果 Y 是原始特征 X 的线性函数。

预测模型：我们选择了三个代表性模型：

多层感知机：一个简单的基线模型。
SAINT：一种基于列和行注意力的表格数据深度学习架构。
XGBoost：一种强大的基于树的模型。

插补策略：我们选择了四种质量各异的插补方法，以计算相关性：

均值插补：质量通常最低。
MICE：使用线性回归的链式方程多元插补。
MissForest：使用随机森林的MICE方法，是目前性能最好的方法之一。
条件高斯插补：假设数据服从高斯分布，并使用条件期望进行插补。

实验还对比了在输入特征中是否添加缺失指示符的效果。

实验结果与分析

结果非线性 vs. 线性：当真实结果是非线性时，良好插补的重要性降低；当结果是线性时，插补质量更为重要。这与理论相符，因为在线性情况下，贝叶斯最优预测器可以写为最优插补的线性函数。
模型表达能力：对于表达能力更强的模型（如XGBoost），插补质量的影响更小。这与理论一致：只要后续模型足够灵活（具有通用一致性），即使插补简单，模型也能适应并达到良好性能。
缺失指示符的作用：当使用缺失指示符时，良好插补的重要性显著降低。这是一个非常清晰的发现。
性能基准测试：在综合性能排名中，最佳方法包括使用缺失指示符的XGBoost、SAINT以及XGBoost的原生缺失值处理。XGBoost的原生处理方式是在进行节点分裂时，优化将缺失值样本分配到左子树或右子树，这是一个简单有效的方法，可以作为默认选择。但需要注意的是，没有一种方法在所有数据集上都是最好的，因此测试几种方法仍是好主意。
缺失指示符在MCAR下的作用：一个有趣的发现是，即使在MCAR机制下，添加缺失指示符也总是有益的。这与之前的一些发现不同。我们假设这与理论部分相关：在插补后的空间中，最优预测函数在不同流形（对应不同缺失模式）间可能存在跳跃或不连续性。缺失指示符为模型提供了直接识别不同缺失模式的信号，从而有助于构建这种不连续的函数。

真实临床数据库基准测试

我们在四个真实的临床数据库上进行了基准测试，任务包括预测死亡率、出血性休克等。缺失值是自然存在的，并非人为设计。

我们使用梯度提升树作为预测模型，测试了四种处理缺失数据的方法：均值/中位数插补、MICE、条件高斯插补以及XGBoost的原生缺失值处理。

结果与之前实验一致：

添加缺失指示符能持续改善预测性能。
复杂的条件插补（如MICE、条件高斯）与简单的常数插补（均值）表现相当。
模型的原生缺失值处理（XGBoost的MIA）再次给出了最佳结果。

此外，特征重要性分析表明，具有高缺失比例的变量仍然可能是重要的预测因子，这反驳了“插补不重要是因为重要变量没有缺失值”的猜想。

总结

在本节课中，我们一起学习了处理监督学习中缺失值的理论洞见与实践指南。

理论基础：我们证明了“先插补，后回归”程序在理论上是有根据的。对于几乎所有的缺失机制和插补函数，只要使用足够灵活且具有通用一致性的模型，该程序都能渐近地达到贝叶斯最优性能。
实践权衡：关于是否需要良好插补以获得良好预测，核心信息是注意收益递减。投入大量计算资源和时间进行精细插补可能并不值得，因为它最终可能无法显著改善预测性能，尤其是在使用灵活模型、处理非线性问题或添加了缺失指示符的情况下。
关键技巧：在输入特征中附加缺失指示符是有用的，即使是在MCAR机制下。这有助于模型识别不同的缺失模式。
默认建议：对于表格数据，使用具有原生缺失值处理能力的基于树的模型（如XGBoost）是一个很好的默认选择。同时，建议测试几种不同的策略。

总而言之，在处理监督学习中的缺失值时，应优先考虑使用灵活模型和缺失指示符，而不是过度追求复杂的插补方法。

003：图与嵌入的无监督对齐

在本节课中，我们将学习图对齐这一核心问题。我们将从图推断的一般性问题出发，介绍最坏情况方法的局限性，然后转向基于生成模型的“植入式”方法。我们将深入探讨图对齐问题的定义、应用、理论结果以及高效算法，特别是局部消息传递方法。最后，我们会简要提及一个相关的点云对齐问题。

图推断问题概述

首先，我们需要理解图在现实世界数据中的普遍性。图或点云是表示顶点集合及其连接关系的数据结构。顶点可以带有标签或坐标，边可以有权重。图结构数据出现在社交媒体、图像处理、计算生物学和自然语言处理等多个领域。在深度学习中，一个关键步骤是将复杂数据（如图像或单词）嵌入到高维空间，表示为向量，这可以视为一个点云或图。

在这些对象上，存在许多可以表述为优化问题的自然问题。以下是几个例子：

最优聚类：如何将节点集最优地划分为两组？这被称为最小二分问题，目标是找到一种分割，使得连接两个部分的边数最少。
寻找稠密子图：能否在数据中找到具有给定密度的最大子图？
降维投影：为了降低数据维度，最优的投影方向是什么？这就是主成分分析问题。

在这些问题中，PCA通常是可处理的，而前两个问题在一般情况下则非常困难。这种困难源于我们采用了“最坏情况”方法，即我们为任何图实例定义问题，而某些非典型实例可能使问题难以求解。

从最坏情况到植入式方法

上一节我们介绍了最坏情况方法的局限性，本节我们来看看如何改变视角。以下是一些引导我们脱离最坏情况方法的观察：

在实践中，我们处理的数据通常包含针对我们研究问题的显著信号。例如，研究社区检测问题意味着我们假设图中存在社区结构。
我们希望研究包含信号的典型实例，其中信号被噪声干扰。

因此，我们将采用一种新方法：假设数据是根据包含信号的生成模型随机生成的。这被称为“植入式”方法。在这种方法中，数据是随机生成的，并且我们明确知道想要恢复的底层信号是什么。

以社区检测问题为例，我们可以使用流行的随机分块模型。该模型假设有n个节点，每个节点以一定概率（例如1/2）属于两个社区之一。连接概率取决于节点所属的社区：同一社区内的连接概率为p，不同社区间的连接概率为q。

通过改变视角，我们将一个困难的组合优化问题转变为一个统计推断问题。植入式方法有许多优点：它提供了典型的、更易于处理的实例；明确了需要恢复的真实信号；易于生成训练数据；并且模型参数可以控制问题的难度。

图对齐问题定义

在介绍了植入式方法的框架后，本节我们深入探讨其中一个基本问题：图对齐。图对齐问题源于著名的图同构问题。图同构问题是判断两个图是否存在一个保持邻接关系的双射（即节点的一一映射）。这是一个非常困难的问题，属于NP类，目前没有已知的多项式时间算法。

在我们的设置中，我们考虑一个略有不同的问题：两个图可能不是完全同构，而是近似同构。我们寻找一个双射，它可能不保留所有边，但能保留大部分边。数学上，我们有两个具有相同节点数的图G和H，目标是找到一个排列π，最小化边的不一致数量。目标函数可以表述为：
min_π ∑_{i,j} (A_G(i,j) - A_H(π(i), π(j)))^2
其中A_G和A_H是图的邻接矩阵。这实际上是二次分配问题的一个实例，在最坏情况下也是NP难的。

图对齐有许多应用，例如网络去匿名化（通过对齐匿名图和已知图来识别节点）和计算生物学（通过对齐不同物种的蛋白质相互作用网络来推断蛋白质功能）。

植入式图对齐模型

正如之前所介绍的，为了避开最坏情况的复杂性，我们将采用植入式方法来看待图对齐问题。在这个模型中，图是随机生成的，并且我们植入了一个作为问题正确解的排列π*。

我们使用相关Erdős–Rényi模型来生成两个相关的图。生成过程分为两步：

生成两个具有相同节点集的相关图G和G‘。每条边以概率Q·S同时出现在两个图中（交集），以概率Q·(1-S)仅出现在G中，以相同概率仅出现在G’中，其余情况无边。
将第二个图G‘的节点根据均匀随机排列π*重新标记，得到图H。

观察者看到的是图G和重新标记后的图H，目标是恢复排列π*。参数Q是边的边际概率，S是相关系数。当S=0时，两图独立；当S=1时，两图同构。

在稀疏图机制下，我们设Q = λ/n，其中λ是平均度数，S为常数。这样，图的平均度数为常数λ，而交集图的平均度数为λ·S。这个量λ·S将决定问题的理论难度。

恢复目标与信息论极限

在稀疏机制下，图中存在大量孤立节点，精确恢复所有节点的排列π*是不可能的。因此，我们的目标是实现部分恢复，即匹配相当一部分节点而不出错。

部分恢复定义为输出一个节点子集C ⊆ [n]及其到第二个图的映射。我们关注两个指标：重叠率（正确匹配的节点占C的比例）和错误率（错误匹配的节点占C的比例）。目标是保证重叠率大于某个正数η，同时错误率随着节点数n增大而趋于零。

对于这类问题，通常有两类研究问题：

信息论极限：在不考虑计算限制的情况下，是否存在一个估计器能够实现部分恢复？这等价于问数据中是否有足够强的信号。噪声水平达到多高时问题会变得不可能？
计算极限：是否存在高效（多项式时间）的算法来实现部分恢复？

关于信息论极限，我们有如下定理：当λS ≤ 1时，任何估计器都无法实现正的重叠率（即部分恢复不可能）。当λS > 1时，最大似然估计器（即求解二次分配问题）可以实现部分恢复。因此，λS = 1是一个尖锐的相变点。

我们可以用相图来总结这一结果：在参数空间（λ, S）中，λS ≤ 1的区域是“不可能”相，而λS > 1的区域是“理论可行”相。

高效算法：局部消息传递方法

上一节我们确定了理论可行的区域，本节我们探讨是否存在高效的计算方法。由于我们处于稀疏机制，图在局部看起来像树。这启发我们使用局部方法：对于图G中的节点i和图H中的节点u，我们检查它们局部邻域树的结构是否足够“接近”或相关。

这引出了一个树上的假设检验问题：给定两棵深度为D的树，它们是独立的还是相关的？如果节点i和u是对齐的（即π*(i)=u），那么它们的邻域树是相关的；否则，它们近似独立。我们可以计算一个基于似然比的分数来区分这两种假设。这个分数的计算是递归的。

具体算法如下：设定深度D = Θ(log n)。对于所有节点对(i, u)，递归计算其局部树的匹配分数。如果分数超过某个阈值，则认为这对节点是匹配的候选。这个方法的时间复杂度是多项式级别的。

这个局部方法的性能取决于树相关检测问题的难度。分析表明，存在另一个相变点：当相关系数S > √α时（其中α ≈ 0.3383是Otter常数），对于足够大的λ，树检测问题是可行的，从而局部图对齐算法有效；当S < √α时，树检测问题不可行。

总结与扩展

本节课我们一起学习了图对齐问题。我们从图推断的一般性问题出发，指出了最坏情况方法的局限性，并引入了基于生成模型的植入式方法。我们详细定义了图对齐问题，介绍了其应用和植入式模型。我们探讨了部分恢复的目标，并给出了信息论极限：当λS > 1时部分恢复理论可行，否则不可行。为了寻找高效算法，我们介绍了一种基于局部树检测的消息传递方法，并发现其在S > √α时有效，从而在理论可行相中划分出了“易解”相和“计算困难”相（中间区域）。

还有许多扩展方向，例如考虑其他图模型，或者处理更实际但可能更简单的点云对齐问题。在点云对齐中，我们有两个点云X和Y，Y是X经过一个排列π和一个正交变换Q后再加上噪声得到的。这个问题在自然语言处理（例如跨语言词向量对齐）等领域有广泛应用。

问答环节摘要

问题1：方法能否扩展到节点数不同的图（非对称情况）？
- 回答：可以，局部方法可以直接应用，因为它只检查局部邻域，不依赖全局大小。
问题2：模型假设度分布均匀，但现实网络常具有小世界特性等几何结构，方法如何适应？
- 回答：在具有几何结构的模型中，问题可能更容易，因为局部变化更大。但局部树性质可能不成立，需要调整局部方法，这是一个值得研究的方向。
问题3：在树检测问题中，√α阈值是信息论极限，是否存在计算间隙？你的方法是否已经达到了最优？
- 回答：在树检测问题本身中，我们的方法计算复杂度关于深度D是指数级的，但因为我们只需要D = log n，所以整体是多项式时间。树检测问题本身的计算复杂性间隙仍是开放问题。
问题4：匈牙利算法能否用于图匹配？
- 回答：匈牙利算法适用于线性分配问题。在图对齐中，目标函数是二次的（涉及邻接矩阵的二次型），而不是线性的，因此匈牙利算法不直接适用。它更适用于点云对齐中已知变换Q后求解排列π的线性阶段。

004：机器学习遇见极值理论

在本节课中，我们将探讨极值理论如何为“微弱信号”这一概念提供精确的数学含义，以及如何将其与机器学习技术结合，以解决异常检测等实际问题。我们将从机器学习视角出发，处理高维数据，并引入“角测度”这一核心概念来描述极端区域内的依赖结构。我们将看到，尽管角测度是一个渐近对象，但可以从数据中恢复，并利用其性质来保证分类、回归等机器学习任务在极端区域的有效性。

动机：异常检测

上一节我们介绍了课程的整体目标，本节中我们来看看研究的主要动机：异常检测。异常检测可以是监督式的，也可以是无监督式的，目前在实际应用中多为无监督。我们将从机器学习的角度看待这个问题，这意味着我们需要处理高维函数型数据。

核心概念是角测度。这个概念能非常详尽地描述协变量在极端区域内的极端依赖性。我们将看到，角测度是一个渐近对象，无法直接观测，但可以从数据中尝试恢复。主要的理论路径是控制经验角测度与理论角测度之间的偏差。这些集中性质有很好的应用，特别是允许我们对分类、回归或无监督机器学习算法进行微调，使其在极端区域也能良好工作，并具有泛化保证。

在机器学习中，我们通常计算平均值等标准统计量。为了处理极端区域的信息，我们需要计算更复杂的统计量。最后，我们还将讨论降维等经典任务，以及如何恢复角测度的稀疏支撑集，并可能讨论一些真实数据集上的应用。

微弱信号与机器学习视角

上一节我们介绍了异常检测的动机，本节中我们来看看如何从机器学习角度理解“微弱信号”。从机器学习角度看，这意味着数据将是高维的。在极值理论中，问题通常从参数建模的角度处理，而这里的数据将是高维且海量的，样本量非常大，使得极端值变得可观测。

目标是检测一些统计规律性，但不是接近平均行为，而是在分布的尾部。这在预测性维护或功能监控等领域有许多应用。通常没有标签，因此异常性在某种意义上将替代数据的标签。主要假设是异常对应于多元极端观测，它们位于数据集的尾部。但极端值并不总是异常。

异常检测的目标是从数据中构建一个区域。如果未来的观测落在这个区域内，则认为是正常的，否则发出警报。在单变量设置中这相对容易，但在维度大于2时，没有自然的排序，必须学习偏差的类型。我们将采用完全非参数的观点，不预先指定如统计深度这样的对象。

监督式异常检测：二元分类

上一节我们讨论了无监督场景，本节中我们来看看更简单的情况：监督式异常检测，这实际上就是二元分类。这是机器学习中的旗舰问题：模式识别。我们还有更具挑战性的情况，即完全没有标签，以及中间的半监督情况。

现在，极端观测是可观测的，这与过去不同。在机器学习中，我们通常避免对数据分布进行建模，而是专注于特定任务。然而，为了使用我们将要引入的概念，我们需要付出一定的代价，即正则变化的概念。

我们假设数据位于正象限。角测度将是本次讨论的重点，我们将处理角度，即向量除以其范数。角测度是正象限与单位球面交上的有限测度。目标是从数据构建经验角测度，并控制其与真实角测度之间的均匀偏差。这些经验测度将使用最大的观测值构建，因为我们在处理极值。偏差的量级将是 1/√k，这是参数速率。但与通常统计的主要区别在于，这里的保证是渐近的。

二元分类问题框架

上一节我们引入了监督式分类，本节中我们来看看其标准框架。在二元分类中，我们有一个系统，例如一个高维图像，以及分配给它的标签。目标是基于数据构建一个分类器，即从输入空间到输出空间的映射。理想情况下，这个分类器应该是最优的，即最小化错误分类的概率。

这可以重新表述为最小化0-1损失的期望。最优分类器被称为贝叶斯分类器，它依赖于后验概率。然而，我们不知道未来的数据分布，因此完全依赖数据。我们用经验分布代替真实分布，并尝试在某个具有控制复杂度的函数类上最小化经验风险。

我们的想法是比较机器学习算法产生的风险与最优风险。可以将其分解为偏差项和方差项。为了证明机器学习对未来数据有效，必须控制这些最大偏差，这通过为这些最大偏差建立置信界来实现。这需要对函数类做出一些复杂性假设。得到的速率是中心极限定理的速率，这是普遍的，不依赖于数据分布。

极端区域的分类挑战

上一节我们介绍了标准分类框架，本节中我们来看看在极端区域进行分类的特殊挑战。如果我们运行一个算法并在极端区域评估其误差，效果通常很差。这是因为超过大阈值的概率非常小，在风险量化中几乎不起作用。

一个更好的想法是考虑条件错误概率，即给定观测是极端的情况下的错误概率。我们希望这个定义独立于阈值，因此需要一个渐近版本，即渐近风险。我们希望为这种渐近的分类风险概念提供保证。

极端分类框架

上一节我们指出了极端分类的难点，本节中我们来看看为此开发的框架。核心思想很简单：仅使用最大的K个观测值来学习分类器。由于只使用K个数据，我们期望学习速率为 1/√k。这看似可预测，但证明需要大量努力。

方法极其简单：首先对数据集进行标准化。我们使用秩变换，即分量wise的经验累积分布函数进行变换。这种标准化被称为Pareto变换，是典型的秩变换。标准化每个边缘分布至关重要，这确保了在每个方向上，数据都以相同的速率趋于无穷大。

一旦使用这种边缘变换转换了数据，就提取K个极端数据，仅使用其范数和角度信息来解决优化问题。直观上，在某些方向上，蓝点比红点更可能出现，目标是利用角度信息来解决分类问题。如果这样做，可以完全胜过使用所有数据集的朴素技术。

多元正则变化与角测度

上一节我们介绍了极端分类的预处理步骤，本节中我们深入了解一下其理论基础：多元正则变化。我们假设随机向量取值于正象限，技术上需要假设连续边缘分布。我们引入角度和球面的概念。

多元正则变化是一个经典概念。它声称，如果对随机向量进行缩放，当阈值t趋于无穷时，缩放后向量属于某个集合的概率乘以t，会收敛到一个极限。这个极限是一个测度，称为指数测度。

指数测度是齐次的，可以通过极坐标变换表示为半径分布和角度分布的乘积。角度分布就是角测度。因此，知道指数测度等价于知道角测度。角测度完全描述了无穷远处的依赖结构。如果数据点沿轴线分布，意味着在极端区域坐标之间是独立的。角测度类非常通用，可以是球面上的任何有限测度，因此是完全非参数的。

角测度的估计

上一节我们定义了角测度，本节中我们来看看如何估计它，因为它指示了极端情况发生的方向。想法是模仿Pareto变换，用经验累积分布函数代替真实的累积分布函数。这是一个插件策略。

复杂之处在于，需要整个训练观测集来计算经验累积分布函数。因此，转换后的数据不再是独立的，它们依赖于整个数据集，这是研究这些量的真正挑战。但如果经验分布接近真实分布，这应该可行。我们用经验版本替换理论中的角测度，并使用K个最大的点。

选择K是一个难题。理论上需要更复杂的假设来回答这个问题，这里我们将避免讨论。角测度波动性的研究以前并不充分。我们期望最大偏差的界为 1/√k。当n和k同时很大时，这是最优的。

理论保证与证明思路

上一节我们提出了角测度估计的期望速率，本节中我们简要看看其理论保证和证明思路。如果我们知道理想的秩变换，一切都会很容易。存在一个类似于Vapnik-Chervonenkis不等式的集中不等式。

但我们必须进行变换，因此经验角测度可以重新用指数测度表示。关键是将随机集夹在两个确定性集之间，并对角度集合的复杂性做出假设，以控制夹逼集的复杂性。证明思路是将偏差分解为随机误差项、夹逼间隙项和偏差项。通过平衡这些项，可以获得保证。得到的速率大约是 1/√k，可能带有对数因子。

应用于异常检测

上一节我们建立了角测度估计的理论基础，本节中我们来看看如何将其应用于无监督异常检测。当没有标签时，目标是确定观测空间中的一个区域，未来的正常观测应落入其中。这可以转化为一个优化问题，即寻找一个包含数据一定质量分数的最小体积集合。

最小体积集合是观测密度函数的超水平集。统计方法会尝试估计密度，但会面临维数灾难。与分类类似，我们用经验分布代替未知分布。这里也需要渐近水平，因为经验分布不是真实分布。我们可以获得与监督分类非常相似的保证。

在异常检测中，目标是确定球面上的最小体积集合。通过解决优化问题，并利用之前解释的结果，可以保证以 1/√k 的速率恢复最小体积集合。如果角度位于该区域内，则不发出警报。

扩展到其他任务

上一节我们完成了对异常检测的讨论，本节中我们简要看看该思想如何扩展到其他机器学习任务，特别是降维。在统计和机器学习中，我们喜欢稀疏性假设。角测度可能具有稀疏支撑，即并非所有正象限的面都被数据点访问到。

既然现在可以准确地估计它，就可以尝试恢复表现出依赖结构的坐标组。完全相同的技术可以用于恢复这些组，且具有相同的速率。这在环境科学等领域有许多应用，因为稀疏行为在数据集中经常被观察到。

总结与问答

本节课中，我们一起学习了极值理论与机器学习的交叉。我们探讨了如何利用角测度来定义和学习极端区域的微弱信号，并应用于监督分类、无监督异常检测和降维等任务。核心是通过Pareto变换标准化数据，并仅使用极端子样本来进行学习，从而获得具有理论保证的 1/√k 级学习速率。算法上，这很简单：使用经验Pareto变换进行标准化，然后仅对极端观测部分应用标准的机器学习例程。

关于范数选择的问答：
提问涉及使用无穷范数（即最大值范数）的问题。这种方法可以扩展到任何Lp范数。变换是相同的，但角度会根据几何形状而变化。复杂性假设需要根据所选范数进行转换。对于无穷范数，已经证明是可行的；对于任意范数，目前尚不清楚。无穷范数意味着至少有一个坐标非常大才能被认为是极端的。

005：预算约束与公平应用下的上下文随机老丨虎丨机 🎰

在本节课中，我们将学习随机老丨虎丨机问题的基本概念，从最简单的K臂老丨虎丨机模型开始，逐步深入到更复杂的上下文老丨虎丨机模型，并最终探讨在预算约束和公平性要求下的应用。我们将介绍核心算法、分析其性能的理论保证，并理解其背后的数学原理。

基础知识：K臂老丨虎丨机模型 🧮

首先，我们介绍最基础的K臂老丨虎丨机模型。在这个模型中，我们有K个“臂”（或选项），每个臂a都关联着一个未知的概率分布ν_a，其期望值为μ_a。在每一轮t，统计学家（或智能体）根据过去的信息选择一个臂A_t，然后获得一个根据所选臂的分布ν_{A_t}独立抽取的奖励Y_t。智能体的目标是通过选择臂来最大化累积奖励。

为了衡量算法的性能，我们通常使用“遗憾”这个概念。遗憾R_T定义为：如果从一开始就知道最优臂（期望奖励μ* = max_a μ_a），那么所能获得的总期望奖励T * μ*，与实际算法所获总期望奖励之差。公式如下：

R_T = T * μ* - E[ Σ_{t=1}^{T} Y_t ]

上一节我们介绍了模型和遗憾的定义，本节中我们来看看如何分解和分析遗憾。

遗憾的分解

我们可以将总遗憾重写为一个更易分析的形式。证明的关键在于使用期望的塔性质（全期望公式）和引入计数变量N_a(T)，它表示在T轮中臂a被选择的次数。

R_T = Σ_{a=1}^{K} (μ* - μ_a) * E[ N_a(T) ]

这个分解表明，要控制（最小化）总遗憾，本质上就是要控制选择每个次优臂（即μ_a < μ*的臂）的期望次数。这是所有老丨虎丨机算法证明的核心。

经典策略：上置信界算法（UCB）🚀

在理解了遗憾的构成后，一个自然的想法是：我们需要在“探索”（尝试不同臂以获取信息）和“利用”（选择当前看来最好的臂以获取奖励）之间取得平衡。最流行的策略之一是上置信界算法。

UCB算法为每个臂a维护一个“指数”，该指数由两部分组成：

经验均值 \hat{μ}_a(t)：基于历史观测对μ_a的估计。
置信区间奖励：一个与log(t) / N_a(t)的平方根成正比的项，其中N_a(t)是到时刻t为止臂a被选择的次数。

在每一轮，算法选择具有最高指数的臂。这个设计的直觉是：经验均值低的臂，如果被尝试的次数也很少（即N_a(t)小），那么其置信区间奖励会很大，从而鼓励算法去探索它。

以下是UCB算法能获得的理论性能保证（遗憾上界）：

分布依赖界：R_T ≤ C(μ) * log T，其中常数C(μ)依赖于各臂期望奖励μ_a之间的差距。当差距很小时，常数会很大。
分布无关界：R_T ≤ O(√(K T log T))。这个界对最坏情况下的所有可能分布都成立，但增长速率比对数慢。

第一个证明依赖于霍夫丁不等式等集中不等式，核心思想是：如果一个次优臂被选择了太多次，那么其UCB指数以高概率会低于最优臂的指数，导致矛盾。第二个界可以通过对第一个界应用詹森不等式等技巧推导出来。

引入上下文：线性老丨虎丨机模型 📈

上一节我们介绍了静态环境下的老丨虎丨机，本节中我们来看看当环境动态变化时如何处理。在上下文老丨虎丨机中，在每一轮t，环境会提供一个上下文向量x_t（例如用户特征、广告信息等）。奖励的分布现在依赖于所选的臂a和当前的上下文x_t。

为了使学习问题可解，我们需要对奖励函数做结构性假设。最常用的假设是线性假设：假设给定上下文x和臂a，奖励的期望是某个未知参数向量θ*与一个已知的特征映射φ(x, a)的内积。即：

E[ Y_t | A_t=a, x_t ] = φ(x_t, a)^T θ*

我们的目标仍然是最大化累积奖励，但现在的比较基准是每一轮在已知θ*的情况下能选择的最优臂。

线性上置信界算法（LinUCB）

基于线性模型，我们可以设计LinUCB算法。其核心是构建参数θ*的估计\hat{θ}_t和一个置信区域。通常使用正则化的最小二乘估计：

\hat{θ}_t = ( Σ_{s=1}^{t} φ(x_s, A_s) φ(x_s, A_s)^T + λI )^{-1} * ( Σ_{s=1}^{t} φ(x_s, A_s) Y_s )

理论分析表明，以高概率，真实参数θ*位于以\hat{θ}_t为中心、形状由上述矩阵的逆决定的椭圆置信区域内。利用这个置信区域，我们可以为每个臂a在上下文x_t下的期望奖励计算一个UCB指数：

UCB_t(a) = φ(x_t, a)^T \hat{θ}_t + β * √( φ(x_t, a)^T M_t^{-1} φ(x_t, a) )

其中β是一个与置信水平相关的常数。算法在每一轮选择UCB指数最高的臂。可以证明，LinUCB算法的遗憾上界为O(√(d T log T))，其中d是参数θ*的维度。

高级主题：带预算约束与公平性的上下文老丨虎丨机 ⚖️

现在，我们考虑一个更复杂且具有实际意义的场景：在做出决策（选择臂）时，不仅追求奖励最大化，还受到成本约束，并且可能需要满足公平性要求。

在这个称为“带Knapsack约束的上下文老丨虎丨机”的模型中，每一轮除了获得奖励Y_t，还会产生一个与臂和上下文相关的成本向量c_t。智能体有一个已知的总预算向量B（B * T表示T轮的总预算允许量）。目标是最大化累积奖励，同时确保累积成本不超过预算。

一个具体的公平性应用例子是：为不同族群分配法律援助预算（如网约车券以便出庭）。目标是最大化总体出庭率（奖励），同时确保花在每个族群上的平均预算与总体平均预算的差距不超过一个阈值τ，以体现公平性。这个公平性约束可以转化为一组成本约束。

算法思路：拉格朗日对偶与乐观主义

解决这类约束优化问题的标准思路是使用拉格朗日乘子法。我们可以将带约束的基准问题转化为一个无约束的鞍点问题，引入拉格朗日乘子向量λ。

理论分析表明，如果知道了最优的拉格朗日乘子λ*，那么最优策略就是在每一轮，根据当前上下文x_t，选择最大化 奖励估计 - λ*^T * 成本估计 的臂。

由于λ*未知，我们的算法需要同时学习奖励/成本函数和这个乘子λ。算法框架如下：

乐观估计：像LinUCB一样，用上置信界（UCB）估计奖励，用下置信界（LCB）估计成本（因为我们要控制成本不超预算，所以对成本持悲观态度）。
对偶梯度更新：在每一轮，根据观察到的成本与预算的差距，对拉格朗日乘子λ进行梯度下降（或上升）更新。
自适应步长：一个关键的技术贡献是设计了一种自适应的步长调整机制（如倍增法），使得算法即使在初始步长选择不佳时，也能快速收敛到合适的范围，从而在仅要求预算B = Ω(√T)的条件下（优于之前文献要求的B = Ω(T^{3/4})），获得O(√T)的遗憾界。

总结 📝

本节课中我们一起学习了随机老丨虎丨机问题从基础到前沿的脉络：

我们从最简单的K臂老丨虎丨机开始，理解了遗憾的概念和分解，并学习了经典的UCB算法及其理论保证。
接着，我们引入了上下文，在线性奖励假设下介绍了LinUCB算法，它通过结合线性回归和乐观主义原则来处理动态环境。
最后，我们探讨了带有预算约束和公平性要求的更复杂场景。通过将约束问题转化为拉格朗日对偶形式，并同时乐观地学习奖励函数和对偶变量，我们可以设计出有效的算法。这类算法在公平资源分配等实际应用中具有重要意义。

这些内容展示了如何将统计学习理论、在线优化和对偶理论结合起来，解决序列决策中的探索-利用困境和复杂约束问题。

posted @ 2026-03-29 09:15 绝不原创的飞龙阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈