斯坦福-CS364a-算法博弈论笔记-全-

斯坦福 CS364a 算法博弈论笔记（全）

001：引言与示例 🎯

在本节课中，我们将学习算法博弈论的基本概念，并通过具体示例了解其核心主题。我们将探讨系统设计、自私行为的后果以及均衡计算等关键问题。

课程概述

本课程旨在探讨计算机科学（尤其是算法）与经济学（尤其是博弈论）交叉领域的一系列主题。课程内容主要围绕三个核心主题展开，每个主题都将通过具体示例进行说明。

主题一：机制设计——当参与者是战略性的

上一节我们介绍了课程的整体框架，本节中我们来看看第一个核心主题：机制设计。其核心目标是设计一个系统，系统中的参与者既是自主的，也是战略性的，他们拥有自己的利益，可能与设计者的目标不一致。尽管如此，设计者仍希望系统能够良好运行。

一个警示性案例：2012年伦敦奥运会羽毛球丑闻

以下是一个当设计者未考虑参与者战略行为时，系统可能出错的典型案例。

赛事结构：
赛事分为两个阶段：

小组循环赛：16支队伍分为4组（A、B、C、D），每组4队。每队与同组其他三队比赛。每组前两名晋级。
淘汰赛：晋级的8支队伍进行单败淘汰赛，直至决出金、银、铜牌。

问题出现：
在D组最后一天的比赛中，丹麦队（PJ）意外击败了公认的世界最强队——中国队（QW）。这使得QW以小组第二的身份晋级淘汰赛。

随后，在A组的一场比赛中，两支已确保晋级的队伍——另一支中国队（XY）和韩国队（KH）相遇。这场比赛仅决定小组头名归属。

战略动机分析：
根据淘汰赛对阵表：

A组胜者（即本场比赛胜方）可能在半决赛中遭遇强大的QW队。
A组败者（即本场比赛负方）则直到决赛才可能遇到QW队。

对于两支队伍而言，在决赛中输给QW（确保银牌）与在半决赛中输给QW（最多争夺铜牌）之间存在显著差异。这个差异如此之大，以至于两支队伍都故意试图输掉这场比赛，以避免在半决赛中过早遭遇QW。

后果：
这种行为导致了丑闻和舆论哗然，最终四支涉及“消极比赛”的队伍被取消资格。

核心教训：
当设计一个涉及战略性参与者的系统（如锦标赛、拍卖或计算机网络）时，游戏规则至关重要。设计者不能期望参与者违背自身利益行事，这是一个不合理的假设。如果设计时未仔细考虑战略行为，就可能导致意外且通常不受欢迎的后果。这门课程的前半部分将重点学习如何设计能妥善考虑战略行为的系统原则。

这个研究领域被称为机制设计。其目标正是我们第一个课程目标所述：如何设计系统，使得在存在战略性参与者的情况下，最终结果符合设计者的期望。

机制设计的应用：

互联网搜索与广告：谷歌等公司的核心盈利模式。
频谱拍卖：将公共频谱资源重新分配给电信公司。
资源匹配：如医疗住院医师与医院的匹配、学童入学分配、肾脏交换项目等。

作为一门计算机科学课程，我们将特别关注鲁棒性保证和计算效率，这些是经济学侧相对忽视的性质。

主题二：理解“野生”游戏——自私路由与无政府状态代价

上一节我们探讨了如何从头设计规则，但有时我们无法从头设计游戏规则。相反，我们需要理解一个已存在的系统（如互联网或道路网络），分析战略行为的后果，并可能改进它。本节我们将通过一个经典示例来探讨这个问题。

布雷斯悖论

考虑一个交通网络模型，模拟早高峰时车辆从起点 S 到终点 T 的情况。每个司机可自主选择路径。

初始网络：
网络有两条路径：

上路：S → A → T，包含两条边。
- S→A：旅行时间固定为 1小时（无论拥堵程度）。
- A→T：旅行时间随使用该道路的交通比例 x 线性增加，即 旅行时间 = x 小时。
下路：S → B → T，对称结构。
- S→B：旅行时间 = x 小时。
- B→T：旅行时间 = 1小时。

均衡状态分析：
在稳态下，司机会根据实时路况调整路线。直觉上，交通流会在两条路径上形成 50/50 的分配。因为如果一条路车更多（x > 0.5），其旅行时间（1 + x）将超过另一条路（1 + (1-x)），司机会转向更快的路，直至平衡。

此时，每个人的通勤时间均为：1.5 小时。

悖论出现：
现在，假设我们在节点 V 和 W 之间新增一条“传送门”边（V→W），其旅行时间为 0，且容量无限。

在新网络中，对于任何司机而言，无论其他司机如何选择，路径 S → V → W → T（即使用传送门）总是比原来的两条路径更快。这被称为占优策略——一个无论如何都对你个人更优的选择。

因此，所有司机都会选择这条新路径。其旅行时间为：S→V 边（x=1时，耗时1小时） + 传送门（0小时） + W→T 边（x=1时，耗时1小时） = 2 小时。

结论：
新增一条“更快”的边，反而导致每个人的通勤时间从1.5小时增加到了2小时！这就是布雷斯悖论。

推论与核心概念：
自私行为并不总能实现集体最优。在这个例子中，如果存在一个利他的中央控制器，可以强制分配路线（例如，重新回到50/50分配，忽略传送门），则可以将通勤时间优化回1.5小时。

我们用无政府状态代价来衡量这种效率损失：

PoA = (自私行为下的系统性能) / (最优集中控制下的系统性能)

在布雷斯悖例中，PoA = 2 / 1.5 = 4/3 ≈ 1.333。

当 PoA = 1 时，意味着自私行为恰好产生了系统最优结果。PoA 越接近 1，系统对自私行为越稳健。

课程目标：
我们将研究在哪些应用领域和条件下，可以保证无政府状态代价接近 1。例如，在网络路由中，适度的网络容量超额供给（如保持最大链路利用率在90%以下）就是以保证 PoA 接近 1。

物理类比：
布雷斯悖论不仅限于交通网络。一个巧妙的物理实验（使用弹簧和重物）可以演示类似现象：剪断系统中一根承载的弦，重物反而会上升，这与移除“传送门”后通勤时间改善的原理相同。

主题三：均衡的计算复杂性

上一节我们分析了均衡状态的性质，本节我们探讨一个更根本的问题：均衡是如何达成的？我们能否计算它？计算复杂性理论对此有何见解？

纳什均衡的存在与计算

首先，我们需要定义均衡。以“石头剪刀布”游戏为例：

这是一个两人零和游戏（一人所得即另一人所失）。
容易验证，不存在纯策略均衡（即确定性的出拳选择），因为总有一方想改变策略来击败对方。
然而，如果允许混合策略（即随机化），那么当双方都以1/3的概率均匀随机选择石头、剪刀或布时，就构成了一个纳什均衡。此时，给定对方策略，任何一方改变策略都无法提高自己的期望收益。

纳什定理：
约翰·纳什证明，每一个有限游戏（包括所有双矩阵游戏和更多玩家的游戏）都至少存在一个（混合策略）纳什均衡。

计算均衡：

好消息（零和游戏）：对于像“石头剪刀布”这样的零和游戏，不仅存在纳什均衡，而且我们可以高效地计算它（例如，通过线性规划）。
坏消息（一般游戏）：对于非零和的一般游戏，计算一个纳什均衡是难以处理的。在标准的计算复杂性假设下（特别是基于复杂度类 PPAD），不存在通用的多项式时间算法来求解纳什均衡。

意义：

理论意义：纳什均衡计算问题提供了一个罕见的、自然的、介于P（易解）和NP完全（极难）之间的中间难度问题的实例。
概念意义：如果计算机在最坏情况下都无法在多项式时间内找到均衡，那么人类参与者（其计算能力通常不被认为能系统性地超越图灵机）也可能无法在复杂游戏中“找到”均衡。这对将纳什均衡作为人类战略行为普遍预测工具的观点提出了可计算性层面的质疑。

课程总结与安排

本节课我们一起学习了算法博弈论的三个核心主题：

机制设计：如何为战略性参与者设计规则，以实现期望的系统结果。
无政府状态代价：如何分析与量化在既定系统中，自私行为导致的效率损失。
均衡计算复杂性：纳什均衡的计算可行性及其对行为模型的意义。

课程要求：

练习集：每周发布，旨在巩固课堂内容，评分宽松（完成全部可得B）。
问题集：每两周发布，更具挑战性，旨在拓展知识，鼓励最多3人小组合作。
评分：基于练习集和问题集（含一次期末家庭作业）。

希望本课程能激发你对算法与博弈论交叉领域的兴趣！

002：机制设计基础 🎯

在本节课中，我们将要学习机制设计的基础知识，特别是拍卖理论。我们将从最简单的单物品拍卖开始，理解其核心概念，并分析不同拍卖格式（如第一价格和第二价格拍卖）的特性。最后，我们将探讨一个更复杂的现实应用——赞助搜索拍卖。

单物品拍卖的设置

首先，我们从一个简单的场景开始：单物品拍卖。在这个场景中，有一个卖家拥有一件商品（例如一部旧手机），以及若干潜在的买家（竞拍者）。我们的目标是设计一套规则（即拍卖机制），使得即使参与者是策略性的，整个系统也能表现良好。

为了分析竞拍者的行为，我们需要一个模型来描述他们想要什么。

核心概念：估值

每个竞拍者 i 都有一个估值，记作 vᵢ。估值是竞拍者愿意为拍卖品支付的最高金额。例如，对于一部旧手机，某个竞拍者最多愿意支付90美元。当然，如果可能，他希望以更低的价格买到它，但如果价格超过其估值（例如90美元），他就不会购买。

关键点：估值是私人信息。这意味着卖家不知道它，其他竞拍者也不知道。这正是我们需要进行拍卖的原因——因为我们不知道人们愿意支付多少。

效用模型：拟线性效用

接下来，我们引入一个模型来描述竞拍者的目标。我们将使用最简单、最自然的模型：拟线性效用。

其定义如下：

如果竞拍者 i 在拍卖中失败，其效用为 0。
如果竞拍者 i 获胜，其效用为其估值 vᵢ 减去其实际支付的价格 p。

用公式表示，获胜竞拍者的效用为：
效用 = vᵢ - p

在我们的机制设计讨论中，我们将假设参与者以最大化其拟线性效用为目标。

密封投标拍卖

今天，我们重点讨论一种简单的拍卖格式：密封投标拍卖。其流程如下：

每个竞拍者私下向拍卖人提交一个出价 bᵢ。
拍卖人根据所有出价做出两个决定：
- 分配：谁赢得物品？
- 支付：获胜者支付多少钱？

对于分配，一个很自然的选择是：将物品授予出价最高的竞拍者。我们今天讨论的所有拍卖都将具有这一特性。

对于支付规则，不同的选择会导致竞拍者行为产生巨大差异。以下是两个例子：

支付规则示例1：不收费
如果获胜者无需支付任何费用，那么竞拍者会倾向于提交一个极高的出价（例如他们能想到的最大数字），以最大化获胜机会。这导致分配结果与竞拍者的真实估值完全无关，显然不是一个好设计。
支付规则示例2：第一价格拍卖
在这种拍卖中，获胜者支付其自己的出价（即最高出价）。这听起来很自然，但正如我们将要看到的，分析竞拍者在其中的行为并不简单。

第一价格拍卖的复杂性

第一价格拍卖对参与者来说分析起来并不简单。即使你是一个单独的参与者，要决定最优出价也很困难，因为这取决于你对其他竞拍者行为的预测。你绝不会出价等于你的估值，因为那样你的效用将为零。你总是会出价低于估值，但低多少则取决于你认为别人会怎么做。

为了说明这一点，我们进行了一个课堂实验。每位注册学生根据其生日计算出一个私人估值，并需要在两种不同规模的拍卖（两人一组和三人一组）中提交密封出价。实验强调了在第一价格拍卖中，策略选择依赖于对竞争对手的猜测。

第二价格（维克里）拍卖

现在，我们来看另一种在实践中也很常见的拍卖格式：第二价格拍卖，也称为维克里拍卖。

其规则如下：

分配：出价最高者赢得物品。
支付：获胜者支付第二高的出价。

这与eBay的拍卖机制在精神上类似（尽管eBay是公开增价拍卖，而这里是密封投标）。

维克里拍卖的关键洞见

与第一价格拍卖不同，第二价格拍卖非常易于分析，无论对参与者还是设计者而言都是如此。

核心主张（支配策略）：对于每个竞拍者 i，将其出价 bᵢ 设置为其实估值 vᵢ 是一个支配策略。

支配策略意味着：无论其他竞拍者如何出价，提交 bᵢ = vᵢ 这个出价都能保证最大化竞拍者 i 的效用。竞拍者无需猜测他人的行为，只需诚实出价即可。

证明

让我们简要证明为什么诚实出价是支配策略。

固定任意竞拍者 i，其估值为 vᵢ，并固定其他所有竞拍者的出价 b₋ᵢ。
令 B 为其他竞拍者中的最高出价。
在第二价格拍卖中，竞拍者 i 的效用只可能有两种情况：
- 如果 bᵢ < B，则 i 失败，效用为 0。
- 如果 bᵢ > B，则 i 获胜，支付 B，效用为 vᵢ - B。
现在考虑两种情况：
- 情况一：vᵢ < B。此时，竞拍者 i 能获得的最大效用是 0（因为即使获胜，效用 vᵢ - B 也为负）。通过诚实出价 bᵢ = vᵢ，由于 vᵢ < B，他会失败并获得效用 0，这已经是最优结果。
- 情况二：vᵢ ≥ B。此时，竞拍者 i 能获得的最大效用是 vᵢ - B。通过诚实出价 bᵢ = vᵢ，由于 vᵢ ≥ B，他会获胜并获得效用 vᵢ - B，同样达到了最优。

因此，无论估值 vᵢ 和其他人的出价 b₋ᵢ 如何，诚实出价都是最优选择。证毕。

另一个简单性质：无后悔参与

在第二价格拍卖中，诚实出价的竞拍者永远不会获得负效用。原因很简单：只有获胜者可能获得负效用，而获胜者支付的是第二高出价 B。由于他诚实出价 bᵢ = vᵢ，且他是最高出价者，所以 vᵢ ≥ bᵢ ≥ B，因此其效用 vᵢ - B ≥ 0。

为什么维克里拍卖如此出色？

综上所述，维克里拍卖同时实现了多个理想属性：

良好的激励属性（支配策略激励相容）：诚实报价是支配策略，且参与者效用非负。这使得行为预测非常稳健，我们只需假设竞拍者会采用其明显的支配策略。
优秀的性能保证（最大化社会总剩余）：假设竞拍者诚实出价（根据属性1，他们有理由这样做），那么该拍卖会将物品分配给估值最高的竞拍者。这解决了我们即便在不知道私人估值的情况下，也想要解决的优化问题——将物品给予最需要它的人。
计算高效：实施该拍卖只需要找到最高和第二高出价，可以在线性时间内完成。

迈向更复杂的设置：赞助搜索拍卖

维克里拍卖对于单物品拍卖非常完美。但现实世界中的许多重要应用要复杂得多。一个驱动了互联网经济巨大份额的典型案例就是赞助搜索拍卖。

赞助搜索拍卖模型

当你在搜索引擎中查询时，结果页通常包含两部分：

自然搜索结果：由算法根据相关性排序。
赞助商链接（广告）：广告商通过竞价购买页面上的广告位。

每次搜索发生时，都会实时运行一个拍卖来决定哪些广告商获得展示、以何种顺序展示、以及他们需要支付多少费用。

复杂性体现在：

多物品：通常有多个广告位（例如K=8个槽位）。
异质性：不同广告位的价值不同。通常，位置越高（如顶部），被点击的概率越大，也越有价值。
大量竞拍者：可能有N=100个广告商竞争这8个槽位。

模型参数：

点击率（CTR）αⱼ：广告位于第 j 个槽位时获得点击的概率。假设越高位的槽位CTR越高（α₁ > α₂ > ... > αₖ），并且暂时假设CTR只与槽位有关，与放置的广告商无关（这是一个为简化而做的不合理假设，但易于后续扩展）。
广告商估值 vᵢ：广告商 i 对每次点击的私人估值。因此，如果广告商 i 被分配到槽位 j，其获得的价值为 vᵢ * αⱼ。

设计目标

我们希望为这个更复杂的多物品、异质品拍卖设计一个机制，并尽可能保留维克里拍卖的优良特性：

支配策略激励相容（DSIC）：报告真实的每次点击估值是支配策略。
最大化社会总剩余：分配结果应最大化所有广告商获得的总价值。社会总剩余公式为：Σ (vᵢ * xᵢ)，其中 xᵢ 是广告商 i 获得的点击率（即其所在槽位的CTR）。
计算高效：拍卖应能快速运行。

设计方法：分解问题

机制设计之所以困难，是因为必须同时设计分配规则（谁赢）和支付规则（付多少），并且两者必须正确耦合才能产生理想的激励。

一个有效的方法是尝试将这两个问题分解，分步解决：

第一步：假设诚实出价，解决分配问题。
如果我们幸运地知道所有广告商的真实估值 vᵢ，那么最大化社会总剩余的分配方案非常直观：将估值最高的广告商放在CTR最高的槽位（槽位1），估值第二高的放在槽位2，依此类推。这本质上就是对广告商按估值降序排序，并将槽位按CTR降序分配。
第二步：设计支付规则，以激励诚实出价。
这是关键且更具技巧性的一步。我们需要设计一套支付规则，使得当广告商按照第一步的分配规则行事时，诚实报告其估值 vᵢ 成为他们的支配策略。

总结与预告

在本节课中，我们一起学习了机制设计的基础。我们从单物品拍卖出发，理解了估值、拟线性效用等核心概念。我们对比了第一价格拍卖的复杂性和第二价格（维克里）拍卖的优雅性，证明了在维克里拍卖中诚实出价是支配策略，并且它能实现社会总剩余最大化。

接着，我们将目光投向一个复杂而重要的现实应用——赞助搜索拍卖。我们建立了其基本模型，并提出了设计目标：寻找一个同时满足支配策略激励相容、社会总剩余最大化和计算高效的拍卖机制。

我们已经完成了设计的第一步：在已知真实估值的假设下，通过按估值降序分配槽位来解决分配问题。在下节课（周一）中，我们将探讨关键的第二步：如何设计支付规则，以构造出一个广义的“第二价格”规则，从而使得整个赞助搜索拍卖机制具备支配策略激励相容性。我们将看到，对于这个特定问题，确实存在一个同时满足所有三个理想属性的拍卖机制。

003：迈尔森引理

在本节课中，我们将要学习一个机制设计中的强大工具——迈尔森引理。该引理精确地描述了在单参数环境下，哪些分配规则可以扩展为占优策略激励相容的拍卖机制，并给出了唯一的支付规则公式。我们将从回顾上一讲的内容开始，逐步引出核心概念，并通过证明和直观解释来掌握这个重要工具。

环境设定与回顾

上一讲我们介绍了机制设计的基础，并重点讨论了维克瑞拍卖（第二价格密封拍卖）的优良特性。我们提出了一个设计拍卖的方法论：首先假设投标是真实的，设计一个分配规则；然后寻找合适的支付规则，使得整个机制是占优策略激励相容的，从而验证第一步的假设。

本节中，我们将在一个更一般的框架下工作，即单参数环境。

单参数环境

一个单参数环境包含以下要素：

投标人：有 n 个投标人。
私人估值：每个投标人 i 有一个私人估值 v_i。这表示投标人对每单位分配物品的价值。之所以称为“单参数”，是因为对于设计者而言，每个投标人唯一未知的信息就是这个数字。
可行分配集：用 X 表示所有可行的分配方案集合。每个可行分配 x 是一个 n 维向量 (x_1, ..., x_n)，其中 x_i 表示分配给投标人 i 的物品数量（或期望数量）。

例子：

单物品拍卖：X 是所有分量之和至多为1的0-1向量集合。
赞助搜索拍卖：X 是将 K 个广告位（每个有特定的点击率 α_j）分配给投标人的所有方式，且每个投标人至多获得一个广告位。

密封拍卖与规则

一个密封拍卖包含两个核心决策规则：

分配规则 x(b)：根据所有投标人的出价向量 b，决定谁获得什么（即输出一个可行分配 x）。
支付规则 p(b)：根据所有投标人的出价向量 b，决定每个投标人支付多少（即输出一个支付向量 p）。

在拟线性效用模型下，投标人 i 的效用为：u_i(b) = v_i * x_i(b) - p_i(b)。

我们将关注支付规则满足 0 ≤ p_i(b) ≤ b_i * x_i(b) 的情况，以确保真实投标的投标人效用非负。

核心定义：可实施性与单调性

为了设计占优策略激励相容的拍卖，我们需要理解什么样的分配规则可以被合适的支付规则“补充完整”。这引出了两个关键定义。

以下是关于分配规则的两个核心定义，它们将帮助我们界定设计空间。

可实施的分配规则

一个分配规则 x 被称为可实施的，如果存在一个支付规则 p，使得将 x 与 p 结合后得到的拍卖机制是占优策略激励相容的。

换句话说，可实施的分配规则就是那些能够被扩展成DSIC机制的规则。这是我们设计“优秀”拍卖时唯一可以考虑的候选分配规则。

单调的分配规则

一个分配规则 x 被称为单调的，如果对于每一个投标人 i，以及固定其他所有投标人的出价 b_{-i}，投标人 i 获得的分配数量 x_i(z, b_{-i}) 是其自身出价 z 的非递减函数。

直观地说，在单调的分配规则下，出价越高，得到的物品就越多（或至少不会减少）。

例子：

单物品拍卖，最高价者得：是单调的。出价低于最高价时得0，高于最高价时得1，出价增加不会导致从得1变为得0。
单物品拍卖，次高价者得：不是单调的。如果你是当前的赢家（即次高价），提高出价成为最高价后，反而会输掉拍卖。
赞助搜索拍卖，按出价降序分配广告位：是单调的。提高出价只会让你获得更好（点击率更高）的广告位。

迈尔森引理

现在，我们介绍本节课的核心工具——迈尔森引理。它深刻地揭示了可实施性与单调性之间的关系，并提供了构造支付规则的具体方法。

迈尔森引理包含三个部分：

等价性：一个分配规则是可实施的，当且仅当它是单调的。这告诉我们，DSIC机制的设计空间 precisely 就是所有单调分配规则的集合。
支付唯一性：对于一个单调的分配规则，在支付标准化为“零出价则零支付”（即 p_i(0, b_{-i}) = 0）的条件下，存在唯一的支付规则 p 能使其成为DSIC机制。
支付公式：这个唯一的支付规则由以下显式公式给出（对于投标人 i，固定其他出价 b_{-i}）：
p_i(b_i, b_{-i}) = Σ_{j=1}^{L} y_j * [x_i(y_j, b_{-i}) - x_i(y_{j-1}, b_{-i})]
其中，y_1, ..., y_L 是分配函数 x_i(z, b_{-i}) 在区间 [0, b_i] 内所有的间断点（跳跃点），并且我们设 y_0 = 0。支付等于所有跳跃点位置 y_j 乘以在该点的跳跃高度之和。

推论：存在一个针对赞助搜索拍卖的“优秀”拍卖（即DSIC、最大化社会福利、多项式时间运行）。因为我们已经有了一个单调的（且能最大化社会福利的）分配规则——按出价降序分配广告位，迈尔森引理保证了存在唯一的支付规则能使其成为DSIC机制。

引理证明（思路）

我们将概述迈尔森引理的证明思路，重点展示DSIC条件如何强有力地确定了支付规则。

步骤一：利用DSIC条件推导支付约束

假设存在支付规则 p 使得 (x, p) 是DSIC的。固定一个投标人 i 和其他人的出价 b_{-i}。令 X(z) = x_i(z, b_{-i}), P(z) = p_i(z, b_{-i})。

考虑投标人的两个可能估值 y > z。DSIC条件要求：

当真实估值为 z 时，真实出价 z 的效用不低于虚假出价 y 的效用：z*X(z) - P(z) ≥ z*X(y) - P(y)。
当真实估值为 y 时，真实出价 y 的效用不低于虚假出价 z 的效用：y*X(y) - P(y) ≥ y*X(z) - P(z)。

重新排列这两个不等式，我们可以得到关于支付差 P(y) - P(z) 的一个“夹逼”关系：
z * [X(y) - X(z)] ≤ P(y) - P(z) ≤ y * [X(y) - X(z)]。（★）

步骤二：从约束到唯一支付公式

公式（★）是证明的关键。

证明单调性的必要性：如果 X 不是单调的（即存在 y > z 使得 X(y) < X(z)），那么（★）式的左端为正，右端为负，导致矛盾。因此，可实施性必然蕴含单调性。
推导支付跳跃：现在假设 X 是单调的。考虑 y 无限接近 z 的极限情况。如果 X 在 z 点连续，则支付也必须连续（差值为0）。如果 X 在 z 点有一个跳跃（高度为 ΔX），那么支付也必须有一个跳跃，且跳跃高度恰好为 z * ΔX。
构建支付公式：由于我们标准化 P(0)=0，投标人出价 b_i 时的总支付，就是其分配函数从0到 b_i 所有跳跃点处，跳跃高度（ΔX）乘以跳跃点位置（y_j）的累加和。这正是前面给出的支付公式。

步骤三：验证充分性

最后，需要验证对于任何单调的分配规则 X，由上述公式定义的支付规则 P 确实能使 (X, P) 成为DSIC机制。这可以通过代数或图形直观完成。

图形化解释：将分配函数 X(z) 画成曲线。真实投标人（估值 v，出价 b）的效用可以表示为：
效用 = v * X(b) - P(b) = 图形中，位于分配曲线下方、横坐标从0到v的矩形面积部分。
支付 P(b) 则是分配曲线上方、从0到b之间的面积。

真实出价（b = v）：效用是曲线下方面积。
过高出价（b > v）：会获得更多分配（曲线更高），但需要支付曲线上方更大的面积（多支付了 b 到 v 之间曲线上方的面积），而其对额外分配的价值（v 到 b 之间曲线下方的面积）更小，导致净效用下降。
过低出价（b < v）：会获得更少分配，节省的支付（b 到 v 之间曲线上方的面积）小于其损失的价值（b 到 v 之间曲线下方的面积），同样导致净效用下降。

因此，真实出价总是最优策略。

总结

本节课中我们一起学习了机制设计中的核心定理——迈尔森引理。

我们首先在单参数环境下形式化了拍卖设计问题。
然后引入了可实施的和单调的这两个关键概念。
迈尔森引理指出，这两者是等价的：一个分配规则可实施，当且仅当它是单调的。并且，对于单调的分配规则，存在唯一的支付规则（在零出价零支付的标准化下）能使其成为占优策略激励相容的机制，该支付规则由显式的公式给出。
这个引理不仅从理论上划定了DSIC机制的设计空间，还提供了构造支付规则的具体“配方”。作为直接推论，我们确认了存在满足所有理想特性的赞助搜索拍卖机制。
通过证明，我们看到了DSIC条件的强大威力，它几乎唯一地确定了支付规则，并通过图形化解释获得了对支付公式的直观理解。

在下一讲中，我们将把迈尔森支付公式具体应用到赞助搜索拍卖中，得到其具体的支付规则。

004：算法机制设计

在本节课中，我们将学习迈尔森引理的应用，探讨如何设计近似最优的拍卖机制，并理解“显示原理”这一重要概念。我们将从赞助搜索拍卖的具体支付规则开始，然后讨论背包拍卖问题，最后分析在机制设计中放松不同约束条件的影响。

赞助搜索拍卖的支付规则

上一节我们介绍了迈尔森引理，它描述了如何将单调分配规则扩展为占优策略激励相容的机制。本节中，我们来看看如何将该引理具体应用于赞助搜索拍卖。

在赞助搜索拍卖中，我们的目标是最大化社会福利，即按照出价从高到低分配广告位（点击率较高的位置更好）。我们之前已经论证过，这是一个单调的分配规则：出价越高，获得的广告位越好。

根据迈尔森引理，存在唯一的支付规则能使该分配规则成为DSIC机制。对于获得第 i 个广告位的竞价者，其每次展示的支付公式为：

支付_i = Σ_{j=i}^{k} (α_j - α_{j+1}) * b_{j+1}

其中：

α_j 是第 j 个广告位的点击率。
b_{j+1} 是第 j+1 高出价。
α_{k+1} 被定义为0。

由于广告商通常按点击付费，我们需要将上述支付除以点击率 α_i，得到每次点击的支付：

每次点击支付_i = (1 / α_i) * Σ_{j=i}^{k} (α_j - α_{j+1}) * b_{j+1}

这个公式可以解释为：广告商为每次点击支付的费用，是其下方所有广告位出价的某种加权平均。

值得注意的是，实际搜索引擎（如谷歌、百度）使用的广义第二价格拍卖支付规则略有不同，它规定广告商只需支付其下方紧邻广告位的出价。根据迈尔森引理，这种规则不是DSIC的。竞价者需要更复杂的策略来决定如何出价。不过，这两种拍卖在均衡状态下存在紧密联系，这将在问题集中进行探讨。

背包拍卖与算法机制设计

现在，让我们将目光转向另一种单参数环境：背包拍卖。这是一个资源分配问题，我们需要在容量限制下选择一组“物品”（竞价者）以获得最大总价值。

问题设定

假设有 n 个竞价者。每个竞价者 i 拥有：

一个公开的尺寸 w_i（例如，广告时长）。
一个私有的估值 v_i（对该尺寸资源的支付意愿）。
卖家有一个总容量 W。可行的分配结果 X 是所有满足 Σ_{i在获胜集合中} w_i ≤ W 的竞价者子集。

理想机制的两步设计法

我们继续沿用两步设计法：

假设诚实出价：暂时假设所有出价 b_i 等于真实估值 v_i。在此假设下，为了最大化社会福利，我们需要解决一个经典的背包问题：选择总尺寸不超过 W 的竞价者子集，以最大化 Σ b_i。
设计支付规则：根据迈尔森引理，只要第一步的分配规则是单调的，我们就可以设计出唯一的支付规则，使整个机制成为DSIC，从而证明第一步的假设是合理的。

幸运的是，任何单参数环境下的社会福利最大化分配规则都是单调的。因此，对于背包拍卖，我们可以通过求解背包问题来获得分配，然后应用迈尔森引理得到支付，从而得到一个“awesome”的DSIC机制。

然而，这里存在一个根本性问题：背包问题是NP难的。除非P=NP，否则我们无法在多项式时间内精确求解。这意味着我们无法同时满足awesome机制的所有三个目标（社会福利最大化、DSIC、计算高效）。

算法机制设计的核心思想

这引出了算法机制设计的核心议题：当我们坚持计算效率（多项式时间）和强激励相容性（DSIC）时，能在多大程度上逼近最优社会福利？

得益于迈尔森引理，DSIC的要求可以转化为对分配规则单调性的要求。因此，算法机制设计的目标变为：

设计一个多项式时间算法，其产生的分配规则既是单调的，又能提供尽可能好的社会福利近似比。

这非常类似于计算机科学中的近似算法领域，只不过额外增加了一个单调性约束。

一个具体的近似算法：贪婪启发法

对于背包问题，一个简单快速的启发式算法是按“性价比” b_i / w_i 降序排列竞价者，然后依次选择能放入背包的竞价者。此外，为了避免错过单个高价值但大尺寸的物品，算法最后会比较贪婪解和单出价最高者，取二者中社会福利更高的一个。

该算法具有以下性质：

计算高效：时间复杂度为 O(n log n)。
近似保证：其产生的社会福利至少是最优解的50%。在某些条件下（如每个物品尺寸都不大），近似比可以更高。
单调性：可以证明，该算法导出的分配规则是单调的（这将在问题集中验证）。

因此，通过应用迈尔森引理为此单调规则设计支付，我们就能得到一个近似awesome的拍卖机制：它是DSIC的、计算高效的，并且能保证至少50%的社会福利。

显示原理

最后，我们探讨一个理论问题：在机制设计中，我们坚持要求“诚实报告”作为占优策略，这是否限制了我们的设计空间？

“显示原理”给出了否定的答案。它指出，对于任何具有占优策略的机制 M（不要求策略是诚实报告），都存在一个等价的“直接显示”机制 M‘，其中诚实报告是占优策略，并且两者在所有情况下的结果完全相同。

证明思路（模拟论证）：

给定机制 M，假设当竞价者 i 的真实估值为 v_i 时，其在 M 中的占优策略是 s_i(v_i)。
我们构造新机制 M‘。在 M‘ 中，竞价者直接报告其估值 v_i‘。
M‘ 在内部充当一个“模拟器”：它接收到报告 v_i‘ 后，并不直接使用，而是代表该竞价者执行 M 中的策略 s_i(v_i‘)，并将结果返回给竞价者。
在 M‘ 中，诚实报告（即 v_i‘ = v_i）是一个占优策略。因为任何误报都会导致 M‘ 在 M 中执行一个非占优策略，从而对竞价者不利。

因此，专注于直接显示、诚实报告的DSIC机制并不会损失一般性。这极大地简化了机制设计的分析，因为我们可以只研究那些要求参与者直接报告其类型的机制。

总结

本节课中我们一起学习了：

迈尔森引理的应用：我们将其应用于赞助搜索拍卖，推导出了具体的支付公式，并理解了其与实际应用的广义第二价格拍卖的区别。
背包拍卖问题：我们看到了社会福利最大化与计算效率之间的冲突，并引入了算法机制设计来应对这一挑战。
近似awesome机制：通过一个单调的贪婪算法，我们构建了一个计算高效、DSIC且具有常数近似比的背包拍卖机制。
显示原理：我们了解到，要求机制是“直接显示”的（即诚实报告是占优策略）并不会限制设计者的能力，这为理论分析提供了便利。

这些概念为我们接下来学习收入最大化的拍卖设计奠定了坚实的基础。

005：收益最大化拍卖

在本节课中，我们将要学习收益最大化拍卖。与之前课程中关注社会福利最大化不同，本节将把收益作为首要目标进行探讨。

概述

我们之前讨论的拍卖，如维克里拍卖，主要目标是最大化社会福利。虽然这些拍卖也产生支付，但支付只是激励参与者诚实出价的副产品，而非主要目的。今天，我们将探讨当收益成为首要目标时，如何设计拍卖机制。

从社会福利到收益最大化

上一节我们介绍了社会福利最大化的拍卖设计。本节中，我们来看看如何将目标转向收益最大化。

社会福利最大化在技术上是特殊的，因为它可以在“事后”意义上实现最优。这意味着，即使我们提前知道了所有参与者的私人估值，也无法比我们设计的机制做得更好。然而，收益最大化则不同，不同的拍卖在不同的输入下表现各异。

引入贝叶斯模型

为了系统地比较不同拍卖在收益上的表现，我们需要一个模型来权衡不同输入下的性能。最经典的方法是采用贝叶斯模型，即平均情况分析。

我们将假设每个参与者 i 的私人估值 v_i 是从一个已知的分布 F_i 中独立抽取的。机制设计者知道这些分布，但不知道具体的估值实现。

以下是该模型的关键假设：

每个估值 v_i 独立地从分布 F_i 中抽取。
分布 F_i 具有密度函数 f_i，并且支撑集有界（例如在 [0, v_max] 之间）。
机制设计者知道这些分布，但参与者（在占优策略机制下）无需知道。

单竞拍者示例

让我们通过一个简单的例子来理解收益最大化的挑战：一个物品，一个竞拍者。

竞拍者的估值 v 是私有的，卖家只知道其分布 F。卖家可以提供一个“要么接受，要么离开”的报价 r。

如果 v >= r，卖家收益为 r。
如果 v < r，卖家收益为 0。

因此，期望收益为：r * (1 - F(r))。为了最大化期望收益，我们需要选择最优的 r。例如，如果 v 服从 [0,1] 上的均匀分布，最优的 r 是 1/2，期望收益为 1/4。这个最优的 r 被称为垄断价格。

多竞拍者场景与目标

当存在多个竞拍者时，设计空间变得丰富。例如，对于两个IID且估值服从 [0,1] 均匀分布的竞拍者：

运行维克里拍卖的期望收益是 1/3。
在维克里拍卖中加入保留价 1/2，期望收益可以提升到 5/12。

一个自然的问题是：我们能否做得更好？是否存在一个在所有可能拍卖中期望收益最高的“最优拍卖”？本节的目标正是：对于任何单参数环境和估值分布，刻画期望收益最大化的最优拍卖。

根据显示原理，我们只需关注直接显示机制，即由分配规则 x 和支付规则 p 构成、且诚实报价是占优策略的机制。一个机制的收益是其支付之和：∑ p_i(v)。

期望收益的关键公式

我们有一个关于收益的直接公式，但难以优化。接下来，我们将利用迈尔森引理推导出一个更易于操作的期望收益表达式。

推导的核心步骤如下：

展开期望：固定其他竞拍者的估值 v_{-i}，写出竞拍者 i 的期望支付。
应用迈尔森支付公式：将支付 p_i 用分配规则 x_i 表示。
交换积分次序：简化双重积分。
分部积分：进一步简化表达式。
引入虚拟估值：定义 虚拟估值 函数 φ_i(v_i) = v_i - (1 - F_i(v_i))/f_i(v_i)。
平均与求和：对所有的 i 和所有估值分布取期望。

经过推导，我们得到以下关键结论：
对于一个DSIC机制，其期望收益等于其期望虚拟剩余：
E[∑ p_i(v)] = E[∑ φ_i(v_i) * x_i(v)]

这个公式非常强大，它将难以直接优化的收益问题，转化为了一个与分配规则 x_i 直接相关的优化问题，形式类似于我们熟悉的社会福利最大化问题，只是将真实估值 v_i 替换为了虚拟估值 φ_i(v_i)。

解释与优化虚拟剩余

上一节我们得到了期望收益等于期望虚拟剩余的公式。本节中，我们来看看如何利用这个公式来设计最优拍卖。

我们的目标是最大化 E[∑ φ_i(v_i) * x_i(v)]。一个直观的思路是逐点最大化：对于每一个可能的估值组合 v，我们都选择分配规则 x(v) 来最大化当次的虚拟剩余 ∑ φ_i(v_i) * x_i(v)。

以单物品拍卖且竞拍者独立同分布（IID） 为例。此时所有 φ_i 函数相同，记为 φ。分配规则要求最多一人获胜（∑ x_i <= 1）。那么，对于一组具体的估值 v，最大化虚拟剩余的方法是：

将物品分配给虚拟估值 φ(v_i) 最高的竞拍者。
但是，如果所有竞拍者的虚拟估值都是负数，那么不分配物品（收益为0）比分配给任何人更好。

因此，最优分配规则是：将物品授予虚拟估值最高者，且仅当其虚拟估值 > 0。

单调性与正则分布

然而，我们设计出的分配规则必须是单调的，才能通过迈尔森引理找到对应的支付规则，构成一个DSIC机制。

上述“授予虚拟估值最高者”的规则是否单调呢？这取决于虚拟估值函数 φ(v) 本身是否单调不减。如果 φ(v) 是递增的，那么提高估值 v 会提高虚拟估值 φ(v)，从而保持或提高获胜的可能性，满足单调性。

我们称满足 φ(v) 单调不减的分布 F 为正则分布。许多常见分布（如均匀分布、指数分布、正态分布）都是正则的。对于非正则（不规则）分布，最优机制的设计更为复杂，需要额外的技术处理。

IID正则分布下的最优拍卖

对于单物品拍卖和IID的正则分布，虚拟估值函数 φ 是严格递增的。这意味着：

虚拟估值的排序与真实估值的排序一致。
因此，“虚拟估值最高且为正”的竞拍者，就是“真实估值最高且超过某个门槛”的竞拍者。

这个门槛 r* 就是使得 φ(r*) = 0 的解，即 r* = φ^{-1}(0)。因此，最优拍卖机制可以简洁地描述为：
运行一个带有保留价 r* 的维克里拍卖（即二价密封拍卖）。

示例：均匀分布

对于估值在 [0,1] 上均匀分布的竞拍者，其虚拟估值 φ(v) = 2v - 1。
令 φ(r*) = 0，解得 r* = 1/2。
因此，无论有多少个这样的IID竞拍者，收益最大化的最优拍卖就是设置保留价为 1/2 的维克里拍卖。这验证了我们之前对两个竞拍者例子的猜测。

非对称竞拍者

当竞拍者来自不同的分布（非对称）时，他们的虚拟估值函数 φ_i 也不同。此时，收益最大化的最优分配规则是：将物品授予虚拟估值 φ_i(v_i) 最高的竞拍者（如果其为正）。

这可能导致获胜者并非出价最高的人，因为一个出价较低但来自“高需求”分布（其 φ_i 函数值更高）的竞拍者可能拥有更高的虚拟估值。这种机制在实践中可能显得不寻常或难以解释，这引出了对“近似最优”且更简单、更实用的拍卖格式的研究需求。

总结

本节课中我们一起学习了收益最大化拍卖的设计原理：

我们引入了贝叶斯模型（平均情况分析），通过假设估值来自已知分布来处理收益比较问题。
我们推导出了关键公式：期望收益 = 期望虚拟剩余 E[∑ φ_i(v_i) * x_i(v)]。这是本节课的核心技术成果。
我们通过逐点最大化虚拟剩余来寻找最优分配规则。
对于单物品、IID、正则分布的经典场景，我们得出结论：最优拍卖即是带有恰当保留价的维克里拍卖。保留价 r* 满足 φ(r*) = 0。
我们注意到对于非对称竞拍者，最优机制可能涉及“虚拟估值优先”的分配，这为后续讨论近似最优的实用机制留下了伏笔。

这个理论框架优美地将收益最大化问题转化为一个可优化的形式，并揭示了常见拍卖形式（如eBay使用的带保留价的二价拍卖）在特定条件下的最优性。

006：简单近似最优拍卖

在本节课中，我们将学习如何设计简单、实用且接近最优的拍卖机制。我们将从回顾上一讲的核心公式开始，探讨其在非对称竞拍者环境下的局限性，并引入“近似最优”的概念。我们将学习一个有趣的“先知不等式”，并展示如何利用它来设计在单物品拍卖中能获得至少一半最优收益的简单拍卖。最后，我们将探讨一种完全不依赖于价值分布先验知识的“先验无关”拍卖。

核心公式回顾

上一讲我们证明了一个非常重要的公式。对于任何拍卖（无论是否最优），其期望收益可以仅通过分配规则来表示，而不需要直接涉及支付规则。这个表达式被称为虚拟剩余。

具体公式如下：
期望收益 = E[ Σ φ_i(v_i) * x_i(v) ]
其中，φ_i(v_i) = v_i - (1 - F_i(v_i)) / f_i(v_i) 是竞拍者 i 的虚拟估值，F_i 是其价值分布函数，f_i 是密度函数，x_i(v) 是分配规则。

这个公式将收益最大化问题转化为了虚拟剩余最大化问题。

最优拍卖设计范式

在正则分布（即虚拟估值函数 φ_i(v_i) 严格递增）的假设下，我们可以直接设计最优拍卖。方法是：收到报价后，计算每个竞拍者的虚拟估值，然后选择能使虚拟剩余 Σ φ_i(v_i) * x_i(v) 最大化的可行分配方案。

如果这个分配规则是单调的（报价越高，获胜概率越大），那么根据迈尔森引理，我们可以找到对应的支付规则使其成为激励相容的拍卖，并且这个拍卖就是收益最优的。

在单物品拍卖且竞拍者价值独立同分布（IID）并服从正则分布的特殊情况下，这个最优拍卖简化为一个我们熟悉的机制：维克瑞拍卖（次高价拍卖）加上一个合适的保留价。这是一个非常简洁且实用的结果。

非对称环境下的挑战

然而，当竞拍者来自不同的正则分布（即非IID）时，情况变得复杂。此时，由虚拟剩余最大化得到的最优拍卖机制可能看起来很奇怪：

支付规则难以向未学习过拍卖理论的人解释。
获胜者可能不是出价最高的人。
这种机制在现实世界中很少见到。

虽然从模型角度看这是唯一的最优解，但其缺乏直观性和实用性令人不满。这就引出了本节课的核心问题：我们能否设计出更简单、更实用、更稳健的拍卖，并且只牺牲少量收益，即达到“近似最优”？

这类似于上周我们在处理组合拍卖时，为了计算可行性而放弃绝对最优性，转向近似解。

先知不等式：一个关键工具

为了构建近似最优的简单拍卖，我们首先学习一个有趣的数学结论——先知不等式。它本身是一个关于最优停止问题的结论，但我们将把它应用于拍卖设计。

问题设定：
一个玩家进行一个 n 阶段的游戏。在第 i 阶段，会提供一个价值为 π_i 的奖品，π_i 从已知的独立分布 G_i 中抽取，但具体数值只有到达该阶段时才知道。玩家在每个阶段可以选择：接受当前奖品并结束游戏，或者拒绝并继续。玩家的目标是最大化期望收益。

先知则拥有完全信息，知道所有 π_i 的实现值，他只需在价值最大的那个阶段接受奖品即可。先知的期望收益是 E[ max_i π_i ]。

先知不等式指出：
存在一个简单的阈值策略，其期望收益至少是先知期望收益的一半。阈值策略是指：玩家预先设定一个阈值 T，在游戏中接受第一个价值不低于 T 的奖品。

证明思路（关键点）：

分析阈值策略的收益下界：阈值策略的收益至少是 (1 - Q(T)) * T + Σ_i E[(π_i - T)^+] * Q(T)，其中 Q(T) 是所有奖品都低于 T 的概率（即空手而归的概率），(x)^+ 表示 max(x, 0)。
分析先知收益的上界：先知的收益 E[max_i π_i] 不超过 T + Σ_i E[(π_i - T)^+]。
进行比较：通过巧妙地将阈值 T 设置为使得 Q(T) = 1/2（即空手而归的概率是50%），可以发现阈值策略的收益下界恰好是先知收益上界的一半。因此，阈值策略的收益至少是先知收益的 1/2。

一个更强的结论是，即使阈值策略在遇到多个超过阈值的奖品时，总是选择其中最差的一个，这个 1/2 的近似保证依然成立。

应用于单物品拍卖设计

现在，我们将先知不等式应用到非IID的单物品拍卖设计中。假设有 n 个竞拍者，各自价值服从独立的正则分布 F_i。

连接点：

将每个竞拍者的虚拟估值 φ_i(v_i)（如果为负则视为0）视为一个“奖品”，其分布由 F_i 诱导而来，记为 G_i。
最优拍卖的期望收益（即最优虚拟剩余）正是 E[ max_i (φ_i(v_i))^+ ]，这正好对应了先知的期望收益。
我们可以设计一个类似于阈值策略的拍卖来与之竞争。

简单的近似最优拍卖家族：

设定阈值：根据所有虚拟估值的分布 G_i，计算一个阈值 T，使得 P( max_i φ_i(v_i) >= T ) = 1/2。
过滤竞拍者：收到报价 b_i 后，计算虚拟估值 φ_i(b_i)。淘汰所有 φ_i(b_i) < T 的竞拍者。
分配物品：
- 如果没有剩余竞拍者，物品流拍。
- 如果只剩一个竞拍者，物品分配给他/她。
- 如果剩余多个竞拍者，以任意方式（如随机、按字典序）将物品分配给其中一人。

收益保证：
根据先知不等式（及其强化版），任何属于此家族的拍卖，其产生的期望虚拟剩余（即期望收益）至少是最优拍卖期望收益的一半。也就是说，这些简单拍卖能保证至少 50% 的最优收益。

一个具体的简单实例：
我们可以实现一个更易描述的拍卖：

为每个竞拍者 i 设定一个个性化的保留价 r_i，其中 r_i = φ_i^{-1}(T)，即虚拟估值等于阈值 T 时对应的价值。
运行一个维克瑞拍卖（次高价拍卖），但只允许出价不低于其个性化保留价 r_i 的竞拍者参与。

这个拍卖非常直观：先根据竞拍者的不同分布设定不同的“入场费”（保留价），然后在合格的竞拍者中举行标准的次高价拍卖。它属于上述家族，因此也享有至少50%最优收益的保证。

先验无关拍卖

上述方法仍需要知道价值分布 F_i 以计算阈值 T 或保留价 r_i。那么，如果卖家完全不知道分布，能否设计出好的拍卖呢？这就是先验无关拍卖的目标：拍卖机制本身不依赖于任何分布假设，但在分析时，我们仍用期望收益（相对于某个未知分布）来衡量其性能，并希望它接近该分布下的最优收益。

布鲁-克伦佩雷尔定理 给出了一个经典例子。考虑单物品拍卖，竞拍者价值 IID 并服从某个正则分布 F。

定理陈述：
n+1 个竞拍者参加维克瑞拍卖（无保留价）的期望收益，大于等于 n 个竞拍者参加最优拍卖（即维克瑞拍卖加最优保留价）的期望收益。

解读：
这个定理非常深刻。左边是一个完全不需要知道分布 F 的简单拍卖（维克瑞拍卖），但给它增加了一个竞拍者。右边是针对分布 F 精心设计的最优拍卖。定理表明，多吸引一个竞拍者带来的竞争收益提升，可能比精心设计拍卖机制本身更重要。同时，维克瑞拍卖作为一个先验无关的机制，在增加一个竞拍者的条件下，可以匹敌任何特定分布下的最优拍卖。

证明思路：

构造一个辅助拍卖 A：用 n+1 个竞拍者中的前 n 个模拟针对 n 个竞拍者的最优拍卖，如果物品卖出则结束；如果没卖出（即所有虚拟估值非正），则把物品免费给第 n+1 个竞拍者。
分析性质：
- 拍卖 A 的收益等于 n 个竞拍者时最优拍卖的收益。
- 拍卖 A 总是会分配掉物品。
关键引理：在所有保证物品一定卖出的拍卖中，维克瑞拍卖（在IID正则分布下）是期望收益最高的。因为在必须卖出的约束下，收益最大化要求将物品分配给虚拟估值最高的竞拍者，而在IID且正则的条件下，虚拟估值最高者就是出价最高者，这正是维克瑞拍卖的分配规则。
因此，n+1 个竞拍者的维克瑞拍卖（保证卖出）的收益 ≥ 拍卖 A 的收益 = n 个竞拍者的最优拍卖收益。定理得证。

总结

本节课我们一起学习了如何设计简单且近似最优的拍卖机制。

我们首先回顾了虚拟剩余公式，它是分析收益的基石。
我们指出了在非对称（非IID）竞拍者环境中，理论最优拍卖可能不实用。
我们引入了先知不等式，并展示了如何利用其思想，通过设定阈值和过滤竞拍者，构建出一个能保证至少 50% 最优收益的简单拍卖家族，其中一种实现是为不同竞拍者设定个性化保留价后进行维克瑞拍卖。
最后，我们探讨了先验无关拍卖的概念，并通过布鲁-克伦佩雷尔定理了解到，简单的维克瑞拍卖在增加一个竞拍者的情况下，其收益可以匹敌需要精确分布知识的最优拍卖。这强调了市场竞争本身的重要性，并为在缺乏分布信息时设计稳健的拍卖机制提供了理论依据。

这些结果表明，通过接受微小的收益损失，我们可以获得在简洁性、实用性和稳健性上大幅提升的拍卖机制，这连接了理论最优与现实可行之间的鸿沟。

007：多参数机制设计与VCG机制

在本节课中，我们将学习机制设计理论中一个极其重要的基石——VCG机制。我们将从单参数环境过渡到更复杂的多参数环境，理解VCG机制如何实现占优策略激励相容（DSIC）下的社会福利最大化，并探讨其在实践（如组合拍卖）中面临的挑战。

从应用到理论：关于上节课的最后一个案例

上一节我们介绍了单参数环境下的收益最大化理论。现在，我们来看一个将理论应用于实践的案例研究。

这项研究由斯坦福商学院的Michael Ostrovsky和Michael Schwarz完成。他们为雅虎的关键词拍卖（即赞助搜索广告拍卖）设计了更智能的保留价策略。

在理论上，如果竞价者的点击估值是独立同分布且来自一个正则分布，那么最优拍卖就是“按出价排名”的分配规则，并配以一个合适的保留价（即垄断价格）。雅虎当时对所有关键词统一使用10美分的保留价，而理论分析表明，对于许多关键词，最优保留价远高于此（例如20、30或40美分）。

以下是他们进行的现场实验步骤：

他们分析了约50万个关键词的历史竞价数据，为每个关键词拟合了估值分布。
根据理论，为每个关键词计算了最优保留价（即垄断价格）。
出于保守考虑，他们并未直接采用理论最优值，而是将新旧保留价取平均值作为新的保留价（例如，旧价10美分，理论最优40美分，则新价设为25美分）。

实验结果表明，收入提升了几个百分点。这在雅虎巨大的收入基数下意义重大。这种提升在“薄市场”（即竞价者较少但估值较高的关键词市场）中尤为明显，因为保留价主要在只有一个竞价者出价高于保留价时才影响最终支付。

这个案例表明，即使简单的理论应用也能在实践中带来显著的收益改进。

迈向多参数机制设计

到目前为止，我们讨论的都是单参数环境。现在，我们将首次超越这个范畴。

在单参数环境中，每个参与者只有一个私人信息（即其对获得“物品”的估值）。然而，现实中有许多情况无法用此模型充分描述。

考虑一个有两种不同商品A和B的场景。一个参与者可能更想要A，另一个可能更想要B。此时，“获得更多物品总是更好”的假设不再成立，我们关心的是获得哪种物品。这就引出了所谓的多参数机制设计。

通用模型

我们仍然有 n 个竞价者。但现在，我们有一个抽象的、有限的结果集合 Ω。这可以是任何事物，例如在单物品拍卖中，Ω 包含 n+1 个结果（n 个人中谁赢，或者无人获胜）。

竞价者 i 现在对每个可能的结果都有一个私人估值：
v_i(ω)，其中 ω ∈ Ω
这是一个实数，表示竞价者 i 在结果 ω 发生时的价值。

这比单参数模型更通用。即使在单物品拍卖中，它也允许竞价者对他人的获胜结果有不同的估值（例如，朋友获胜你感到高兴，竞争对手获胜你感到不满）。

VCG机制：多参数世界中的基石

我们现在介绍机制设计理论中另一个绝对的核心成果——VCG机制（以Vickrey、Clarke和Groves的名字命名）。这个来自70年代初的定理告诉我们，即使在完全通用的多参数环境中，我们仍然可以实现占优策略激励相容下的社会福利最大化。

我们在单参数环境中已经知道这个结果的特例：社会福利最大化的分配规则是单调的，并且可以通过迈尔森引理转化为DSIC机制。但在多参数环境中，我们尚未证明这一点。

VCG机制拥有“awesome拍卖”定义中的两个要素：DSIC和（在诚实出价假设下的）社会福利最大化。 conspicuously absent is that third property polynomial time。显然缺失的是第三个属性——多项式时间。事实上，在一些关键应用中，VCG机制是高度非awesome的。

VCG机制的设计

我们遵循与单参数问题相同的设计思路：先假设竞价者诚实出价，设计分配规则；然后设计支付规则来实现DSIC性质。

步骤1：分配规则
假设收到诚实出价 b_i(ω)（现在 b_i 是一个向量）。机制选择能最大化报告社会福利的结果：
ω* = argmax_{ω ∈ Ω} Σ_i b_i(ω)
这是我们在诚实假设下唯一能做的选择。

步骤2：支付规则
关键思想是：让竞价者 i 为其存在给其他人造成的社会福利损失（即外部性）付费。
具体支付公式为：
p_i = [max_{ω ∈ Ω} Σ_{j ≠ i} b_j(ω)] - Σ_{j ≠ i} b_j(ω*)

第一项：如果竞价者 i 不存在，其他 n-1 个参与者能获得的最大社会福利。
第二项：在竞价者 i 存在且结果 ω* 被选中时，其他参与者实际获得的社会福利。
差值：竞价者 i 的参与导致其他人损失的社会福利，即其外部性。

由分配规则 ω* 和上述支付规则 p_i 共同构成的机制，就是VCG机制。

证明VCG机制是DSIC的

我们需要证明，无论其他竞价者如何行动，竞价者 i 通过诚实出价 b_i = v_i 能最大化自身效用。

固定其他竞价者的出价 b_{-i}。竞价者 i 选择出价 b_i 导致结果 ω*，其效用为：
u_i = v_i(ω*) - p_i
代入支付公式 p_i 并整理后，效用表达式可分解为两项：
u_i = [v_i(ω*) + Σ_{j ≠ i} b_j(ω*)] - [max_{ω ∈ Ω} Σ_{j ≠ i} b_j(ω)]

第一项：竞价者 i 的真实估值加上其他人的报告估值（在结果 ω* 下）。
第二项：一个与 i 的出价 b_i 完全无关的常数（因为它只涉及其他竞价者的出价）。

因此，最大化 u_i 等价于最大化第一项。注意，机制选择 ω* 的规则是最大化 Σ_i b_i(ω)。如果竞价者 i 诚实出价 (b_i = v_i)，那么机制最大化的目标 Σ_i b_i(ω) 恰好就等于竞价者 i 希望最大化的第一项 v_i(ω) + Σ_{j ≠ i} b_j(ω)。
因此，诚实出价使竞价者 i 的期望与机制的目标一致，从而能最大化其自身效用。这就证明了DSIC性质。

支付规则的另一种解释

支付规则可以重写为：
p_i = b_i(ω*) - [Σ_j b_j(ω*) - max_{ω ∈ Ω} Σ_{j ≠ i} b_j(ω)]
这可以理解为：竞价者 i 先支付其出价 b_i(ω*)，然后获得一个回扣。回扣的金额正是由于其参与而带来的社会福利增量。在单物品拍卖中，这恰好等于胜者支付其出价，然后获得 v1 - v2 的回扣，最终净支付为 v2。

这种解释清晰地说明了VCG支付的两个良好性质：支付总是非负的（设计者不会倒贴钱），并且诚实出价的竞价者效用非负（支付不会超过其对所获结果的估值）。

小结

VCG机制的要义在于：如果我们抛开所有实际考虑（包括计算可行性），那么在极其通用和抽象的环境中，原则上我们仍然可以通过这种具有极强激励保证（占优策略激励相容）的机制来实现社会福利最大化。

组合拍卖：VCG机制的应用与挑战

组合拍卖是多参数环境的一个典型且重要的应用实例，例如在无线频谱牌照的拍卖中。它与我们之前讨论的多物品拍卖关键区别在于：物品是异质的，且不同竞价者对不同物品组合的偏好不一致。

模型

有 n 个竞价者和 m 种不同的商品。结果是一个分配向量，说明每个竞价者获得了哪个物品组合（即商品的一个子集）。竞价者 i 的估值函数 v_i(S) 定义了其对获得的任何组合 S 的支付意愿。这需要 2^m 个私人参数（当 m=20 时约为100万）。社会福利目标是最大化 Σ_i v_i(S_i)，且每个商品只能分配给一个人。

这是通用机制设计环境的一个特例，因此VCG机制原则上适用。然而，在实践中，几乎没有人对大量异质商品真正运行VCG拍卖。原因如下：

以下是实施组合拍卖时面临的主要挑战，按明显和严重程度大致排序：

挑战1：信息获取的复杂性
要求竞价者报告其对所有 2^m 种可能组合的估值是完全不现实的。即使 m 不大，这也令人望而却步。这不仅是VCG机制的问题，也是任何直接显示机制的根本障碍。解决方案是使用间接机制，在需要时逐步询问信息（如英式拍卖）。间接机制还有保护竞价者隐私的额外好处。

挑战2：计算复杂性
即使能获取全部信息，精确最大化社会福利也是一个NP难问题。在实践中，必须放弃精确的最优化，转而寻求近似解。

挑战3：VCG机制自身的缺陷
即使前两个挑战在小规模问题中不存在（例如，商品和竞价者都很少，可以暴力计算），VCG机制本身也可能有不良特性。

糟糕的收入特性：VCG机制的收入可能非单调，即增加竞价者可能导致收入下降。例如，在一个两商品三竞价者的例子中，引入第三个竞价者使社会福利翻倍，却可能使收入降至零。这带来了收入问题和操纵漏洞（如通过虚假竞价进行合谋）。
间接机制中的新策略行为：由于挑战1，我们必须使用多轮交互的间接机制。这为操纵系统提供了新的机会。例如，在早期的FCC频谱同步升价拍卖中，竞价者曾利用出价尾数进行合谋信号传递，以极低的成本瓜分市场。

总结

本节课我们一起学习了：

一个将单参数拍卖理论应用于雅虎关键词拍卖的案例，展示了理论对实践的直接指导意义。
从单参数环境扩展到多参数机制设计的通用模型。
VCG机制的核心原理：通过让竞价者为其施加的外部性付费，可以在极其通用的多参数环境中实现DSIC下的社会福利最大化。我们详细推导了其分配规则、支付规则并证明了其DSIC性质。
将VCG机制应用于重要的组合拍卖场景，并深入探讨了其在实践中面临的四大挑战：信息获取的复杂性、计算复杂性、收入非单调性以及间接机制中更复杂的策略行为。

这些挑战表明，尽管VCG机制在理论上优美而强大，但在实际设计如频谱拍卖等复杂机制时，我们需要更多的创新和权衡。下节课我们将继续探讨当前用于应对这些挑战的先进拍卖格式。

008：组合拍卖与无线频谱拍卖案例研究 📡

在本节课中，我们将学习一个重要的现实世界应用案例：无线频谱拍卖。我们将探讨如何将课堂上学到的理论应用于解决实际问题，并了解理论在实践中的调整与演变。通过这个案例，我们将看到，尽管理论并非总能直接套用，但它确实深刻影响着人们解决现实世界中复杂且重要问题的方式。

回顾：组合拍卖的形式化定义

上一讲我们介绍了组合拍卖的形式化定义。让我们简要回顾一下。

在一个组合拍卖中，我们有 n 个投标人（例如 AT&T、Verizon 等公司）。我们有一组 M 个不同的物品（例如，允许在特定区域使用特定频率的许可证）。每个投标人 i 对任何可能获得的物品组合 S ⊆ M 都有一个私人估值 v_i(S)，这个估值只有投标人自己知道。

我们通常假设对空集的估值为零，并且估值是单调的：获得的物品越多，价值不会降低。我们之后会讨论更多关于估值的假设。

组合拍卖的挑战与实践难题

周一我们讨论了在实践中实施组合拍卖，特别是使用 VCG 机制最大化社会福利时所面临的挑战。

投标复杂性：任何直接显示机制都要求投标人报告对所有可能组合的估值。由于可能的组合数量是物品数量 M 的指数级，这要求投标人提交海量投标信息，完全不现实。
计算复杂性：即使在单参数世界中，社会福利最大化也可能是计算上难以处理的。
收入特性：VCG 机制可能具有奇怪甚至不良的收入特性，例如在竞争环境中收入为零，或收入非单调性。
间接机制的博弈空间：当我们转向间接机制时，这为参与者提供了更多博弈系统的机会，例如我们讨论过的利用低价投标进行报复或合谋的例子。

其中，最根本的一点是，我们整个课程都在讨论直接显示机制，甚至用显示原理来证明其合理性。但现在，在这个应用场景中，我们不得不放弃直接显示机制。这是我们第一次别无选择，必须讨论间接机制，在这种机制中，我们只在“需要知道”的基础上了解投标人的信息。

转向间接机制：最简单的思路

那么，如果我们不采用直接显示拍卖，我们该怎么做？我们可以从最简单的想法开始：为每个物品单独运行单物品拍卖。

以下是我们可以考虑的一些拍卖格式，我们将看到在实践中，有些选择是正确的，有些则是错误的。

设计决策一：同时进行 vs. 顺序进行

第一个问题是：我们是同时拍卖所有物品，还是一个接一个地顺序拍卖？

事实证明，对于这种分离的单物品拍卖，新手常犯的第一个错误就是顺序进行。即使在物品完全相同且每个投标人只想要一个物品的简单情况下，顺序拍卖也会带来问题。

示例分析：
假设有两个完全相同的物品，你最多愿意为其中一个支付 100 美元。第一个物品今天拍卖，第二个明天拍卖。假设其他投标人都很“天真”，只按真实估值出价。你应该今天参与还是明天参与？

如果你今天参与并获胜，你将支付第二高的出价。如果你今天“睡过头”，让总体估值第二高的投标人赢得第一个物品，那么他明天就不会参与。你明天参与时，支付的价格将是原始投标人中第三高的估值，这个价格会更低。

但问题在于，其他投标人也会进行同样的推理。他们可能会试图避开你参与的拍卖，以增加自己获胜的机会。因此，投标人不再有占优策略，他们必须仔细猜测其他投标人的行为以及每场拍卖的预期成交价，这非常困难。

现实案例：
2000年3月，瑞士进行了一场小型频谱拍卖，他们顺序拍卖了三个许可证。前两个完全相同的许可证分别以1.21亿和1.34亿瑞士法郎成交（约10%的差异），而最后一个尺寸是前者两倍的许可证却只以5500万成交。这很难用任何合理的偏好均衡来解释。

因此，第一个设计决策是：不要顺序进行，而应同时进行。

设计决策二：密封投标 vs. 增价拍卖

第二个设计决策是：在每个单物品拍卖中，我们使用什么格式？新手常犯的第二个错误是采用密封投标（例如维克瑞拍卖）。

问题分析：
假设有10个相同的物品，你只想要其中一个。它们通过同时进行的维克瑞拍卖分开出售。你必须为每个物品写下一个出价。你应该怎么做？

一种合理策略是随机瞄准一个物品，并为其出价你的真实估值。
另一种策略是在所有物品上都出低价（例如500万），希望“中彩票”以极低价格赢得一个。

作为投标人，你必须在“赢得过多”（支付超过总价值）和“赢得过少”的风险之间进行权衡。这本身就不是一个容易解决的问题。

即使所有投标人都采用“随机瞄准一个”的合理策略，作为卖家，你可能也不会满意。例如，假设有两个物品和三个投标人。在密封投标拍卖中，很可能其中一个许可证只有一个投标人出价，那么第二高的出价就是0，这个许可证几乎会被免费送掉。而在一个正常的、出售两个物品的维克瑞拍卖中，两个获胜者都将支付第三高的价格，竞争会更充分。

现实案例：
新西兰的频谱拍卖就犯了此错误。他们使用了同时进行的密封第二价格拍卖，预计收入2.5亿，实际仅收入3600万，约为预期的八分之一。有些许可证的最高出价与次高出价差距巨大，令人尴尬。

因此，第二个设计决策是：避免密封投标，采用增价拍卖。

标准解决方案：同时增价拍卖

基于上述试错经验，标准的解决方案是同时增价拍卖。你可以想象所有增价拍卖在同一房间内同时进行。

具体格式：

拍卖以同步轮次进行。
每轮中，每个（预先注册的）投标人可以对其想要的任何物品子集出价。
通常，对某个物品出价意味着将价格提高到比当前最高出价高出一个固定增幅（如5%-10%）。也允许“跳跃出价”。
信息通常是透明的：每轮结束后，每个物品的最高出价者和出价金额是公开的。
如果某一轮中没有任何物品收到新的出价，拍卖即终止。

活动规则：
为了防止“狙击”行为（即投标人一直观望，在最后时刻突然出价），拍卖设有活动规则。简而言之，你竞标的物品数量应随着拍卖进行而只减不增。这确保了所有投标人都从开始就参与价格发现过程。

同时增价拍卖的优缺点

主要优点：价格发现与协调

同时增价拍卖的主要优点是价格发现。与密封投标的一锤子买卖不同，投标人有机会进行中途修正。

如果你以为某个许可证会很便宜，结果发现竞争激烈、价格高昂，你可以转向其他目标。
如果你以为某个目标遥不可及，结果发现竞争不激烈，你可以变得更加进取。
它还能帮助解决协调问题。例如，假设有两个相同的物品和三个投标人。在密封投标中，价格可能差异巨大。但在增价拍卖中，如果有人被挤出，他会选择价格较低的那个物品重新进入，从而在整个拍卖过程中促使两个物品的价格趋于相等。

此外，它还有助于估值发现。在现实中，公司评估自己对各种组合的估值是有成本的。随着价格演变，投标人可以判断哪些组合可能在自己的预算范围内，从而只对相关的组合进行深入评估。

主要问题

尽管同时增价拍卖表现良好，并被使用了约20年，但它并非没有缺陷。主要有两个问题：

1. 需求缩减

即使物品是替代品，也可能发生需求缩减。投标人可能故意只竞标少于其实际想要数量的物品，以降低竞争，从而以更低的价格获得这些物品。

示例：
有两个相同的物品。

投标人1：获得一个物品价值10，获得两个价值20（每个值10）。
投标人2：获得一个物品价值8，获得两个价值也是8（不需要第二个）。
社会福利最大化的分配是将两个物品都给投标人1（总价值20）。在VCG机制中，投标人1支付8。
在同时增价拍卖中，如果投标人1坚持要赢得两个物品，他必须支付总共16（因为投标人2会一直出价到价格达到8才退出），其效用为4。
如果投标人1策略性地只瞄准一个物品，那么两个物品可能都以接近零的价格分配（每人一个），社会福利降至18，卖家收入降至0。
因此，通过降低自身需求来削弱竞争，对投标人可能是有利可图的策略。

2. 暴露问题

当物品是互补品时，会出现暴露问题。投标人可能因为无法以可承受的价格集齐所需的互补物品组合，而面临获得无价值的部分组合并仍需支付的风险，从而导致出价保守。

示例：
有两个不同的物品A和B。

投标人1：只想要组合{A, B}，价值100。单独一个价值0。
投标人2：只想要A或B中的任意一个，价值75。不想要两个。
社会福利最大化的分配是将A和B都给投标人1（总价值100）。在VCG中，投标人1支付75。
在同时增价拍卖中，投标人2会一直出价，直到A和B的价格都达到75才退出。因此，投标人1要想赢得组合，必须支付总计150，而其价值只有100。如果中途退出，可能只赢得一个物品（价值0）却仍需付款。这种风险使得投标人（尤其是互补品需求者）在价格发现不足时不敢积极出价。

改进与前沿：打包竞价

为了解决需求缩减和暴露问题，人们提出了在拍卖中引入打包竞价的想法，即允许对物品组合进行出价。主要有两种实验性方式：

代理轮次：先进行常规的同时增价拍卖。结束后，增加一个最终轮次，允许投标人提交任意数量的打包竞价。然后，将所有单个物品的最高出价和打包出价一起，计算一个社会福利最大化的分配。支付规则通常比较复杂，不使用VCG支付（因其在互补品环境下有缺陷），而是采用能产生更高收入但只满足较弱激励性质的规则。
分层打包竞价：拍卖设计者预先定义一系列允许竞价的“包裹”。这些包裹通常具有层次结构（例如，单个许可证、某个地区的许可证组合、全国性组合等）。这种结构使得社会福利最大化和定价计算可以在多项式时间内完成。近年来，美国联邦通信委员会似乎更倾向于使用这种格式。

未来展望：激励拍卖

最后，让我们展望一下可能于明年进行的未来拍卖形式：激励拍卖。这将是一个“双向”拍卖，包含正向拍卖和反向拍卖。

背景：政府希望通过回购电视台持有的频谱许可证，将其重新打包后，再拍卖给电信公司用于新技术。

拍卖结构：

反向拍卖：政府从电视台（卖方）手中回购频谱许可证。
正向拍卖：政府将清理并重新打包后的频谱，拍卖给电信公司（买方）。

反向拍卖的机制设计：
这很可能成为贪心算法机制设计范式的一个绝佳应用案例。

模型：每个电视台（投标人）对其许可证有一个私人估值 v_i（即他们愿意接受的最低卖出价）。这是一个单参数环境。
可行性：目标是回购一部分电视台，使得剩余的电视台能够被“重新打包”到指定数量的频道内。检查一个电视台集合是否可以被回购（即剩余者是否可被重新打包）是一个NP难问题，需要借助先进的求解器。
分配规则：采用贪心算法。从一个所有电视台都被回购的可行集合开始，然后尝试逐个“删除”电视台（即不回购），只要删除后剩余集合仍能被重新打包。选择删除哪个电视台的规则可以是出价最高者，或人均出价最高者等，但关键是要满足单调性：出价越低（要价越低），被回购（获胜）的可能性应该越大。
支付规则：确定每个被回购电视台的“关键出价”，即其能够被回购的最高出价。这会产生一个占优策略激励相容的机制。这个机制可以很容易地实现为一个降价拍卖。

总结

本节课中，我们一起深入探讨了无线频谱拍卖这一算法博弈论的经典应用案例。

我们首先回顾了组合拍卖的形式化定义及其在实践中的挑战，特别是直接显示机制的不适用性。接着，我们探索了最简单的间接机制思路——分离的单物品拍卖，并分析了顺序拍卖与密封投标拍卖的弊端，从而引出了标准的同时增价拍卖格式。我们讨论了该格式通过价格发现带来的优点，也剖析了其存在的需求缩减和暴露问题两大缺陷。

然后，我们了解了为应对这些问题而发展的打包竞价改进方案。最后，我们展望了未来的激励拍卖，其中反向拍卖部分很可能应用贪心算法机制设计，展示了理论如何直接驱动前沿的实践方案。

通过这个案例，我们看到了经济理论、算法设计与现实世界政策制定的精彩交汇，也理解了为什么在解决复杂实际问题时，灵活应用和调整理论框架是如此重要。

009：超越拟线性模型

在本节课中，我们将学习机制设计中当支付受到约束时的情况。我们将首先探讨预算约束下的机制设计，介绍一种名为“锁定拍卖”的机制。随后，我们将讨论完全没有货币的机制设计，并介绍“顶级交易循环”算法。我们将看到，这些约束使得设计者能做的事情变少，但也催生了一些非常巧妙且实用的机制。

预算约束下的机制设计

到目前为止，我们一直假设每个参与者的目标是最大化其对于所选结果的估值减去其必须支付的金额。其效用函数在货币上是线性的。然而，在许多实际应用中，支付会受到约束，例如参与者有预算上限，或者在某些场景下根本不允许使用货币。这给机制设计带来了新的挑战。

预算约束模型

将预算约束纳入我们基础的拟线性模型的最简单方式如下：如果参与者的支付不超过其预算，则其效用与之前相同；如果被要求支付超过其预算，则其效用为负无穷。这可以看作是在机制设计中引入了一组新的约束，限制了设计者的能力，使得问题比我们之前看到的模型更加困难。

例如，我们之前学习的VCG机制能够最大化社会福利，但该机制在存在预算约束时可能不再适用，因为它产生的支付可能超过参与者的预算。因此，我们需要寻找新的机制。

市场出清价格拍卖（一个不成功的尝试）

一个直观的想法是使用市场出清价格来分配物品。具体来说，我们寻找一个价格P，使得在该价格下，总供给等于总需求。然后，我们按照每个参与者在价格P下的需求分配物品，并让他们按此价格支付。

虽然这个机制尊重预算约束，但它不是占优策略激励相容的。参与者可能通过低报其估值来进行“需求缩减”，即以较低价格获得较少物品，从而获得比诚实报价更高的效用。

锁定拍卖

为了解决激励问题，我们引入“锁定拍卖”。该机制以递增的价格逐步分配物品，并在过程中“锁定”某些物品的分配。

以下是锁定拍卖的核心步骤：

初始化剩余物品数量S为总物品数M。
当还有剩余物品且存在需求时，逐步提高当前价格P。
在每一个价格P下，检查是否存在某个参与者i，即使让其他所有参与者按当前价格获取他们想要的物品后，仍有剩余物品（即 S - Σ_{j≠i} D_j(P) > 0）。我们称这个数量为K。
如果存在这样的参与者i，则立即将K件物品以当前价格P“锁定”分配给参与者i。这意味着这些物品的分配和价格现在就确定了。
更新剩余物品数量S（减去K），并减少参与者i的剩余预算（减去K * P）。
重复此过程，直到所有物品分配完毕。

与一次性的市场出清价格拍卖不同，锁定拍卖中，参与者可能为不同批次获得的物品支付不同的价格。

示例分析：假设有两件相同物品和两个竞拍者。竞拍者1的估值v1=6，预算无限；竞拍者2的估值v2=5，预算B2=5。在诚实报价下，锁定拍卖的过程如下：

价格从0开始上升。当价格达到2.5时，竞拍者2只能负担1件物品。此时，竞拍者1可以“锁定”1件剩余物品，价格为2.5。
价格继续上升至5，竞拍者2被淘汰。此时，竞拍者1锁定剩下的1件物品，价格为5。
最终，竞拍者1获得两件物品，分别支付2.5和5。

锁定拍卖的激励相容性

锁定拍卖是占优策略激励相容的。直观证明如下：对于任意参与者i，其单位物品的估值vi是固定的。在拍卖中，价格P单调上升。当P < vi时，获得物品能带来正效用；当P > vi时，获得物品会带来负效用。参与者的出价bi决定了其被“踢出”拍卖的价格点（即当P超过bi时，其需求变为0）。

如果参与者低报（bi < vi），那么与诚实报价相比，他会在价格达到bi时提前退出，从而错过在价格区间[bi, vi)内可能以低于估值价格锁定物品的机会，这只会损害其自身利益。
如果参与者高报（bi > vi），那么与诚实报价相比，他会在价格超过vi后仍留在拍卖中，从而可能在价格区间(vi, bi]内以高于估值价格锁定物品，这同样会损害其自身利益。

因此，诚实报价（bi = vi）是占优策略。

上一节我们介绍了如何处理预算约束，并学习了锁定拍卖。本节中，我们来看看当支付约束变得更加严格，即完全不允许使用货币时，机制设计如何进行。

无货币的机制设计：房屋分配问题

在许多实际场景中，如器官分配、学校录取、实习匹配等，使用货币是非法的或不道德的。这进一步束缚了设计者的手脚，但同时也催生了一些非常优美且实用的机制。

顶级交易循环算法

考虑一个经典的“房屋分配问题”：有N个代理人，每人初始拥有一套不同的房屋。每个代理人对所有房屋有一个严格的偏好排序。目标是在不使用货币的情况下，重新分配这些房屋，以某种方式提高整体满意度。

TTC算法通过迭代方式构建一个重分配方案：

每个尚未被分配最终房屋的代理人，指向当前剩余房屋中他最喜爱的那套（房屋由其当前所有者持有）。这形成了一个有向图，每个节点出度为1。
在这个有向图中，至少存在一个循环（例如，代理人A指向B的房子，B指向C的房子，C指向A的房子；或者代理人指向自己的房子形成自环）。
算法任意选择一个循环。对于循环中的每个代理人，将他所指向的房屋分配给他（即，A得到B的房子，B得到C的房子，C得到A的房子；自环则保持原状）。
将这些已分配房屋的代理人从图中移除。
重复步骤1-4，直到所有代理人都被分配了房屋。

TTC算法的性质

首先，TTC算法满足一个基本合理性：每个代理人最终得到的房屋，至少和他最初拥有的房屋一样好。因为在每一轮中，代理人总可以选择指向自己当前的房屋，如果他指向了别的房屋，那一定是因为他更喜爱那套房屋。

其次，更重要的是，如果我们将TTC算法包装成一个直接显示机制（即让代理人报告其偏好排序，然后运行TTC算法得出分配），那么这个机制是占优策略激励相容的。

简要证明思路：固定代理人i和其他人的报告。考虑诚实报告下，i在第J轮被某个循环选中并获得房屋H。如果i通过虚假报告试图影响过程，他唯一能做的就是更早地（在某一轮）通过指向一个他不如H喜爱的房屋来“闭合”一个循环，从而更早地被分配一个更差的房屋。他无法通过虚假报告获得比诚实报告下更好的房屋。因此，诚实报告是其最优策略。

TTC算法的优越性

与简单的“维持原状”机制相比，TTC算法在“核”的意义上是唯一最优的分配。这意味着，在TTC算法产生的分配下，不存在任何代理人子集能够通过他们内部重新交换房屋，使得其中至少一个人变得严格更好，同时没有人变得更差。任何其他分配都不具备这个性质，都存在某个子集可以“脱离”机制并实现帕累托改进。

总结

在本节课中，我们一起学习了超越经典拟线性模型的机制设计。我们首先探讨了存在预算约束的情况，介绍了“锁定拍卖”这一占优策略激励相容的机制，它通过逐步提高价格和提前锁定分配来尊重预算并维持激励。随后，我们进入了完全无货币的机制设计领域，学习了用于房屋分配问题的“顶级交易循环”算法。该算法不仅简单有效、激励相容，而且其产生的分配在“核”的意义上具有强大的稳定性与最优性。这些机制展示了即使在设计者权力受到严格限制的情况下，精妙的算法设计依然能够实现重要的经济目标。

010：无金钱机制设计与稳定匹配 🧠

在本节课中，我们将学习机制设计的最后一个主题：无金钱的机制设计。我们将通过一个案例研究——肾脏交换——来探讨这一概念，并介绍一个经典的理论：稳定匹配。我们将看到，即使在没有货币激励的情况下，精心设计的机制也能实现高效且公平的资源分配。

肾脏交换：一个无金钱机制设计的案例 🩺

肾脏交换是过去十年左右无金钱机制设计的一个杰出应用。许多肾衰竭患者需要肾移植。传统的器官捐赠依赖于已故捐赠者，但肾脏有其特殊性：我们每个人都有两个肾脏，而只靠一个也能正常生活。因此，出现了活体捐赠者，例如配偶或兄弟姐妹愿意为亲人捐赠一个肾脏。

然而，问题在于并非任何人都能成功接受任何人的肾脏移植。存在兼容性问题，主要是血型和组织类型。例如，O型血患者需要O型血捐赠者，而AB型血捐赠者需要AB型血患者。当愿意为你捐赠肾脏的人与你不兼容时，这就成了一个难题。

交换的想法 💡

假设有以下情况：患者A（血型A）有一个不兼容的捐赠者（血型B）。同时，患者B（血型B）有一个不兼容的捐赠者（血型A）。尽管这两对人互不相识，但如果他们知道彼此的存在，就可以交换捐赠者：第一个捐赠者捐给第二个患者，第二个捐赠者捐给第一个患者。这就是肾脏交换的核心思想。

大约在本世纪初，肾脏交换开始在一些医院（如约翰·霍普金斯医院）作为孤立的、临时的案例出现，并成功拯救了生命。随之而来的问题是：如何组织一个全国性的肾脏交换数据库，让所有不兼容的患者-捐赠者对都能注册并找到匹配，从而形成一个“厚市场”，以拯救尽可能多的生命？

理论起点与模型构建 📊

我们将讨论大约十年前，当人们开始思考如何组织这种交换时，所进行的一些理论研究。全国性的交换网络大约在十年前中期形成，现在定期运行算法寻找匹配，每年因此完成数千例移植手术，影响巨大。

目前，在美国（以及除伊朗外的几乎所有国家），任何形式的器官捐赠补偿都是非法的。这是一个有趣的道德和政策辩论点，但本课程将专注于无金钱的机制设计。

我们首先关注两篇早期的论文（约2004年），作者包括后来获得诺贝尔经济学奖的Al Roth等人。他们的第一个想法是将顶级交易循环算法应用于肾脏交换问题。

应用顶级交易循环算法

在周一的课程中，我们在住房分配问题的背景下描述了这个算法。在肾脏交换中：

代理人对应患者及其不兼容的捐赠者（即一个“对”）。
初始禀赋是该对自有的不兼容捐赠者。
偏好是患者对所有捐赠者的完全排序，这个排序由特定捐赠肾脏移植成功的概率决定。

算法运行过程是：每个人指向他们最喜欢的剩余“房子”（即捐赠者），寻找循环，然后执行交换。在这个背景下，我们期望出现简单的两对交换循环。

公式/代码描述：算法迭代地寻找并执行交易循环，直到没有循环为止。在每次迭代中，每个未匹配的代理人指向其偏好列表中排名最高的剩余捐赠者。

这个算法的一个关键性质是：参与系统的最坏情况是你最终得到你开始时那个不兼容的捐赠者；最好的情况是你得到一个兼容性高得多的捐赠者。

模型的扩展与实际问题

研究人员进一步扩展了模型，以容纳没有活体捐赠者的患者（对应没有初始房子的代理人）和已故捐赠者（对应没有初始主人的房子）。他们证明了可以将顶级交易循环算法扩展到这个更一般的设置，并保持占优策略激励相容。

然而，直接将顶级交易循环算法应用于肾脏交换存在一些问题：

循环长度问题：算法可能产生很长的交换循环。在肾脏交换中，一个循环中的所有手术必须同时进行，以确保没有人中途反悔（这会导致灾难性后果：一个患者得到了肾脏，但其捐赠者没有捐出，另一个患者则既没得到肾脏又失去了自己的捐赠者）。因此，我们希望保持循环简短。
偏好模型问题：在实践中，患者和医生的偏好更接近二元模型（兼容或不兼容），而非对所有捐赠者的完全排序。患者通常只关心移植是否很可能成功，而不是在同样兼容的肾脏之间进行细微排序。

鉴于以上两点（保持循环简短和利用简单的二元偏好模型），计划转向使用图匹配。

基于匹配的肾脏交换模型 📈

我们使用图匹配来建模肾脏交换：

节点：每个不兼容的患者-捐赠者对。
边：连接两个节点（即两对）的边表示它们相互兼容——即第一对的捐赠者与第二对的患者高度兼容，反之亦然。

定义最优解为图上的最大基数匹配。这相当于进行尽可能多的两两交换，从而拯救尽可能多的生命。通过将其表述为匹配问题，我们将自己限制在仅进行两两交换。在实际运行的国家数据库中，算法也会寻找三方交换，因为这样可以显著增加匹配数量，而四方或更长的交换带来的额外收益很小。本讲座将仅讨论两两交换的匹配模型。

机制设计问题

每个节点（实际上应视为代表该对的医生或医院）知道自己在池中与哪些其他节点兼容（即知道自己的邻居边）。它可以报告其兼容节点集合的任意子集。患者有权以任何理由拒绝任何可能的匹配，这相当于在交换中少报其潜在的匹配边。

目标是设计一个占优策略激励相容的机制，激励每个节点报告其全部的兼容边集合 E_i，同时输出一个最大基数匹配。

我们面临一个经典难题：在没有金钱的情况下，通常无法同时实现DSIC和盈余最大化。我们希望肾脏交换问题的特殊结构能允许我们同时实现两者。

一个简单的机制及其细化

一个简单的机制是：

根据所有节点的报告 F_i，构建无向图 G，其中边 (i, j) 存在当且仅当 i 和 j 都报告了彼此兼容。
返回图 G 的一个最大基数匹配。

但这里有一个问题：最大基数匹配可能不唯一。不同的最大匹配可能匹配不同的节点集合。我们需要一个确定性的方法来打破平局，并且这种方法需要保持DSIC性质。

一个简单且符合医院现有优先级实践的方法是使用优先级系统：

预先将节点按优先级从1到n排序（1为最高优先级）。
算法维护一个当前允许输出的最大匹配集合 M_i（初始时为所有最大匹配）。
按优先级顺序处理每个节点 i：
- 情况1（快乐情况）：如果当前允许的匹配集合 M_{i-1} 中存在至少一个匹配 i 的匹配，则我们承诺后续只考虑那些匹配 i 的匹配。即，M_i = { matchings in M_{i-1} where i is matched }。
- 情况2（不快乐情况）：如果 M_{i-1} 中没有匹配匹配 i，那么我们跳过 i，M_i = M_{i-1}。
最终，从集合 M_n 中任意输出一个匹配。

这个机制最终输出的匹配所匹配的节点集合是唯一确定的（即所有进入“情况1”的节点）。可以证明（作为练习），这个机制是占优策略激励相容的。

当前的挑战：医院层面的激励 ⚖️

当前肾脏交换研究的一个主要激励问题不在患者层面，而在医院层面。在全国性交换中，通常是医院负责向交换系统报告其不兼容的对。

考虑以下例子：有两家医院H1和H2，每家都有3个不兼容对。如果兼容图是一条包含6个节点的路径（H1有前3个，H2有后3个）。每家医院都可以在内部完成一对交换（如H1的1-2，H2的5-6）。如果它们只将“剩余”的对（3和4）报告给交换系统，则交换系统无法匹配它们。但如果它们报告所有对，交换系统可以利用跨医院的边匹配所有6个对。因此，我们希望激励医院报告所有对，包括那些它们可以在内部匹配的对。

然而，存在医院有动机隐瞒信息的情况。例如，在一个7个节点的路径上，如果医院H1隐瞒其中两个对，可以确保自己所有三个患者都得到匹配（两个内部匹配，一个通过交换匹配），而如果诚实报告，在最大匹配中可能有一个患者无法被匹配。这同样适用于H2。

这实际上证明了一个不可能性结果：你无法同时实现（以最大匹配为形式的）盈余最大化和（医院诚实报告所有信息的）占优策略激励相容。现实世界的研究就是在盈余最大化和医院激励相容性之间寻找最佳平衡点。

稳定匹配 👫

现在，我们转向另一个经典的无金钱分配问题：稳定匹配。这个问题也被称为“婚姻问题”，但实际应用广泛，如医学院毕业生与住院医师项目的匹配、学生入学分配等。

问题设置

有两组数量相同的节点，通常称为男士（U）和女士（V），各有 n 人。

每一方的每个成员都对另一方的所有成员有一个严格的偏好排序列表。

稳定匹配的定义是一个完美匹配（所有人都配对），并且满足以下稳定性条件：
对于任何未被匹配的对 (u, v)，必须满足以下至少一项：

u 更喜欢其当前配偶 v' 胜过 v。
v 更喜欢其当前配偶 u' 胜过 u。

如果一对未匹配的男女都更喜欢对方胜过自己当前的配偶，他们就有私奔的动机，这样的匹配就不稳定。

Gale-Shapley 求婚算法 💍

Gale和Shapley在1962年提出了以下算法（实际上更早就在实践中被使用）：

初始化：所有人设为未订婚。
主循环：当存在未订婚且未向所有女士求过婚的男士时：
a. 任意选择这样一位男士 u。
b. u 向他偏好列表中尚未拒绝过他的最高排位女士 v 求婚。
c. 女士 v 按以下规则回应：
* 如果 v 当前未订婚，她接受求婚，与 u 订婚。
* 如果 v 已与 u' 订婚，她比较 u 和 u' 在她的偏好列表中的位置。如果她更喜欢 u，则与 u' 解除婚约，与 u 订婚；否则拒绝 u。
算法终止时，所有订婚即构成最终匹配。

定理：Gale-Shapley算法：

在至多 n^2 次迭代后终止。
终止时产生一个完美匹配。
该匹配是稳定的。

因此，稳定匹配总是存在。

算法的性质与激励

算法在每一轮中选择哪位未订婚男士求婚是任意的。然而，一个惊人的定理指出：无论如何做出这些选择，Gale-Shapley算法（男士求婚版本）的输出总是同一个稳定匹配。这个匹配对于所有男士来说是最优的（即，每位男士匹配到的女士，是所有稳定匹配中他能匹配到的最好的那位）。相反，对于所有女士来说，这个匹配是最差的（即，每位女士匹配到的男士，是所有稳定匹配中她能匹配到的最差的那位）。

激励相容性：

对于男士（求婚方），在Gale-Shapley算法下如实报告偏好是占优策略。
对于女士（被求婚方），如实报告偏好可能不是占优策略。她们有时可以通过虚报偏好来获得更好的结果。

总结 📝

本节课我们一起学习了无金钱机制设计的两个重要范例。

首先，我们深入研究了肾脏交换的案例。这是一个现实世界中的机制设计问题，目标是在没有货币支付的情况下，通过匹配兼容的患者-捐赠者对来最大化移植数量，拯救生命。我们探讨了如何将顶级交易循环算法和最大基数匹配算法应用于此问题，并设计了考虑优先级的DSIC机制。同时，我们也看到了在医院层面存在的激励挑战，以及同时实现全局最优和完全激励相容的不可能性。

其次，我们介绍了经典的稳定匹配问题及其Gale-Shapley求解算法。该算法总能找到一个稳定匹配，并且具有明确的激励属性：对主动求婚方是策略证明的，但对被动接受方则不是。

这些内容展示了算法博弈论在解决复杂社会资源分配问题上的强大力量，即使在没有传统价格体系的情况下也是如此。

011：自私路由与无政府状态代价

在本节课中，我们将学习如何分析均衡状态下的效率损失，即“无政府状态代价”。我们将从机制设计部分过渡到分析“自然存在”的博弈，理解哪些博弈的均衡结果接近最优，哪些则不然。

课程结构过渡

上一节我们结束了课程的机制设计部分。现在，我们开始课程的第二部分，其核心是理解均衡状态的低效性。

这部分内容源于一个常见场景：我们通常无法从头开始设计博弈规则。之前我们假设你了解环境信息并可以制定规则，使得策略行为的结果符合或接近你的期望。现在，我们将考察那些自然存在的、策略行为已然发生的博弈，并希望了解哪些博弈运行良好，哪些则不然。

有时，这些自然博弈的均衡接近最优；有时则不然。我们的目标是明确区分这两种情况，真正理解哪些是好案例，哪些是坏案例。

让我先评论一下课程这部分与上一部分的几点技术差异：

首先，博弈通常没有占优策略。事实上，占优策略相当罕见。因此，我们将不得不分析非平凡的均衡，从纳什均衡开始，并考察其他均衡概念。
其次，由于无法设计博弈，我们通常无法获得完全最优性。在某些意义上，博弈需要相当特殊的结构才能获得近似最优性。我们的目标是，在一些有趣的应用领域中，存在虽然强但能满足的假设，使得我们可以证明均衡接近最优。
最后，这部分内容将更简单：不会有私人信息。我们将主要处理完全信息博弈。

从历史角度看，这部分课程的一个很酷的地方在于，这些问题本质上在约15年前才被系统性地提出，并源于计算机科学界。

在开始之前，有任何问题吗？

回顾：自然博弈与布雷斯悖论

让我快速回顾一下什么是“自然博弈”。我们将重温第一讲中讨论过的布雷斯悖论。

考虑交通场景。早上8点，通勤者从一个共同的起点S前往一个共同的目的地T。司机们选择他们想要的路线，没有中央权威来规定路线。我们假设司机总是希望最小化他们的旅行时间。

司机之所以关心其他司机的行为，是因为道路的拥堵会增加，从而增加旅行时间。

在基本的布雷斯悖论网络中，有两种道路：

非常简单的道路，其成本函数为 C(x) = 1。这是一条常数成本道路，无论交通量多少，通过都需要1小时。可以将其想象为一条拥有无限多车道的长路。
其他道路的成本函数为 C(x) = x。这些道路会随着使用人数的增加而变得拥堵。当有x比例的交通使用其中一条这样的链路时，假设其成本为x小时。

首先，我们问在这个基本网络中，司机会达到什么样的均衡。由于没有占优策略（如果更多人使用上路径，你会偏好下路径；反之亦然），我们通过对称性论证，预期交通会以50/50的比例分配。平均通勤时间为1.5小时。

之所以称为布雷斯悖论，是因为当你通过一个“传送装置”增强网络后（即从顶部路径中点到底部路径中点增加一条零成本、无拥堵的链路），情况发生了变化。现在，无论其他司机做什么，你总是想使用这个传送装置，这成为了一个占优策略。

问题是，当每个人都急于遵循其占优策略，100%的交通都走这条锯齿形路径时，左上和右下链路的拥堵度上升到1，通勤时间上升到2小时。由于这是所有司机的占优策略，没有其他均衡。实验也证实了这一点。

这个悖论在于：与优化问题不同（增加更多可行解只会让你更好），在这里，增加额外选项会使均衡结果变得更糟。通勤时间从3/2增加到了2。

特别是在这个新网络中，均衡显然不是最优的。实际上，即使有了传送器，最好的做法是忽略它并坚持50/50分配。在新网络中，均衡的通勤时间为2，而最优通勤时间（如果你能独裁控制所有人）是1.5小时。

因此，无政府状态代价 被定义为这两个量之间的比率：策略行为下实现的性能与假设你可以命令所有人行动时可能达到的性能之比。这个比率至少为1。在这个例子中，它是 2 / 1.5 = 4/3。

更正式地，在这类网络中，无政府状态代价定义为：均衡通勤时间 / 最优通勤时间。

实际上，还有一个更简单的所谓“自私路由网络”可以展示无政府状态代价为4/3。让我们回溯到更早的1920年，A.C. 庇古在其著作《福利经济学》中至少定性地讨论了以下例子。

如果有两条平行道路连接起点和终点，为了尽可能鲜明，我们使用完全平坦的成本函数和恒等成本函数。同样假设总交通量为1个单位。

在这个特定网络中，再次出现了占优策略：走顶部道路总是好主意。顶部道路的最坏情况与底部道路的最好情况一样好。

如果我们能像系统独裁者一样移动一些人，能否在平均通勤时间方面做得更好？事实上，任何做法都会比这个均衡好。最优做法是50/50分配。

50/50分配下的平均通勤时间是多少？一半人花费1小时，一半人花费0.5小时，所以平均是0.75小时。因此，无政府状态代价是 1 / 0.75 = 4/3。

我们将在后面讨论这个4/3在多大程度上是或不是一个巧合。

非线性成本函数与无政府状态代价的恶化

坦率地说，即使在简单的路由网络中，无政府状态代价也可能变得大得多。让我们看一个非线性版本的庇古例子。

保持其他条件不变，只是将成本函数 C(x) = x 改为 C(x) = x^d，其中d是一个大数（如10、100、1000）。

这如何影响均衡？没有变化。走顶部边缘仍然是占优策略。当每个人都这样做时，平均（实际上是共同的）通勤时间仍然是1小时。

最优解呢？即使保持50/50分配，随着d增大，最优解也会改善，因为底部的一半人仍有1小时旅行时间，但顶部的一半人其旅行时间是 (1/2)^d，随着d增大趋近于0。这已经给出了因子2的改进，因为最优值会降到0.5。

但事实上，情况更严重：最优流可以做得更好，因为为什么要把多达一半的流量放在成本恒为1的链路上？为什么不牺牲非常少量的“殉道者”到成本为1的链路上？让 1 - ε 比例的交通走底部链路，他们的共同成本将是 (1 - ε)^d。由于 1 - ε < 1，不断乘方后，它将趋近于0。因此，你可以找到一个最优解，其中几乎所有人都能几乎瞬时到达T，只有少数不幸的人花费1小时，但他们对平均值贡献很小。

更正式地说，最优平均通勤时间是 ε * 1 + (1 - ε) * (1 - ε)^d。对于任何给定的d，我可以求解最优的ε。但随着d越来越大，最优ε将越来越小。当d趋于无穷大且ε趋于0时，这个最优成本实际上趋于0。

因此，均衡通勤时间（对每个d都是1）与最优通勤时间（随d趋于0）之间的比率将趋于无穷大。

结论：当d趋于无穷大，ε趋于0时，无政府状态代价趋于无穷大。

核心问题：何时无政府状态代价较小？

我们已经看到，在这些非常简单的交通网络中，有时无政府状态代价接近1（很好），有时则不然。作为分析者，我们能做的最好的事情就是尽可能彻底地理解：这些网络在何时运行良好，何时运行不佳？

这就是我们想在本讲中回答的问题：在什么条件下，自私路由的无政府状态代价较小？“较小”意味着尽可能接近1。

那么，可以期望什么呢？例如，我展示了三个不同的网络：布雷斯悖论（4/3，不错）、庇古例子（4/3，不错），以及非线性变体（趋于无穷大）。如果你感觉非常大胆，可能会看着这些例子说：我能想象到的最酷的事实是什么？显然，阻碍无政府状态代价接近1的因素是高度非线性的成本函数。如果你有像 x^d（d很大）这样的函数，你无法证明任何好的界限，非线性庇古例子表明了这一点。

因此，如果你非常乐观，你可能会推测：这是唯一的障碍。只要没有非常非线性的成本函数，你就会没事。例如，也许只要成本函数是线性的（或仿射的，形式为 ax + b，如布雷斯悖论和庇古例子），无政府状态代价就不会太糟。

根据目前所示，这可能是最强的真实陈述。事实证明，这是真的。我将在本讲中展示证明。

模型形式化

在解释我们将要证明的陈述之前，让我更详细地描述一下模型。

通常，我们有一个有向图，包含一个起点S和一个终点T。同时，给定有多少交通量（流量）需要从S到T。为了简化符号，我假设一个起点和一个终点。本讲中证明的所有关于自私路由网络的内容，即使有多个起点和终点也仍然成立。

模型的另一个组成部分是边成本函数。我用 c_e 表示边e的成本函数。需要强调的是，这是每单位流量的旅行时间。例如，如果是30分钟，该边上的所有流量都需要30分钟。

我们将根据需要添加一些额外的假设来推导好的界限，但基线假设非常少：

成本函数非负（没有时间机器，旅行时间不为负）。
成本函数非递减（交通只会使情况变糟，不能变好）。
成本函数连续。

在你的脑海中，可以将仿射成本函数情况作为一个具体的运行示例。

主要结果（非正式陈述）

现在，让我非正式地解释一下我们将要建立的结果。

主要结果 将表明：在所有网络中，最坏情况的例子极其简单，就像你已经看到的庇古例子那样。这是高层次的信息。

具体来说，在所有网络中（限制是只能用集合C中的成本函数标注边），当你搜寻世界上所有网络以寻找最大的无政府状态代价时，你最终会带回一个极其简单的网络：一个看起来像庇古网络的网络，只有两个节点和两条链路。你不会在更复杂的网络中找到更大的无政府状态代价。

显然，下一步是使这一点更精确：什么是“庇古式”网络？我到底是什么意思？但我想从概念上开始说明这个数学陈述的含义。

让我也说明一下为什么你可能关心这种表述。作为一个特例，这个定理将推出一个推论：在所有具有仿射成本函数的网络中，最坏的情况就是那个单边和x的庇古例子。因此，对于具有仿射成本函数的网络，没有比单边和x更糟的情况了。最坏情况的例子是简单的。

因此，如果你想知道最坏情况的无政府状态代价是多少，这个定理将这个问题简化为一个极其简单的计算。它基本上会交给你一个有两个节点和两条链路的网络，并告诉你无论最坏情况的无政府状态代价是什么，它就是这个网络中的值。现在你只需要在这个网络上做一个简单的计算，就能得到那个神奇的数字。

对于仿射成本函数，它交给你单边和x的例子，我们已经计算过无政府状态代价是4/3。因此，任何具有仿射成本函数的网络，其最坏情况的无政府状态代价是 4/3。

这样表述的好处在于，它不仅关乎仿射成本函数。这是一个通用陈述：无论成本函数集合是什么，神奇的数字会不同，但这种最坏情况例子的特征保持不变。

由于最坏情况例子被保证是简单的，因此对于你可能关心的任何类别的成本函数，计算最坏情况的无政府状态代价是直截了当的。

让我再帮你解释一下。作为这个一般定理的特例：

如果允许的成本函数是仿射成本函数（即具有非负系数的1次多项式），最坏情况的无政府状态代价是 4/3。
例如，如果允许次数上升到2，定理会告诉你最坏情况的例子就是庇古例子，只是将x替换为 x^2。现在你只需计算该网络中的无政府状态代价，定理告诉你这是任何网络中最坏的。结果大约是 1.6。
对于d=3的情况，最坏情况例子是 1 和 x^3，大约是 1.9。
d=4是一个有趣的案例，因为至少在交通领域的某个时期，有些人主张使用四次函数来模拟真实交通的旅行时间。对于四次函数，最坏情况例子当然是 1 和 x^4，结果大约是 2.1。
一般来说，这个值随着次数界限d的增长是次线性的。当然，如果没有次数界限，它会趋于无穷大，我们早就知道这一点。

通过这个结果，我们正在对这个问题给出一个精确的答案：我给了你三个例子，在两种情况下无政府状态代价很小，在一种情况下则不然。我们想理解，何时它小，何时它不小。

高度非线性的成本函数是一个障碍，它们可能导致大的无政府状态代价。而这个定理是一个逆命题：如果你的网络（无论多么复杂）的成本函数可以用低次多项式很好地建模，那么无需其他假设，无政府状态代价就接近1。

因此，无政府状态代价何时较小？答案是：当成本函数不是太非线性时，即使在最坏情况下也较小。

本讲剩余部分的计划

现在，让我告诉你本讲剩余部分的计划。

首先，我想给出“庇古式”网络的形式化定义，告诉你在这个定理陈述中我具体指什么。

第二步，我们将使用这些庇古式网络来定义无政府状态代价的一个下界。这类似于由庇古例子为仿射情况提供的4/3下界。

最后，本讲的第三部分将证明对于任何网络（不仅仅是这些平凡的庇古式网络）的匹配上界。

这就是我们的计划。在开始这三个步骤之前，有任何问题吗？

步骤一：定义庇古式网络

定义：一个庇古式网络只有两个节点，即源点S和汇点T，并且只有两条平行链路。因此，根据定义，每个庇古式网络看起来都像这样。

我将给你两个自由参数：

第一个自由参数是交通量，我称之为交通率 r。你可以选择任何正实数。
第二个自由参数，允许你选择其中一条链路的成本函数。你可以为顶部链路分配任何你想要的成本函数。如果我们背景中有一个允许的成本函数集合（如仿射成本函数），那么这是该集合中的任何函数。

但这是你仅有的两个自由参数。

给定交通率 r 的选择和顶部链路成本函数 c 的选择，我坚持要求另一条链路具有恒定成本。就像在庇古例子中我们有一个常数1。我甚至坚持这个常数就是顶部链路的成本函数 c 在总交通率 r 处的取值。

所以，这是一个像 x 一样依赖于交通量的函数，而这是一个常数，一个数字，比如1。

这就是一个庇古式网络。两个（或三个）参数：交通率 r 和顶部边的成本函数 c（常数由 c(r) 决定）。

步骤一就是正式定义我所说的庇古式网络。有问题吗？

步骤二：利用庇古式网络推导下界

记住，对于给定的成本函数集合（例如仿射成本函数），我们的目标是确定在所有网络中可能看到的最大的无政府状态代价。

为了给这个量（即所有网络中最坏情况的无政府状态代价）设定一个下界，我只需要展示一个例子。就像庇古例子已经给了我们一个4/3的下界。

所以，关于无政府状态代价的下界是容易的：我们只需展示例子。

步骤二就是形式化这一点：我们可以寻找坏例子的一个地方就是这些庇古式网络。当然，我们还可以尝试其他东西。但让我们从简单的开始：仅仅将注意力限制在这些庇古式例子上，我们能得到多大的下界？这就是我们现在要做的，形式化这个想法。

我这样定义庇古式例子的原因是它们真的很容易推理。很容易找出庇古式网络中的均衡流是什么，因此很容易理解无政府状态代价是多少（均衡表现与最优解之比）。

让我们具体分析一下。

定义：对于一个博弈集合（例如所有具有仿射成本函数的网络），其无政府状态代价定义为该集合中任何博弈的最坏（即最大）无政府状态代价。为了给这个量设定下界，我只需要展示一个博弈。

上界才是非平凡的部分。注意，我们正在对无政府状态代价进行最坏情况分析。

我声称庇古式网络很容易推理。那么，庇古式网络的均衡是什么？自私的司机会做什么？他们走顶部路径。基本上，我设置了下部链路的常数，使其足够高，以至于即使顶部链路完全拥堵，也没有人 tempted 去使用它。

如果所有人都在顶部链路上，他们都产生成本 c(r)，而我使底部的成本恰好是 c(r)。因此，走顶部链路再次成为占优策略。所以所有人都在顶部给出了一个均衡。

注意：在庇古式网络中，均衡流将所有流量放在顶部。因此，我们可以直接写出均衡流的成本。

它是每单位流量的旅行时间，即 c(r)（因为顶部链路完全拥堵，所有r个单位都在那里），乘以交通量。所以是 r * c(r)。在庇古例子中，这只是 1 * 1 = 1。

现在，对于最优解，我们不会试图去刻画。最优解只是以某种方式取这r个单位的流量，在顶部链路上放某个量 x（不知道是多少），并必须将剩余流量 r - x 放在底部链路上。它选择最优的 x。

关键在于，在任意庇古式网络中，无政府状态代价只是均衡成本（我们刚说是 r * c(r)）与最优成本之比。

对于一个给定的路由选择 x（在顶部放 x 单位），最优流产生的成本是：顶部链路的每单位成本（当有 x 单位流量时）乘以顶部链路上的流量 x，加上底部链路的成本（记住这个常数总是等于 c(r)）乘以底部链路上的流量 r - x。

对于给定的 x 选择，最优流通过定义选择 x 使分母尽可能小，或等价地使这个比率尽可能大。所以我们对所有合法的 x 选择取上确界。

这个比率正是特定庇古式网络中的无政府状态代价。

这里有一个快速的技术点：实际上，如果我擦除对 x 选择的上界（x ≤ r），这个数字不会改变。这只是为了方便以后使用。为什么这是真的？考虑当 x = r 时。如果我设 x = r 然后让它变得更大，分母变得更大，所以这个比率只会更差。因此，如果我想取这个上确界，使用大于 r 的值是没有意义的。所以我可以无损失地去掉“至多r”的限制。

注意：再次利用 c 是非递减的，我可以无损失地去掉“at most r”。

很好，现在我们已经准备好正式说明，由庇古式例子提供的最强下界是什么意思。

到目前为止我们所说的：对于给定的 r 选择和给定的成本函数 c 选择（即两个自由参数的实例化），这个表达式正是相应庇古式网络的无政府状态代价。

因此，如果我们想得到最大、最强的下界，我们只需对两个自由参数进行优化：我们想要最坏情况的交通率 r 选择和最坏情况的成本函数 c 选择（“最坏情况”指使这个量尽可能大）。

定义：设 C 为一组成本函数。庇古界，记作 α(C)，定义为在具有 C 中成本函数的庇古式网络中的最坏无政府状态代价。

我们刚刚论证过，这等于：对 C 中成本函数 c 取上确界，对交通率 r > 0 取上确界，以及对 x ≥ 0 取上确界（或最大值）的表达式：[ r * c(r) ] / [ x * c(x) + (r - x) * c(r) ]。

我知道符号很多。但请记住，我们得出这些符号只是作为一个概念上直截了当的事物的自然产物。我们有一组我们理解的例子（庇古式网络）。任何给定的庇古式网络都给我们一个下界。我们只是说：仅使用这些例子，我们能得到什么样的下界？这只是那个想法的符号表示。有三个上确界：其中两个是因为庇古式网络中有两个自由参数（成本函数和交通率）；第三个上确界只是因为我懒得去计算最优解是什么，它只是 x 的最佳选择。

它允许你更好地理解这个量（庇古界）。例如，如果 C 是仿射函数（ax + b，a, b ≥ 0，或者实际上所有非负的凹函数），那么庇古界正好是 4/3。我已经告诉过你，它至少是4/3，因为我展示了一个具有仿射成本函数的庇古式网络得到了4/3。这里所说的只是，如果你尝试用其他常数或其他仿射成本函数替换1和x，你无法通过调整庇古例子中的系数来击败4/3。

事实上，在问题集中，我们会要求你计算其他情况，比如有界次数的多项式。对于低次多项式，α(C) 合理地接近1。

这个计算告诉我们的是：如果我们非常 modest 的雄心仅仅是理解庇古式例子能有多糟，那么庇古式例子并不那么糟。在具有两个节点、两条链路和一个常数成本函数的例子中，无政府状态代价相当接近1（对于低次多项式）。

有趣的问题是：那么，在这些平凡的庇古式例子之外，还有整个世界。我们怎么知道无政府状态代价不会随着网络规模增长？我还没有向你展示过节点数超过四个的网络。因此，你没有理由相信当我把这些网络扩展到任意大小时，无政府状态代价会保持不变。

而这正是定理的主要部分，也是本讲的主要部分：给我任何具有这些成本函数的网络，无政府状态代价不会上升。这无关紧要。

主要定理的形式化陈述

根据庇古界的定义，对于一组成本函数 C，α(C) 是无政府状态代价的一个下界（每个庇古式网络都是一个合法的网络，我们取这些下界中最坏的一个，它仍然是一个合法的下界）。

现在，主要结果的形式化版本如下：
对于任何成本函数集合（一如既往，成本函数是非负、非递减和连续的），C 可以是任何你想要的函数集合。现在，主要点是：对于所有网络，无论多大，只要其成本函数在 C 中，则该网络中的无政府状态代价上界由庇古界 α(C) 限定。

我们已知 α(C) 是一个下界，并且这个下界已经在平凡网络中实现。而这是一个适用于任何网络的上界。因此，我们得出结论：无论成本函数是什么，最坏情况的网络总是简单的。

再次强调，计算 α(C) 并不是什么大问题。因此，知道 α(C) 达到了最坏情况的无政府状态代价，就将计算最坏情况的问题简化为仅仅在这些简单网络上进行，而这正是我在作业中要求你们做的。

这个定理的原始表述和证明是我的一个旧结果。我今天要展示的证明得益于几个人的简化。

在开始讨论这个定理的证明之前，有任何问题吗？

证明前的准备工作

在证明这个定理之前，我需要做一些准备工作。这些准备对于任何上过CS 261或处理过流问题的人来说都会非常熟悉。

我之所以必须做这些，是因为到目前为止，我们只在非常简单的网络中讨论过均衡，而在那些网络中均衡是什么是显而易见的。为了严谨，我们应该确定在一般网络中，什么是流，什么是均衡，以及流的成本是什么。

让我们快速完成这些。

考虑一个具有源点和汇点的图，以及 r 个单位的流量。接下来几分钟我要阐述的所有要点，都已经在包含传送器的布雷斯悖论图中得到了说明。

流：流只是解释了 r 个单位的流量如何在图的路径上分配。形式上，它是定义在 S-T 路径集合 P(G) 上的一个非负向量。当然，流量的总和应等于总交通量：所有路径上的流量之和等于 r。

例如，在布雷斯悖论网络中，如果说是1单位流量，一个合法的流可以是：50%走锯齿形路径，25%走两条两跳路径。这个图中有三条 S-T 路径，我展示了一种将1单位流量分配到这三条路径上的方式。

有时（事实上经常）我们想要放大并理解网络中单条边上发生的情况。庇古式网络如此简单的原因在于边和路径是同一回事。但在像布雷斯悖论这样的网络中则不然，一条特定的边可能参与多条路径。

对于给定的边，我们放大观察。f_e 表示在其路径中某个时刻穿过该边的总流量。我只需对包含该边的路径求和，并查看该路径在该边上放置了多少流量。

例如，考虑左上方的边。对于这个流（25%, 25%, 50%），左上边的 f_e 是多少？0.75。来自锯齿形路径的0.5贡献和来自上方两跳路径的0.25贡献。所以那条边上是0.75。对称地，另一条长边上也是0.75。短边呢？0.25。传送边呢？0.5，只有锯齿形路径使用它。

因此，给定路径上的流，我们可以放大一条边并询问有多少总流量穿过这条边。

均衡流：一个流何时处于均衡？直觉上，如果查看任何实际有流量使用的路径，它最好能尽可能快地到达目的地，即它应该是最短路径。所有流量都应该在最短路径上。

但这比那更微妙一些，因为哪些路径是最短的也取决于人们在做什么。例如，在布雷斯悖论网络中，在添加传送器之前，如果所有人都在上路径，那么下路径更短；如果所有人都在下路径，那么上路径更短。因此，当我们说每个人都在使用最短路径时，它必须是相对于当前交通模式、相对于所有边上的拥堵情况而言的。

以下是均衡流的一般定义：一个流 f 处于均衡当且仅当满足以下条件：每当一条从 S 到 T 的路径实际被使用时，该路径必须是最短路径。

“最短路径”是什么意思？我们查看该路径中每条边在当前交通模式 f 下的流量 f_e，路径的旅行时间就是路径中各边成本之和。作为简写，我将这个符号缩写为路径 P 相对于交通模式 f 的成本 C_P(f)。

例如，假设我现在给这个网络添加规范的成本函数。这个流在这个网络中处于均衡吗？为什么不？违反了什么条件？这个图中有三条路径。给定这个流，我们问这三条路径有多短？对于顶部路径，旅行时间是1.75（0.75 + 1）。对称地，底部也是1.75。这些都是被使用的路径。但 zigzag 路径是 0.75 + 0.75 = 1.5，更短。因此，这个流违反均衡条件的地方在于，一些被使用的路径（实际上是两条）不是最小化路径或最短路径。

我希望直觉上清楚，任何这样的违反，我们都不应称之为均衡。如果某条路径被使用且比所有其他路径都长，那么在该路径上的人就有动机切换到负载更平衡的、更短的路径。这就是均衡的定义。

关于均衡流，有两个事实，今天我希望你们暂且接受。我们将在下周理解它们为什么成立。

第一个事实：均衡流存在。因此，当我们证明关于均衡流的定理时，它们不是空洞的。我们实际上在谈论某个东西。

第二个事实：均衡流本质上是唯一的。“本质唯一”意味着，虽然可能存在多个均衡，但它们都具有完全相同的成本。因此，没有理由关心我们处于哪个均衡，它们基本上都是一样的。

我提到这一点是因为我在陈述所有关于无政府状态代价的定理。它到底是什么？根据定义，无政府状态代价是均衡流的成本除以最优流的成本。根据我告诉你的两个事实，这是良定义的。分子谈论的是一个非空集合，存在一个均衡流，并且所有均衡流都计算出完全相同的成本，因此我不必担心把哪个放在分子上。

目标函数：最后，准备工作中的最后一个要素是目标函数。无政府状态代价是这些旅行时间的比率。那么，如何表达一般网络中流的旅行时间？实际上有两种方法，熟悉这两种方法很重要。

你可以按路径累加旅行时间，或者完全等价地，按边累加。

按路径：我们只想累积任何人经历的所有旅行时间。对于给定的路径 P，我们说每单位旅行时间是多少？在路径上，记住 C_P(f) 只是组成边的旅行时间之和，因为这就是你从 S 到 T 总共花费的时间。那是旅行时间（比如从 S 到 T 的1.75）。f_P 是有多少流量招致那个旅行时间。我们确保通过对所有网络中的路径求和来计入每个人。

另一种方式，你可以按边来做：放大一条边，人们在这条路上经历了多少旅行时间？查看有多少流量在某个时刻经历了那个旅行时间。再次，通过对所有边求和来确保我们计入了一切。

这两种方式的等价性实际上只是求和顺序的调换。如果你不确定，可以自行验证。

在定理证明的两个部分中，第一部分考虑路径将是有用的，第二部分考虑边将是有用的。所以我确实两者都需要。

好了，然后是我希望你们暂且接受的另一个事实：均衡流存在。另一个事实是它们本质上是唯一的。

至此，我们完成了准备工作。你现在应该感到舒适，可以谈论一般网络中的流，它们何时处于均衡，何时不处于均衡，以及我们如何使用总旅行时间来衡量它们的好坏。

给定所有这些，我们现在可以进入有趣的部分并证明这个定理。有任何问题吗？

定理证明

证明：现在我们必须考虑任何网络。对于本讲，我假设有一个单一的源点和单一的汇点。实际上，该定理甚至可以扩展到多个源点和多个汇点。我们有一个固定的图 G。唯一的假设是成本函数位于某个集合 C 中。如果你愿意，可以认为 C 是仿射函数。

从根本上说，我需要比较这两个数字：均衡流的表现如何，以及最优流的表现如何。

设 f 为一个均衡流。设 f* 为一个最优流。因此，带星号的总是表示最优，不带星号的总是表示均衡。

证明分为两部分，都不算长。

第一部分

概念上，第一部分非常直接。第一部分的最终结果将精确地阐明以下陈述：

如果你有一个均衡流，然后我将每条边的成本冻结在该均衡流量下的水平。这是一个思想实验。那么，声称：如果我这样做，在这些冻结的成本下，没有什么比均衡流更好。

原因很简单，根据定义，均衡将流量路由在最短路径上。你还能做什么更好的呢？

这就是第一部分，只是使其精确化。

由于 f 是一个均衡流，每当一条路径上有正流量时，我们知道该路径相对于交通模式 f（即相对于均衡交通模式）的成本，不劣于任何其他路径的成本。

特别地，假设我查看两条不同的路径，它们都被均衡流使用。关于这两条路径的旅行时间，你能说什么？它们相同。所以我只需用每条路径实例化这个条件。

因此，在均衡状态下，所有被使用的路径具有共同的旅行时间，并且该旅行时间不大于沿任何其他路径的旅行时间。

我将使用符号 L 表示均衡流使用的所有路径的共同长度。

设 L 为所有均衡流路径的共同长度。我们追求的目标是：如果我们在这个状态下冻结成本，那么这个均衡和任何其他东西一样好。没有什么更好。

形式上，让我们看看均衡的成本。记住，对于第一部分，我将使用基于路径的方法来计算成本、累加旅行时间。

我们对路径求和，查看路径上有多少人，以及该路径的成本。对于均衡流，每个项有两种情况之一：要么 f_P = 0（该路径未被使用，我们不关心），要么如果它被使用，我们知道该路径的长度正好是 L。

因此，这个和对于均衡流来说变得非常简单。只要系数为正，它就等于 L，而这些东西的总和就是 r（因为流量总和为 r）。实际上很容易理解均衡流中的总旅行时间：它只是每个人都招致的每单位成本乘以招致该成本的流量量。

现在，让我们保持这些成本冻结，并观察 f*。记住，f* 是最优流，它击败了均衡流，比它更好。但请记住，它比均衡流更好的原因之一是因为它将有不同的成本。它可能在某些边上有更少的拥堵。想想庇古例子：均衡在 x 上放置了完整的1单位流量，使其成本为1；最优则适度使用它，只放一半，成本只有一半。所以它们有不同的成本函数。我们正在进行这个奇怪的思想实验，通过将成本冻结在均衡水平来惩罚最优流。

因此，你要写下一个没有太大意义但对证明有用的量：我查看最优流 f* 如何分布其流量，但出于某种原因，我评估路径长度时，仿佛均衡流在网络中。这就是我正在做的。

直觉上，均衡在最短路径上。你怎么可能做得比那更好？精确地说，这个量至少是 L。因为对于最优流使用的每条路径，其长度（根据冻结的均衡成本评估）至少是 L（因为 L 是所有路径的最小可能长度）。而最优流的总流量是 r。

让我重写这个，以便更好地过渡到第二部分。这是最容易通过基于路径的旅行时间计算来看出的。但我希望它以边的形式出现。所以，这个不等式等价于：如果我按边求和而不是按路径求和，同样的陈述成立。

我将以在第二部分中使用的形式来陈述它：让我从那边减去这个。所以，∑_e f*_e * c_e(f_e) ≥ ∑_e f_e * c_e(f_e)。

这就是我需要从第一部分带入第二部分的内容。直觉保持不变：如果你将成本冻结在均衡水平，你无法比完全在最短路径上路由做得更好。

第二部分

粗略地说（这有点不准确），我们在第二部分要做的是：注意我们还没有使用任何关于成本函数的信息，也没有引用庇古界。第一部分实际上只是关于均衡流。

从道德上讲，我们在第二部分要做的是：我们将放大一条给定的边，并论证在每条边上，单独来看，它看起来足够像一个庇古式网络，以至于当我们比较均衡和最优在给定边 e 上的表现时，我们不会比庇古界 α(C) 做得更差。

梦想是，我们放大一条边，然后说均衡成本不超过 α 乘以最优成本。然后我们对所有边求和这个不等式，我们就完成了。这就是梦想：逐边论证。

但这并不完全可行。有些边有更多均衡流量，有些边有更多最优流量。很难说它真的像一个庇古式网络。但我们会说，在每条边上，它都像一个庇古式网络，直到某个误差项。事实证明，误差项的集合将能够利用第一部分的结论来控制。

好的，那么。这就是我们使用庇古界定义的地方。让我提醒你它是什么。

我们正在处理一组成本函数 C。庇古界只是说，它是你在庇古式网络中 ever 看到的最大的无政府状态代价。所以你取顶部链路成本函数的最坏情况选择，你取交通率的最坏情况选择，这是庇古式网络中的均衡成本，这是最优成本（对于 x 的最佳情况选择），比率就是无政府状态代价。

我们知道它是什么。因为这是最坏情况的选择，如果我们实例化 c、r 和 x，取这三个参数的具体值，那么右边只会更小，只会以 α(C) 为上界，因为 α 是最坏情况、最大的选择。

那么，我们如何实例化？我们为网络的每条边单独进行。再次，我们放大一条边 e。

只有，你知道，边上有一个成本函数。在这个表达式中有一个成本函数。所以，当然，我们将外部上确界实例化为这个成本函数。

我们考虑均衡流。再次记住，我们被给定这个图 G。存在某个均衡流，存在某个最优流。我们所做的是在任意边 e 上放大。它有一个成本函数。这里有一定量的均衡流量。我们将其解释为庇古界中的交通率。这条边上有一定量的最优流量。我们将其解释为分割 x 的选择。

这是实例化这三样东西的一种特定方式。因此，具有这些实例化的这个量至多是 α(C)。我只是将这三样东西代入那个公式。

信不信由你，我们快完成了。我们所要做的就是重新排列、求和，然后解释，我们就完成了。

让我们交换分母。记住，我想要做的是说明均衡接近最优。它不比最优流 f* 大多少，或者等价地，我试图下界 f*，说它至少是均衡成本的一个大的比例（小于1，但很大）。

让我们重新排列这个，以分离最优流 f* 在我们放大的这条边 e 上产生的成本。我们得到一些实际上很有启发性的东西。

再次，一旦我们除以某个东西，我们得到均衡成本在这个边上的 1/α 倍。

这里的这个不等式就是我所说的梦想：你放大一条边，然后说均衡在这条边上不比最优差太多，然后你对边求和。如果这是真的，那就是这样。

再次，α 是像4/3这样的东西。所以这会说，在这条边上，f* 产生的成本至少是均衡的3/4。但梦想并未完全实现。我们有一个误差项：加上 (f*_e - f_e) * c_e(f_e)。

这是重新排列后的残差。但是，对所有边求和。

如果我们对所有边求和这个，我们得到什么？左边求和，我们正好得到我们想要下界的东西：最优流 f* 的成本。记住，计算流成本的一种方法是逐边进行：

012：网络过度配置与原子自私路由

在本节课中，我们将继续探讨路由博弈，分析其均衡状态，并研究它们在何种意义下接近最优解。我们将首先通过一个案例研究——网络过度配置策略——来解读前两个结果。随后，我们将放松“参与者规模可忽略”的假设，引入原子自私路由模型，并探讨其均衡的多重性以及价格的无政府状态界限。

🧠 网络过度配置：案例研究

我们之前讨论的路由模型具有足够的通用性，可以跨越多个领域。在通信网络中，一个显著的优势是增加容量相对容易且成本较低，这与交通网络不同。因此，网络管理者常用的一种策略是安装超出当前需求的额外容量，即“过度配置”。这意味着网络在典型时刻并未被完全利用，许多容量处于闲置状态。

以下是实践中观察到的两个现象：

网络容量越大，其性能（如丢包率、延迟等）通常越好。
许多人认为，相比于实施复杂的智能流量控制（如服务质量保障），直接增加容量以提升网络性能是一种更经济的方法。

接下来，我们将用两个数学定理来佐证这些实践经验。

📈 定理一：过度配置改善性能

上一讲我们证明了一个关于价格的无政府状态的通用定理。现在，我们将其应用于一种特定的成本函数，以形式化“过度配置改善性能”的观点。

我们考虑自私路由网络，其中每条边 e 的成本（延迟）函数形式如下：

c_e(x) = 1 / (u_e - x)   if x < u_e
       = ∞                if x ≥ u_e

这里，u_e 是边 e 的容量。这种形式是网络教科书中标准的 M/M/1 队列延迟函数。

定义（α-过度配置）：如果一个网络在均衡状态下，所有边的利用率（流量/容量）最高不超过 1 - α，则称该网络是 α-过度配置的。α 越大，表示过度配置程度越高，利用率越低。

根据上一讲的通用定理，我们可以推导出以下精确（且紧）的界限：

在任何 α-过度配置的网络中，价格的无政府状态上界为 (1 + sqrt(1/α)) / 2。

直观理解：

当 α 接近 1（利用率接近 0%）时，成本函数几乎恒定，均衡流量将集中在最短路径上，接近最优，价格的无政府状态接近 1。
当 α 接近 0（利用率接近 100%）时，成本函数在容量处趋于无穷，价格的无政府状态可能趋于无穷大。
例如，若 α = 0.1（最大利用率 90%），则价格的无政府状态上界略高于 2。

这个定理从数学上证实了第一个观察：网络过度配置程度越高，其自私路由均衡的性能就越好。

⚖️ 定理二：扩容 vs. 智能路由

上一讲我们了解到，对于任意成本函数，价格的无政府状态可能无界（如非线性 Pigou 例子所示）。现在，我们想比较“增加容量”与“在现有容量下进行智能流量管理”的优劣。

我们将采取一种不同的比较方式：不再将均衡流量与路由相同流量 R 的最优解比较，而是与一个“更弱”的基准——必须路由两倍流量 2R 的最优解——进行比较。

定理（Roughgarden & Tardos）：对于任意网络和任意非负、非递减、连续的成本函数，均衡流量 f（路由 R 单位流量）的总成本，至多是某个最优流量 f*（路由 2R 单位流量）总成本的一半。即：

Cost(f) ≤ Cost(f*) / 2

证明思路：

利用均衡条件：对于均衡流量 f 中的每个参与者，其当前路径成本为 L。若其偏离到最优流量 f* 中为其指定的路径，成本不会降低。
构造下界：我们将成本“冻结”在均衡值，来估算最优流量 f* 的成本。由于 f* 路由了 2R 的流量，且所有被使用的路径在冻结成本下至少为 L，因此 Cost_frozen(f*) ≥ 2R * L。而 Cost(f) = R * L。
估算误差：我们需要证明，使用“冻结”成本而非真实成本所产生的误差，至多为 R * L。这可以通过逐边分析不等式 [c_e(f_e) - c_e(f*_e)] * f*_e ≤ c_e(f_e) * f_e 来完成，该不等式由成本函数的非递减性保证。
完成证明：结合步骤 2 和 3，得到 Cost(f*) ≥ 2R*L - R*L = R*L = Cost(f)。

定理的另一种诠释：通过变量替换，该定理等价于说：在一个“更快”的网络（例如，所有边容量翻倍）中进行均衡路由，其性能至少不差于在原网络中实施最优路由。这为“扩容可能比智能控制更划算”的观点提供了形式化的理论支持。

👥 原子自私路由模型

现在，我们放松“参与者规模可忽略”的假设，考虑有限数量 K 的参与者，每个参与者需要路由 一个单位 的流量。每个参与者从其源点 s_i 到汇点 t_i 选择一条完整的路径。目标仍然是最小化其路径的当前成本。

🔀 均衡的多重性与价格的无政府状态重定义

在原子模型中，可能出现多个具有不同总成本的均衡。

示例：考虑一个两参与者、两条边的网络。边1成本为 c(x)=x，边2成本恒为 2。

均衡 A：两参与者各选一边。总成本 = 1 + 2 = 3。
均衡 B：两参与者都选边1。总成本 = 2 + 2 = 4。
两者都是均衡，因为任何单方面改变路径都不会降低自身成本（例如，均衡B中，若一人切换到边2，其成本仍为2）。

由于均衡成本可能不同，我们需要重新定义价格的无政府状态。一个稳健的定义是考虑最坏情况均衡的成本与最优成本的比值：

Price of Anarchy = (Cost of Worst Equilibrium) / (Cost of Optimal Flow)

📊 原子自私路由的性能界限

在非原子模型中，对于仿射成本函数，价格的无政府状态上界是 4/3。在原子模型中，情况会变差。

下界示例：存在一个具有仿射成本函数的原子自私路由实例，其价格的无政府状态可以达到 2.5。

上界定理（Awerbuch, Azar, Epstein / Christodoulou, Koutsoupias）：对于任意原子自私路由网络，任意数量的参与者，以及仿射成本函数 c_e(x)=a_e x + b_e，任何均衡流的价格的无政府状态上界也是 2.5。这是一个紧的界限。

证明概要（上界定理）：

利用均衡条件：对每个参与者 i，设其在均衡流 f 中的路径为 P_i，在最优流 f* 中的路径为 P*_i。由于是均衡，参与者 i 从 P_i 切换到 P*_i 不会改善其成本：
```
Cost_i(f) ≤ Σ_{e in P*_i} c_e(f_e + 1)
```
注意 f_e + 1 是因为 i 的加入可能增加边 e 的负载。
求和与展开：对所有参与者 i 的上述不等式求和。左边总和即为均衡总成本 Cost(f)。右边总和经过整理和代入仿射成本函数后，会得到包含 Σ_e a_e * f_e * f*_e 的项。
关键不等式：为了处理交叉项 f_e * f*_e，我们使用一个代数不等式：对于任意非负整数 y, z，有 y(z+1) ≤ (5/3)y^2 + (1/3)z^2。
关联目标量：将步骤3的不等式应用于求和后的表达式，可以将交叉项转化为只包含 (f_e)^2 和 (f*_e)^2 的项，进而分别与 Cost(f) 和 Cost(f*) 联系起来。
整理得结果：经过代数整理，最终得到 Cost(f) ≤ 2.5 * Cost(f*)。

紧性示例：一个由4个参与者和一个双向三角形网络构成的例子，可以达到 2.5 的价格的无政府状态，证明该上界是紧的。

🎯 总结

本节课我们一起学习了：

网络过度配置：通过两个定理，我们看到了自私路由理论如何为“增加网络容量可以显著改善性能，有时甚至优于复杂的流量控制”这一实践经验提供数学支持。
原子自私路由：当参与者具有不可忽略的规模时，均衡不再唯一，且最坏均衡的性能可能比非原子模型更差。然而，对于仿射成本函数，我们证明了价格的无政府状态存在一个普适的紧上界 2.5，这表明性能恶化程度是可控的，且不随网络或参与者规模增长。

下一讲，我们将探讨具有正外部性的路由博弈变体，并面对多重均衡时，研究价格的无政府状态之外的其他分析概念。

013：势能博弈与均衡层次结构

在本节课中，我们将深入探讨博弈中的均衡概念。我们将从回顾上周的路由博弈开始，引出纯策略纳什均衡的存在性问题，并介绍一种重要的博弈类型——势能博弈。随后，我们将系统地介绍四种均衡概念：纯策略纳什均衡、混合策略纳什均衡、相关均衡和粗相关均衡，分析它们之间的包含关系、存在性以及计算复杂性。

势能博弈与罗森塔尔定理

上一节我们讨论了原子自私路由博弈中的无政府价格。本节中，我们来看看一个关键问题：如何确保均衡的存在性？我们已知在某些博弈（如“石头剪刀布”）中，纯策略纳什均衡可能不存在。然而，在原子自私路由博弈中，纯策略纳什均衡总是存在的。这由罗森塔尔定理保证。

罗森塔尔定理：在任意原子自私路由网络（即使成本函数不是线性的）中，至少存在一个纯策略纳什均衡。

该定理的证明依赖于一个核心概念：势能函数。势能函数为博弈的每一个可能结果（即每个玩家选择的路径组合）分配一个实数值。其定义如下：

对于给定的流 F（即每个玩家的路径选择），势能函数 Φ(F) 定义为：

Φ(F) = Σ_e Σ_{i=1}^{f_e} c_e(i)

其中，f_e 是使用边 e 的玩家数量，c_e(i) 是边 e 的成本函数在流量为 i 时的值。直观上，这是所有边上成本函数值从1到 f_e 的累加和，类似于一个阶梯状的面积。

这个势能函数有一个关键性质：单个玩家的单边偏离行为所引起的势能函数变化，恰好等于该玩家自身成本的变化。

具体来说，假设玩家 i 从路径 P_i 偏离到新路径 P'_i，导致新流 F'。那么有：

Φ(F') - Φ(F) = C_i(F') - C_i(F)

其中 C_i 是玩家 i 的成本。这个性质对任何起始流 F、任何玩家 i 和任何偏离路径 P'_i 都成立。

基于这个性质，我们可以证明罗森塔尔定理。由于玩家数量有限，策略组合也是有限的，因此势能函数 Φ 必然存在一个全局最小值点 F*。在这个最小化势能的结果 F* 中，任何玩家的单边偏离都只会使势能函数值增加（因为没有比 F* 更小的势能值了）。根据上述关键性质，这意味着任何偏离也只会增加该玩家自身的成本。而这正是纯策略纳什均衡的定义。因此，F* 是一个纯策略纳什均衡，证明了其存在性。

势能博弈的论证非常灵活，可以扩展到非原子自私路由模型（通过将求和替换为积分），并保证均衡的存在性和唯一性（当成本函数非递减时，势能函数是凸的，全局最小点唯一）。然而，并非所有博弈都如此“友好”。例如，如果允许原子路由博弈中的玩家拥有不同的流量权重（如一个玩家控制1单位流量，另一个控制2单位），纯策略纳什均衡就可能不存在。这就引出了我们需要更一般的均衡概念。

均衡概念的层次结构

当纯策略均衡不存在时，为了进行有意义的无政府价格分析，我们需要扩展均衡的集合，以恢复其存在性。下面我们将介绍四种均衡概念，它们依次更加宽松和包容。

1. 纯策略纳什均衡

这是我们最熟悉的概念。在一个成本最小化博弈中，有 K 个玩家，每个玩家 i 有一个策略集 A_i 和一个成本函数 C_i(s)，其中 s = (s_1, ..., s_K) 是一个策略组合（或称结果）。

一个策略组合 s 是一个纯策略纳什均衡，当且仅当对于每一个玩家 i 和每一个可能的偏离策略 s'_i ∈ A_i，都有：

C_i(s_i, s_{-i}) ≤ C_i(s'_i, s_{-i})

这里 s_{-i} 表示除 i 外其他玩家的策略。这意味着没有玩家可以通过单方面改变自己的策略来降低自身成本。

主要问题：纯策略纳什均衡不一定存在（例如“石头剪刀布”）。

2. 混合策略纳什均衡

当纯策略均衡不存在时，我们可以允许玩家随机化其策略。每个玩家 i 选择一个策略集 A_i 上的概率分布 σ_i。所有玩家独立地根据各自的分布随机选择策略，由此产生一个结果上的乘积分布 σ = σ_1 × ... × σ_K。

一个混合策略组合 σ 是一个混合策略纳什均衡，当且仅当对于每一个玩家 i 和每一个纯策略偏离 s'_i ∈ A_i（检查纯策略偏离即可），都有：

E_{s∼σ}[C_i(s)] ≤ E_{s_{-i}∼σ_{-i}}[C_i(s'_i, s_{-i})]

等式左边是玩家 i 在混合策略下的期望成本，右边是当其他玩家遵循混合策略而玩家 i 固定采用纯策略 s'_i 时的期望成本。

包含关系：纯策略纳什均衡是混合策略纳什均衡的特例（当每个 σ_i 是退化分布时）。
存在性：纳什定理（1950） 保证，在任何有限博弈中，至少存在一个混合策略纳什均衡。
计算复杂性：尽管普遍存在，但计算一个混合策略纳什均衡在计算上通常是难以处理的（类似于NP难问题，但实际情况更复杂）。这意味着即使我们知道均衡存在，也可能很难找到它，从而使得基于混合均衡的无政府价格界限在实际中缺乏指导意义。

3. 相关均衡

为了在保持存在性的同时改善计算可行性，我们引入相关均衡。相关均衡直接定义在博弈结果的联合分布 σ 上，该分布不要求是各玩家策略分布的乘积。

一个联合分布 σ 是一个相关均衡，当且仅当对于每一个玩家 i，以及每一对策略 s_i, s'_i ∈ A_i，都有：

E_{s∼σ}[C_i(s) | s_i] ≤ E_{s∼σ}[C_i(s'_i, s_{-i}) | s_i]

这个条件的直观解释是：假设存在一个所有玩家都信任的第三方。第三方私下根据分布 σ 抽取一个结果样本 s，然后私下告诉每个玩家 i 他“应该”采取的策略 s_i（即推荐）。玩家 i 在得知推荐 s_i 后，会根据这个信息更新他对于其他玩家行动 s_{-i} 的信念（即 σ 在给定 s_i 下的条件分布）。上述不等式意味着，给定所知信息（分布 σ 和推荐 s_i），并且假设其他玩家会遵循他们的推荐，那么玩家 i 遵循推荐 s_i 的期望成本，不高于他单方面偏离到任何其他固定策略 s'_i 的期望成本。因此，听从推荐是理性的选择。

包含关系：混合策略纳什均衡是一种特殊的相关均衡，其中联合分布 σ 是各玩家独立策略分布的乘积。
示例：交通信号灯可以看作一个相关均衡协调装置。考虑一个两玩家“通行-停止”博弈，有两个纯策略均衡：（行通行，列停止）和（行停止，列通行）。分布 σ 以各50%的概率随机选择这两个均衡之一。当玩家看到红灯（被推荐“停止”）时，他知道对方必然被推荐“通行”，因此服从推荐是最优的。反之，看到绿灯时亦然。这个 σ 不是乘积分布，因此不是混合纳什均衡，但它是一个相关均衡。
计算复杂性：相关均衡是可高效计算的（例如，可以通过求解一个线性规划来找到）。更重要的是，简单的学习算法可以引导玩家在重复博弈中收敛到相关均衡集合，这使其在行为上更加合理。

4. 粗相关均衡

这是最宽松的均衡概念。同样，它定义在结果的联合分布 σ 上。

一个联合分布 σ 是一个粗相关均衡，当且仅当对于每一个玩家 i 和每一个纯策略偏离 s'_i ∈ A_i，都有：

E_{s∼σ}[C_i(s)] ≤ E_{s∼σ}[C_i(s'_i, s_{-i})]

注意，这个条件与混合策略纳什均衡的条件形式完全相同，唯一的区别在于这里的分布 σ 不必是乘积分布。与相关均衡相比，粗相关均衡的条件中没有关于策略 s_i 的条件期望。这意味着玩家在决定是否偏离时，所依据的信息更少：他只知道联合分布 σ，但不知道第三方会给他什么具体推荐。他必须在得知推荐之前，就承诺是“无条件服从任何未来的推荐”，还是“无论如何都坚持采用某个固定策略 s'_i”。粗相关均衡只要求无条件服从推荐不比无条件坚持任何固定策略更差。

包含关系：相关均衡必然是粗相关均衡（因为条件期望下的最优性意味着无条件期望下的最优性）。反之则不成立，因此粗相关均衡集合更大。
行为合理性：引导玩家行为收敛到粗相关均衡集合所需的学习算法通常比收敛到相关均衡的算法更简单、更轻量。因此，在实际博弈中，行为落入这个更大集合的可能性也更高。

均衡层次与无政府价格

让我们总结这四种均衡概念的关系：

纯策略纳什均衡 ⊆ 混合策略纳什均衡 ⊆ 相关均衡 ⊆ 粗相关均衡

从左到右，均衡集合越来越大，意味着：

存在性：从可能不存在，到保证存在。
计算可行性：从难以计算，到易于计算。
行为合理性：从需要强协调或复杂计算，到可以通过简单学习过程达成。

然而，当我们对更大的均衡集合取最坏情况下的成本与最优成本之比（即无政府价格）时，这个比值只会增大或保持不变。因为我们在更庞大的集合中取最大值。

因此，研究更一般均衡（如粗相关均衡）的无政府价格上限具有双重意义：

更强的鲁棒性：该上限适用于所有更特殊的均衡，从而适用于更广泛的行为假设。
更现实的预测：由于这些均衡更容易通过去中心化的学习过程实现，基于它们的界限更具现实相关性。

好消息是，对于许多我们关心的模型（如自私路由），这个均衡层次结构会出现“坍缩”：即使对于最宽松的粗相关均衡，无政府价格的上界也与最严格的纯策略均衡的上界相同。例如，在原子自私路由博弈中，我们已知纯策略均衡的无政府价格上界是2.5。我们将在后续课程中证明，对于任意成本函数下的任意粗相关均衡，无政府价格的上界也是2.5。这意味着，在这些模型中，放宽均衡概念并不会导致性能保证的恶化。

总结

本节课中我们一起学习了：

势能博弈与罗森塔尔定理：通过构造一个势能函数，证明了原子自私路由博弈中纯策略纳什均衡必然存在。势能函数的关键性质是它能同步反映每个玩家的成本变化。
均衡概念的层次结构：我们系统介绍了四种均衡概念：
- 纯策略纳什均衡：可能存在，可能不存在。
- 混合策略纳什均衡：纳什定理保证其存在，但计算困难。
- 相关均衡：存在于更一般的联合分布上，可通过信任的第三方和条件理性来理解，且可高效计算。
- 粗相关均衡：最宽松的概念，只要求无条件服从推荐是最优的，集合最大，学习收敛最简单。
层次结构的意义：均衡集合的扩大恢复了存在性和计算可行性，增强了均衡作为行为预测的合理性，但也可能使最坏情况下的性能界限（无政府价格）变差。不过，在许多重要博弈中，性能界限在不同均衡层次上保持不变。

在接下来的课程中，我们将发展一个通用理论来推导这些均衡的无政府价格上界，并验证在自私路由等模型中，强上界对于最一般的均衡仍然成立。

014：平滑游戏中的鲁棒无政府状态价格界

在本节课中，我们将学习一种统一的分析框架，用于推导多种博弈中的“无政府状态价格”上界。这个框架源于“平滑游戏”的定义，它不仅能简洁地概括许多经典证明，还能自动将结论推广到更广泛的均衡概念上，例如相关均衡和粗相关均衡。我们将通过两个具体例子——自私路由博弈和选址博弈——来理解这个框架，并探讨其强大的应用。

起源与动机

今天要介绍的理论，其起源正是本课程。大约五年前，我在讲授一系列无政府状态价格分析时，为了教学清晰，尝试寻找呈现这些证明的最佳方式。在这个过程中，我发现许多最著名的无政府状态价格界，其推导过程都遵循一个通用的“配方”。这个配方甚至可以精确定义为一个概念，也就是今天要介绍的“平滑游戏”。这个概念不仅统一了证明，还带来了重要的推论。今天，我们将用它来证明关于“粗相关均衡”的无政府状态价格界。粗相关均衡是我们周一讨论过的最广泛的均衡概念，证明其最坏情况上界也最具挑战性，而我们将从平滑游戏的定义中推导出这些界。

在给出定义之前，我想先介绍另一个重要的应用领域。它本身很有趣，也将作为平滑游戏定义的一个关键特例。

回顾：自私路由博弈的证明结构

在分析第二个例子之前，我们先回顾上周证明“仿射成本函数的原子自私路由博弈的无政府状态价格为2.5”时所用的高级结构。记住细节并不重要，关键是理解证明的四个步骤结构。

第一步：利用纳什均衡假设。
我们从一个任意的纳什均衡 S 和一个任意的社会最优解 S* 开始。纳什均衡意味着单方面偏离不会让玩家收益更好。因此，对于每个玩家 i，我们考虑一个假设的偏离：如果玩家 i 单方面采用最优解 S* 中为他指定的策略，他的成本不会降低。这给出了一个不等式：
```
cost_i(S) ≤ cost_i(S*_i, S_{-i})
```
这里 (S*_i, S_{-i}) 表示除了玩家 i 采用 S*_i 外，其他玩家仍保持均衡策略 S_{-i}。重要的是，这是整个证明中唯一一次使用“S是纳什均衡”这一假设。
第二步：对不等式求和。
我们将这 K 个（每个玩家一个）不等式相加。求和后，左边变成了均衡的总成本 cost(S)，这正是我们想要上界的目标。右边则变成了一个“纠缠”的项，混合了均衡流和最优流。
第三步：解纠缠（关键步骤）。
我们需要将右边这个我们不关心的“纠缠项”，与我们真正关心的两个量——均衡成本 cost(S) 和最优成本 cost(S*)——联系起来。在上周的证明中，我们具体证明了：
```
[纠缠项] ≤ (5/3) * cost(S*) + (1/3) * cost(S)
```
第四步：求解无政府状态价格。
将第三步的不等式代入第二步求和后的结果，我们得到：
```
cost(S) ≤ (5/3) * cost(S*) + (1/3) * cost(S)
```
整理后得到 cost(S) ≤ (5/2) * cost(S*)，即无政府状态价格最多为2.5。

我们将看到，在另一个应用领域中，可以应用完全相同的四步结构来得到另一个紧的无政府状态价格界。

应用领域：选址博弈

接下来我们看一个新的应用领域：选址博弈。玩家们试图在网络中选择位置来提供服务。

模型描述：

位置集合 F： 玩家可以选择的位置（例如，服务器缓存点、手工巧克力店的位置）。
市场集合： 存在多个市场（消费者）。每个市场 j 对获得服务有一个已知的价值 v_j。
成本： 对于每个位置 l 和市场 j，存在一个服务成本 c_{lj}（例如，距离或技术适配成本）。
策略： 每个玩家 i 从自己允许的位置集合 F_i（为简化可视为 F）中选择一个位置 l_i。
收益（支付）： 玩家的收益是其从所有市场获得的总收入减去总成本。关键在于，在一个市场中，玩家能收取的价格受限于：1) 市场的价值 v_j；2) 次近的竞争对手的服务成本。最终，玩家 i 的收益 π_i(S) 是其在所有市场上“竞争优势”（即其成本优于次近竞争对手的程度）的总和。
社会目标（盈余）： 我们希望最大化社会总盈余 V(S)，即所有被服务的市场的总价值减去总服务成本。

定理（Vetta定理）： 在每一个选址博弈中，每一个纯策略纳什均衡都至少能获得50%的最大可能社会盈余。这个界是紧的。

为了证明这个 1/2 的界，我们首先指出这类博弈满足三个关键性质，这些性质是证明的核心。

以下是选址博弈满足的三个性质：

总收益不超过总盈余。 所有玩家的收益之和最多等于社会总盈余 V(S)。这是因为玩家从每个市场获取的收益不可能超过该市场产生的价值。
```
Σ_i π_i(S) ≤ V(S)
```
收益等于边际贡献。 一个玩家的收益恰好等于他的加入为系统带来的额外盈余。即，如果 S 是当前策略组合，S_{-i} 是去掉玩家 i 后的策略组合，那么：
```
π_i(S) = V(S) - V(S_{-i})
```
这个性质类似于VCG机制中的支付原则。
盈余函数是次模的。 次模性是一种“收益递减”性质。对于任意位置 l 和位置集合 T1 ⊆ T2，将 l 加入更大的集合 T2 所带来的盈余增加，不会超过将其加入较小集合 T1 所带来的盈余增加。
```
V(T2 ∪ {l}) - V(T2) ≤ V(T1 ∪ {l}) - V(T1)
```
在选址博弈中，这是因为增加更多位置只会让每个市场到最近位置的距离减小（或不变），所以新增位置的边际贡献会递减。

证明 Vetta 定理 (1/2 界)

现在，我们利用上述三个性质，并遵循与自私路由证明相同的四步结构，来证明选址博弈的 1/2 界。

设定： 考虑一个任意的纯策略纳什均衡 S 和一个最大化社会盈余的最优解 S*。

第一步：利用纳什均衡假设。
对于每个玩家 i，考虑他单方面偏离到最优解中为他指定的位置 S*_i。由于 S 是纳什均衡，这种偏离不会提高他的收益：
```
π_i(S) ≥ π_i(S*_i, S_{-i})  对于所有 i
```
第二步：对不等式求和。
对所有玩家求和：
```
Σ_i π_i(S) ≥ Σ_i π_i(S*_i, S_{-i})
```
左边是均衡下玩家的总收益。根据性质1，V(S) ≥ Σ_i π_i(S)，所以 V(S) 是左边的一个下界。右边是我们需要处理的“纠缠项”。
第三步：解纠缠（利用性质2和3）。
这是证明的关键。我们利用性质2将收益改写为边际贡献：
```
π_i(S*_i, S_{-i}) = V(S*_i, S_{-i}) - V(S_{-i})
```
因此，纠缠项变为：
```
Σ_i [ V(S*_i, S_{-i}) - V(S_{-i}) ]
```
现在利用性质3（次模性）。对于每个 i，V(S*_i, S_{-i}) - V(S_{-i}) 是加入 S*_i 到集合 S_{-i} 的边际贡献。次模性告诉我们，这个值至少等于将 S*_i 加入一个更大集合的边际贡献。为了构造一个可“裂项相消”的和式，我们选择加入 S*_1, ..., S*_{i-1} 和所有均衡位置 S_1, ..., S_K 形成的更大集合：
```
V(S*_i, S_{-i}) - V(S_{-i}) ≥ [V(S*_{1..i}, S) - V(S*_{1..i-1}, S)]
```
（这里 S*_{1..i} 表示前 i 个玩家的最优策略）。将这个下界代入求和式后，我们得到一个裂项相消的和式，最终化简为：
```
Σ_i π_i(S*_i, S_{-i}) ≥ V(S ∪ S*) - V(S)
```
由于增加位置不会减少盈余（单调性），V(S ∪ S*) ≥ V(S*)。所以我们得到：
```
Σ_i π_i(S*_i, S_{-i}) ≥ V(S*) - V(S)
```
第四步：求解无政府状态价格。
将第三步的结果代入第二步：
```
V(S) ≥ Σ_i π_i(S) ≥ V(S*) - V(S)
```
整理得 2V(S) ≥ V(S*)，即：
```
V(S) ≥ (1/2) * V(S*)
```
这证明了纳什均衡至少能获得一半的最优盈余。

这个证明的关键在于，只有在第一步使用了纳什均衡假设，解纠缠步骤（第三步）只依赖于游戏本身的性质（次模性等），而与均衡无关。

平滑游戏的定义

上述两个例子的证明共享一个通用结构，这引导我们定义“平滑游戏”。这个定义旨在精确描述这种证明“配方”。

定义分为成本最小化和收益最大化两种情况，它们在本质上是相互对偶的。

成本最小化游戏的平滑性定义：
一个成本最小化游戏被称为 (λ, μ)-平滑的，如果对于任意两个结果（策略组合）S 和 S*，以及一个满足 cost(S) ≤ Σ_i cost_i(S) 的成本函数 cost(·)，以下不等式成立：

Σ_i cost_i(S*_i, S_{-i}) ≤ λ * cost(S*) + μ * cost(S)

其中 μ < 1。

收益最大化游戏的平滑性定义：
一个收益最大化游戏被称为 (λ, μ)-平滑的，如果对于任意两个结果 S 和 S*，以及一个满足 V(S) ≥ Σ_i π_i(S) 的收益函数 V(·)，以下不等式成立：

Σ_i π_i(S*_i, S_{-i}) ≥ λ * V(S*) - μ * V(S)

关键点：

参数 λ 和 μ 对应了解纠缠步骤中的系数（例如，自私路由中的 5/3 和 1/3，选址博弈中的 1 和 1）。
不等式必须对所有结果对 (S, S*) 成立，而不仅仅当 S 是均衡或 S* 是最优时。这是我们证明中解纠缠步骤所验证的内容。
我们已经验证了：
- 仿射成本原子自私路由博弈是 (5/3, 1/3)-平滑的。
- 选址博弈是 (1, 1)-平滑的。

平滑游戏的主要定理：鲁棒的无政府状态价格界

平滑性定义的价值在于，一旦一个游戏被证明是平滑的，就会自动产生一系列强大的推论。最重要的推论是关于扩展的均衡概念。

均衡概念层次回顾（从最严格到最宽松）：

纯策略纳什均衡
混合策略纳什均衡
相关均衡
粗相关均衡

粗相关均衡是最宽松、最容易通过分布式学习算法达到的均衡概念，因此作为实际系统行为的预测也更为合理。然而，均衡集越大，要证明其最坏情况性能（无政府状态价格）就越困难。

平滑游戏定理：
如果一个成本最小化游戏是 (λ, μ)-平滑的（μ < 1），那么对于所有上述四种均衡概念（包括粗相关均衡），其无政府状态价格最多为 λ / (1 - μ)。
如果一个收益最大化游戏是 (λ, μ)-平滑的，那么其无政府状态价格至少为 λ / (1 + μ)。

意义：

这意味着，当我们为纯策略纳什均衡证明一个无政府状态价格界时（通过验证平滑性条件），这个界会自动地、免费地适用于所有更宽松的均衡概念，一直推广到粗相关均衡。
例如：
- 自私路由：λ=5/3, μ=1/3 => λ/(1-μ) = (5/3)/(2/3) = 5/2。所以粗相关均衡的无政府状态价格也是2.5。
- 选址博弈：λ=1, μ=1 => λ/(1+μ) = 1/2。所以粗相关均衡也至少能获得一半的盈余。

定理证明概要（以成本最小化为例）：
考虑一个任意的粗相关均衡分布 σ。其期望成本为 E_{S~σ}[cost(S)]。

由成本函数定义：E[cost(S)] ≤ E[Σ_i cost_i(S)]。
由粗相关均衡定义，任何玩家 i 单方面固定偏离到 S*_i 不会降低其期望成本：E[cost_i(S)] ≤ E[cost_i(S*_i, S_{-i})]。
对 i 求和并交换期望与求和顺序：E[cost(S)] ≤ E[Σ_i cost_i(S*_i, S_{-i})]。
关键步骤： 对每一个可能抽出的结果 S，应用平滑性条件（注意，这里 S 不一定是均衡，但平滑性对任意 S 都成立）：
Σ_i cost_i(S*_i, S_{-i}) ≤ λ * cost(S*) + μ * cost(S)
取期望：E[cost(S)] ≤ λ * cost(S*) + μ * E[cost(S)]。
整理不等式：(1 - μ) E[cost(S)] ≤ λ * cost(S*) => E[cost(S)] ≤ [λ / (1 - μ)] * cost(S*)。
证毕。

其他推论：近似均衡

平滑性还有一个自然推论，关于“近似”纳什均衡的性能。

定义（ε-近似纯策略纳什均衡）： 一个结果 S 被称为 ε-近似纯策略纳什均衡，如果对于每个玩家 i 和任何偏离 S‘_i，有：

cost_i(S) ≤ (1 + ε) * cost_i(S‘_i, S_{-i})

即，任何偏离最多只能将玩家的成本降低一个 (1+ε) 因子。

定理： 如果一个成本最小化游戏是 (λ, μ)-平滑的，并且 S 是一个 ε-近似纯策略纳什均衡，且 ε ≤ 1/μ - 1，那么：

cost(S) ≤ [ (1+ε)λ / (1 - (1+ε)μ) ] * cost(S*)

这意味着，当均衡条件被轻微放松时，无政府状态价格界会“优雅地”恶化，而不是彻底崩溃。

总结

在本节课中，我们一起学习了：

平滑游戏的定义：它统一了多种无政府状态价格证明的通用结构，核心是存在参数 (λ, μ) 使得一个特定的“纠缠和”不等式对所有策略组合成立。
两个关键例子：我们回顾了自私路由博弈（λ=5/3, μ=1/3）并详细分析了选址博弈（λ=1, μ=1），验证了它们的平滑性。
平滑性的强大威力：主要定理表明，如果一个游戏是平滑的，那么为该游戏证明的无政府状态价格界（通常针对纯纳什均衡证明），将自动适用于所有更宽松的均衡概念，包括混合纳什均衡、相关均衡，乃至最容易达到的粗相关均衡。这提供了非常鲁棒的性能保证。
额外好处：平滑性还意味着对近似均衡的性能保证是连续变化的。

因此，平滑游戏框架不仅是一个优美的理论统一工具，更是一个强大的分析引擎，能够为实际系统中可能出现的、更广泛的理性行为模式提供坚实的性能界限。

015：最佳情况与强纳什均衡

在本节课中，我们将学习如何量化均衡的效率。我们将改变之前游戏模型的两个方面：首先，从具有负外部性的领域转向具有正外部性的领域；其次，我们将探讨存在多个均衡的情况，其中一些均衡的效率远高于其他均衡。这将引导我们讨论如何选择特定的均衡子集进行分析。

模型：网络成本分摊游戏

我们将使用一个称为“网络成本分摊游戏”的模型来说明这些观点。该模型基于一个图（可以是无向或有向的），每条边都有一个固定的构建成本 γ_e。每个玩家 i 需要选择一条路径 P_i 来连接其源点 s_i 和汇点 t_i。所有玩家选择的路径的并集会形成网络。每条被至少一个玩家使用的边 e，其固定成本 γ_e 将由所有使用该边的玩家平均分摊。因此，每个玩家的目标是选择一条路径，以最小化其需要支付的总成本。

与之前的路由游戏不同，在这个模型中存在正外部性：当更多玩家共享一条边时，每个玩家分摊的成本会降低，这对所有共享者都有利。

示例一：协调失败（VHS与Beta案例）

考虑一个简单的例子：有 K 个玩家，他们都想连接相同的源点 s 和汇点 t。有两条边可选：上边成本为 1 + ε，下边成本为 K。

社会最优解：所有玩家都使用上边，总成本为 1 + ε，每个玩家支付约 (1+ε)/K。
纳什均衡一（好的均衡）：所有玩家都使用上边。任何单方面偏离到成本为 K 的下边都会使该玩家的成本急剧增加，因此这是一个纳什均衡。
纳什均衡二（坏的均衡）：所有玩家都使用下边。每个玩家支付 K/K = 1。如果任何玩家单方面偏离到上边，他将独自承担全部成本 1+ε，这比 1 更差，因此这也是一个纳什均衡。

这个例子表明，在具有正外部性的游戏中，可能存在多个纳什均衡，且它们的效率差异巨大（这里相差 K 倍）。价格（或代价）的无政府状态（即最坏均衡的效率比）可能高达 K，这非常不理想。

示例二：退出案例

这个例子展示了更根本的均衡低效性，且均衡是唯一的。有 K 个玩家，他们有共同的汇点 t，但源点 s_i 不同。每个玩家可以选择与其他人在节点 v 会合，然后共享一条成本为 1+ε 的边到 t。此外，每个玩家 i 都有一个“退出”选项：直接从其源点 s_i 连接到 t，成本为 1/i。

社会最优解：所有玩家在 v 会合并共享到 t 的边，总成本为 1+ε。
纳什均衡分析：玩家 K（退出成本 1/K 最低）有一个占优策略：直接退出。因此，在任何纳什均衡中，玩家 K 都会退出。这意味着最多只有 K-1 个玩家可能共享 v-t 边，每个共享者至少支付 (1+ε)/(K-1)。但玩家 K-1 的退出成本是 1/(K-1)，低于共享成本，因此他也会退出。通过迭代占优策略剔除，唯一的纳什均衡是所有玩家都选择退出。
均衡成本：所有玩家退出成本之和为调和数 H_K = Σ_{i=1}^{K} 1/i ≈ ln K + γ（欧拉常数）。

这个例子表明，即使均衡是唯一的，其成本也可能比社会最优解高出对数因子（H_K）。这促使我们思考，是否应该只关注那些“合理”的纳什均衡子集。

均衡精炼：价格（代价）的稳定性

我们希望找到一个均衡子集（称为“精炼”），它满足两个条件：1) 有令人信服的理由说明为什么这些均衡更重要；2) 可以证明关于这个子集的最坏情况界限比所有纯纳什均衡的界限要好得多。

首先介绍“价格（代价）的稳定性”概念：它衡量的是最佳纳什均衡（即成本最小的均衡）与社会最优解之间的比率。

定理（Anshelevich 等人）：在每个网络成本分摊游戏中：

至少存在一个纯策略纳什均衡。
其中一个纳什均衡的成本最多是社会最优成本的 H_K 倍（即价格（代价）的稳定性 ≤ H_K）。并且，这个界限是紧的（由退出案例证明）。

证明思路：
该证明利用了罗森塔尔势函数。对于网络成本分摊游戏，势函数定义为：
Φ = Σ_{e} γ_e * H_{f_e}
其中 f_e 是使用边 e 的玩家数量，H_{f_e} 是第 f_e 个调和数。
该势函数的关键性质是：单个玩家 i 改变策略所引起的势函数变化，恰好等于该玩家成本的变化。
因此，势函数的全局最小点就是一个纯纳什均衡。
现在，比较势函数值 Φ 和实际社会成本 SC（即所有被使用边的 γ_e 之和）。对于任何结果，都有 SC ≤ Φ ≤ H_K * SC。
设 S_hat 是势函数的全局最小点（即一个纳什均衡），S_star 是社会最优解。则有：
cost(S_hat) ≤ Φ(S_hat) ≤ Φ(S_star) ≤ H_K * cost(S_star)
这就证明了存在一个成本在 H_K 倍以内的纳什均衡。

价格（代价）的稳定性在某些情境下有说服力，例如当设计者可以设置系统默认参数（相当于“播种”一个均衡）时。然而，它并没有解释为什么玩家会自发地达到这个好均衡，而不是其他坏均衡。

均衡精炼：强纳什均衡

另一种精炼是强纳什均衡。它要求：对于任何玩家联盟 C，不存在一个协调偏差，使得联盟中所有成员的成本都不增加，且至少一个成员的成本严格减少。

动机：在VHS/Beta例子中，那个坏的纳什均衡不是强纳什均衡，因为如果两个玩家同时偏离到上边，他们都会变得更好。强纳什均衡排除了这种可以通过联盟协调改进的“脆弱”均衡。
性质：强纳什均衡必然是纳什均衡，但反之则不成立。

定理：在网络成本分摊游戏中，如果存在一个强纳什均衡 S，那么它的成本最多是社会最优成本的 H_K 倍（即强纳什均衡的价格（代价）的无政府状态 ≤ H_K）。这个界限同样是紧的（由退出案例证明，其中唯一的纳什均衡也是强纳什均衡）。

证明思路（简述）：

利用强均衡假设生成不等式：从包含所有玩家的联盟开始，假设他们集体偏离到社会最优策略 S_star。根据强纳什均衡定义，至少有一个玩家（记为玩家 K）在偏离后不会变得更好（即成本不会降低）。这给出了关于玩家 K 在均衡中成本的一个上界。
迭代过程：然后考虑剩下的 K-1 个玩家组成的联盟，假设他们偏离到 S_star 中各自的策略。同样，至少有一个玩家（记为玩家 K-1）不会变得更好。重复此过程，得到一系列不等式，每个不等式对一个玩家的均衡成本给出了上界。
与势函数关联：每个不等式的右边是某个玩家在一种混合策略组合（部分玩家按最优策略，部分玩家按均衡策略）下的成本。可以证明，这个成本等于势函数在两种特定策略组合下的差值。
求和与 telescoping（叠缩）：将所有不等式求和。左边是均衡总成本。右边由于表示为势函数差值，求和后会叠缩，最终剩下势函数在全社会最优策略下的值（减去空集的势函数值0）。
利用势函数与成本的界限：已知 Φ(S_star) ≤ H_K * cost(S_star)。代入即得证。

强纳什均衡提供了一个更稳健的均衡概念，并且所有强纳什均衡（如果存在）都享有较好的效率界限。然而，主要弱点在于强纳什均衡可能不存在。例如，可以构造一个简单的两人网络成本分摊游戏，其中存在唯一的纳什均衡，但这个均衡不是强纳什均衡（两人可以通过协调偏差共同获益），因此该游戏没有强纳什均衡。

总结

本节课中，我们一起学习了：

正外部性模型：引入了网络成本分摊游戏，其中玩家共享边的成本，产生了希望他人加入的正向激励。
均衡的低效性：通过VHS/Beta案例和退出案例，我们看到纳什均衡可能非常低效，存在多个均衡时好坏差异巨大，甚至唯一均衡也可能比最优解差对数倍。
均衡精炼的必要性：为了获得有意义的效率保证，我们需要聚焦于更合理或更稳健的均衡子集。
价格（代价）的稳定性：关注最佳纳什均衡。我们证明了在网络成本分摊游戏中，总存在一个纳什均衡，其成本在社会最优解的 H_K 倍以内。这适用于设计者可影响初始状态的情形。
强纳什均衡：关注对联盟偏差稳健的均衡。我们证明了任何强纳什均衡的成本也在社会最优解的 H_K 倍以内。这是一个更稳健的概念，但强纳什均衡可能不存在。

这些概念展示了在分析博弈均衡效率时，根据上下文和合理性假设选择适当均衡概念的重要性。

016：最佳响应动态 🎮

在本节课中，我们将学习玩家如何通过动态学习过程达到博弈的均衡状态。我们将重点介绍最佳响应动态，这是一种玩家通过不断选择对自己最有利的策略来逐步接近均衡的方法。我们将探讨其收敛性、速度以及在近似均衡下的表现。

概述 📋

在前七周中，我们主要讨论了博弈的均衡状态及其性质。然而，一个重要的问题是：这些均衡是如何产生的？玩家能否通过某种学习过程找到均衡？本节课我们将深入探讨最佳响应动态，这是一种简单而自然的学习过程，玩家通过不断选择对自己最有利的策略来逐步接近均衡。我们将分析其收敛条件、收敛速度，并探讨在近似均衡下的表现。

最佳响应动态的基本概念 🔄

最佳响应动态是一种迭代过程，玩家通过不断选择对自己最有利的策略来逐步接近纯策略纳什均衡。在这个过程中，所有玩家始终选择纯策略。

过程描述

初始时，玩家选择任意纯策略组合。
如果当前策略组合不是纯策略纳什均衡，则存在至少一个玩家可以通过单边偏离改善自己的收益。
选择其中一个玩家（选择方式可以是任意的），并允许其选择一个有益的偏离策略。
其他玩家的策略保持不变。
重复上述过程，直到达到纯策略纳什均衡或无法进一步改善。

收敛性

如果最佳响应动态收敛，那么它必然收敛到一个纯策略纳什均衡。反之，如果存在纯策略纳什均衡，最佳响应动态最终会找到它。然而，收敛性并不是在所有博弈中都成立。

势博弈中的收敛性 ⚡

在势博弈中，最佳响应动态具有很好的收敛性质。势博弈是指存在一个势函数 $\Phi$，满足对于所有玩家 $i$ 和所有策略组合 $S$，玩家 $i$ 的收益变化等于势函数的变化。

势函数的定义

对于势博弈，存在势函数 $\Phi$，满足：
$$
\Phi(S_i', S_{-i}) - \Phi(S_i, S_{-i}) = u_i(S_i', S_{-i}) - u_i(S_i, S_{-i})
$$
其中 $u_i$ 是玩家 $i$ 的收益函数。

收敛性证明

在势博弈中，每次玩家选择最佳响应时，其收益增加，势函数也随之增加。由于势函数是有限的，且每次迭代势函数严格增加，因此最佳响应动态必然在有限步内收敛到纯策略纳什均衡。

近似均衡与快速收敛 🚀

在某些情况下，达到精确的纳什均衡可能需要指数时间。因此，我们考虑达到近似纳什均衡，即玩家的收益改善不超过一个小的阈值 $\epsilon$。

$\epsilon$-最佳响应动态

在 $\epsilon$-最佳响应动态中，玩家只选择那些能显著改善其收益的偏离策略。具体来说，玩家只有在存在一个策略能将其收益提高至少 $(1-\epsilon)$ 倍时才会进行偏离。

收敛性定理

对于满足以下条件的自私路由博弈：

所有玩家具有相同的起点和终点。
成本函数满足 $\alpha$-有界跳跃条件。
使用 $\epsilon$-最佳响应动态。
每次选择收益改善最大的玩家进行偏离。

则 $\epsilon$-最佳响应动态在多项式时间内收敛到一个 $\epsilon$-近似纯策略纳什均衡。具体迭代次数为：
$$
O\left( \frac{K \alpha}{\epsilon} \log \frac{\Phi_{\text{初始}}}{\Phi_{\text{最小}}} \right)
$$
其中 $K$ 是玩家数量，$\alpha$ 是跳跃条件参数，$\Phi$ 是势函数。

势函数与成本的关系 📊

在自私路由博弈中，势函数是成本的下界。具体来说，对于任意策略组合 $S$，势函数 $\Phi(S)$ 满足：
$$
\Phi(S) \leq \text{Cost}(S)
$$
这一性质在分析收敛速度时起到关键作用。

平滑博弈中的成本保证 📉

如果我们只关心系统的成本性能，而不要求达到精确的纳什均衡，那么可以在更广泛的博弈中获得快速收敛的保证。

平滑博弈的定义

一个博弈是 $(\lambda, \mu)$-平滑的，如果对于任意两个策略组合 $S$ 和 $S^$，满足：
$$
\sum_{i} u_i(S_i^, S_{-i}) \leq \lambda \cdot \text{Cost}(S^*) + \mu \cdot \text{Cost}(S)
$$

成本保证定理

对于平滑势博弈，最佳响应动态在多项式时间内达到一个成本接近纳什均衡的状态。具体来说，在大多数时间步中，系统的成本满足：
$$
\text{Cost}(S_t) \leq \frac{\lambda}{1-\mu} \cdot \text{Cost}(S^) + \gamma \cdot \text{Cost}(S^)
$$
其中 $\gamma$ 是一个小常数。

总结 📝

本节课中，我们一起学习了最佳响应动态及其在博弈论中的应用。我们探讨了其在势博弈中的收敛性，以及在近似均衡下的快速收敛性质。此外，我们还介绍了平滑博弈中的成本保证定理，展示了即使未达到精确均衡，系统的成本性能也能接近纳什均衡的水平。这些结果为理解玩家如何通过动态学习过程达到均衡提供了重要的理论基础。

017：无悔动态 (No-Regret Dynamics)

在本节课中，我们将学习一种重要的学习动态——无悔动态。我们将首先在单智能体环境中理解“无悔”的核心概念，然后将其扩展到多玩家博弈中，并探讨其与相关均衡概念的联系。

上一节我们介绍了最佳响应动态及其在势博弈中的收敛性。本节中，我们来看看另一种适用范围更广的动态——无悔动态。

单智能体无悔学习

首先，我们脱离博弈环境，考虑一个单智能体（玩家）在不确定环境中重复决策的问题。这是理解无悔动态的基础。

问题设定

动作集：玩家有一个固定的动作集合 A，其大小为 N。
时间范围：决策过程持续 T 个时间步（T 已知）。
决策过程：
1. 在每个时间步 t，玩家选择一个混合策略 p_t（即动作 A 上的一个概率分布）。
2. 一个对手（或“环境”）在观察到玩家的分布 p_t 后，选择一个成本向量 c_t。成本 c_t(a) 表示选择动作 a 将产生的代价，我们假设所有成本都在 [0, 1] 区间内。
3. 玩家根据分布 p_t 随机选择一个动作 a_t，并产生成本 c_t(a_t)。

玩家的目标是设计一种选择策略 p_t 的算法，以最小化其长期总成本。

基准与遗憾定义

一个不切实际的强基准是“先知最优序列”，即预先知道所有成本向量 c_t 后选择的最佳动作序列。对手可以轻易地使任何算法相对于此基准表现很差。

一个更合理且可实现的基准是“最佳固定动作”。我们定义外部遗憾如下：

遗憾(算法, 成本序列) = (算法平均成本) - (最佳固定动作的平均成本)

用公式表示，对于算法产生的动作序列 a_1, ..., a_T 和成本序列 c_1, ..., c_T，其遗憾为：
(1/T) * Σ_{t=1}^T c_t(a_t) - min_{a ∈ A} (1/T) * Σ_{t=1}^T c_t(a)

算法的目标就是最小化这个遗憾值。

算法能达到的极限

以下是关于算法性能的几个基本观察：

确定性算法表现不佳：如果算法是确定性的（即每次以概率1选择一个动作），对手可以每次都让该动作的成本为1，其他动作为0。这导致算法成本为 T，而最佳固定动作成本至多为 T/N，遗憾至少为 (1 - 1/N)。
随机化是必要的：为了获得低遗憾，算法必须是随机化的。
存在信息论下界：即使使用随机化算法，任何算法在最坏情况下的期望遗憾至少为 Ω( sqrt( (log N) / T ) )。这意味着遗憾收敛到0的速度不会快于这个速率。

无悔算法与乘性权重算法

一个算法被称为无悔的，如果对于任何（甚至自适应生成的）成本序列，其期望遗憾随着 T → ∞ 而趋于0。

定理：存在简单、高效的无悔算法，其遗憾上界为 O( sqrt( (log N) / T ) )，这与下界匹配，是最优的。

一个经典且最优的无悔算法是乘性权重算法。其核心思想是：根据动作过去的表现（成本高低）来调整当前选择它的概率，过去成本低的动作获得更高的权重（选择概率）。

以下是算法描述：

初始化：为每个动作 a ∈ A 设置初始权重 w_1(a) = 1。设定参数 ε ∈ (0, 1/2)。
对每个时间步 t = 1 到 T：
- 选择动作：按照与权重成比例的概率分布选择动作：p_t(a) = w_t(a) / (Σ_{a'∈A} w_t(a'))。根据 p_t 采样得到动作 a_t。
- 观察成本：观察到成本向量 c_t。
- 更新权重：对于每个动作 a，更新其权重：w_{t+1}(a) = w_t(a) * (1 - ε)^{c_t(a)}。

算法原理：

利用历史信息：权重反映了动作的历史表现，成本低的动作权重高。
指数惩罚：当一个动作产生高成本时，其权重会以指数速度下降，这有助于快速淘汰不良动作。
探索与利用的权衡：参数 ε 控制着平衡。ε 接近0时，算法探索更多（权重变化慢）；ε 接近1时，算法更倾向于利用当前表现最好的动作。

性能保证：通过设定 ε = O( sqrt( (log N) / T ) )，乘性权重算法能保证期望遗憾为 O( sqrt( (log N) / T ) )。

这意味着，要使遗憾小于 ε，只需要运行大约 T = O( (log N) / ε^2 ) 轮。这个轮数与动作数 N 的对数相关，即使动作空间很大，也只需要相对较少的轮数即可达到低遗憾。

从单智能体到博弈：无悔动态

现在我们将无悔算法应用到多玩家博弈中，定义无悔动态。

无悔动态设定

考虑一个具有 k 个玩家的成本最小化博弈。

每个玩家 i 独立地运行自己的无悔算法（例如乘性权重算法）。
在每一轮 t：
1. 所有玩家同时（或异步地）根据自己的无悔算法选择动作 s_i^t。
2. 形成策略组合 s^t = (s_1^t, ..., s_k^t)。
3. 每个玩家 i 观察到其他玩家的选择 s_{-i}^t，并计算出成本向量：对于自己的每个可能动作 a_i，计算成本 c_i^t(a_i) = cost_i(a_i, s_{-i}^t)。这正是其无悔算法所需的输入。
4. 每个玩家用自己的无悔算法更新内部状态（如权重）。

无悔动态的收敛性

无悔动态产生的行为序列与一个重要的均衡概念——粗糙相关均衡——密切相关。

定理：假设所有玩家在 T 轮博弈中都运行无悔算法，并产生结果序列 s^1, s^2, ..., s^T。定义经验分布 σ 为这个序列上的均匀分布（即每个结果 s^t 以概率 1/T 出现）。那么，σ 是一个近似粗糙相关均衡。近似的误差上界由各玩家算法的遗憾值 R_i 决定。

粗糙相关均衡是比纳什均衡和（精炼）相关均衡更宽松的概念。它要求：如果根据分布 σ 为所有玩家推荐一个联合行动，那么没有任何玩家能通过无条件地、固定地偏离到另一个行动 s_i‘ 来降低其期望成本。用公式表示，对于每个玩家 i 和每个可能的偏离行动 s_i‘：
E_{s∼σ}[cost_i(s)] ≤ E_{s∼σ}[cost_i(s_i‘, s_{-i})] + R_i
其中 R_i 是玩家 i 的遗憾值。

证明思路：玩家 i 的无悔性保证了其平均实际成本，不超过其“最佳固定动作”的平均成本加上遗憾 R_i。而“最佳固定动作”的平均成本，恰好等于在经验分布 σ 下，固定采用某个行动 s_i‘ 时的期望成本。因此，上述粗糙相关均衡的条件近似成立，误差即为遗憾 R_i。

意义与应用

均衡的合理性：无悔动态为“玩家如何达到均衡”提供了一个自然、计算轻量且广泛适用的解释。玩家只需运行简单的无悔算法，经过 O((log N)/ε^2) 轮后，联合行为就会接近一个粗糙相关均衡（误差为 ε）。
社会福利保证：在光滑博弈中，价格是有限的。由于光滑博弈的价格上界（λ/(1-μ)）对所有粗糙相关均衡都成立，因此无悔动态产生的结果序列，其社会福利（或总成本）也自动满足同样的上界。这比之前最佳响应动态需要“势博弈+光滑性”的双重假设要宽松得多（只需光滑性）。

本节课中我们一起学习了无悔动态。我们从单智能体环境下的无悔学习和乘性权重算法出发，理解了如何在与未知环境的交互中做出低遗憾的决策。接着，我们将此框架扩展到多玩家博弈，定义了无悔动态，并证明了其产生的经验分布近似于粗糙相关均衡。这一结果为均衡概念的合理性和可计算性提供了有力支持，并使得光滑博弈中的价格上界在这一广泛的学习过程中依然成立。

018：从外部遗憾到交换遗憾与极小极大定理

在本节课中，我们将学习如何将外部遗憾的概念推广到更严格的交换遗憾，并利用这一概念证明相关均衡的计算可行性。此外，我们还将探讨如何利用无遗憾算法来证明著名的极小极大定理，该定理是零和博弈理论的核心。

从外部遗憾到交换遗憾

上一节我们介绍了粗相关均衡，并证明了如果所有玩家都使用无外部遗憾算法（如乘性权重算法），那么联合博弈的历史将收敛到粗相关均衡集。本节中，我们来看看一个更精细的均衡概念——相关均衡，并探讨其计算可行性。

相关均衡的定义可以通过“切换函数”来描述。对于一个博弈结果上的分布 σ，如果对于每个玩家 i 和所有从该玩家行动到其行动的映射（切换函数）δ，玩家 i 遵循分布 σ 的期望成本不高于其根据切换函数 δ 改变行动后的期望成本，那么 σ 就是一个相关均衡。

为了建立相关均衡与学习算法之间的联系，我们需要一个比外部遗憾更严格的概念：交换遗憾。

定义：交换遗憾
对于一个在线决策算法，如果对于对手可能给出的所有成本向量以及所有切换函数 δ，算法在时间 T 内的期望平均成本与“若每次根据切换函数 δ 改变所选行动”的期望平均成本之差，随着 T 趋于无穷大而趋于零，则该算法具有无交换遗憾性质。

值得注意的是，无交换遗憾意味着无外部遗憾，因为外部遗憾只考虑恒定的切换函数（即始终切换到某个固定行动）。

定理：无交换遗憾算法与相关均衡
如果博弈中的所有玩家都使用无交换遗憾算法，那么联合博弈的历史将收敛到相关均衡集。具体来说，将 T 个结果上的均匀分布作为 σ，它将是一个近似相关均衡，且近似误差随 T 增大而趋于零。

因此，要证明相关均衡的计算可行性，关键在于构造出无交换遗憾的算法。

从无外部遗憾到无交换遗憾的黑盒归约

幸运的是，我们可以利用已知的无外部遗憾算法（如乘性权重算法）来构造无交换遗憾算法。以下是 Blum 和 Mansour 在 2005 年提出的黑盒归约方法。

归约构造：

设有 N 个行动。我们维护 N 个独立的无外部遗憾算法实例，记为 M₁, M₂, ..., M_N。
在每一天 t，每个实例 M_j 会输出一个关于行动的分布建议 Q_{t}^{j}。
关键步骤：我们需要一个“共识”机制，将这些不同的分布建议 Q_{t}^{1}, ..., Q_{t}^{N} 合并成一个单一的分布 P_t，作为主算法当天的行动分布。
主算法根据 P_t 选择行动，并从环境中收到真实的成本向量 C_t。
接着，主算法将成本向量按比例分配给各个子算法实例。具体来说，分配给实例 M_j 的成本向量是 P_t(j) * C_t，其中 P_t(j) 是主算法当天选择行动 j 的概率。

共识分布的计算技巧：
共识分布 P_t 的计算是归约的核心。我们需要选择 P_t，使得主算法的期望成本表达式与子算法成本表达式的和能够匹配。这引导我们建立以下方程：对于每个行动 i，要求
P_t(i) = Σ_{j} P_t(j) * Q_{t}^{j}(i)
这个方程恰好定义了一个马尔可夫链的平稳分布！其中，状态是行动，从状态 j 到状态 i 的转移概率就是 Q_{t}^{j}(i)。因此，共识分布 P_t 可以取为该马尔可夫链的任意一个平稳分布。平稳分布可以在多项式时间内计算（例如，通过求解线性方程组）。

归约正确性：
通过上述构造，每个子算法 M_j 在其所感知的（按比例分配的）成本序列上是无外部遗憾的。将它们的遗憾界求和，并利用共识分布 P_t 是马尔可夫链平稳分布这一性质，可以证明主算法关于任何切换函数 δ 的交换遗憾上界，正是这些子算法外部遗憾上界之和。由于子算法的外部遗憾随 T 增大而趋于零，因此主算法的交换遗憾也趋于零。

推论：
存在多项式时间的无交换遗憾算法。结合之前的定理，我们得出结论：相关均衡在计算上是可行的。如果所有玩家都使用这类算法，他们的博弈历史将收敛到相关均衡集。

极小极大定理与无遗憾算法

在证明了相关均衡的可行性后，我们自然想问：混合纳什均衡是否也可行？一般情况下答案是否定的（我们将在后续课程讨论）。但在一个特殊情况下答案是肯定的：两人零和博弈。这由著名的极小极大定理所保证。

考虑一个两人零和博弈，行玩家的收益矩阵为 A（列玩家的收益为 -A）。设 x 和 y 分别是行玩家和列玩家的混合策略（概率分布）。行玩家的期望收益为 x^T A y。

极小极大定理指出：
max_x min_y x^T A y = min_y max_x x^T A y
这个等式意味着，在零和博弈中，先动者并不处于劣势。行玩家先选择混合策略 x 时，其能保证的收益（假设列玩家随后最优反应）等于列玩家先选择混合策略 y 时，行玩家能获得的收益。

利用无遗憾算法证明极小极大定理：
我们可以使用无外部遗憾算法为这个等式提供构造性证明。

让行玩家和列玩家分别独立运行他们的无外部遗憾算法（例如，针对收益调整的乘性权重算法），进行足够多轮（T 轮），直到各自的期望遗憾至多为 ε。
设 P₁, ..., P_T 和 Q₁, ..., Q_T 分别是行、列玩家在各轮中使用的混合策略。
定义时间平均策略：x̂ = (Σ_t P_t)/T, ŷ = (Σ_t Q_t)/T。
设 V 为行玩家在这 T 轮中的平均期望收益。

分析：

由于行玩家算法是无外部遗憾的，对于任何固定的行策略（即纯行动）i，若其始终采用 i，其平均收益至多为 V + ε。通过线性推广，这意味着对于任何混合策略 x，有 x^T A ŷ ≤ V + ε。因此，max_x x^T A ŷ ≤ V + ε。
同理，由于列玩家算法也是无外部遗憾的（其目标是最大化自己的收益，即最小化 x^T A y），对于任何混合策略 y，有 x̂^T A y ≥ V - ε。因此，min_y x̂^T A y ≥ V - ε。

结合这两个不等式，我们得到：
min_y x̂^T A y ≥ V - ε 且 max_x x^T A ŷ ≤ V + ε
由于 min_y max_x x^T A y ≥ max_x x^T A ŷ 且 max_x min_y x^T A y ≤ min_y x̂^T A y，我们有：
max_x min_y x^T A y ≤ min_y x̂^T A y ≤ V + ε 且 min_y max_x x^T A y ≥ max_x x^T A ŷ ≥ V - ε
因此，max_x min_y x^T A y 和 min_y max_x x^T A y 之间的差距至多为 2ε。由于 ε 可以任意小，这两个值必须相等。这就证明了极小极大定理。

此外，(x̂, ŷ) 本身构成了一个 ε-近似纳什均衡。

总结

本节课中我们一起学习了：

交换遗憾：一个比外部遗憾更强的在线学习评价标准，它要求算法与所有可能的行动切换函数竞争。
相关均衡的可行性：通过构建无交换遗憾算法（基于无外部遗憾算法的黑盒归约），我们证明了如果所有玩家使用此类算法，博弈将收敛到相关均衡。这通过将共识分布计算问题转化为求解马尔可夫链平稳分布而实现。
极小极大定理的算法证明：在两人零和博弈中，通过让双方独立运行无外部遗憾算法并考察其时间平均策略，我们可以构造性地证明极小极大定理，并同时得到一个近似纳什均衡。这展示了学习动力学与均衡概念之间的深刻联系。

这些结果共同表明，虽然寻找精确纳什均衡通常是困难的，但对于更广泛的均衡概念（如相关均衡）以及在零和博弈这一特殊情形下，我们存在高效且自然的计算和学习方法。

019：纯纳什均衡与PLS完全性

在本节课中，我们将学习如何理解计算博弈均衡的“难度”。我们将从一个看似无关的话题——局部搜索问题的复杂性——开始，最终将其与计算一般拥塞博弈中的纯纳什均衡联系起来。我们将看到，这种计算问题属于一个名为PLS的复杂性类，并且是PLS完全的，这为理解为何我们无法为这类问题找到快速算法或学习动态提供了理论基础。

回顾：均衡计算的正向结果

上一节我们介绍了多种均衡概念及其计算。本节中，我们来看看目前已知的正向结果，这有助于我们理解后续讨论的局限性。

我们已证明，在不同情境下，通过特定的学习动态可以高效地计算某些均衡：

粗相关均衡：在完全一般的博弈中，如果每个玩家都使用无外部遗憾算法（如乘性权重法），那么时间平均历史博弈会收敛到粗相关均衡集。
相关均衡：通过使用无交换遗憾算法，时间平均历史博弈可以快速收敛到相关均衡。
混合纳什均衡（零和双人博弈）：在零和双人博弈中，如果双方都使用无外部遗憾算法，博弈会收敛到混合纳什均衡。此外，该问题也可表述为线性规划求解。
纯纳什均衡（特定路由博弈）：在具有单一源点和汇点的路由博弈中，ε-最优响应动态可以在多项式时间内收敛到一个（近似）纯纳什均衡。

以上结果表明，对于均衡层次结构中的“外层”和某些特殊的“内层”集合，我们拥有高效的计算方法。

未解之谜与计算障碍

上一节我们介绍了在特定条件下可高效计算的均衡。本节中，我们来看看更一般情况下的挑战。

一个自然的问题是：能否将这些正向结果推广到更一般的博弈中？例如：

计算一般双人博弈（非零和）的混合纳什均衡。
计算一般拥塞或路由博弈（玩家可有不同源汇点）的（近似）纯纳什均衡。

目前，对于上述两种情况，尚未发现任何能在多项式时间内收敛到近似均衡的学习动态或算法。

这引出了一个关键问题：是我们缺乏想象力，还是存在根本性的计算障碍？我们能否像理解NP完全性解释旅行商问题的难度那样，为均衡计算建立类似的复杂性理论？

这正是我们本周要探讨的核心：如何证明均衡计算的局限性。我们将发展一种类似于NP完全性的理论，但专门针对均衡计算（尤其是局部搜索类问题）。

引入：局部搜索与PLS复杂性类

为了理解纯纳什均衡的计算难度，我们需要先绕道了解局部搜索问题及其复杂性理论。这种联系在于，寻找纯纳什均衡（通过最优响应动态）本质上是在寻找罗森塔尔势函数的局部最小值，这是一个局部搜索过程。

局部搜索示例：最大割问题

考虑最大割问题：给定一个无向图 G=(V, E) 和边权重 w(e)，目标是找到一个分割 (S, V\S)，使得横跨切割的边权重之和最大。

局部搜索启发式算法如下：

从一个任意的割开始（例如，随机分割顶点）。
只要存在改进的局部移动，就执行它。对于最大割，一个局部移动是指将单个顶点从一侧移到另一侧。
当没有改进的局部移动时停止，此时得到一个局部最优解。

重要提示：局部最优解不一定是全局最优解。

局部搜索的易与难

简单情况：如果所有权重均为1（即最大化切割边数），局部搜索算法最多在 |E| 次迭代内终止，因为每次移动至少将目标函数值提高1。
困难情况：如果边权重为任意整数，目前无人知晓是否存在多项式时间算法（无论是否使用局部搜索）总能找到一个局部最优割。这暗示着可能存在计算障碍。

定义通用局部搜索问题 (PLS)

为了形式化“和任何局部搜索问题一样难”的概念，我们定义复杂性类 PLS。一个问题是PLS的，如果它可以用三个多项式时间算法描述，这些算法足以运行局部搜索：

初始化算法：给定问题实例，产生一个初始可行解。
估值算法：给定一个可行解，计算其目标函数值。
邻居改进算法：给定一个可行解，要么报告它是局部最优的，要么返回一个具有更好目标函数值的相邻解。

给定这三个算法，运行局部搜索（反复调用算法3）必然会在有限步内找到一个局部最优解。计算任何局部最优解的问题就属于PLS类。

PLS完全性与归约

与NP完全性类似，我们可以定义PLS完全性。如果一个问题 L 是PLS完全的，那么：

L 属于PLS。
PLS中的每一个问题都可以通过多项式时间归约到 L。

归约意味着，如果我们有一个解决 L 的多项式时间黑盒算法，我们就可以解决PLS中的任何问题。因此，PLS完全问题是PLS类中最难的问题。

一个关键结论是：对于任何PLS完全问题，

（条件性）除非 P = PLS，否则不存在总能找到局部最优解的多项式时间算法。
（无条件性）局部搜索算法本身在最坏情况下可能需要指数级次数的迭代才能终止。

已知最大割问题（带一般权重） 是PLS完全的。这意味着，在PLS ≠ P 的假设下，没有高效算法能解决它，并且局部搜索过程本身可能非常缓慢。

连接回纯纳什均衡

上一节我们介绍了局部搜索的复杂性理论。本节中，我们来看看如何将其应用于拥塞博弈中的纯纳什均衡计算。

拥塞博弈与局部搜索

回忆一下，在拥塞博弈（或原子自私路由博弈）中：

存在一个资源集合（如边）。
每个玩家选择资源的一个子集作为策略。
每个资源的成本是其负载（使用它的玩家数量）的函数。
罗森塔尔势函数 Φ 定义为：
Φ(s) = Σ_{资源 e} Σ_{k=1}^{负载_e(s)} c_e(k)
其中 s 是策略组合，c_e(k) 是资源 e 在负载为 k 时的成本。

关键性质：一个玩家的单边偏离所带来的自身成本变化，恰好等于势函数 Φ 的变化。因此：

策略组合 s 是纯纳什均衡 当且仅当 它是势函数 Φ 的局部最小值（其中“邻居”通过单玩家偏离定义）。
最优响应动态（玩家轮流进行改进偏离）完全等价于在 Φ 上运行局部搜索以寻找局部最小值。

因此，计算拥塞博弈的一个纯纳什均衡这个问题，可以通过定义三个算法自然地放入PLS类：

初始化：任意策略组合（如每个玩家选第一个策略）。
估值：计算罗森塔尔势函数 Φ。
邻居改进：检查是否有玩家存在改进偏离；如果有，则执行一个。

所以，该问题属于 PLS。

证明：计算纯纳什均衡是PLS完全的

我们通过从最大割问题（已知PLS完全）归约来证明。以下是归约的构造思路：

给定： 一个最大割实例，图 G=(V, E)，边权重 w_e。
构造： 一个拥塞博弈。

玩家： 对应图 G 中的每个顶点 v ∈ V。
资源： 对每条边 e = (u,v) ∈ E，创建两个资源 R_e^S 和 R_e^{S̄}。
玩家策略： 玩家 v 有两个策略：
- 策略 S：包含所有与 v 关联的边 e 对应的资源 R_e^S。
- 策略 S̄：包含所有与 v 关联的边 e 对应的资源 R_e^{S̄}。
资源成本函数：
- 如果资源被 0个或1个 玩家使用，成本为 0。
- 如果资源被 2个玩家使用，成本为 该边权重 w_e。

对应关系：

拥塞博弈的每个策略组合（每个玩家选 S 或 S̄）一一对应图 G 的一个割 (S, V\S)。
可以证明，在该策略组合下，罗森塔尔势函数值为：
Φ = (所有边权重之和) - (割 (S, V\S) 的权重)
因此，最大化割权重 等价于 最小化势函数 Φ。
进而，局部最大割 对应 势函数 Φ 的局部最小值，即拥塞博弈的纯纳什均衡。

归约完成：

算法A：将最大割实例转化为上述拥塞博弈实例。
算法B：将拥塞博弈的任意纯纳什均衡（局部最小Φ）解释回对应的割，该割必然是原最大割实例的局部最优解。

由于最大割是PLS完全的，而我们可以多项式归约到纯纳什均衡问题，因此计算拥塞博弈的纯纳什均衡也是PLS完全的。

含义与结论

这一结果具有重要含义：

条件性硬度：除非 P = PLS，否则不存在多项式时间算法能保证找到一般拥塞博弈的一个纯纳什均衡。这为我们的正向结果为何止步于对称（单源单汇）情形提供了理论解释。
动态过程缓慢：最优响应动态在最坏情况下可能需要指数级次数的迭代才能收敛到一个纯纳什均衡。这印证了之前关于局部搜索指数时间的结论。

总结

本节课中，我们一起学习了如何利用计算复杂性理论来理解均衡计算的局限性。

我们首先回顾了在特定博弈中计算各类均衡的正向结果。
接着，我们指出了在更一般博弈（如一般双人博弈或非对称拥塞博弈）中计算均衡的未知性。
为了分析这种难度，我们引入了局部搜索问题和 PLS复杂性类。PLS完全性意味着一个问题“和任何局部搜索问题一样难”。
我们证明了计算拥塞博弈的纯纳什均衡是PLS完全的。这是通过从PLS完全的最大割问题归约来证明的。
这一结果意味着，在PLS ≠ P 的合理假设下，不存在解决该问题的高效通用算法，并且最优响应动态可能收敛得非常慢。

这为我们理解均衡概念的预测能力边界提供了重要的计算复杂性视角。在下节课中，我们将把注意力转向混合纳什均衡，并探讨另一个复杂性类PPAD。

020：混合纳什均衡与PPAD完全性 🎮

在本节课中，我们将继续探讨均衡计算的局限性，包括快速收敛学习动态的期望以及任何集中式多项式时间算法的可能性。我们将重点关注混合纳什均衡的计算复杂性，并引入PPAD复杂性类来解释其内在的困难性。

课程全景回顾

上一节我们讨论了纯纳什均衡的PLS完全性理论。本节中，我们将转向混合纳什均衡的计算问题。

几周前，我们获得了关于相关均衡的全面结果：对于任何博弈，我们都能在多项式时间内计算相关均衡，并且可以通过无外部性或无交换后悔算法以分布式方式学习它们。对于纯纳什均衡，我们研究了路由和拥塞博弈，但正面结果非常有限。在周一的课程中，我们发展了PLS完全性理论来解释这些局限性。

现在，对于混合纳什均衡（玩家可以随机化策略），我们目前同样只有有限的正面结果。我们证明了对于两人零和博弈，混合纳什均衡是可处理的（可通过线性规划或无外部后悔算法求解）。一个显而易见的问题是：在更一般的情况下，例如两人但非零和的所谓双矩阵博弈中，混合纳什均衡的计算情况如何？

今天的计划是发展相关的复杂性理论，以解释为什么我们没有比已知结果更强的正面结果。

计算问题定义

我们考虑以下计算问题：
给定一个两人（非必为零和）博弈，需要两个M x N的收益矩阵A和B。A是行玩家的收益，B是列玩家的收益。零和博弈是B = -A的特殊情况。

目标是计算一个混合策略纳什均衡。根据纳什定理，至少存在一个均衡，可能有很多。我们要求计算任意一个均衡。这是均衡计算问题中最简单的一个，任何关于纳什均衡的其他问题只会比它更难。

形式化地，计算混合策略：

行玩家的策略分布 x̂
列玩家的策略分布 ŷ

使得：

给定列玩家的策略ŷ，行玩家无法通过选择任何其他混合策略x获得更高收益。即，对于所有行混合策略x，有 x̂ᵀ A ŷ ≥ xᵀ A ŷ。
给定行玩家的策略x̂，列玩家无法通过选择任何其他混合策略y获得更高收益。即，对于所有列混合策略y，有 x̂ᵀ B ŷ ≥ x̂ᵀ B y。

输入是矩阵A和B，期望输出是均衡策略对(x̂, ŷ)。

问题的困难性

一个事实是：我们不知道如何高效（多项式时间）解决这个问题。迄今为止，没有已知的多项式时间算法。许多非常聪明的人已经深入思考过这个问题。

与往常一样，当算法设计陷入困境时，我们会开始怀疑这样的算法是否存在，并思考如何论证其不存在。我们并不期望证明一个无条件的结果（例如直接证明没有多项式时间算法，那将意味着P≠NP），而是希望通过某种“完全性”概念，表明这个问题与某个大类中的所有问题一样困难。

一个快速说明：如果我们从两人零和博弈这个可处理的特殊情况出发，有两种“婴儿步”推广方式：

保持两人，但推广到一般和博弈（即本节讨论的）。
保持零和，但将玩家增加到三人。
实际上，三人零和博弈至少和两人一般和博弈一样困难，因为任何两人博弈都可以嵌入到一个三人零和博弈中（只需添加一个只有单一行动的“虚拟”玩家，其收益是另外两个玩家收益之和的负数）。因此，我们实际上是在研究均衡计算中“下一个”自然的困难步骤。

为何NP完全性不适用？

一个棘手的问题是：如果我们认为混合纳什均衡计算是困难的，那么它应该在哪个复杂性类中是“完全的”？这个问题的答案并不简单，需要逐步推导。

首先，我们需要解释为什么NP完全性不是描述混合纳什均衡计算复杂性的正确概念。这个论证同样适用于周一讨论的PLS完全性问题。

从搜索问题FNP说起
通常研究的NP问题是判定问题（答案是“是”或“否”）。对于均衡计算，我们想要的是均衡本身（一个解）。因此，我们首先定义FNP（功能性NP）类。F代表“功能”。这意味着对于“是”实例，我们实际上想要一个答案（例如，对于SAT，如果可满足，则展示一个真值赋值）。所有NP搜索问题都属于此类。

在抽象意义上，一个FNP问题给定一个实例x，如果存在一个多项式长度的解（见证），则输出该解；如果无解，则正确报告“否”。

例如，可满足性的功能版本是FNP完全的。周一的PLS问题自然地被视作FNP的一个子集。PLS问题的计算目标是给出一个局部最优解。对于FNP，验证者只需能验证一个候选解是否正确。而在PLS中，验证者功能更强：如果候选解不是局部最优，它还能建议一个更好的解。但如果我们忽略PLS的额外功能，它就是一个FNP问题。在PLS中，“见证”对应于局部最优解。

我们正在讨论的混合纳什均衡计算问题（记为ME）也是一个FNP问题。这意味着，如果我给你一个双矩阵博弈的候选混合纳什均衡（两个概率分布），你可以在多项式时间内验证它是否真的是一个均衡。

验证为何是高效的？
给定行玩家策略分布x和列玩家策略分布y，验证步骤如下：

从行玩家视角：计算在列玩家策略y下，行玩家每个纯策略的期望收益。行玩家的最佳响应必须是所有纯最佳响应策略上的混合。因此，只需检查x是否仅在那些具有最高期望收益的纯策略上赋予正概率。
类似地验证列玩家。
尽管均衡条件要求对所有可能的混合策略成立（一个无限集），但只需检查有限个纯策略即可。因此，验证是高效的。

为何ME不是FNP完全的？
当我们试图证明一个问题难以处理时，我们希望证明它至少和某个大类中的所有问题一样困难。ME问题位于FNP内部，因此我们能证明的最强结果是它是FNP完全的（即，至少和所有FNP问题一样困难）。

然而，有强有力的证据表明这不太可能。定理（Megiddo and Papadimitriou）：只有当NP = co-NP时，混合纳什均衡计算才可能是FNP完全的。

理解：NP = co-NP意味着对于像“公式是否不可满足？”这样的co-NP完全问题，也存在简短、可高效验证的“是”证书。这被认为极不可能成立。

证明思路（反证法）：
假设ME是FNP完全的，则存在从（例如）SAT到ME的多项式时间归约（包含将实例映射到实例的算法A，以及将解映射回解的算法B）。
考虑一个不可满足的公式φ。根据归约，算法A会将其映射为某个博弈G。现在，G的任何一个混合纳什均衡Y，连同算法A和B，就构成了φ不可满足性的一个简短、可高效验证的证明：

验证者运行A(φ)得到G。
验证Y确实是G的一个混合纳什均衡（高效）。
运行B(Y)，检查输出是否为“否”。
根据归约的正确性，这证明了φ不可满足。因此，如果ME是FNP完全的，我们就为co-NP完全问题找到了NP证书，意味着NP = co-NP。

关键点与TFNP
这个证明只利用了ME问题的两个性质：

解总是存在（纳什定理保证）。
给定一个候选解，可以高效验证。
因此，该论证适用于任何总是至少有一个见证（解）的FNP问题。这个FNP的子集被称为TFNP（Total FNP）。

像SAT这样的问题属于FNP但不属于TFNP（因为可能无解）。而混合纳什均衡（ME）和所有PLS问题都属于TFNP。因此，对于TFNP中的问题（包括ME和PLS），要证明它们是NP完全的同样非常困难（除非NP = co-NP）。这就是为什么周一我们需要PLS完全性，而不是NP完全性。

寻找合适的复杂性类：引入PPAD

既然FNP太大，那么下一个目标自然是尝试证明ME是TFNP完全的，即至少和任何其他保证有解的NP搜索问题一样困难。

然而，这仍然不可行。障碍在于：我们不知道TFNP有任何完全问题，也不期望有。原因在于复杂性类的定义方式。

像P、NP、PSPACE这类有完全问题的类，其成员资格有一个通用的、基于计算模型的原因（例如，被某个多项式时间图灵机接受）。而TFNP是一个“语义类”，成员资格基于各种不同的数学定理（如纳什定理基于拓扑不动点定理，整数分解基于数论）。没有统一的、基于计算模型的“语法”定义来囊括所有TFNP问题，因此难以定义归约并证明完全性。

因此，我们需要将目标设定得更低：识别TFNP的子类，这些子类：

包含我们关心的、且不被认为属于P的问题（如ME）。
本身具有完全问题（即有语法定义，基于某种计算模型）。

我们在周一已经做过一次：PLS就是这样一个子类（见证是局部最优解，总是存在，有语法定义，有完全问题）。

现在，我们需要为混合纳什均衡找到一个类似的子类。这个类就是PPAD。

通过类比理解PPAD
回想PLS：我们可以将局部搜索视为在有向无环图（DAG）中跟随路径。节点对应可行解，边对应改进移动。从给定起点出发，跟随改进边，最终必然会终止于一个汇点（局部最优解）。PLS问题可以通过三个算法语法化定义。

PPAD与此类似，但细节不同。在PPAD中：

图由有向路径和循环组成（允许环）。
每个节点的入度和出度最多为1。
给定一个特定的“起点”（由算法定义），该起点入度为0。
存在一个算法告诉你从当前节点沿哪条弧前进。
保证如果你从起点开始跟随有向路径，最终会到达另一个终点（出度为0的节点），这个终点就是“见证”。

与PLS的DAG不同，PPAD的图可能包含环，但起点不在环上。同样，PPAD问题可以通过三个算法语法化定义。保证通过跟随有向路径直至终点，可以找到一个解。因此，PPAD是TFNP的一个语法定义的子类。

PPAD的典型问题：斯珀纳引理

PPAD的定义可能看起来晦涩。一个自然的问题是：这与混合纳什均衡有什么关系？为了建立联系，我们首先看一个PPAD的典型完全问题：斯珀纳引理的构造性版本。

斯珀纳引理指出：将一个三角形细分为许多小三角形，并用三种颜色（红、绿、蓝）为所有顶点着色，满足边界条件（三个角点颜色不同，每条边上的点只使用该边两端点的颜色），则无论如何着色，至少存在一个“三色”小三角形（其三个顶点颜色各不相同）。

如何转化为路径跟随问题？
我们可以构造一个辅助图：

图的节点对应所有小三角形（面）。
在两个节点之间连一条边，当且仅当它们共享一条其两端点分别为红色和绿色的边。
可以观察到，在这个辅助图中，度数为1的节点恰好对应三色三角形（因为三色三角形只有一条红-绿边）。而其他非三色三角形如果有红-绿边，则度数为2（一进一出）。
此外，大三角形外部的“虚拟面”可以作为一个度数为1的起点。
因此，寻找一个三色三角形就等价于在这个辅助图中，从给定的起点出发，跟随路径，直到找到一个度数为1的节点（终点）。这正是一个PPAD问题。

从斯珀纳引理到纳什均衡

斯珀纳引理与纳什均衡的计算通过以下两步建立联系：

斯珀纳引理 ⇒ 布劳威尔不动点定理：布劳威尔定理指出，任何连续函数将紧凸集映射到自身，则必有一个不动点。可以通过对三角形进行越来越细的细分和着色（颜色指示函数移动的方向），利用斯珀纳引理找到一系列逼近不动点的三色三角形，取极限即得不动点。
布劳威尔不动点定理 ⇒ 纳什定理：纳什的原始证明正是通过构造一个连续函数（基于正则化的最佳响应函数），将混合策略组合的集合映射到自身，然后应用布劳威尔定理证明不动点的存在，而这些不动点正好对应纳什均衡。

这个证明在某种程度上是构造性的。因此，计算一个（近似的）混合纳什均衡，可以转化为一个类似斯珀纳引理的路径跟随计算。这建立了混合纳什均衡与PPAD类的联系。

更精确地说：

对于任意数量玩家的近似混合纳什均衡，是PPAD的一个成员。
对于两人博弈的精确混合纳什均衡，也是PPAD的成员。这可以通过Lemke-Howson算法来理解，该算法类似于单纯形法，通过在两个多面体的乘积空间上跟随路径来寻找均衡。

因此，混合纳什均衡计算问题（ME）位于PPAD这个复杂性类中。

最终目标：PPAD完全性

既然我们找到了一个合适的子类PPAD，并且ME属于此类，那么最理想的负面结果就是证明ME是PPAD完全的，即它至少和PPAD中的任何问题一样困难。

这个目标已经实现！相关研究历时约15年：

Daskalakis, Goldberg, Papadimitriou 首先证明了多玩家近似纳什均衡的PPAD完全性。
Chen, Deng, Teng 随后将其扩展到两人精确纳什均衡的情况。

因此，计算两人非零和博弈的混合纳什均衡是PPAD完全的。证明非常复杂（约20-30页），但概念概述可在相关教材中找到。

启示与总结

计算复杂性的启示
如果我们相信P ≠ PPAD（正如相信P ≠ NP一样），那么就不存在解决混合纳什均衡的通用多项式时间算法。这意味着，如果连拥有全部计算能力的集中式算法都无法在合理时间内找到均衡，我们又如何能期望博弈中的真实玩家找到它呢？

因此，PPAD完全性结果对纳什均衡作为通用行为预测工具的适用性提出了质疑。虽然均衡存在性（纳什定理）是优美的数学结果，但其计算上的困难性暗示，在一般情形下，我们不应期望它能被实际实现。这为博弈论提供了来自理论计算机科学的重要批判视角。

开放问题

更精细的复杂性关系：能否将PPAD的难解性与更标准的复杂性假设（如密码学假设）联系起来？
近似均衡：计算近似混合纳什均衡（即无人能通过单方面偏离获得超过ε的收益）的复杂性如何？已知存在拟多项式时间算法，但是否存在多项式时间算法仍是主要开放问题。
替代的均衡概念：这一复杂性结果激励我们寻找更具可处理性的均衡概念，如相关均衡或粗相关均衡，它们在计算和学习上都更加容易。

课程总结回顾

在本门课程中，我们一起探索了算法博弈论的广阔天地：

维克瑞拍卖：介绍了占优策略激励相容的概念。
迈尔森引理：将单参数机制的机制设计简化为带单调性约束的算法设计。
布洛-克雷默定理：揭示了简单拍卖（如增加一个竞拍者）可以达到接近最优的收益。
VCG机制：为多参数环境下的福利最大化提供了占优策略解。
频谱拍卖的教训：展示了实际拍卖设计错误可能造成的巨大损失。
自私路由与无政府状态代价：给出了紧的界，并解释了网络过度配置的益处。
平滑博弈框架：统一了多种博弈的无政府状态代价分析，并将其推广到相关均衡等概念。
势博弈：说明了在某些博弈中，个体优化会隐式地优化一个全局势函数，保证纯纳什均衡存在和收敛性。
无悔学习：展示了简单算法如何引导群体动态收敛到相关均衡等可处理概念。
均衡计算的局限性：通过PLS完全性和PPAD完全性理论，理解了为什么某些均衡计算问题本质上是困难的。

本节课中，我们一起学习了混合纳什均衡计算问题的定义、其不属于NP完全性的原因、TFNP与语义类的概念、以及最终刻画其计算复杂性的PPAD类及其完全性结果。这一理论不仅解释了算法设计的局限性，也对纳什均衡作为预测工具的基础提出了深刻的计算复杂性层面的思考。

posted @ 2026-03-26 13:17 布客飞龙V 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

斯坦福-CS364a-算法博弈论笔记-全-

斯坦福 CS364a 算法博弈论笔记（全）

001：引言与示例 🎯

课程概述

主题一：机制设计——当参与者是战略性的

一个警示性案例：2012年伦敦奥运会羽毛球丑闻

主题二：理解“野生”游戏——自私路由与无政府状态代价

布雷斯悖论

主题三：均衡的计算复杂性

纳什均衡的存在与计算

课程总结与安排

002：机制设计基础 🎯

单物品拍卖的设置

核心概念：估值

效用模型：拟线性效用

密封投标拍卖

第一价格拍卖的复杂性

第二价格（维克里）拍卖

维克里拍卖的关键洞见

证明

另一个简单性质：无后悔参与

为什么维克里拍卖如此出色？

迈向更复杂的设置：赞助搜索拍卖

赞助搜索拍卖模型

复杂性体现在：

模型参数：

设计目标

设计方法：分解问题

总结与预告

003：迈尔森引理

环境设定与回顾

单参数环境

密封拍卖与规则

核心定义：可实施性与单调性

可实施的分配规则

单调的分配规则

迈尔森引理

引理证明（思路）

步骤一：利用DSIC条件推导支付约束

步骤二：从约束到唯一支付公式

步骤三：验证充分性

总结

004：算法机制设计

赞助搜索拍卖的支付规则

背包拍卖与算法机制设计

问题设定

理想机制的两步设计法

算法机制设计的核心思想

一个具体的近似算法：贪婪启发法

显示原理

总结

005：收益最大化拍卖

概述

从社会福利到收益最大化

引入贝叶斯模型

单竞拍者示例

多竞拍者场景与目标

期望收益的关键公式

解释与优化虚拟剩余

单调性与正则分布

IID正则分布下的最优拍卖

示例：均匀分布

非对称竞拍者

总结

006：简单近似最优拍卖

核心公式回顾

最优拍卖设计范式

非对称环境下的挑战

先知不等式：一个关键工具

应用于单物品拍卖设计

先验无关拍卖

总结

007：多参数机制设计与VCG机制

从应用到理论：关于上节课的最后一个案例

迈向多参数机制设计

通用模型

VCG机制：多参数世界中的基石

VCG机制的设计

证明VCG机制是DSIC的