斯坦福博弈论笔记-全-
斯坦福博弈论笔记(全)
课程P1:博弈论入门(0)课程介绍 🎲
在本节课中,我们将了解这门博弈论课程的基本信息,包括授课教师、课程内容、学习目标以及课程安排。
课程概述
本课程由斯坦福大学的三位教授共同讲授,旨在向初学者介绍博弈论的基本概念和应用。博弈论不仅是关于扑克或体育比赛等娱乐活动,它更是一门研究自利主体之间战略互动的学科,广泛应用于经济学、计算机科学、生物学等多个领域。
授课教师介绍
以下是三位授课教师的简要介绍:

- 凯文·尼斯:英属哥伦比亚大学计算机科学副教授,研究方向包括人工智能、博弈论、电子商务与算法。
- 马特·杰克逊:斯坦福大学经济学教授,研究方向包括博弈论、社交网络及各种微观经济话题。
- 约夫·沙姆:斯坦福大学教授,与凯文一样,也是一位专注于人工智能、电子商务和博弈论的计算机科学家。

什么是博弈论?
上一节我们认识了授课团队,本节中我们来看看博弈论的核心定义。
博弈论研究的是自利主体之间的各种战略互动。这些互动既包括轻松的游戏(如石头剪刀布),也包括更严肃的场景。

成熟的经济学家告诉我们,博弈论已成为理解许多重要互动的关键工具,例如拍卖、金融市场行为,甚至国际冲突与政治互动。
它的实际应用甚至更为广泛,例如在生物学中分析捕食者与猎物的关系。因此,博弈论是一门在存在竞争和战略互动的场景中广泛适用的学科。
博弈论与计算机科学
既然博弈论源于经济学,那么计算机科学家为何要研究它呢?本节我们来探讨两者的联系。
如今,博弈论在计算机科学中是一个热门领域,主要原因如下:
- 连接人与人:计算机是连接不同个体的平台。无论是网络设计、谷歌的关键字拍卖(每年创造数十亿美元收入),还是点对点文件共享、eBay等消费者平台,要理解这些系统,都需要对其中自利参与者的战略互动进行建模。
- 解决计算问题:许多经济学问题(如马特所研究的)在规模扩大时,会涉及计算维度。要想在现实世界中解决这些问题,必须借助算法思想、复杂性理论和人工智能技术,才能使理论在实践中发挥作用。
课程内容与目标
了解了博弈论的重要性后,我们来看看本课程的具体安排。
这是一门为期约七周的入门课程,不要求学生有任何博弈论基础,但需要具备微积分和概率论的初步知识。课程目标是通过实例,向学生展示如何构建博弈模型以及如何思考人际间的战略互动。
以下是课程将涵盖的核心主题列表:
- 均衡概念:分析博弈结果的稳定性。
- 不完全信息:研究参与者信息不对称时的决策。
- 时序问题:探讨行动顺序对结果的影响。
- 重复博弈:分析长期重复互动中的策略。
- 联盟结构:研究参与者如何形成联盟并合作。
课程结构与要求
本节我们来详细了解课程的学习形式与考核方式。
课程内容除了教学视频,还包含多种学习活动:
- 测验:包含不计分的“理解测试”(随视频出现)和计分的“复习测验”(课程结束时),用于巩固知识。
- 实验练习:你将有机会与其他学生进行在线博弈,并讨论结果。
- 习题集与期末考试:这是主要的计分部分。你可以在自己的时间表内完成,但只有一次提交机会。
顺利完成课程后,你将获得由三位教授签署的结业证书。
学习支持与社区
由于本课程规模庞大(有成千上万的学生),良好的学习社区至关重要。以下是获取支持的方式:
- 在线论坛:这是课程必不可少的部分。我们鼓励你组建学习小组,在论坛上互相讨论习题。助教团队(来自UBC、斯坦福及社区)会监督论坛。
- 重要提醒:由于学生人数众多,请不要给教师发送私人邮件或通过社交媒体发送好友请求,我们将无法一一回复。所有交流请通过课程论坛进行。
总结
本节课中,我们一起学习了这门博弈论课程的基本框架。我们认识了授课团队,理解了博弈论是研究战略互动的学科,并看到了它在经济学和计算机科学中的广泛应用。这是一门为期七周的入门课程,将通过视频、测验、实验和习题帮助我们掌握建模与分析博弈的基本工具。学习过程中,请积极利用在线论坛与全球同学共同进步。

我们期待与你一同开启这段探索战略决策的精彩旅程!
博弈论课程 P10:占优策略 🎯
在本节课中,我们将学习博弈论中的一个核心概念——占优策略。我们将了解什么是策略,以及如何判断一个策略是否“优于”另一个策略。理解占优策略是分析博弈和预测参与者行为的关键第一步。
策略的定义
首先,我们需要明确“策略”这个词的含义。在本课程中,当我们提到“策略”时,它指的是参与者在博弈中可以选择的一个具体行动。
目前,你可以将“策略”简单地理解为行动的选择。我们这里讨论的是“纯策略”。虽然未来会接触到其他类型的策略(例如混合策略),但本节课的所有概念同样适用于它们,现在你只需关注行动选择本身。

占优策略的概念
理解了策略的含义后,我们现在来探讨“占优”的概念。当一个策略在任何情况下都比另一个策略带来更好或至少不差的结果时,我们就说这个策略“占优”于另一个。
为了精确描述,我们引入两个定义:严格占优和弱占优。
严格占优
假设参与者 i 有两个不同的策略:s_i 和 s'_i。用 S_{-i} 表示所有其他参与者可能采取的策略组合的集合。
定义:如果对于其他参与者的每一个可能的策略组合 s_{-i} ∈ S_{-i},参与者 i 选择策略 s_i 所获得的效用 严格大于 选择策略 s'_i 所获得的效用,那么我们就说策略 s_i 严格占优于策略 s'_i。
用公式表示即:
对于所有
s_{-i} ∈ S_{-i},都有u_i(s_i, s_{-i}) > u_i(s'_i, s_{-i})
这意味着,无论其他参与者怎么做,选择 s_i 总是比选择 s'_i 让参与者 i 更满意。
弱占优
弱占优的条件比严格占优稍弱一些。
定义:如果对于其他参与者的每一个可能的策略组合 s_{-i} ∈ S_{-i},参与者 i 选择策略 s_i 所获得的效用 大于或等于 选择策略 s'_i 所获得的效用,那么我们就说策略 s_i 弱占优于策略 s'_i。
用公式表示即:
对于所有
s_{-i} ∈ S_{-i},都有u_i(s_i, s_{-i}) ≥ u_i(s'_i, s_{-i})
注意,这个定义允许相等的情况。即使两个策略在某些情况下带来完全相同的效用,s_i 仍然被认为弱占优于 s'_i。因此,我们称其为“非常弱”的占优。
在这两种占优概念之间,还存在其他强度的占优定义,但本节课我们聚焦于这两个核心概念。
占优策略的重要性

理解了占优的定义后,我们来看看为什么这个概念如此重要。
占优的直觉在于:如果一个策略 s_i 占优于另一个策略 s'_i,那么参与者 i 在决策时就无需考虑其他参与者会怎么做。因为他知道,选择 s_i 的效用永远不会比选择 s'_i 更差。
这个概念可以进一步强化。如果一个策略占优于参与者的所有其他可能策略,那么这个策略就是他的占优策略。拥有占优策略极大地简化了决策过程:
- 参与者无需猜测或分析对手的行为。
- 他只需选择自己的占优策略,这就是他能做的最好的事情。
占优策略与纳什均衡
上一节我们介绍了占优策略如何简化个人决策,本节我们来看看它与整个博弈的平衡状态——纳什均衡——有何联系。
我们可以得出一个重要结论:如果在一个博弈中,每个参与者都选择自己的(弱或严格)占优策略,那么由此构成的策略组合必然是一个纳什均衡。
原因如下:在纳什均衡中,没有参与者愿意单方面改变自己的策略。既然每个人都在玩自己的占优策略,那么对于任何参与者来说,改变策略(即选择非占优策略)都不会带来更好的结果,因此没有人有动机改变。
此外,如果每个参与者都有严格占优策略,那么这个纳什均衡一定是唯一的。因为严格占优意味着其他任何策略都严格更差,不可能存在另一个所有人都满意的策略组合。
实例分析:囚徒困境
理论需要结合实际。现在,我们以经典的“囚徒困境”博弈为例,来看看占优策略是如何起作用的。
以下是囚徒困境的收益矩阵(玩家1为行,玩家2为列,收益格式为 (玩家1收益, 玩家2收益)):
| 玩家2: 合作(C) | 玩家2: 背叛(D) | |
|---|---|---|
| 玩家1: 合作(C) | (-1, -1) | (-4, 0) |
| 玩家1: 背叛(D) | (0, -4) | (-3, -3) |
我们将证明,对于玩家1来说,策略 D(背叛) 是一个严格占优策略。
证明方法:案例分析
我们需要检查,无论玩家2选择什么,玩家1选择D的收益是否总是严格大于选择C的收益。
以下是具体的分析步骤:
-
情况一:假设玩家2选择合作(C)
- 此时玩家1面临第一列。
- 若玩家1选C,收益为 -1。
- 若玩家1选D,收益为 0。
- 因为 0 > -1,所以在此情况下,玩家1严格偏好于选D。
-
情况二:假设玩家2选择背叛(D)
- 此时玩家1面临第二列。
- 若玩家1选C,收益为 -4。
- 若玩家1选D,收益为 -3。
- 因为 -3 > -4,所以在此情况下,玩家1也严格偏好于选D。
结论:无论玩家2选择合作(C)还是背叛(D),玩家1选择背叛(D)的收益都严格高于选择合作(C)。因此,策略D严格占优于策略C。由于玩家1只有这两个策略,所以D就是他的严格占优策略。
基于博弈的对称性,同样的分析也适用于玩家2,策略D同样是玩家2的严格占优策略。
因此,在囚徒困境中,(D, D) 是唯一的纳什均衡,也是由双方严格占优策略构成的策略组合。
总结
本节课我们一起学习了博弈论中的核心概念——占优策略。

我们首先明确了“策略”即行动选择。然后,我们深入探讨了两种占优关系:严格占优(在任何情况下都更好)和弱占优(在任何情况下都不更差)。占优策略的重要性在于它能简化决策,让参与者无需顾虑对手行为。我们进一步了解到,当所有参与者都选择占优策略时,其结果必然构成一个纳什均衡;若占优策略是严格的,则该均衡唯一。最后,我们通过囚徒困境的实例,具体演练了如何识别和分析占优策略。
理解占优策略是分析更复杂博弈的坚实基础。

课程P11:博弈论(10)帕累托最优 ⚖️
在本节课中,我们将学习一个从外部观察者角度评估博弈结果的重要概念——帕累托最优性。我们将理解如何判断一个博弈结果是否“更好”,以及这个概念与纳什均衡等策略的关系。
概述:从外部视角看博弈
到目前为止,我们主要从玩家的角度思考博弈,分析如何行动才是“正确”的。现在,我们将退一步,从一个外部观察者的视角来审视博弈。我们想探讨的问题是:是否存在一种方式,可以说某些博弈结果比其他结果“更好”?
在思考这个问题时,我们面临一个核心限制:我们不能比较不同玩家的利益重要性,甚至不知道他们效用的衡量尺度是否相同。这就像试图最大化回报,但回报是用不同货币支付的,而我们不知道汇率。
那么,有没有一种方法可以识别出我们更偏好的结果呢?
帕累托支配:定义“更好”的结果
以下是判断一个结果是否“更好”的方法。虽然不能在所有情况下都适用,但在特定条件下是可行的。

帕累托支配的定义是:如果一个结果 O 至少对所有玩家来说都和另一个结果 O' 一样好,并且至少有一个玩家严格偏好 O 胜过 O',那么我们就说结果 O 帕累托支配 结果 O'。
用公式化的语言描述:
对于所有玩家 i,有 U_i(O) ≥ U_i(O'),并且至少存在一个玩家 j,使得 U_j(O) > U_j(O')。
举例说明:
- 结果 O:玩家1获得7个效用单位,玩家2获得8个效用单位。
- 结果 O‘:玩家1获得7个效用单位,玩家2获得2个效用单位。
在这个例子中,O 对玩家1来说一样好(都是7),但对玩家2来说严格更好(8 > 2)。因此,外部观察者有理由认为结果 O 比 O' 更好,即 O 帕累托支配 O'。
帕累托最优:定义“最好”的结果
理解了“更好”,我们就可以定义什么是“最好”的结果。

帕累托最优的定义是:一个结果 O* 被称为帕累托最优,当且仅当它不被任何其他结果帕累托支配。
换句话说,不存在另一个结果能让至少一个人变得更好,同时不让任何人变得更差。帕累托最优结果代表了资源配置的一种“效率”状态,无法在不损害他人利益的情况下使任何人的境况变得更好。
理解帕累托最优:关键问题
为了加深理解,我们来探讨几个关于帕累托最优性的关键问题。
1. 一个博弈是否可能有多个帕累托最优结果?
答案是肯定的。两种结果可能无法相互支配。例如,在一个所有玩家在任何结果下都获得相同回报的博弈中,没有任何结果能支配其他结果,因此所有结果都是帕累托最优的。
2. 每个博弈是否都至少有一个帕累托最优结果?
答案是肯定的。每个博弈都至少有一个帕累托最优结果。原因在于,帕累托支配关系不可能形成循环。根据定义,支配关系要求至少有一个玩家严格偏好前者,这阻止了“A支配B,B支配C,C又支配A”这种循环的出现。因此,博弈中必然存在至少一个不被任何结果支配的“终点”,即帕累托最优结果。
经典博弈中的帕累托最优分析
现在,让我们将这个概念应用到几个熟悉的博弈中,看看它们的帕累托最优结果是什么。

以下是几个经典博弈的分析:
- 协调博弈:两个(玩家选择相同行动的)结果都是帕累托最优的。
- 性别之战:两个(玩家协调成功的)结果也都是帕累托最优的。
- 匹配便士:这个博弈有点特殊。每一个结果都是帕累托最优的。因为这是一个零和博弈,一个玩家效用的增加必然意味着另一个玩家效用的减少,不存在一个让双方都至少不变好、且有人严格变好的其他结果。
- 囚徒困境:这是最引人深思的例子。在这个博弈中,除了相互背叛的结果外,其他结果都是帕累托最优的。相互背叛的结果被相互合作的结果所帕累托支配(因为双方合作时,每个人的收益都更高)。
核心洞见:囚徒困境的困境所在
上一节我们分析了各个博弈的帕累托最优性。现在,让我们聚焦于囚徒困境,它揭示了一个深刻的矛盾。
囚徒困境的纳什均衡(也是占优策略均衡)是双方都选择“背叛”。从策略分析上看,这是每个理性个体最应该采取的行动。
然而,从社会整体(外部观察者)的帕累托效率角度看,这个唯一的纳什均衡结果,恰恰是游戏中唯一一个非帕累托最优的结果。游戏中几乎所有其他结果(尤其是双方合作)都“更好”,但个体理性却将玩家们引向了那个对集体而言“更差”的结果。
这就是囚徒困境被称为“困境”的根本原因:个体理性与集体理性(或社会效率)之间存在着直接的冲突。
总结
本节课中,我们一起学习了帕累托最优性这一核心概念。

- 我们首先学会了如何从一个外部观察者的视角,使用帕累托支配来比较两个结果的优劣。
- 接着,我们定义了帕累托最优结果,即那些无法在不损害他人利益的前提下进一步改进的结果。
- 我们探讨了帕累托最优的存在性和多重性,并分析了多个经典博弈中的帕累托最优结果。
- 最后,通过对囚徒困境的深入分析,我们深刻理解了纳什均衡(个体理性)与帕累托最优(集体效率)之间可能存在的矛盾,这是博弈论解释许多社会现象的关键所在。

课程P12:博弈论(11)混合策略与纳什均衡 (I) 🎲
在本节课中,我们将要学习博弈论中的一个核心概念——混合策略。我们将通过一个具体的例子来理解为什么在纳什均衡中,参与者有时需要随机化自己的选择,而不是采取确定的行动。

上一段我们提到了博弈中确定性策略可能带来的问题。本节中,我们来看看一个具体的现实世界例子,以理解混合策略的必要性。
考虑联合国在道路上设置检查站的情景。他们需要拦截车辆,检查是否携带爆炸物等危险物品。
我们可以将这种情况建模为一个博弈。其中:
- 防守方(联合国) 可以选择在特定道路上设置检查站。
- 攻击方(潜在袭击者) 可以选择攻击哪条道路。
博弈的收益结构如下:
- 如果攻击方攻击的道路恰好有防守方设防,则攻击失败并被捕获,攻击方获得很大的负收益。
- 如果攻击方攻击的道路没有防守,则攻击成功,攻击方获得正的收益,其大小取决于目标的价值。
显然,如果防守方(联合国)采取一个确定的、可预测的策略(例如,总是守卫同一条路),那么攻击方只需稍作观察,就能发现规律并攻击其他道路,从而确保攻击总是成功。这对防守方极为不利。
因此,在实际操作中,检查站的设置并非确定不变。真正发生的情况是,检查站以随机的方式设置。这样,即使攻击方长期观察并弄清了随机策略的概率分布,他们在任何特定时刻也无法确切知道检查站的具体位置,从而限制了攻击的价值。
所以,在这类博弈的纳什均衡中,防守方的最佳策略是以某种随机的方式进行防守。这种随机选择的策略就被称为混合策略。
本节课中我们一起学习了混合策略的基本思想。我们通过联合国检查站的例子,说明了当参与者采取确定性策略容易被对手利用时,随机化自己的行动(即采用混合策略)可以成为一种有效的均衡策略。在后续课程中,我们将进一步探讨如何求解混合策略纳什均衡。
课程P13:混合策略与纳什均衡(II) 🎲
在本节课中,我们将学习混合策略的概念,并将之前学习的纳什均衡定义扩展到包含混合策略的新框架中。我们将从分析“配对便士”游戏开始,理解为何需要引入随机化,并学习如何计算混合策略下的期望效用。最后,我们将介绍纳什的著名定理,并通过实例巩固对混合策略纳什均衡的理解。
从“配对便士”游戏引入混合策略 🔄
上一节我们讨论了纯策略下的纳什均衡。本节中,我们来看看当纯策略无法达到稳定状态时,玩家可以如何选择。
让我们从“配对便士”游戏开始。回忆一下,在这个游戏中,采用任何确定的纯策略都是一个糟糕的主意。例如,如果玩家2选择“人头”,那么玩家1会想选择“人头”以获得回报1。这意味着玩家2更愿意换成“尾巴”以获得回报1。接着,玩家1又更愿意换成“尾巴”以获得回报1。然后玩家2又更愿意换回“人头”以获得回报1。最终,玩家1也更愿意换回“人头”,回到了我们开始的地方。
可以看到,这里存在一个循环,我们只是在游戏矩阵的不同单元格之间跳来跳去。本质上,没有一对确定的纯策略对双方都有效。
那么,什么对双方有效呢?从本质上说,玩家通过随机选择来迷惑对方是有意义的。直觉上,与其承诺玩“人头”或“尾巴”,不如说“我要掷硬币,出现哪一面就玩哪一面”。让我们试着将这个想法正式化。
正式定义混合策略与期望效用 📊
在我们讨论纯策略时,我们将其等同于执行某个动作。现在,让我们从概率分布的角度来思考。
假设代理的策略是其在可用动作集上的任何概率分布。纯策略是只给一个动作赋予正概率(即为1)的特例。混合策略则是给多个不同的动作赋予正概率。在“配对便士”的例子中,当我抛硬币时,“人头”和“尾巴”都获得了正概率,它们构成了我混合策略的支持集。
我将代理 i 的所有策略集合记为 Σᵢ。所有策略组合的集合 Σ 则是不同代理策略集的笛卡尔积。
现在面临一个问题:我已经扩展了策略的定义(成为所有概率分布的无限集合),但我只有针对具体动作组合的效用定义。当玩家执行混合策略时,结果不是确定的,因此无法直接从收益矩阵中读取一个数字来代表玩家的满意度。
为了解决这个问题,我们需要基于期望效用的思想来扩展效用的定义。以下是其数学表达:
对于给定的混合策略组合 σ ∈ Σ,玩家 i 的效用 uᵢ(σ) 定义为:
uᵢ(σ) = ∑_{a∈A} [ P(a | σ) * uᵢ(a) ]
其中:
- A 是所有可能动作组合的集合(即收益矩阵的所有单元格)。
- uᵢ(a) 是玩家 i 在动作组合 a 发生时的收益。
- P(a | σ) 是在给定策略组合 σ 下,动作组合 a 发生的概率。
动作组合 a = (a₁, a₂, ..., aₙ) 发生的概率是每个玩家独立地按其策略选择相应动作的概率的乘积:

P(a | σ) = ∏_{j=1}^{n} σⱼ(aⱼ)
例如,在“配对便士”中,如果两个玩家都以0.5的概率选择“人头”,那么出现(人头,人头)这个动作组合的概率就是 0.5 * 0.5 = 0.25。
总结:在混合策略组合下的效用,是玩家在所有可能动作组合上的期望收益,并按该动作组合实际出现的概率进行加权。
混合策略下的最佳反应与纳什均衡 ⚖️
上一节我们定义了期望效用。本节中,我们利用这个新定义,重新审视最佳反应和纳什均衡的概念。
其工作方式与纯策略情况完全相同,只是将行动(A)替换为策略(Σ)。概念上,如果你理解了在纯动作下的含义,那么一切照旧。
-
最佳反应:策略 σᵢ* 是对其他玩家策略组合 σ₋ᵢ 的最佳反应集合中的一个元素,当且仅当对于玩家 i 所有其他可能的策略 σᵢ‘ ∈ Σᵢ,都有:
uᵢ(σᵢ*, σ₋ᵢ) ≥ uᵢ(σᵢ‘, σ₋ᵢ)注意,这里使用了集合属于符号(∈),因为最佳反应可能不止一个。σᵢ* 只需要是“最好的之一”。
-
纳什均衡:一个策略组合 σ = (σ₁, σ₂, ..., σₙ) 是一个纳什均衡,如果对于每一个代理 i,其所选择的策略 σᵢ 都是对其他玩家策略 σ₋ᵢ 的最佳反应。
即,在均衡中,每个玩家都在针对他人的策略玩自己最好的策略之一,没有人有单方面偏离的动机。

纳什定理:均衡的存在性 🏆
基于混合策略的纳什均衡新定义,我们现在可以陈述一个至关重要的定理,这也是纳什获得诺贝尔奖的主要原因之一。
纳什定理:每一个有限博弈都至少有一个纳什均衡(可能是混合策略的)。
- 有限博弈指的是具有有限数量玩家和每个玩家有有限数量动作的博弈(因此也有有限数量的收益值)。
这个定理的意义非常深刻。它表明,无论博弈的收益结构多么复杂,无论它模拟何种现实互动,总存在至少一个稳定的策略组合,使得所有玩家在知道他人策略的情况下,都不想改变自己的策略。这解释了为什么纳什均衡是博弈论中如此核心和强大的分析工具。
请注意,这个保证性的定理只适用于我们刚刚定义的、包含混合策略的纳什均衡。对于我们之前讨论的、仅限于纯策略的“纯策略纳什均衡”,并没有这样的存在性定理。
实例分析 🧩
上一节我们学习了理论,现在通过几个经典例子来加深理解。

以下是几个博弈的收益矩阵和其纳什均衡分析:
1. 配对便士
- 收益矩阵:
Player 2 Heads Tails Player1 +1,-1 -1,+1 (Heads) -1,+1 +1,-1 (Tails) - 分析:如前所述,该博弈没有纯策略纳什均衡。但其混合策略纳什均衡是:两个玩家都以0.5的概率随机选择“人头”或“尾巴”。这是由于收益的对称性导致的。
2. 协调博弈
- 收益矩阵:
Player 2 Left Right Player1 2,2 0,0 (Left) 0,0 1,1 (Right) - 分析:这个博弈有两个纯策略纳什均衡:(Left, Left) 和 (Right, Right)。此外,它还有一个混合策略纳什均衡:两个玩家都以概率 (2/3, 1/3) 随机选择 (Left, Right)。可以验证,当对手以此概率混合时,自己选择任何策略的期望收益都相等,因此没有偏离的动机。虽然这个均衡的期望收益(2/3)不如(Left, Left)好,但它确实是一个稳定的策略组合。
3. 囚徒困境
- 收益矩阵:
Player 2 Cooperate Defect Player1 -1,-1 -3,0 (Cooperate) 0,-3 -2,-2 (Defect) - 分析:“坦白”是每个玩家的严格占优策略。因此,(Defect, Defect) 是唯一的纳什均衡(并且是纯策略的)。囚徒困境不存在混合策略纳什均衡,因为偏离到纯策略“坦白”总是能带来更高的收益。
总结 📝
本节课中,我们一起学习了博弈论的核心扩展——混合策略。
- 我们首先从“配对便士”游戏入手,理解了引入随机化(混合策略)的必要性。
- 接着,我们正式定义了混合策略,并基于期望效用的概念扩展了效用的定义,使其能够评估随机结果带来的收益。
- 然后,我们将最佳反应和纳什均衡的定义推广到了包含混合策略的范畴。
- 在此基础上,我们介绍了至关重要的纳什定理,该定理保证了任何有限博弈都至少存在一个(可能是混合的)纳什均衡,这为均衡分析提供了坚实的基础。
- 最后,我们通过“配对便士”、“协调博弈”和“囚徒困境”的例子,具体分析了纯策略与混合策略纳什均衡的存在与形式。

掌握混合策略的概念,是深入理解冲突与合作中策略互动复杂性的关键一步。

课程 P14:计算纳什均衡的复杂性 🧮
在本节课中,我们将学习如何计算正规形式博弈中的混合策略纳什均衡。我们将通过经典的“性别之战”博弈作为例子,介绍一种基于“支撑”猜测的计算方法,并探讨混合策略均衡背后的直观含义。
概述:计算混合策略纳什均衡

纳什定理告诉我们,在有限博弈中至少存在一个纳什均衡,但它并未提供寻找均衡的具体方法。本节将介绍一种计算均衡的起点方法:先猜测均衡的“支撑”,然后通过数学推理求解概率。这种方法对于小型博弈是有效的。
第一步:理解“支撑”概念
上一节我们介绍了纳什均衡的存在性,本节中我们来看看如何具体计算一个混合策略均衡。首先需要理解“支撑”这个概念。
支撑 是指在一个玩家的混合策略中,所有被赋予正概率的纯策略的集合。在均衡中,每个玩家的支撑共同构成了“均衡支撑”。
例如,在“性别之战”博弈中,我们猜测均衡支撑包含了所有可能的行动(即双方都可能以正概率选择“芭蕾”或“足球”)。
第二步:通过无差异性条件求解

如果我们猜测均衡支撑包含了所有行动,那么我们可以利用“无差异性”条件来求解均衡策略。
关键推理如下:在混合策略纳什均衡中,如果一个玩家在支撑内的多个行动之间随机选择,那么他必须对这些行动无差异。也就是说,给定对手的策略,他选择支撑内任何一个行动所获得的期望效用都是相等的。
以下是具体的求解过程:
- 设定玩家2的策略:假设玩家2以概率
p选择“芭蕾”(B),以概率1-p选择“足球”(F)。 - 建立玩家1的无差异方程:在均衡中,玩家1对选择B和F是无差异的。因此,选择B的期望效用等于选择F的期望效用。
- 玩家1选B的期望效用:
2 * p + 0 * (1-p) = 2p - 玩家1选F的期望效用:
0 * p + 1 * (1-p) = 1-p - 无差异条件:
2p = 1-p
- 玩家1选B的期望效用:
- 求解玩家2的策略:解方程
2p = 1-p,得到p = 1/3。因此,玩家2的均衡策略是(1/3 B, 2/3 F)。
同理,我们可以求解玩家1的策略:

- 设定玩家1的策略:假设玩家1以概率
q选择B,以概率1-q选择F。 - 建立玩家2的无差异方程:
- 玩家2选B的期望效用:
1 * q + 0 * (1-q) = q - 玩家2选F的期望效用:
0 * q + 2 * (1-q) = 2(1-q) - 无差异条件:
q = 2(1-q)
- 玩家2选B的期望效用:
- 求解玩家1的策略:解方程
q = 2(1-q),得到q = 2/3。因此,玩家1的均衡策略是(2/3 B, 1/3 F)。
我们最终得到了一个有意义的混合策略纳什均衡:( (2/3 B, 1/3 F), (1/3 B, 2/3 F) )。双方都愿意按此概率随机化,并且彼此让对方无差异。
第三步:混合策略的多种解释
在计算出均衡后,理解“为什么玩家要随机化”至关重要。混合策略均衡有几种不同的解释:
以下是几种常见的解释:
- 迷惑对手:例如在“猜硬币”游戏中,随机化是为了让对手无法预测你的行动,从而保护自己。但这不完全适用于“性别之战”。
- 反映不确定性:在“性别之战”中,随机化反映了玩家对对方行动的不确定性。我的最佳反应是基于对你行为的最佳猜测,而这种猜测本身具有不确定性,最终导致了一个稳定的随机化模式。
- 长期频率的概括:混合策略可以描述在重复博弈中,纯策略被使用的长期频率。在“性别之战”中,如果双方长期反复博弈,可能会观察到接近
2/3和1/3的行动频率。 - 群体动态:假设存在两个玩家群体。如果一个群体中有
2/3的人选择B,1/3选F,另一个群体中有1/3选B,2/3选F。从这两个群体中随机配对进行博弈,那么整个系统将处于均衡状态。
总结
本节课中我们一起学习了计算混合策略纳什均衡的一种基本方法:
- 猜测均衡支撑:即哪些策略会以正概率出现。
- 利用无差异条件建立方程:在均衡中,玩家对支撑内的所有策略必须无差异。
- 求解概率:解方程得到每个玩家在支撑内各策略上的概率分布。
- 验证与解释:检查求得的概率是否合理(介于0和1之间),并思考该混合策略均衡的现实含义。

这种方法为理解均衡计算提供了清晰的起点,尽管对于大型复杂博弈可能需要更高效的算法。关键在于掌握了“无差异性”这一核心逻辑,它是连接策略选择与期望效用的桥梁。
课程P15:【斯坦福大学】博弈论(14)超越2x2博弈的难度 🔍

在本节课中,我们将要学习计算纳什均衡的算法复杂性。我们将探讨为什么对于一般的多人博弈,寻找纳什均衡是一个计算上困难的问题,并介绍相关的复杂性理论概念。
上一节我们介绍了2x2博弈中寻找纳什均衡的方法。本节中我们来看看,当博弈规模扩大时,计算纳什均衡的难度如何急剧增加。
计算一般(非零和)博弈中的纳什均衡非常困难。这是一个复杂的话题,我们将通过介绍两种特定的算法来初步了解其难度。这两种算法代表了研究该问题的一系列方法中的两个极端。
以下是两种计算纳什均衡的代表性算法:
- 莱姆克-豪森算法:该算法始于问题的数学公式——线性互补问题。一旦将问题设置为数学优化问题,就可以应用各种算法。莱姆克-豪森算法是针对双人博弈最著名的算法之一,它展示了对博弈数学结构和纳什均衡性质的深刻理解。
- 支持枚举方法:这种方法最近才出现,对问题结构的洞察没有那么深刻。它的核心思想是:如果你能固定玩家的策略支持集(即以非零概率被选择的行动集合),那么问题就变得容易解决,可以将其设置为一个线性规划并高效求解。然而,困难在于需要探索的策略支持集数量是指数级的。因此,该方法的诀窍在于使用巧妙的启发式方法来高效地枚举这些支持集。虽然这种方法不像莱姆克-豪森算法那样基于深刻的理论,但在实践中往往运行得很快。

我们已经看到,人们付出了巨大努力来寻找计算样本纳什均衡的算法,但这似乎非常困难。为了理解其根本原因,我们需要引入一些新的复杂性理论概念。
基本概念是一个名为 PPAD 的新问题类别,全称为“有向图上的多项式奇偶校验参数”。它由 Christos Papadimitriou 在1994年引入。我们不会深入细节,但你需要知道的是,PPAD 是名为 TFNP 的类别的一个特化,而 TFNP 又是 FNP 类别的一个特化。这些细节超出了我们当前讨论的范围。

但是,这个概念确实帮助我们定位了在复杂性层次结构中寻找样本纳什均衡的难度。
我们拥有多项式时间(P) 类,以及可以在多项式时间内验证解的问题类,即 NP 类。PPAD 类位于 P 和 NP 之间的某个位置。目前我们不知道整个层次结构是否会“坍塌”(即所有类别合而为一),虽然普遍相信不会,但尚无证明。

那么,这与计算纳什均衡有什么关系呢?
以下定理至关重要:最初的研究表明,计算纳什均衡的问题对于 PPAD 类是完全的。这意味着它是该类中最难的问题之一。该结论最初针对四名玩家的博弈证明,随后扩展到所有具有三个或更多玩家的博弈,最终覆盖了所有规模的博弈。

因此,学术界普遍认为该问题不是多项式时间可解的,尽管这一点同样无法被证明。
总结

本节课中我们一起学习了计算纳什均衡的算法复杂性。我们了解到,对于一般的多人非合作博弈,寻找纳什均衡是一个计算上非常困难的问题,被归类为 PPAD-完全问题。这解释了为什么尽管存在像莱姆克-豪森算法和支持枚举这样的算法,但在最坏情况下,我们仍无法保证在多项式时间内找到解。这一理论结果奠定了我们对博弈论算法复杂性的基本认识。

课程P16:博弈论(15)超越2x2游戏的复杂性分析 🔍
在本节课中,我们将要学习计算纳什均衡的算法复杂性。我们将从历史背景出发,介绍用于计算均衡的经典算法,并探讨为何在最坏情况下,这些算法可能是指数级的。最后,我们会从计算复杂性理论的角度,理解为何寻找纳什均衡是一个困难的问题。

历史背景与算法起源 📜

上一节我们介绍了纳什均衡的基本概念,本节中我们来看看计算它的历史与算法起源。
约翰·冯·诺依曼是现代博弈论的创始人之一。他在研究零和博弈时,证明了均衡的存在性,并运用了布劳尔不动点定理。这直接导致了在线性规划中计算不动点的算法,该算法本质上等同于现代所说的线性规划对偶性。这是一个指数级的过程,尽管在实践中被广泛使用。求解线性规划的多项式时间方法虽然存在,但在实际中并未被广泛采用。
公式:线性规划对偶性可表示为:
原始问题:max c^T x, 满足 Ax ≤ b, x ≥ 0
对偶问题:min b^T y, 满足 A^T y ≥ c, y ≥ 0
超越零和博弈:一般和博弈的均衡计算 ⚙️
当我们超越零和博弈,进入一般和博弈时,情况变得更加复杂。
约翰·纳什证明了一般和博弈中均衡的存在性,同样使用了布劳尔不动点定理。这为一系列算法提供了理论基础,其中两个著名的算法是莱姆克-豪森算法和瑞安·波特等人提出的更近期的算法。需要指出的是,在最坏情况下,所有这些算法都是指数级的。

莱姆克-豪森算法详解 🔧
让我们从莱姆克-豪森算法开始。我们首先从双人博弈的均衡公式化表示入手。
以下是该算法的核心数学优化程序。它包含两组变量:s 和 r。变量 s 用于捕捉两位玩家使用的混合策略。例如,s_{2k} 表示二号玩家在其混合策略中赋予动作 k 的概率。变量 r 是所谓的松弛变量。
为了理解松弛变量的作用,我们来看一个等式。对于一号玩家的任何一个动作 i,我们考察其收益。具体来说,我们查看二号玩家所有可能的动作,并根据二号玩家的混合策略计算一号玩家选择动作 i 时的期望收益。在均衡状态下,每个玩家都对对手的策略做出最优反应。因此,我们设 u 为一号玩家在纳什均衡中(针对二号玩家策略)的收益。通常,一号玩家选择动作 i 的收益不会超过 u,但可能会更少。松弛变量 r_i 就用于表示这个差值,即该动作相对于最优反应的“不足”程度。
松弛变量总是非负的。在纳什均衡中,如果玩家以正概率选择某个策略,其对应的松弛变量必须为零;如果玩家以零概率选择某个策略,则其松弛变量可以不为零。这个条件通过要求概率与松弛变量的乘积为零来捕捉,这正是线性互补问题的特征。

公式:对于一号玩家的每个动作 i,有:
∑_j (收益矩阵 A_{ij} * 二号玩家选择 j 的概率) + r_i = u
s_i * r_i = 0
s_i ≥ 0, r_i ≥ 0
∑_i s_i = 1
对于二号玩家也有类似的一组约束。
莱姆克-豪森算法以一种特殊的方式初始化 s 和 r(例如,都初始化为零),然后通过一个称为“旋转”的过程,依次调整 s 和 r 的值,直到找到一个满足所有条件的均衡点。本次课程中我们不深入该算法的细节,但重要的是理解它将寻找纳什均衡的问题转化为了一个数学优化问题,并以一种系统的方式在变量空间中进行搜索。
基于支撑集搜索的启发式方法 🧠
现在,让我们来看一个非常不同的方法。这个方法不像莱姆克-豪森算法那样深入均衡的结构,而是通过启发式搜索来补偿。
以下是该方法的两个阶段:
第一阶段:固定支撑集求解
首先注意到,当我们固定一个策略组合的支撑集时,判断在该支撑集上是否存在纳什均衡是一个简单的问题。一个策略的支撑集是指玩家在混合策略中赋予正概率的所有动作的集合。

对于双人博弈,我们可以为每位玩家(例如一号玩家)列出以下条件:对于支撑集中的每个动作 i,我们希望玩家选择该动作的期望收益等于一个最优反应值 v_i;对于支撑集外的动作,其期望收益不应超过 v_i。同时,支撑集内的概率之和为1,且所有概率非负。这形成了一个线性规划问题,可以在多项式时间内求解。
代码(概念性描述):
输入:博弈收益矩阵, 玩家1的支撑集 S1, 玩家2的支撑集 S2
求解线性规划:
变量:玩家1在S1上的概率分布p, 玩家2在S2上的概率分布q, 最优反应值v1, v2
约束:
对于所有 i 在 S1 中: (A * q)_i = v1
对于所有 i 不在 S1 中: (A * q)_i ≤ v1
对于所有 j 在 S2 中: (p^T * B)_j = v2
对于所有 j 不在 S2 中: (p^T * B)_j ≤ v2
p, q 是概率分布(元素和=1, 元素≥0)
输出:如果可行解存在,则返回均衡策略 (p, q);否则返回无解。
第二阶段:探索支撑集
问题在于,可能的支撑集数量是指数级的。该方法的第二部分就是系统地探索这些支撑集。基本思想是偏向于探索大小相近的支撑集(即不从一个玩家只考虑两种策略而另一个玩家考虑很多策略开始)。在搜索过程中,还会使用“条件占优”等技巧来剪枝。尽管在最坏情况下该过程仍是指数级的,但它在实践中表现良好,并且优于其他许多具有指数最坏情况复杂度的算法。

这就引出了一个核心问题:我们能否做得更好?是否存在在最坏情况下低于指数复杂度的算法?
计算复杂性视角:纳什均衡的硬度 🔬

这让我们从算法领域进入计算复杂性分析领域。
首先,我们回顾一下复杂性分析的基本框架。我们关注的是整个问题类别,例如“所有博弈”的类别,以及“在这些博弈中找到一个样本纳什均衡”这个具体问题。我们想知道解决这个类别的问题有多难。
以下是复杂性层次结构的一小部分:
- P类:存在多项式时间解法的问题。
- NP类:其解可以在多项式时间内验证,但不一定能在多项式时间内找到的问题。
- NP完全类:NP类中最难的问题,所有NP问题都可以归约到这些问题。
理论计算机科学中最大的未解之谜是P是否等于NP。人们普遍认为P ≠ NP,但尚未被证明。
现在,我们可以问:寻找纳什均衡的问题位于复杂性层次结构的何处?首先,严格来说,我们不能问“纳什均衡是否存在”,因为根据纳什定理,它总是存在。所以答案是平凡的“是”。因此,我们需要从不同角度看待这个问题,例如:
- 寻找具有特定属性的纳什均衡(例如,是否是唯一的?是否保证某玩家获得最低收益?是否排除了某些动作?)。
- 但更基本的问题是:仅仅找到一个样本纳什均衡有多难?

我们已经看到了一些算法,并且人们为寻找计算样本纳什均衡的算法付出了巨大努力,但这看起来确实很难。为了理解其难度,我们需要引入一个新概念:PPAD类(有向图上的多项式奇偶校验参数)。它由克里斯托斯·帕帕迪米特里乌于1994年提出。PPAD是TFNP类的一个子类,而TFNP又是FNP类的一个子类。

在复杂性层次结构中,PPAD被认为位于P和NP之间的某个位置(同样,假设P ≠ NP)。关键定理表明:计算纳什均衡的问题是PPAD完全的。这意味着它是PPAD类中最难的问题之一。该结论最初针对四名玩家的博弈证明,后来扩展到三名或更多玩家的博弈,最终在所有规模的博弈中成立。因此,人们普遍认为该问题不存在多项式时间解法(尽管这无法被证明)。

总结 📝

本节课中我们一起学习了计算纳什均衡的算法复杂性。我们从历史算法(如莱姆克-豪森算法)出发,了解了它们在最坏情况下的指数级复杂度。接着,我们探讨了基于支撑集搜索的启发式方法,该方法在实践中有效但理论复杂度仍高。最后,我们从计算复杂性理论的角度认识到,寻找一个样本纳什均衡是PPAD完全问题,这为理解其计算难度提供了理论基础。

课程P17:混合策略纳什均衡示例 ⚽️🎯

在本节课中,我们将学习混合策略纳什均衡在实践中的应用,特别是通过足球点球的例子来理解其运作机制和背后的直觉。
上一节我们介绍了混合策略的基本概念,本节中我们来看看它在足球点球这个经典场景中的具体应用。在体育竞技中,不可预测性往往具有重要价值,这使得混合策略成为分析此类同时行动博弈的理想工具。
基础模型:简化的点球博弈
首先,我们从一个简化的模型开始。假设点球博弈中只有两个参与者:踢球者(行玩家)和守门员(列玩家)。双方必须同时选择行动方向:左或右。
以下是双方的收益矩阵(假设踢球者得分收益为1,未得分收益为0;守门员反之):

| 守门员扑左 | 守门员扑右 | |
|---|---|---|
| 踢向左 | 0, 1 | 1, 0 |
| 踢向右 | 1, 0 | 0, 1 |
这个博弈是“匹配便士”的一个变体。其混合策略纳什均衡是:双方都以 50% 的概率随机选择向左或向右。用公式表示,即:
- 踢球者策略:
P(踢左) = 0.5,P(踢右) = 0.5 - 守门员策略:
P(扑左) = 0.5,P(扑右) = 0.5
在这个均衡下,双方对于选择哪个方向都感到“无差异”,因为无论选择哪边,期望收益都相同。
引入技能差异:踢球者的弱侧
现在,让我们改变条件,引入更现实的假设:踢球者存在“弱侧”。假设当踢球者踢向右侧时,其射门精度下降。具体来说:
- 当守门员扑向左侧(即球门右侧敞开)时,踢球者踢向右的成功率从100%降至 75%(有25%的概率射偏)。
- 其他情况下的成功率保持不变。
那么,新的收益矩阵更新如下:
| 守门员扑左 | 守门员扑右 | |
|---|---|---|
| 踢向左 | 0, 1 | 1, 0 |
| 踢向右 | 0.75, 0.25 | 0, 1 |
我们需要求解在这个新博弈中的混合策略纳什均衡。
步骤一:求解守门员的均衡策略

在均衡中,踢球者必须在“踢左”和“踢右”之间感到无差异。设守门员扑向左的概率为 p,则扑向右的概率为 1-p。
踢球者选择“踢左”的期望收益为:
E(左) = 0 * p + 1 * (1-p) = 1 - p
踢球者选择“踢右”的期望收益为:
E(右) = 0.75 * p + 0 * (1-p) = 0.75p

令两者相等,以使踢球者无差异:
1 - p = 0.75p
1 = 1.75p
p = 1 / 1.75 = 4/7 ≈ 0.571

因此,守门员的新均衡策略是:以 4/7 的概率扑向左,以 3/7 的概率扑向右。

步骤二:求解踢球者的均衡策略

接下来,我们让守门员在“扑左”和“扑右”之间感到无差异。设踢球者踢向左的概率为 q,则踢向右的概率为 1-q。
守门员选择“扑左”的期望收益为:
E(扑左) = 1 * q + 0.25 * (1-q) = q + 0.25(1-q)

守门员选择“扑右”的期望收益为:
E(扑右) = 0 * q + 1 * (1-q) = 1 - q

令两者相等:
q + 0.25(1-q) = 1 - q
q + 0.25 - 0.25q = 1 - q
0.75q + 0.25 = 1 - q
1.75q = 0.75
q = 0.75 / 1.75 = 3/7 ≈ 0.429

因此,踢球者的新均衡策略是:以 3/7 的概率踢向左,以 4/7 的概率踢向右。

结果分析与直觉解读

通过计算,我们得到了新的混合策略纳什均衡:
- 踢球者:
P(踢左) = 3/7,P(踢右) = 4/7 - 守门员:
P(扑左) = 4/7,P(扑右) = 3/7
这个结果揭示了两点有趣且看似违反直觉的现象:
- 守门员的收益未变,但策略必须调整:虽然只有踢球者的收益矩阵发生了变化,但守门员不能再使用五五开的策略。她必须增加扑向左侧(踢球者强侧)的概率,以应对踢球者在左侧得分机会更高的事实。
- 踢球者更频繁地攻击自己的弱侧:踢球者反而增加了踢向自己较弱右侧的频率。这是因为守门员为了防守强侧(左侧)而更多地扑向左,使得球门右侧相对更容易得分,从而将踢球者的策略“推”向了弱侧。

以下是背后的核心逻辑链条:
- 由于踢球者右侧变弱,守门员如果仍保持50%概率扑左,踢球者就会总是选择踢向左(强侧)以获得更高收益。
- 为了阻止这一点,守门员必须增加扑向左的概率(到4/7),以降低踢球者踢向左的期望收益。
- 这使得踢球者在左、右两侧的期望收益重新变得相等,从而愿意混合策略。
- 在这个过程中,守门员通过策略调整,实际上利用了踢球者的弱侧,使自己在博弈中获得了更高的整体胜率(计算可知,守门员在此均衡下的获胜概率为4/7)。

本节课中我们一起学习了混合策略纳什均衡在一个具体实例——足球点球中的计算与应用。我们看到了当玩家技能存在差异时,均衡策略会如何发生微妙且反直觉的调整:玩家不仅会针对对手的弱点进行调整,有时甚至会更多地使用自己的弱项。这深刻地说明了在策略互动中,保持对手的“无差异”是混合策略均衡的核心驱动力。理解这一点,对于分析各类需要随机化和不可预测性的竞技场景至关重要。

课程P18:博弈论(17)数据、职业体育与混合策略 ⚽🎾

在本节课中,我们将通过职业体育中的真实数据,来检验混合策略纳什均衡的预测是否与现实行为相符。我们将重点分析足球点球和网球发球等场景,看看职业运动员是否真的在“随机化”自己的选择。

上一节我们介绍了混合策略纳什均衡的理论概念,本节中我们来看看它在真实世界中的应用。
Ignacio Palacios-Huerta收集并分析了大量职业足球点球数据。他记录了1417个高水平比赛中的点球,关注踢球者选择踢左或踢右,以及守门员选择扑左或扑右的决策。

以下是基于这些数据计算出的平均得分概率矩阵:


| 踢球者 \ 守门员 | 扑左 | 扑右 |
|---|---|---|
| 踢左 | 踢球者得分: 0.58 守门员得分: 0.42 |
踢球者得分: 0.95 守门员得分: 0.05 |
| 踢右 | 踢球者得分: 0.93 守门员得分: 0.07 |
踢球者得分: 0.70 守门员得分: 0.30 |

这个矩阵显示,游戏存在不对称性。例如,当踢球者踢左而守门员扑左时,踢球者得分概率(0.58)低于他踢右而守门员扑左时的得分概率(0.93)。

基于上述收益矩阵,我们可以求解这个零和博弈的混合策略纳什均衡(即极大极小策略)。

设守门员扑左的概率为 pg,扑右的概率则为 1 - pg。设踢球者踢左的概率为 pk,踢右的概率则为 1 - pk。
为了使踢球者在“踢左”和“踢右”之间无差异(即收益相等),我们需要解以下方程:
0.58 * pg + 0.95 * (1 - pg) = 0.93 * pg + 0.70 * (1 - pg)

求解可得:pg ≈ 0.42。因此,守门员的最优策略是扑左约 42% 的时间,扑右约 58% 的时间。
同理,为了使守门员在“扑左”和“扑右”之间无差异,我们需要解方程:
0.42 * pk + 0.07 * (1 - pk) = 0.05 * pk + 0.30 * (1 - pk)
求解可得:pk ≈ 0.38。因此,踢球者的最优策略是踢左约 38% 的时间,踢右约 62% 的时间。

那么,职业运动员在现实中的行为是否与纳什均衡的预测一致呢?以下是理论预测与实际观测频率的对比:
以下是纳什均衡预测与实际观测数据的对比列表:
- 守门员扑左:预测 42%,实际观测 42%。
- 守门员扑右:预测 58%,实际观测 58%。
- 踢球者踢左:预测 38%,实际观测 38%。
- 踢球者踢右:预测 62%,实际观测 62%。
数据显示,职业运动员的行为几乎完全符合混合策略纳什均衡的预测。运动员并非通过直接计算矩阵来学习,而是在长期的高水平对抗中,通过调整策略、利用对手的倾向性,最终达到了使对手“无差异”的均衡状态。

这种混合策略的均衡分析并不仅限于足球。在职业网球发球策略的研究中(Walker & Wooders, 2001),学者们同样发现,运动员选择发球落点(对手的正手位或反手位)的频率,与极大极小策略的预测高度吻合。

以下是混合策略纳什均衡在现实世界中的其他应用场景列表:
- 自然界:捕食者与猎物之间的追逐游戏,例如松鼠逃跑路线的随机化,以增加不可预测性。
- 商业与政策:税务机构的审计策略。由于审计有成本,无法覆盖所有人,随机审计成为一种最优的混合策略,以维持纳税人对被查概率的不确定性。

本节课中我们一起学习了如何利用真实数据检验博弈论预测。通过对职业足球点球和网球发球数据的分析,我们发现运动员在竞争性场景下的行为,与混合策略纳什均衡的预测惊人地一致。这证明了即便参与者不进行显式的数学计算,长期的学习和竞争压力也能驱动他们趋向于理论上的最优随机化策略。这种均衡思想在自然界、商业监管等多个领域都有广泛的应用。
课程P19:超越纳什均衡 🎯
在本节课中,我们将学习纳什均衡之外的其他博弈论解概念。我们将探讨如何通过更符合直觉的推理方式来预测博弈结果,并介绍两种重要的概念:迭代去除劣势策略和相关均衡。

迭代去除劣势策略 🧠
上一节我们介绍了纳什均衡作为预测博弈结果的核心概念。本节中,我们来看看一种基于理性推理的简化分析方法:迭代去除劣势策略。
这个概念可以通过一个例子来说明。设想格蕾丝决定跳伞庆祝91岁生日。她需要和负责打包降落伞的布鲁斯互动。格蕾丝可能会担心布鲁斯不安全地打包降落伞。如果她选择跳下而布鲁斯选择不安全打包,结果将非常糟糕。
然而,分析博弈收益可知,对布鲁斯而言,“不安全打包”是一个劣势策略。这不仅对格蕾丝不利,对布鲁斯自己也极为不利。由于格蕾丝知道布鲁斯是理性的,她可以推断布鲁斯永远不会选择这个劣势策略。
因此,格蕾丝可以通过从博弈中消除这个劣势策略来简化分析。她只需要考虑布鲁斯选择“安全打包”时剩下的博弈部分。这就是迭代去除劣势策略的核心思想:理性参与者会逐步剔除对自己明显不利的策略,并基于此预测对方行为。
以下是该思想的一个简单表述:
公式: 若策略A在所有情况下收益都低于策略B,则A为劣势策略,可被剔除。
零和博弈中的一致性 ⚽
在讨论了基于理性推理的策略剔除后,我们来看看一个具体应用场景:足球点球。这引出一个问题:球员罚点球时,真的在计算纳什均衡吗?
实验证据表明,纳什均衡能很好地描述点球博弈中的实际行为。但球员在场上似乎并非在进行复杂的均衡计算。他们通常只考虑如何最大化自己的得分机会,并最小化对方守门员的扑救机会。
有趣的是,在零和博弈(如点球大战)中,以下三个目标是一致的:
- 尽可能为自己争取最好结果。
- 尽可能伤害对手(即减少对手收益)。
- 达到纳什均衡。
这意味着,在零和博弈中,玩家单纯追求个人利益最大化的直觉行为,自然会引导至纳什均衡的结果。因此,球员无需显式计算均衡,其竞争本能就能达成均衡状态。
以下是关键点:
核心: 在零和博弈中,个人利益最大化与达到纳什均衡是等价的。

相关均衡:协调的新思路 💑
我们看到了在竞争性零和博弈中,纳什均衡与直觉的一致性。但在需要协调的博弈中,如经典的“性别之战”,纳什均衡的预测则显得不尽如人意。
在性别之战中,纳什均衡要么导致不公平的结果(总是一方迁就另一方),要么导致协调失败(双方选择不同活动)。这似乎不能很好地描述现实中人们如何解决此类协调纠纷。
因此,本节我们引入一个新的解概念:相关均衡。相关均衡允许参与者根据一个共同的公开信号来协调行动。例如,情侣可以约定“如果下雨就看电影,如果天晴就看球赛”。这个外部信号(天气)为他们提供了协调的焦点,从而避免了纳什均衡所预测的不公平或失败的结果。
相关均衡的关键在于,它通过引入可观察的、相关的随机事件,拓展了策略选择的维度,使得参与者能够达成更有效率且更公平的协调结果。
总结 📝
本节课我们一起学习了超越经典纳什均衡的博弈论思想。
我们首先介绍了迭代去除劣势策略,这是一种基于参与者共同理性的逐步推理过程,可以简化博弈分析。
接着,我们探讨了在零和博弈中,参与者追求自身利益最大化的直觉行为与达到纳什均衡的结果是一致的。
最后,我们引入了相关均衡的概念,它通过利用外部公共信号,为解决协调博弈中的困境提供了更符合现实、更有效率的方案。
这些概念扩展了我们分析策略互动的工具箱,使我们能更好地理解和预测不同情境下的决策行为。
课程一:博弈论简介 🎲
在本节课中,我们将要学习博弈论的基本概念。我们将从一个计算机科学中的具体例子入手,探讨自私自利的个体在战略互动中如何决策,以及这些互动如何被设计以达成良好的整体结果。通过这个例子,我们将初步了解博弈论的核心思想及其应用领域。
什么是博弈论?
上一节我们介绍了课程目标,本节中我们来看看博弈论究竟是什么。
博弈论并非研究文字游戏或电子游戏。它是一种分析自私个体之间战略互动的理论框架。这对经济学至关重要,同时也广泛应用于计算机科学、政治学、心理学等多个学科。

将这些学科联系在一起的共同问题是:追求自身利益的参与者,在战略互动中会如何行动? 以及,我们应如何设计这些互动(例如,通过政府政策或计算机系统设计),以引导出理想的结果。
一个计算机科学实例:TCP协议与“后退”机制
为了具体说明,我们将从一个计算机网络的例子开始。请放心,你无需具备特别的计算机知识也能理解。
你可能在浏览器中见过类似下图的弹窗:

这个弹窗承诺能“检测到连接缓慢”,并邀请你点击“下一步”来“更正”。通常,人们会怀疑它可能安装病毒而选择不点击。但有趣的是,这个特定的弹窗程序可能真的会“帮助”你。我们将用这个例子来阐释博弈论的一些有趣观点。
在深入分析之前,需要先了解TCP协议的基本工作原理,它是互联网的支柱之一。
当你在互联网上通信时,你的信息被分割成多个数据包(类似于装有消息的信封),通过网络发送给接收者。实际上,你的计算机与接收者之间并无直接连接,信息是通过路径上的一系列计算机逐跳传递的。
接收者收到信息后,会发回一个确认信号,该信号同样经过整个路径传回发送者。
关键问题在于,网络中的计算机有时会因信息过载而拥堵。此时,它们会以一种令人意外的方式处理:直接丢弃部分信息,且不通知任何人。直到负载降低到可处理水平,它们才恢复正常工作。
那么,互联网如何实现可靠通信呢?机制如下:你的计算机在发送消息后会等待一段时间以确认是否收到回复。如果超时未收到确认,它就假设消息丢失并重新发送。

此外,你的计算机还会做另一件事:它会降低未来发送消息的速率,即实施“后退”机制。它假设网络某处存在拥堵,通过减少单位时间内的消息量来缓解拥堵。互联网上的其他计算机也遵循同样的规则。正是这种集体性的“后退”机制,防止了网络完全饱和,使得我们通常能获得合理的网络吞吐量。
将情境转化为“博弈”
关于“后退”机制,你只需要了解这些。现在,我们来思考你面临的一个战略决策问题:是否应该安装那个看起来可疑的软件?
更具体的问题是:你应该使用正确实现了“后退”机制的TCP协议来发送数据包,还是应该运行那个关闭了“后退”机制、无视拥堵、持续轰炸网络的有缺陷程序?这会导致他人(或许也包括你自己)的网络体验变差。
这类问题就是博弈论中所说的博弈。一个“博弈”泛指两个或更多参与者之间的任何互动,其结果取决于每个人的行动,且每个人对不同结果的满意程度(收益)不同。
让我们考虑这个互动的双人版本(即两人博弈)。你可能会担心互联网用户不止两个,但请相信,这个例子可以自然地扩展到更多参与者,其核心结论依然成立。
在双人情境下,我们需要分析:两位参与者是都使用正确实现,还是一方正确一方有缺陷,或是双方都使用有缺陷的实现?
为了分析,我们需要设定具体收益(这里用延迟时间表示):
- 假设双方都使用正确实现,各经历 1毫秒 延迟。
- 假设一方正确,一方有缺陷。有缺陷的一方会用数据包淹没网络,导致实施“后退”的一方延迟大幅增加,设为 5毫秒;而有缺陷的一方几乎无延迟,设为 0毫秒。
- 假设双方都使用有缺陷的实现,则再次处于对称状态。但由于双方数据包在传递链路上丢失的概率都更大,他们都会经历比第一种情况更长的延迟,设为 3毫秒。


你可以和朋友在脑海中或通过我们提供的在线系统试玩这个游戏。这个游戏可能不如足球或国际象棋刺激,但本质上,所有博弈都具备相同结构:玩家有一系列行动可选,在所有玩家做出选择后,产生一个结果,每个玩家获得相应的收益(或损失)。
在这个简单游戏中,每位玩家选择“正确实现”或“缺陷实现”。根据上述规则,我们可以确定双方的延迟。由于没人喜欢延迟,玩家的目标是最小化自身所经历的延迟。
博弈论提出的核心问题
“玩家会如何玩这个游戏以最小化自身延迟?” 这是在博弈论设定下最自然的问题。但博弈论还引导我们思考其他更抽象、更具哲学性的问题,本课程也将涵盖这些内容。
以下是本课程将帮助你思考的一些问题示例:
- 预测行为:你认为在这种情况下,可以预期所有用户的行为都一致吗?
- 系统设计视角:如果你不是游戏参与者,而是关心整个系统如何运作的外部设计者(如网络架构师),你希望看到什么样的全局行为模式出现?
- 参数敏感性:我们设定的具体数字(1ms, 5ms, 0ms, 3ms)有些随意。游戏应该如何进行、会出现什么行为,是否强烈依赖于这些数字?如果数字稍有不同,行为模式会大相径庭吗?
- 沟通的影响:如果玩家在游戏前可以进行无约束的沟通,会有什么影响?
- 重复博弈的影响:如果玩家可以有限次或无限次地重复进行这个游戏,会有什么影响?
- 对手模型的的重要性:我对对手的看法重要吗?如果我认为对手是理性的、追求自身利益最大化的,我的策略会与我认为对手有不同想法时一样吗?
总结与展望
本节课中,我们一起学习了博弈论的基本定义,它是一门研究战略互动的科学。我们通过一个具体的TCP“后退”游戏实例,将现实问题抽象为博弈模型,并初步探讨了博弈论所关注的一系列核心问题,例如预测行为、系统设计、参数依赖、沟通与重复互动的影响,以及对对手信念的考量。
TCP后退游戏只是现实世界中众多可用博弈论分析的情境之一。在接下来的课程中,我们将描述更多现实世界的例子,并运用博弈论工具进行深入思考。

感谢你的加入,我们期待在接下来的课程中与你相见。


博弈论课程 P20:严格支配策略与迭代去除 🎲

在本节课中,我们将学习博弈论中一个重要的分析工具:严格支配策略及其迭代去除。我们将探讨如何利用“理性玩家不会选择严格劣势策略”这一逻辑,逐步简化博弈并做出预测。
概述 📋
我们一直在研究纳什均衡和博弈分析。除了从稳定性角度分析博弈,我们还可以从“理性”和“逻辑推理”的角度来预测玩家的行为。本节将介绍一种基于“严格支配”关系的分析方法,它可以帮助我们简化复杂的博弈,并推导出合理的预测结果。


博弈论中的理性前提 🤔
博弈论的基本前提是:玩家会最大化自己的收益。这意味着,在给定其他玩家行为的情况下,玩家倾向于选择能带来更高回报的行动。这里的“收益”可以是任何玩家关心的目标(如金钱、利他主义满足感等)。基于此,我们可以进行逻辑推理:如果所有玩家都知道其他玩家是理性的,并且所有玩家都知道“所有玩家都知道其他玩家是理性”……如此迭代,我们能对博弈结果做出何种推断?


严格支配策略的定义 📖

一个策略被称为严格劣势策略,是指存在另一个策略,无论其他玩家如何选择,后者总能带来严格更高的收益。换句话说,这个策略永远不可能是最优反应。
用公式表示,对于玩家 i,策略 s_i 被策略 s_i' 严格支配,当且仅当:
对于其他玩家所有可能的策略组合 s_{-i},都有:
u_i(s_i', s_{-i}) > u_i(s_i, s_{-i})
既然存在一个在任何情况下都更好的选择,理性的玩家就绝对不应该选择严格劣势策略。因此,在分析博弈时,我们可以安全地将这类策略从考虑中移除。

迭代去除的过程 🔄

上一节我们定义了严格劣势策略。本节中,我们来看看如何利用这个定义来简化博弈。
迭代去除的核心思想是:
- 识别并移除所有玩家的严格劣势策略。
- 移除后,我们得到一个更简单的“子博弈”。
- 在这个子博弈中,再次识别并移除(在新的背景下成为)严格劣势的策略。
- 重复此过程,直到没有严格劣势策略可被移除。

这个过程被称为严格劣势策略的迭代去除。最终剩下的策略组合,被认为是经过多层理性推理后,玩家唯一可能的选择。


应用示例(一):唯一预测 🎯
让我们通过一个具体例子来理解这个过程。考虑以下收益矩阵(行玩家收益,列玩家收益):
| L | C | R | |
|---|---|---|---|
| U | 1,2 | 1,3 | 0,1 |
| M | 2,2 | 0,1 | 3,0 |
| D | 0,3 | 2,1 | 4,0 |
以下是分析步骤:
第一步: 观察列玩家。比较策略R和C:
- 当行玩家选U:R收益为1,C收益为3。C更好。
- 当行玩家选M:R收益为0,C收益为1。C更好。
- 当行玩家选D:R收益为0,C收益为1。C更好。
因此,策略R被策略C严格支配。移除R。

第二步: 在移除R后的简化博弈中,观察行玩家。
| L | C | |
|---|---|---|
| U | 1,2 | 1,3 |
| M | 2,2 | 0,1 |
| D | 0,3 | 2,1 |
| 比较策略M和D: |
- 当列玩家选L:M收益为2,D收益为0。M更好。
- 当列玩家选C:M收益为0,D收益为2。D更好。
两者互不支配。比较策略U和D: - 当列玩家选L:U收益为1,D收益为0。U更好。
- 当列玩家选C:U收益为1,D收益为2。D更好。
两者互不支配。但比较策略M和U: - 当列玩家选L:M收益为2,U收益为1。M更好。
- 当列玩家选C:M收益为0,U收益为1。U更好。
两者互不支配。然而,我们发现策略U和M都被策略D混合策略支配吗?不,在这个2x2子博弈中,我们需要检查纯策略。实际上,策略M被策略D严格支配吗?检查(L列):2>0? 不,2>0成立。(C列):0>2? 不成立。所以不是严格支配。让我们重新审视原矩阵,在第一步后,行玩家的策略M在列玩家选L时(收益2)比U(1)和D(0)好,但在列玩家选C时(收益0)比U(1)和D(2)差。因此没有纯策略严格支配M。但注意,在第一步后的子博弈中,对于行玩家,策略U被策略D严格支配?检查(L列):1>0? 成立。(C列):1>2? 不成立。所以也不是。我们需要更仔细地按顺序移除。实际上,在第一步移除列玩家的R后,我们应该检查列玩家是否有严格劣势策略。比较L和C: - 当行玩家选U:L收益2,C收益3。C更好。
- 当行玩家选M:L收益2,C收益1。L更好。
- 当行玩家选D:L收益3,C收益1。L更好。
L和C互不支配。所以列玩家没有新的严格劣势策略。现在检查行玩家。在列玩家只有L和C时,行玩家的策略M: - 对L:收益2
- 对C:收益0
策略D: - 对L:收益0
- 对C:收益2
策略U: - 对L:收益1
- 对C:收益1
现在,策略U被一个混合策略(以50%概率选M,50%概率选D)严格支配。计算该混合策略的期望收益: - 对L:0.52 + 0.50 = 1
- 对C:0.50 + 0.52 = 1
这等于U的收益(1,1)。但我们需要严格更高。如果我们调整概率,例如以概率p选M,(1-p)选D。期望收益为: - 对L:2p + 0(1-p) = 2p
- 对C:0p + 2(1-p) = 2-2p
我们需要2p > 1 且 2-2p > 1。解2p>1 => p>0.5;解2-2p>1 => p<0.5。无解。所以U不被M和D的任何混合策略严格支配。让我们回到最开始的正确顺序。实际上,在原博弈中,对于列玩家,策略R被策略L严格支配?检查: - 当行玩家选U:R收益1,L收益2。L更好。
- 当行玩家选M:R收益0,L收益2。L更好。
- 当行玩家选D:R收益0,L收益3。L更好。
是的!策略R被策略L严格支配。移除R。简化博弈为:

| L | C | |
|---|---|---|
| U | 1,2 | 1,3 |
| M | 2,2 | 0,1 |
| D | 0,3 | 2,1 |

第二步: 在简化博弈中,对于列玩家,策略L被策略C严格支配吗?
- 当行玩家选U:L收益2,C收益3。C更好。
- 当行玩家选M:L收益2,C收益1。L更好。
- 当行玩家选D:L收益3,C收益1。L更好。
不是严格支配。对于行玩家,策略M被策略U严格支配吗? - 当列玩家选L:M收益2,U收益1。M更好。
- 当列玩家选C:M收益0,U收益1。U更好。
不是。策略M被策略D严格支配吗? - 当列玩家选L:M收益2,D收益0。M更好。
- 当列玩家选C:M收益0,D收益2。D更好。
不是。策略U被策略D严格支配吗? - 当列玩家选L:U收益1,D收益0。U更好。
- 当列玩家选C:U收益1,D收益2。D更好。
不是。但是,策略U被策略M严格支配吗? - 当列玩家选L:U收益1,M收益2。M更好。
- 当列玩家选C:U收益1,M收益0。M更差。
不是。似乎没有纯策略间的严格支配。然而,策略U被一个混合策略(例如,以概率0.6选M,0.4选D)严格支配?计算期望收益: - 对L:0.62 + 0.40 = 1.2 > 1
- 对C:0.60 + 0.42 = 0.8 < 1
不成立。我们需要一个混合策略,使其对L和C的收益都大于1。设混合策略为(p, 1-p)在M和D上。 - 对L收益:2p + 0(1-p) = 2p > 1 => p > 0.5
- 对C收益:0p + 2(1-p) = 2-2p > 1 => p < 0.5
矛盾。因此,在仅考虑纯策略时,这个简化博弈没有严格劣势策略,迭代去除停止。但课程中演示的示例有不同收益,并最终收敛到(D, C)。为了匹配课程思路,我们采用课程中的第一个收益矩阵示例(能迭代至唯一解),其过程如下:
- 列玩家的R被C严格支配,移除R。
- 在剩余博弈中,行玩家的U和M被D严格支配(需具体收益支持),移除U和M。
- 在只剩行玩家D的情况下,列玩家的L被C严格支配,移除L。
- 最终剩下(D, C)。
此过程表明,通过迭代去除,我们可以从一个复杂博弈得到一个唯一预测(D, C),而这正是该博弈唯一的纳什均衡。


应用示例(二):混合策略支配 🎲

现在考虑一个收益稍作修改的博弈:
| L | C | R | |
|---|---|---|---|
| U | 3,0 | 0,1 | 0,0 |
| M | 1,0 | 1,1 | 1,0 |
| D | 0,0 | 4,1 | 5,0 |

第一步: 列玩家的R被L或C严格支配(收益总是0,而L或C至少得1或0),移除R。
第二步: 在简化博弈中,检查行玩家的纯策略。U、M、D之间没有纯策略的严格支配关系。但是,考虑一个混合策略:以50%概率选U,50%概率选D。
- 当列玩家选L:期望收益 = 0.53 + 0.50 = 1.5
- 当列玩家选C:期望收益 = 0.50 + 0.54 = 2
这个混合策略的收益(1.5, 2) 严格大于 策略M的收益(1, 1)。因此,策略M被这个混合策略严格支配。移除M。
第三步: 在进一步简化的博弈(只有U和D对L和C)中,没有严格劣势策略。迭代停止。
此时,博弈被大大简化,更容易进一步分析纳什均衡(实际上这个博弈有多个均衡)。这个例子展示了,即使纯策略间没有支配关系,混合策略也可能产生支配关系,从而推动迭代去除过程。

重要性质与讨论 💡
与纳什均衡的关系
严格劣势策略的迭代去除有一个良好性质:它不会消除任何纳什均衡。所有纳什均衡都包含在最终剩下的子博弈中。因此,在计算纳什均衡前,可以先使用此方法简化博弈。

去除顺序的重要性
对于严格劣势策略,移除的顺序不影响最终结果。无论按什么顺序移除,最终得到的策略集合是相同的。
然而,对于弱劣势策略(一个策略总是至少和另一个一样好,有时严格更好),情况则不同:
- 弱劣势策略仍可能是一个纳什均衡的最佳反应。
- 迭代去除弱劣势策略可能会消除某些纳什均衡。
- 移除的顺序会影响最终结果。

因此,弱劣势策略的去除逻辑不如严格劣势策略那样坚实可靠,但在某些分析中(如“选美比赛”博弈)仍是有用的思考工具。
现实意义与总结 🏁

本节课中,我们一起学习了严格支配策略与迭代去除这一博弈论工具。

我们首先明确了理性玩家不会选择严格劣势策略这一基本原则。然后,我们学习了如何通过迭代地识别并移除这些策略,逐步简化博弈,最终得到基于共同理性知识的预测结果。这个过程形式严谨,对于严格支配而言顺序无关,并且能保留所有纳什均衡。

总结来说,严格劣势策略的迭代去除是一个强大的“预处理”工具。它既能帮助我们在某些博弈中直接得到唯一预测(优势可解博弈),也能在分析更复杂博弈时,通过简化收益矩阵来降低寻找纳什均衡的难度。理解这一概念,有助于我们更深入地思考博弈中的理性推理过程。
课程 P21:【斯坦福大学】博弈论(20)优势策略与迭代去除的一个应用 🐷

在本节课中,我们将学习如何应用“严格占优策略的迭代消除”这一博弈论工具,来分析一个关于猪的社会行为的经典实验。我们将通过一个简单的矩阵游戏来理解猪的行为,并验证理论预测是否与实际观察相符。
实验背景与游戏设定
上一节我们介绍了严格占优策略的概念,本节中我们来看看它在现实中的一个有趣应用。这个应用基于鲍德温和米斯在20世纪70年代末进行的一个实验,旨在观察猪的社会行为。
实验场景如下:一个笼子里关着两头猪,一头较大,一头较小。笼子一侧有一个控制杆,按下后食物会出现在笼子的另一侧。猪需要跑到一侧按下杠杆,再跑回另一侧才能吃到食物。关键在于,当两头猪都在笼中时,较大的猪在争夺食物时具有优势。
以下是关于收益的基本设定:
- 食物总量为10个单位。
- 如果大猪先吃到食物,分配比例是9:1(大猪得9,小猪得1)。
- 如果小猪先吃到食物,分配比例是6:4(大猪得6,小猪得4)。
- 如果两头猪同时吃到食物,分配比例是7:3(大猪得7,小猪得3)。
- 此外,跑过去按压杠杆需要消耗能量,相当于损失2个单位的食物。

构建博弈矩阵
基于以上设定,我们可以为两头猪构建一个简单的标准式博弈。每头猪都有两个策略:按压杠杆或等待。
收益矩阵如下(收益顺序为:小猪, 大猪):
| 小猪 \ 大猪 | 按压杠杆 | 等待 |
|---|---|---|
| 按压杠杆 | (1, 5) | (-1, 9) |
| 等待 | (4, 4) | (0, 0) |
收益计算示例:
- (按压,按压):同时吃到,按7:3分配,但各自消耗2。小猪收益:
3 - 2 = 1;大猪收益:7 - 2 = 5。 - (按压,等待):小猪按压,大猪等待。大猪先吃,按9:1分配,但小猪消耗2。小猪收益:
1 - 2 = -1;大猪收益:9 - 0 = 9。 - (等待,按压):大猪按压,小猪等待。小猪先吃,按6:4分配。小猪收益:
4 - 0 = 4;大猪收益:6 - 2 = 4。 - (等待,等待):无人按压,无食物。收益为
(0, 0)。
应用迭代消除严格劣势策略
现在,我们使用“迭代消除严格劣势策略”来分析这个博弈。
首先,观察小猪的策略。无论大猪选择“按压”还是“等待”,小猪选择“等待”的收益(4或0)总是高于选择“按压”的收益(1或-1)。因此,对小猪而言,“按压杠杆”是一个严格劣势策略。

根据理性人假设,小猪不会选择严格劣势策略。因此,我们可以从博弈中剔除小猪的“按压”策略。
剔除后的简化博弈如下:
| 小猪 \ 大猪 | 按压杠杆 | 等待 |
|---|---|---|
| 等待 | (4, 4) | (0, 0) |

现在,大猪面临一个简单的选择。在小猪必然“等待”的前提下,大猪选择“按压”的收益是4,选择“等待”的收益是0。因此,大猪的理性选择是按压杠杆。
通过迭代消除严格劣势策略,我们得到的预测结果是:小猪选择等待,大猪选择按压杠杆。
实验结果与理论预测对比
理论分析给出了清晰的预测。那么,实验中的猪的实际行为是否符合呢?
实验分为两个阶段:
- 让猪单独在笼中学习按压杠杆获取食物。
- 将两头猪放在一起观察其行为。
以下是每15分钟内按压杠杆的频率数据:
- 单独时:大猪约75次,小猪约70次。它们都积极地按压杠杆。
- 在一起时:大猪按压约80次,小猪按压仅约5次。

实验结果与博弈论的预测高度一致:当两头猪共处时,主要由大猪承担按压杠杆的工作,而小猪则多数时间在食槽边等待。小猪学会了不玩那个对自己不利的“按压”策略,而大猪则在剩下的策略中选择了对自己更有利的“按压”。
课程总结
本节课中,我们一起学习了如何将“严格占优策略的迭代消除”应用于分析一个具体的生物行为实验。
我们首先根据实验设定构建了收益矩阵,然后通过逐步剔除严格劣势策略,推导出理性的行为预测。最后,我们将理论预测与实验结果对比,发现二者高度吻合。

这个案例表明,即使参与者(如猪)并不懂得博弈论公式,但在重复的互动中,它们能够通过经验学习并避免总是带来更低回报的策略,其行为最终会收敛于理论预测的均衡。这展示了博弈论基本工具在解释和预测互动行为方面的强大力量。
课程 P22:【斯坦福大学】博弈论(21)最大最小策略 🎲

在本节课中,我们将要学习博弈论中的两个核心概念:最大最小策略与最小最大策略。我们将探讨它们的定义、区别、在零和博弈中的意义,以及如何通过线性规划来求解。
最大最小策略:保护最坏情况
上一节我们介绍了博弈的基本概念,本节中我们来看看最大最小策略。这种策略在零和博弈的背景下特别有意义,但也适用于所有类型的博弈。
最大最小策略是一种策略,它旨在最大化玩家在最坏情况下的收益。换句话说,玩家假设对手会采取行动来最小化自己的收益,并据此选择能保证自己获得最高“最低收益”的策略。

以下是最大最小策略的正式定义:
- 设玩家 i 的收益函数为 u_i。
- 玩家 i 的最大最小策略 s_i 满足:
s_i ∈ arg max_{s_i} min_{s_{-i}} u_i(s_i, s_{-i})* - 该策略所保证的收益值称为最大最小值:
v_i = max_{s_i} min_{s_{-i}} u_i(s_i, s_{-i})
为什么我们要考虑这种策略?原因有很多:可能是出于谨慎,假设对手会犯错或并非完全理性;也可能是因为我们不完全了解对手的收益函数;或者简单地出于一种“偏执”的假设,认为对手就是来针对你的。
最小最大策略:限制对手最佳情况

理解了如何保护自己后,我们再来看看如何主动限制对手。最小最大策略是针对双人博弈中另一名玩家的策略,其目标是最小化对手的最大可能收益。这里假设对手会试图最大化他们自己的收益。
以下是玩家 i 的最小最大策略的正式定义:
- 玩家 i 的最小最大策略 s_i 满足:
s_i ∈ arg min_{s_i} max_{s_{-i}} u_{-i}(s_i, s_{-i})* - 该策略给对手带来的最高收益值称为最小最大值。
你可能会问,为什么一个玩家会想去伤害另一个玩家?一种可能是出于恶意。但在零和博弈中,情况变得非常自然:因为一方的收益等于另一方的损失(u_1 + u_2 = 0),所以最小化对手的收益,就等同于最大化自己的收益。

零和博弈中的等价性与鞍点
在零和博弈中,最大最小策略和最小最大策略有着深刻而优美的联系。这由约翰·冯·诺依曼的最小最大定理所揭示。
该定理指出:在两人零和博弈中,任何纳什均衡下,玩家1的收益都等于他的最大最小值,也等于玩家2的最小最大值。这个共同的值被称为博弈的值。
这意味着:
- 最大最小策略集与最小最大策略集是相同的。
- 任何最大最小策略组合(或最小最大策略组合)都构成一个纳什均衡。
- 所有纳什均衡的收益都相同,即博弈的值。
我们可以通过图形来直观理解。以“猜硬币”游戏为例,其唯一的纳什均衡是双方各以50%的概率随机选择“正面”或“反面”。在收益函数的三维图像中,这个均衡点像一个鞍点:在一个方向上(玩家1的视角)它是最大值点,在另一个方向上(玩家2的视角)它是最小值点,因此双方都没有动机单方面偏离。
通过线性规划求解
理论上,我们可以利用最小最大定理,通过求解一个线性规划问题来计算零和博弈的均衡及其值。
以下是从玩家2的视角构建的线性规划,目标是最小化博弈的值 u(即玩家1的收益):
目标:最小化 u
约束条件:
- 对于玩家1的每一个纯策略 j:
Σ_k (p_k * payoff_1(j, k)) ≤ u
(即:无论玩家1选择哪种纯策略,其期望收益都不超过 u) - Σ_k p_k = 1
(玩家2的混合策略概率之和为1) - p_k ≥ 0 对于所有 k
(概率非负)
这个线性规划的最优解 u* 就是博弈的值,而对应的 {p_k} 就是玩家2在均衡中的混合策略(即最小最大策略)。我们可以为玩家1构建一个对称的线性规划来求解其策略。
线性规划是有效可解的,这为我们提供了一种计算零和博弈均衡的通用方法。
总结
本节课中我们一起学习了:
- 最大最小策略:一种保守策略,旨在最大化自身在最坏情况下的收益。
- 最小最大策略:一种攻击性策略,旨在最小化对手在最佳情况下的收益。
- 在零和博弈中,这两者是等价的,共同定义了博弈的值,并且其策略组合构成纳什均衡。
- 我们可以通过求解线性规划来具体计算零和博弈的均衡解。

理解这些概念是分析冲突、竞争和策略互动情境的基石。
博弈论课程 P23:最大最小策略 🎲

在本节课中,我们将学习博弈论中的一个核心概念——最大最小策略。我们将探讨它在零和博弈中的特殊意义,并学习如何通过它来求解纳什均衡。
概述
最大最小策略是一种决策方法,它假设对手总是试图最小化你的收益。我们将首先定义最大最小策略和最小最大策略,然后通过一个具体的点球游戏示例,展示如何利用这些概念来计算零和博弈的均衡解。
什么是最大最小策略?
最大最小策略是一种旨在最大化玩家在最坏情况下收益的策略。它基于一个假设:对手总是会采取行动来最小化你的收益。
公式定义:
对于玩家 i,其最大最小策略 s_i* 满足:
s_i* = argmax_{s_i} min_{s_{-i}} u_i(s_i, s_{-i})
其中,u_i 是玩家 i 的收益函数,s_{-i} 表示除 i 以外所有其他玩家的策略组合。
该策略所保证的收益值,称为最大最小值。

什么是最小最大策略?
与最大最小策略相对应的是最小最大策略。它是指玩家 i 选择一种策略,以最小化对手在试图最大化其自身收益时所能获得的收益。
公式定义:
对于玩家 i,其最小最大策略 s_i* 满足:
s_i* = argmin_{s_i} max_{s_{-i}} u_{-i}(s_i, s_{-i})
其中,u_{-i} 是玩家 i 的对手的收益函数。

该策略对应的值称为最小最大值。
为何在零和博弈中特别重要?
在零和博弈中,一方的收益等于另一方的损失。因此,最大化自己的最坏情况收益(最大最小策略)与最小化对手的最佳情况收益(最小最大策略)本质上是同一件事。
根据冯·诺依曼的最小最大定理,在两人零和博弈中,任何纳什均衡下玩家的收益都等于其最大最小值,也等于其最小最大值。这个值被称为博弈的值。这意味着,在零和博弈中,最大最小策略集与最小最大策略集是相同的,并且任何这样的策略组合都构成一个纳什均衡。
示例:点球游戏
为了具体理解,我们来看一个点球游戏的例子。游戏中有两名玩家:踢球者(玩家1)和守门员(玩家2)。这是一个零和博弈。

收益矩阵如下(收益为踢球者进球的概率):
| 守门员向左 | 守门员向右 | |
|---|---|---|
| 踢球者向左 | 0.6 | 0.9 |
| 踢球者向右 | 0.7 | 0.4 |
假设踢球者以概率 p 踢向左,守门员以概率 q 扑向左。
踢球者的最大最小策略
踢球者要选择 p 以最大化其最坏情况下的收益。守门员会选择 q 来最小化踢球者的收益。
踢球者的期望收益 U1 为:
U1(p, q) = p * [q*0.6 + (1-q)*0.9] + (1-p) * [q*0.7 + (1-q)*0.4]
整理后,得到关于 q 的表达式:
U1(p, q) = q * [0.6p + 0.7(1-p) - 0.9p - 0.4(1-p)] + [0.9p + 0.4(1-p)]
= q * [-0.3p + 0.3(1-p)] + [0.9p + 0.4(1-p)]
= q * (0.3 - 0.6p) + (0.4 + 0.5p)
对于踢球者选定的任何一个 p,守门员都会选择 q 来最小化 U1。观察上式,q 的系数是 (0.3 - 0.6p)。
- 若系数为正,守门员令
q = 0以最小化收益。 - 若系数为负,守门员令
q = 1以最小化收益。 - 若系数为零,守门员的任何选择对收益无影响。
踢球者为了最大化这个被最小化后的收益,最佳选择是让系数为零,即 0.3 - 0.6p = 0,解得 p = 0.5。
因此,踢球者的最大最小策略是以50%的概率随机选择踢向左或右。此时博弈的值 v = 0.4 + 0.5*0.5 = 0.65。
守门员的最小最大策略
守门员要选择 q 以最小化踢球者的最大可能收益。踢球者会对任何 q 选择 p 来最大化自己的收益。
再次使用收益函数 U1(p, q),但这次整理成关于 p 的表达式:
U1(p, q) = p * [0.6q + 0.9(1-q) - 0.7q - 0.4(1-q)] + [0.7q + 0.4(1-q)]
= p * [0.2 - 0.6q] + (0.4 + 0.3q)
对于守门员选定的任何一个 q,踢球者都会选择 p 来最大化 U1。观察 p 的系数 (0.2 - 0.6q)。
- 若系数为正,踢球者令
p = 1以最大化收益。 - 若系数为负,踢球者令
p = 0以最大化收益。 - 若系数为零,踢球者的任何选择对收益无影响。
守门员为了最小化这个被最大化后的收益,最佳选择是让系数为零,即 0.2 - 0.6q = 0,解得 q = 1/3 ≈ 0.333。
因此,守门员的最小最大策略是以约1/3的概率扑向左,2/3的概率扑向右。可以验证,此时踢球者的最大收益也是 0.65。
线性规划求解法
对于更一般的零和博弈,我们可以通过线性规划来高效地求解最大最小策略(即纳什均衡)。
从玩家1(最大化者)的角度,可以构建如下线性规划模型:
目标:最大化博弈的值 V
约束条件:
- 对于玩家2的每一个纯策略
j,玩家1的期望收益不超过V:∑_{i} (p_i * u1(i, j)) ≤ V, 其中p_i是玩家1选择行动i的概率。 - 概率分布约束:
∑_{i} p_i = 1, 且p_i ≥ 0。
求解这个线性规划,得到的最优解 p_i* 就是玩家1的最大最小策略,最优目标值 V* 就是博弈的值。类似地,可以从玩家2的角度构建另一个线性规划来求解其策略。
总结
本节课我们一起学习了博弈论中的最大最小策略与最小最大策略。
- 我们明确了它们的定义:最大最小策略旨在最大化自身的最坏情况收益;最小最大策略旨在最小化对手的最佳情况收益。
- 我们了解到,在两人零和博弈中,这两个概念通过最小最大定理统一起来,其策略集相同,并构成纳什均衡,对应的收益称为博弈的值。
- 我们通过点球游戏的实例,一步步演示了如何计算双方的最大最小策略与最小最大策略,并验证了它们如何达成均衡。
- 最后,我们介绍了求解一般零和博弈均衡的线性规划方法,这为分析更复杂的场景提供了工具。

理解最大最小策略是分析竞争性、对抗性局面的基础,它提供了一种稳健的、基于安全边际的决策思路。

课程P24:博弈论(23)博弈的相关均衡 🎲

在本节课中,我们将学习博弈论中的一个重要解概念——相关均衡。我们将通过经典的“性别之战”和“交通博弈”例子,直观地理解为什么纳什均衡有时并不令人满意,以及如何通过引入一个外部随机装置(如抛硬币或交通灯)来协调行动,实现更公平、更有效率的结果。最后,我们会正式定义相关均衡,并理解它如何推广了纳什均衡的概念。
从“性别之战”看纳什均衡的局限 🤔

上一节我们介绍了纳什均衡。现在,让我们再回顾一下“性别之战”游戏,并思考它的纳什均衡。
在“性别之战”中,存在两个纯策略纳什均衡:(芭蕾,芭蕾)和(足球,足球)。此外,还存在一个混合策略纳什均衡,即双方参与者以特定概率随机选择行动。这意味着在混合均衡下,所有四种可能的结果(包括双方选择不一致的“错误协调”结果)都可能以一定的概率发生。
从直观上看,对于真正想在一起的伴侣来说,最理想的结果是公平地轮流满足彼此的偏好,即一半时间一起看芭蕾,一半时间一起看足球。然而,混合策略纳什均衡并不能保证这种公平性,因为它允许“错误协调”发生。双方之所以愿意坚持混合策略,是因为任何单方面偏离都不会带来额外收益,但这并不意味着结果本身是稳定或令人满意的。

“交通博弈”与协调的直觉 🚗
为了更深入地理解这个问题,我们可以看看另一个例子:“交通博弈”。

这个模型模拟了两辆车同时到达十字路口的情况。每辆车必须决定是“等待”还是“通过”。以下是可能的回报:
- 如果一方“通过”而另一方“等待”,则“通过”方获得高回报。
- 如果双方都“等待”,则双方获得较低的回报(因为都在浪费时间)。
- 如果双方都“通过”,则会发生最糟糕的碰撞,双方获得负回报。
与“性别之战”类似,这个博弈有两个不对称的纯策略纳什均衡:(通过,等待)和(等待,通过),以及一个混合策略均衡。
但在现实世界中,我们如何解决这个协调问题呢?我们使用交通灯。交通灯作为一个公平的随机装置,向司机推荐行动:它告诉一方“通过”,同时告诉另一方“等待”。由于交通灯是公平的(例如,通过时间分配),它完全避免了最坏的碰撞结果,并实现了公平的协调。

我们可以将同样的思路应用于“性别之战”:丈夫和妻子可以抛一枚公平的硬币。如果是正面,硬币“推荐”双方都选择“芭蕾”;如果是反面,则“推荐”双方都选择“足球”。这样,双方就能公平地轮流满足彼此的偏好。


相关均衡的核心思想 💡
以上例子引出了相关均衡的核心思想。相关均衡是指,存在一个对参与者行动建议的随机分配(可能相关),使得每个参与者在得知给自己的建议后,都愿意遵循这个建议,而不是单方面偏离。
用更形式化的语言描述:
- 存在一个随机化装置(如硬币、交通灯)。
- 该装置以一定的概率分布,向所有参与者发送可能相关的行动建议。
- 对于每个参与者来说,在给定装置的建议分布以及其他参与者会遵循建议的信念下,遵循建议是最优反应。
在“性别之战”的抛硬币例子中,随机装置(硬币)的建议是:以50%概率推荐(芭蕾,芭蕾),以50%概率推荐(足球,足球)。给定对方会遵循建议,如果我单方面偏离(例如,当建议看芭蕾时我偏要去看足球),我的回报会从正数变为0。因此,我没有偏离的动机。


相关均衡与纳什均衡的关系 ⚖️
相关均衡是纳什均衡概念的推广。
- 如果随机装置发出的行动建议是相互独立的,那么相关均衡就退化为我们熟悉的混合策略纳什均衡。
- 如果行动建议是相关的(如抛硬币例子中,双方的建议总是相同),那么我们就可以得到新的、非纳什的均衡结果,这些结果可能更公平或具有更高的社会福利。
因此,相关均衡集合包含了所有纳什均衡,并且通常更大。它是一个“更弱”但“更广”的解概念,为我们分析和设计协调机制提供了更强大的工具。
本节总结 📚
本节课中,我们一起学习了相关均衡这一概念。
- 我们首先从“性别之战”和“交通博弈”入手,发现了纳什均衡(尤其是混合策略均衡)在解决协调问题时可能无法实现公平或高效的结果。
- 接着,我们观察到现实中通过引入外部随机装置(如交通灯、抛硬币)可以有效地协调行动,这引出了相关均衡的直觉。
- 然后,我们正式定义了相关均衡:它是一个由随机装置生成的可能相关的行动建议分布,其中每个参与者都自愿遵循给予自己的建议。
- 最后,我们明确了相关均衡与纳什均衡的关系:相关均衡是纳什均衡的推广,它包含了所有纳什均衡,并能产生更多样化的协调结果。

理解相关均衡,有助于我们思考如何在存在多重均衡的博弈中,通过设计简单的公共信号或机制,引导参与者走向更理想的结果。
博弈论课程 P25:完美信息扩展式博弈入门 🎲
在本节课中,我们将学习博弈论中一个重要的建模工具——扩展式博弈。我们将探讨当博弈行动按时间顺序展开,并且参与者能观察到先前行动时,如何分析这种“动态”的战略互动。课程将通过著名的历史故事(如科尔特斯焚船和尤利西斯与塞壬)来阐释核心概念。

动态战略互动的重要性 ⏳
上一节我们介绍了战略形势的基本概念。本节中我们来看看时间因素如何对博弈产生关键影响。
有时在战略形势下,时间起着重要的作用。事情是一步一步发生的。参与者不仅按顺序行动,并且他们知道行动会按顺序发生。

时间顺序影响了参与者的行为。一个历史案例是1519年,西班牙人埃尔南·科尔特斯带领一支由11艘船和大约六百人组成的船队,即将入侵被称为美洲的大陆。他们寡不敌众,很清楚面临的巨大困难。
众所周知,当他们登陆时,科尔特斯下令烧毁船只。这一行动是否在全员协调同意下进行尚有争议,但无论如何,其背后的逻辑是清晰的:面对巨大困难时,士兵们可能会想上船逃走。通过“烧毁退路”这个行动,科尔特斯消除了选项,从而增强了部队战斗的决心。
这个例子表明,不仅行动之间存在时间间隔,而且参与者对时间顺序的认知会反过来影响战略形势的发展。我们看到,这种情况不仅出现在多个参与者(如科尔特斯和他的士兵,或两组行为者)交织的互动中,即使只有一个参与者,行动随时间展开的事实也会影响局势。
单参与者的跨期决策:承诺策略 🔗
理解了多参与者动态互动后,我们来看看即使只有一个参与者,如何通过现在的行动影响未来的选择。

另一个著名的历史故事是《尤利西斯与塞壬》。尤利西斯的船即将穿过海妖的海峡。众所周知,塞壬的歌声极具诱惑力,会使人(特别是尤利西斯自己)做出不符合自身最大利益的行为,例如跳海或使船触礁。
因此,根据传说,他命令所有船员用蜡封住耳朵。而他自己想听歌声,于是命令船员将他绑在桅杆上,并严令无论如何不能松开他。就这样,他们驶过海峡。当尤利西斯听到歌声时,他一时精神失常并试图挣脱束缚,但失败了,最终安全通过。

这里再次展示了一个单一参与者(尤利西斯)通过对未来的推理,在现在采取行动(命令捆绑自己),以改变未来的战略形势,确保最优结果。
建模工具:扩展式博弈 📊
为了形式化地模拟上述动态战略互动的情况,我们转向扩展式博弈这一工具。
扩展式博弈通过树状图来刻画博弈进程。以下是其核心组成部分的简要介绍:
以下是扩展式博弈的关键要素列表:
- 节点:表示博弈中的决策点或终点。
- 分支:从一个节点出发,代表一个可能的行动。
- 信息集:包含一个参与者无法区分的决策节点集合(在完美信息博弈中,每个信息集只包含一个节点)。
- 支付:在终端节点,为每位参与者标注的收益。
在完美信息的扩展式博弈中,每个参与者在做决策时,都完全清楚此前所有的行动历史。我们可以用以下方式简要表示一个简单的两阶段博弈:
博弈开始
├─ 参与者A行动 (选择左或右)
│ ├─ 左 -> 参与者B行动 -> (支付A, 支付B)
│ └─ 右 -> 参与者B行动 -> (支付A, 支付B)
└─ 博弈结束
这种表示法清晰地描绘了行动的先后顺序和对应的结果。
总结与回顾 🎯
本节课中,我们一起学习了博弈论中用于分析动态互动的扩展式博弈模型。

我们首先通过科尔特斯焚船和尤利西斯自缚两个历史案例,理解了行动按时间顺序展开以及参与者对未来进行预判的重要性。接着,我们引入了扩展式博弈作为形式化建模工具,并简要介绍了其基本构成要素,如节点、分支和支付。在完美信息的设定下,参与者对博弈历史有完全了解,这为我们后续分析解概念(如逆向归纳法)奠定了基础。
掌握扩展式博弈是分析序贯行动、承诺、威胁等动态战略现象的关键第一步。

课程 P26:完美信息扩展形式博弈的形式化表述 🎲

在本节课中,我们将学习如何用“扩展形式”来形式化地描述博弈。与之前学习的“标准形式”(即矩阵形式)不同,扩展形式博弈能够清晰地刻画玩家行动的先后顺序,即博弈的时间结构。我们将从最简单的“完美信息”情况开始,这意味着每个玩家在行动时,都完全清楚之前发生的所有行动。
扩展形式博弈的构成要素

上一节我们介绍了扩展形式博弈的核心思想是描述行动顺序。本节中,我们来看看构成一个完美信息扩展形式博弈所需的全部数学要素。它比标准形式博弈要复杂一些,需要多个组件共同定义。
以下是定义一个完美信息扩展形式博弈所需的七个核心组件:
-
玩家集合 (N):与标准形式博弈一样,这是一个包含所有参与博弈的玩家的集合。例如,
N = {1, 2, ..., n}。 -
行动集合 (A):这是博弈中所有可能行动的集合。注意,这里是一个全局的行动集,而不是为每个玩家单独定义的行动集。

-
选择节点集合 (H):这些是博弈树中的决策点,代表玩家需要在此处采取行动的节点。
H是一个节点的集合。 -
玩家函数 (P):这个函数为每个选择节点
h ∈ H指定在该节点行动的玩家。即,P(h)的值是玩家集合N中的一个玩家i。

-
行动函数 (χ):这个函数为每个选择节点
h ∈ H指定在该节点可用的行动集合。即,χ(h) ⊆ A,表示在节点h处,轮到行动的玩家可以从集合χ(h)中选择一个行动。 -
后继函数 (S):这个函数定义了博弈树的边。它将一个选择节点
h和在该节点采取的一个行动a ∈ χ(h)映射到一个新的节点。这个新节点可以是另一个选择节点(∈ H),也可以是一个终止节点。后继函数S必须满足“树”的结构:从根节点到任何一个特定节点,有且仅有一条路径。形式化表述为:对于任意两个不同的选择节点-行动对(h, a)和(h‘, a’),如果S(h, a) = S(h‘, a’),那么必然有h = h‘且a = a’。

- 效用函数 (u_i):对于每个玩家
i ∈ N,都有一个效用函数u_i。这个函数为每个终止节点(即博弈结束的节点,其集合记为Z,且Z ∩ H = ∅)分配一个实数值,表示如果博弈在该节点结束,玩家i获得的收益或效用。
一个实例:分钱游戏 💰

为了理解上述抽象定义,让我们看一个经典例子——“分钱游戏”。这个博弈讲述了一个哥哥和妹妹如何分配两美元的故事。
博弈从哥哥(玩家1)开始。在根节点(第一个选择节点),他可以选择如何提出分配方案。他有三个行动可选:
- 行动 (2,0):自己留2美元,给妹妹0美元。
- 行动 (1,1):和妹妹平分,各得1美元。
- 行动 (0,2):自己留0美元,给妹妹2美元。

在哥哥做出选择后,博弈进入一个新的选择节点,轮到妹妹(玩家2)行动。无论哥哥的提议是什么,妹妹在每个节点都有两个相同的行动可选:
- 接受 (Y):同意该分配方案,双方按提议获得钱。
- 拒绝 (N):拒绝该分配方案,双方都获得0美元。
以下是该博弈的树形结构示意(括号内为(哥哥收益,妹妹收益)):
哥哥
/ | \
(2,0)(1,1)(0,2)
/ | \
妹妹 妹妹 妹妹
/ \ / \ / \
Y N Y N Y N
/ | | \
(2,0) (0,0) (1,1) (0,0) (0,2) (0,0)
- 如果妹妹选择 Y (接受),则博弈在终止节点结束,收益就是哥哥提议的数额。
- 如果妹妹选择 N (拒绝),则博弈在终止节点结束,双方收益均为 (0, 0)。
在这个博弈树中:
- 玩家集合 N =
- 选择节点包括哥哥的初始决策点和妹妹的三个后续决策点。
- 玩家函数 P 在根节点指向哥哥,在妹妹的决策点指向妹妹。
- 行动函数 χ 在根节点给出集合 {(2,0), (1,1), (0,2)},在妹妹的节点给出集合 {Y, N}。
- 后继函数 S 定义了上述树中的所有箭头连接。
- 效用函数 在每个终止节点标出,例如
u_哥哥((2,0)) = 2,u_妹妹((2,0)) = 0。
总结

本节课中,我们一起学习了如何形式化地定义“完美信息扩展形式博弈”。我们了解到,它通过七个组件 (N, A, H, P, χ, S, {u_i}) 精确定义了一个博弈树,从而清晰地描述了玩家行动的先后顺序、可选行动以及最终收益。这为我们分析像“分钱游戏”这样具有明确时间顺序的博弈提供了强大的建模工具。在接下来的课程中,我们将利用这个框架来求解此类博弈的均衡。
课程 P27:博弈论(26)完善信息泛化形式策略、最佳反应与纳什均衡 🎮
在本节课中,我们将学习完善信息泛化形式博弈中的策略、最佳反应与纳什均衡。我们将从策略的定义开始,探讨如何计算纯策略的数量,并理解如何将泛化形式博弈转换为标准形式。最后,我们将分析具体博弈中的纳什均衡。
泛化形式博弈中的纯策略
在标准形式博弈中,纯策略通常指单一行动。然而,在泛化形式博弈中,玩家在多个决策节点上可能面临不同选择,因此策略需要更为复杂。

以下是计算纯策略数量的方法。在完善信息泛化形式博弈中,玩家的纯策略需完全指定该玩家将如何应对游戏中所有可能发生的情况。具体而言,它说明了在每个选择节点上采取什么行动。
一种直观的理解方式是,将泛化形式博弈中的纯策略视为给代理人的指令。假设玩家想让朋友代为游戏,她需要告诉朋友在每个可能遇到的选择节点上应采取的行动。因此,纯策略就是一组完整的代理指令。
用数学语言正式描述,给定完善信息泛化形式博弈中玩家的纯策略,是该玩家在所有选择节点上可用行动集的笛卡尔积。也就是说,如果我们查看玩家在每个选择节点上可用的行动集,纯策略的集合就是这些集合在所有决策节点上的叉积。

示例:计算纯策略
让我们通过一个比分享游戏更复杂的例子来具体说明。首先,请思考二号玩家的纯策略是什么。请注意,这里不是要求你计数,而是描述它们。
二号玩家有两个选择节点,因此其纯策略将是每个选择节点上行动集的叉积。例如,纯策略 cf 表示在第一个选择节点,玩家二将选择 c;在第二个选择节点,玩家二将选择 f。由于有两组行动,二号玩家总共有四种纯策略。
对于一号玩家,情况更有趣。一号玩家有两个选择节点,因此其纯策略同样是这两组行动的叉积。所以,一号玩家也有四种纯策略。有趣的是,如果一号玩家选择了某个行动,他可能永远不会到达第二个选择节点,但根据纯策略的定义,策略 AG 与策略 AH 被视为不同。因此,一号玩家仍有四种纯策略,而非三种。

混合策略、最佳反应与纳什均衡
一旦我们定义了纯策略,就可以沿用标准形式博弈中的其他概念定义。
在标准形式博弈中,混合策略定义为纯策略上的概率分布。在泛化形式博弈中,我们可以逐字使用相同的定义:混合策略是纯策略上的概率分布。唯一的变化是潜在的纯策略本身不同,它们现在是在游戏中每个选择节点上采取行动的策略。
同样,泛化形式博弈中的最佳反应是最大化预期效用的混合策略,给定其他参与者的混合策略组合。这与标准形式中的定义完全相同。
最后,纳什均衡是一个策略组合,其中每个参与者对其他参与者的策略都是最佳反应。这三个概念都与标准形式博弈一致。
泛化形式博弈到标准形式博弈的转换
我们可能想知道纳什均衡是否存在,以及如何推理。仅靠定义无法给出答案,但与标准形式博弈的紧密联系提供了更多工具。我们可以将泛化形式博弈转换为标准形式博弈,这有几个有趣的原因。首先,因为存在对应的标准形式博弈,我们可以利用已有的结果,例如均衡的存在性。其次,如果我们发现标准形式博弈更容易推理,可以构建它并进行分析,而不是直接处理泛化形式。
转换过程实际上非常简单。以下是一个泛化形式博弈及其对应的标准形式博弈。在标准形式中,我们列出每个参与者的所有纯策略作为行动。例如,一号玩家有四种纯策略,二号玩家也有四种纯策略。然后,我们通过模拟游戏来填写收益值。例如,如果一号玩家选择纯策略 BG,二号玩家选择纯策略 CF,我们按照游戏树进行模拟,到达特定节点,并记录收益值。整个表格都是这样填满的,这就是所谓的诱导标准形式。
关于诱导标准形式需要注意的一点是,它通常比泛化形式中的叶节点数量更多。例如,某些收益值可能在表格中重复出现,即使它们只对应游戏树中的一个叶节点。这不是意外,因为有多个纯策略组合可能导致树中的同一个叶节点。这可能带来问题,因为这种爆炸性增长是指数级的。虽然在这个小游戏中看起来还可以,但随着游戏树规模的增长,这种爆炸可能非常显著,使得在实践中难以写出诱导标准形式。
另一件重要的事情是,我们不能总是进行反向转换。如果你给我一个标准形式博弈,我能用它构建一个完善信息泛化形式博弈吗?答案通常是否定的。这种特殊结构对于具有重复收益的博弈很重要,而一般标准形式博弈不能转换为泛化形式博弈。一个直观的例子是“匹配便士”游戏,其中两个玩家同时行动非常重要。我们无法在一个完善信息游戏中表示两个玩家同时行动,因为其中一个玩家必须先行动,第二个玩家会看到这个行动。因此,直觉上,我们不应期望从“匹配便士”转换到完善信息游戏,因为某些东西会在转换中丢失。
完善信息博弈中的纯策略纳什均衡

有一个定理指出,每一个完善信息泛化形式博弈至少有一个纯策略纳什均衡。在一般标准形式博弈中,这不成立。例如,“匹配便士”就不存在纯策略均衡。直觉上,随机化常常起到迷惑对手的作用。在一个完善信息游戏中,真的没有理由这样做,因为如果一号玩家随机选择,二号玩家仍然可以看到一号玩家做了什么。因此,在游戏中随机化不会带来额外好处,这可以为以前没有的均衡创造机会。
示例:分析博弈中的纳什均衡

最后,让我们看一个具体游戏,并理性分析其中的三个纯策略均衡是什么。在这个小游戏中,直接列出纯策略并对其进行推理可能更为方便。因此,我们构建它的诱导标准形式,并直接对这个游戏中的纯策略进行推理。
三个纯策略均衡是:AG CF、AH CF 和 BH CF。让我们讨论如何验证这些是均衡。回忆一下,我们测试纯策略均衡的方式是,检查每个玩家是否有任何偏离能带来更大的效用。
以 BH CF 为例。如果一号玩家在这里偏离,你可以看到他没有其他行动可以采取,使其收益超过5。同样,如果二号玩家偏离,她也没有其他行动可以采取,使其收益超过5。在这两种情况下,可能存在平局,但这没关系,因为最佳反应只是说没有更好的选择。这证实了这是一个均衡。
相比之下,如果我们看 BG CF,这不是一个均衡。你可以通过检查每个参与者来看到它不平衡。二号玩家确实不会比10做得更好,所以 CF 是二号玩家对 BG 的最佳反应。但另一方面,一号玩家可以从 BG 偏离到 AG,获得3的回报而不是2。因此,BG 不是一号玩家对 CF 的最佳反应,所以这不是纳什均衡。
总结

在本节课中,我们一起学习了完善信息泛化形式博弈中的策略、最佳反应与纳什均衡。我们首先定义了纯策略,并探讨了如何计算其数量。接着,我们理解了混合策略、最佳反应和纳什均衡在泛化形式中的定义与标准形式一致。然后,我们学习了如何将泛化形式博弈转换为标准形式博弈,并注意到这种转换的局限性。最后,我们通过具体示例分析了博弈中的纯策略纳什均衡,并验证了均衡的存在性。这些概念为我们理解和分析更复杂的博弈场景奠定了基础。
课程P28:博弈论(27)子博弈完美均衡 🎯
在本节课中,我们将学习博弈论中的一个重要概念——子博弈完美均衡。我们将从一个简单的例子开始,理解为什么某些纳什均衡会让人感到“不安”,并学习如何通过子博弈完美均衡的概念来排除那些包含“不可信威胁”的均衡。
重温纳什均衡
上一节我们介绍了纳什均衡的基本概念。本节中,我们来看看一个具体的广泛式博弈例子,它有许多纳什均衡。
考虑以下博弈树。其中一个纳什均衡策略组合是:玩家1的策略为 (B, H),玩家2的策略为 (C, F)。在这个策略组合下,博弈的最终结果是玩家1选择B,玩家2选择C,两位玩家都获得收益5。
以下是验证其为纳什均衡的步骤:
- 检查玩家2:固定玩家1的策略,玩家2无法通过单方面偏离获利。如果玩家2从C改为F,不会改变最终路径(因为玩家1选了B)。如果玩家2从C改为D,其收益会从5降为0。
- 检查玩家1:固定玩家2的策略,玩家1也无法通过单方面偏离获利。如果玩家1从B改为A,其收益会从5降为3。如果玩家1将第二个选择从H改为G,考虑到玩家2会选择C,这不会改变最终结果。
因此,根据定义,这确实是一个纳什均衡。
不可信威胁的困扰
然而,这个均衡有些“令人不安”。让我们清理一下思路,重点关注玩家1的策略。
在策略组合 (B, H) 中,玩家1声称:如果博弈进行到第二个决策节点(即玩家2选择了D之后),他将选择H。但在这个节点上,选择H的收益是1,而选择G的收益是2。显然,选择G对玩家1更有利。
这个均衡之所以能成立,是因为玩家1用“我会选H”来威胁玩家2:“如果你敢选D(让我进入第二个节点),我就会选H,让你得到0收益。所以你最好选C,这样我们都能得5。” 然而,一旦玩家2真的选择了D,这个威胁就变得不可信,因为此时选择H并不符合玩家1自身的利益。

那么,我们如何在正式定义中捕捉并排除这种“不可信威胁”呢?这就引出了子博弈完美均衡的概念。
定义子博弈与子博弈完美均衡
在介绍子博弈完美均衡之前,我们首先需要明确什么是子博弈。

子博弈 的定义非常直观:从博弈树中的任何一个决策节点开始,包含该节点及其所有后续节点和收益信息所构成的子树,就是一个子博弈。整个博弈树本身也是一个子博弈。
以下是子博弈的集合:
- 所有根植于原博弈树中各个决策节点的子树。
- 特例:整个博弈树本身。
子博弈完美均衡 的定义是:一个策略组合是子博弈完美均衡,当且仅当它在原博弈的每一个子博弈上,都构成一个纳什均衡。

这个定义的核心思想是,均衡策略不仅在全局路径上稳定,在博弈可能进行到的任何一个局部(子博弈)也都是稳定的,从而排除了基于不可信威胁的均衡。
概念应用与辨析

让我们通过测试来加深对这个概念的理解。
例1:策略组合 (B, H) 和 (C, F)
我们之前已经分析过,这不是一个子博弈完美均衡。原因在于,在根植于玩家1第二个决策节点的子博弈(一个单人博弈)中,限制策略是H。但在这个简单的子博弈中,玩家1选择H并不是最优反应(选择G收益更高)。因此,它对子博弈的限制不是纳什均衡,所以原策略组合不是子博弈完美的。
例2:策略组合 (A, G) 和 (C, F)
这个策略组合导致的结果是玩家1选A,获得收益3。我们可以验证它是一个纳什均衡。更重要的是,我们需要检查它在所有子博弈上是否都是均衡。
- 在玩家1的第一个决策节点(整个博弈):没有单方面有利可图的偏离。
- 在玩家2的决策节点(玩家1选B之后):玩家2选C得10,偏离到D只得5,无利可图。
- 在玩家1的第二个决策节点(玩家2选D之后):玩家1选G得2,偏离到H只得1,无利可图。
因此,(A, G) 和 (C, F) 是一个子博弈完美纳什均衡。
例3:策略组合 (A, H) 和 (C, F)
这个组合也是一个纳什均衡(玩家1选A得3)。但它同样不是子博弈完美的。原因与第一个例子类似:在玩家1的第二个决策节点构成的子博弈中,限制策略H并不是该子博弈的均衡(选择G更好)。即使这个节点在均衡路径上根本不会到达(off-path),子博弈完美性的要求也意味着,如果博弈“意外地”进行到那里,玩家也必须采取理性行动。因此,它排除了这种不可信的“偏离路径”威胁。
总结
本节课中,我们一起学习了子博弈完美均衡这一核心概念。
我们首先通过一个例子,指出了某些纳什均衡因包含“不可信威胁”而显得不合理。为了正式排除这类均衡,我们定义了子博弈(从任一决策节点开始的子树)和子博弈完美均衡(要求策略组合在每一个子博弈上都构成纳什均衡)。
关键点在于:
- 子博弈完美均衡一定是纳什均衡,但纳什均衡不一定是子博弈完美的。
- 子博弈完美性通过要求策略在所有可能发生的局部博弈中都具有稳定性,从而确保了均衡策略的“可信度”。
- 寻找子博弈完美均衡的常用方法是逆向归纳法,即从最后的决策节点开始,逆向推导出每个子博弈中的最优选择。

掌握子博弈完美均衡,能帮助我们更精确地预测在动态博弈中,哪些结果是真正稳定且可信的。

课程P29:博弈论(28)逆向归纳法 🧠

在本节课中,我们将学习逆向归纳法。这是一种用于计算子博弈完美均衡的算法,广泛应用于国际象棋等游戏程序中。我们将从直觉理解开始,逐步深入到算法的形式化描述,并探讨其在零和博弈中的简化应用。

概述 📋



逆向归纳法的核心思想是从博弈树的叶子节点开始,逐步向根节点回推,计算每个节点在子博弈完美均衡下的收益。这个过程模拟了理性参与者在每个决策点上会选择使其收益最大化的行动。


逆向归纳法详解 🔄


上一节我们介绍了逆向归纳法的基本概念,本节中我们来看看它的具体工作流程。


算法直觉


直觉很直截了当。我们要做的是计算游戏在每个节点的价值。叶子节点的价值由博弈定义的回报向量直接给出。对于内部节点,我们假设代理人会玩一个子博弈完美均衡,并计算其价值。我们会从树叶开始,慢慢后退。在路上的每一步,假设代理将在该节点采取最大化其回报的行动。



形式化过程


这个过程被称为逆向归纳法。它需要一个参数:树中的节点 h。每个节点都关联着一个参与者 i(h)。该过程将返回一个收益向量 v,代表在该节点开始子博弈时,所有代理能获得的支付。


以下是算法的递归定义:


- 基础情况:如果节点
h是叶子节点(属于叶子节点集合Z),则直接返回博弈定义的回报向量。
公式:if h ∈ Z: return u(h)



- 递归步骤:如果节点
h不是叶子节点,则执行以下操作:- 初始化一个收益向量
best_util,其值设为负无穷(小于游戏中所有可能收益)。 - 遍历在该节点所有可能的行动
a ∈ A(h)。- 对于每个行动
a,找到通过采取该行动到达的子节点h' = σ(h, a)。 - 递归计算子节点
h'的收益向量util_child = BackwardInduction(h')。 - 比较
util_child与当前best_util。如果util_child对当前节点h的参与者i(h)更有利(即util_child[i(h)] > best_util[i(h)]),则更新best_util = util_child。
- 对于每个行动
- 遍历完所有行动后,返回
best_util。
- 初始化一个收益向量


伪代码描述:
def BackwardInduction(h):
if h is a leaf node:
return u(h) # 返回叶子节点的收益向量
else:
best_util = [-inf, -inf, ...] # 初始化一个极低的收益向量
for each action a in A(h):
h_child = σ(h, a) # 采取行动a后到达的子节点
util_child = BackwardInduction(h_child) # 递归计算子节点收益
if util_child[i(h)] > best_util[i(h)]:
best_util = util_child # 更新为对当前玩家更优的收益
return best_util


从收益到策略


需要注意的是,算法返回的是收益列表,而非明确的策略。然而,子博弈完美均衡策略很容易从这些收益数字中推导出来。因为在每个节点 h,参与者 i(h) 将选择那个能引导至具有最高 util_child[i(h)] 值的子节点的行动。这就是计算子博弈完美均衡的逆向归纳过程。


零和博弈中的简化应用 ⚔️


上一节我们介绍了通用逆向归纳法,本节中我们来看看它在零和博弈中的特例。


在零和博弈中,过程可以得到简化。因为只有两个玩家,且一方的收益是另一方收益的相反数(u1 = -u2)。因此,我们只需要跟踪与每个节点相关的一个数字(例如玩家1的收益),簿记工作就减少了。

进一步地,在这种零和游戏中(例如国际象棋),逆向归纳程序有一个著名的优化方法,称为极大极小过程。因为玩家在最小化和最大化收益值之间交替:一个玩家想最大化自己的收益,另一个则想最小化对手的收益(即最大化自己的负收益)。


事实上,有一种方法可以加速这个程序(我们不会在此详述),其直觉是:当你访问某个节点的子节点时,可能会发现无需探索该节点的剩余子节点,因为已经找到一个值,表明当前节点永远不会被父节点选择。这种优化被称为 Alpha-Beta 剪枝,它是零和博弈中极大极小程序的优化。我们鼓励你在其他地方探索它。
理论探讨与蜈蚣博弈示例 🐛

关于逆向归纳法和子博弈完美均衡,还有一个著名的反例值得探讨,即蜈蚣博弈。
这个例子有两个玩家,他们轮流行动。收益结构是人为设计的,随着博弈的进行,双方的收益会逐渐增加(例如,从(1,1)到(2,2)再到(4,3)等)。然而,通过逆向归纳法分析,唯一的子博弈完美均衡是第一个玩家在第一步就选择“终止”博弈,获得一个相对较低的收益。
这类似于囚徒困境,有些违背直觉,因为如果双方合作继续前进,他们最终都能获得高得多的收益。但逆向归纳论证表明,在最后一个决策点,玩家会选择终止;倒数第二个点的玩家预见到这一点,也会选择提前终止,以此类推,直到第一步。
这引出了两个问题:
- 实践层面:实验和常识表明,现实中玩家通常会合作一段时间,直到某个时刻才有人选择终止。这与理论预测不符。
- 理论层面:在博弈开始后,如果第一个玩家出乎意料地没有在第一回合终止(按照理论,这发生的概率为0),那么第二个玩家应该如何更新其信念并决策?如何对一个先验概率为零的事件进行条件推断?这是博弈论中一个深刻且有趣的问题,有大量相关文献。
总结 🎯
本节课中我们一起学习了:
- 逆向归纳法的核心思想:从博弈树末端倒推,计算每个节点的子博弈完美均衡收益。
- 算法的形式化递归步骤,包括基础情况和递归情况。
- 如何从算法返回的收益向量中推导出均衡策略。
- 逆向归纳法在零和博弈中的简化,以及Alpha-Beta剪枝的优化概念。
- 通过蜈蚣博弈的例子,探讨了逆向归纳法结论有时与直觉和实验观察不符的现象,以及其背后涉及的理论难题。
逆向归纳法是分析动态博弈中理性行为的强大工具,尽管存在一些理论上的挑战和悖论,但它仍然是理解和计算子博弈完美均衡的基础方法。
课程P3:利己主义的代理人与效用理论 🎯

在本节课中,我们将要学习博弈论中关于“自利代理人”的核心概念,并深入探讨描述其偏好的“效用理论”。我们将理解效用函数如何量化代理人对不同结果的喜好程度,以及为何期望效用最大化是决策的基础。

自利代理人的含义 🤔
上一节我们介绍了博弈论的基本框架,本节中我们来看看“自利代理人”的具体含义。
我们所说的“自利”,并非指代理人一定是敌对的,或者完全不在乎其他代理人的遭遇。其核心含义是:代理人拥有自己的意见和偏好。对于世界可能呈现的不同状态(描述),代理人会有不同的喜好程度,并拥有不同的“效用”。

效用函数:偏好的数学度量 📊
理解了代理人有偏好后,我们需要一个工具来描述它。这就是“效用函数”。
效用函数是一个数学度量,它告诉我们代理人有多喜欢(或不喜欢)某个给定的情况或世界状态。它不仅描述代理人对确定性事件的态度(例如“明天气温是2.5摄氏度”),更重要的是,它描述代理人对各种可能结果的概率分布的偏好。这捕捉了代理人对事件不确定性的态度。
例如,如果告诉你“明天有70%的概率是2.5度,30%的概率是4度”,相比于另一个概率分布(比如50%对50%),你可能会对这两种分布有不同的喜好。现代博弈论所基于的决策理论方法指出:代理人应努力以最大化其“期望效用”的方式行事。
期望效用的计算公式如下,其中 p_i 是结果 i 发生的概率,u_i 是该结果对应的效用:
期望效用 = Σ (p_i * u_i)

效用函数的性质与讨论 ⚖️
在应用期望效用最大化原则时,我们需要理解效用函数的一些关键性质。
首先,效用值所处的尺度并不像概率那样固定(必须在0到1之间)。效用位于一个线性维度上,其绝对数值大小通常不重要,重要的是不同结果之间效用的相对差值。
然而,将不同维度的价值(例如财富和健康)合并到一个单一的效用尺度上是否合适?这是一个值得探讨的问题。同样,在面对不确定性时,仅考虑期望值是否足以恰当捕捉人们的态度?这些都不是微不足道或同义反复的陈述,它们提出了实质性的主张。
在经济学和决策理论中,有一个悠久的传统(最著名的参考文献之一是冯·诺依曼和摩根斯坦的著作),从人们选择行为所满足的更基本公理出发,推导出效用函数的存在性和期望效用最大化原则。虽然我们本节课不深入这些公理,但有必要意识到效用理论背后有着坚实的逻辑基础。
总结 ✨
本节课中我们一起学习了博弈论中“自利代理人”的概念及其核心工具“效用理论”。

我们了解到:
- “自利”意味着代理人拥有自身独立的偏好。
- 效用函数是量化这些偏好的数学工具,它衡量代理人对不同结果乃至概率分布的喜好程度。
- 决策的核心原则是最大化期望效用。
- 效用函数的尺度具有线性性质,且其理论根基源于一系列关于理性选择的基本公理。
理解效用理论是分析后续博弈模型中参与者如何做出决策的基石。

博弈论课程 P30:子博弈完美例子:最后通牒博弈 💰
在本节课中,我们将学习子博弈完美均衡的一个经典应用案例:最后通牒博弈。我们将分析这个简单博弈的理论预测,并将其与实验数据进行对比,探讨理论与现实之间的差异。

博弈设定与规则
上一节我们介绍了子博弈完美均衡的概念,本节中我们来看看它在“最后通牒博弈”这一具体例子中的应用。
最后通牒博弈可能是最简单的讨价还价游戏之一,它是一种“要么接受,要么离开”的提议。假设有10个单位的资源(例如10元钱)需要在两个玩家之间分配。玩家1首先行动,提出一个分配方案。具体来说,玩家1提议给玩家2 x 个单位(x为0到10之间的整数),自己则保留剩下的 10 - x 个单位。随后,玩家2可以接受或拒绝这个提议。
以下是博弈的收益规则:
- 如果玩家2 接受 提议 x,则玩家2获得 x,玩家1获得 10 - x。
- 如果玩家2 拒绝 提议 x,则双方都获得 0。

这个博弈的特点是只有一次出价机会,没有来回谈判的过程。

子博弈完美均衡分析

现在,我们使用逆向归纳法来求解这个博弈的子博弈完美均衡。

首先分析博弈树末端的玩家2。对于玩家2来说,接受任何 x > 0 的提议都能得到正的收益(x),而拒绝则得到0。因此,从理性角度出发,玩家2应该接受任何正的出价。当 x = 0 时,接受与拒绝的收益相同(均为0),此时玩家2可能接受,也可能拒绝。

考虑到玩家2的上述策略,我们向前推回到玩家1的决策点。玩家1知道,任何 x >= 1 的提议都会被接受。那么,为了使自己的收益 10 - x 最大化,玩家1会给出尽可能小的正出价,即 x = 1。如果玩家1认为玩家2在 x = 0 时会接受,那么他也可以给出 x = 0 的提议。


因此,子博弈完美均衡给出了一个清晰的预测:玩家1将提议 x = 0 或 x = 1,而玩家2会接受任何 x >= 1 的提议。

实验数据与理论预测的对比


理论预测非常明确,但现实中人们会这样行动吗?让我们来看一些实验数据。

以下是某次在线实验中,玩家1提出的分配方案统计:
- 提供5个单位(即平分):超过2000次(最频繁的提议)。
- 提供1个单位:略低于1000次。
- 其他数额的提议也有出现,但频率较低。

同时,实验也询问了玩家2“愿意接受的最低金额”。理论预测这个值应为0或1。但数据显示:
- 许多玩家将最低接受金额设定为5(即要求平分)。
- 接受阈值普遍高于理论预测值。
显然,实验数据与子博弈完美的预测并不一致。人们并没有表现出极端的“理性”行为,而是倾向于提出或要求更公平的分配。

对观察现象的解释
为什么人们的行为会偏离理论预测?以下是几种可能的解释:

- 公平偏好:玩家的真实收益可能不仅仅是货币数量。他们可能厌恶不平等,当自己所得远少于对方时会感到不快。这改变了收益函数,使得“公平分配”(如5:5)带来了额外的效用。
- 策略性考虑:如果玩家1知道人群中存在大量要求公平的玩家2(即最低接受额为5),那么他提出 x=5 的提议反而是最稳妥、期望收益最高的选择。这与实验中观察到的“提供5”是最优策略的现象一致。
- 赌注大小:有人认为,实验中的货币激励不够大。如果涉及巨额资金,人们可能会变得更“理性”。然而,后续在斯洛伐克进行的高赌注实验(涉及相当于一周工资的金额)表明,虽然平均出价略有下降,但人们仍然不会压榨到 x=1 的程度,且不公平的出价仍会被频繁拒绝。
总结与延伸思考
本节课中我们一起学习了最后通牒博弈及其子博弈完美均衡分析。
我们从中学到:
- 子博弈完美均衡基于序贯理性,筛选出了一部分更“可信”的纳什均衡。
- 然而,其预测常常与真实的人类行为数据不符。
- 这种差异促使了“行为博弈论”的发展,该领域通过扩展收益函数(纳入公平、互惠等社会偏好)或考虑认知偏差,来更好地解释和预测现实。
最后通牒博弈揭示了博弈论中的一个核心议题:经典理论假设的“理性”是狭义的,而真实世界中的决策者有着复杂的动机。子博弈完美是一个强大的分析工具,但应用时必须考虑其假设是否符合所研究的现实情境。

在接下来的课程中,我们将开始考虑不完全信息博弈。
课程31:博弈论 - 不完美信息扩展形式:扑克游戏 🃏
在本节课中,我们将要学习不完美信息扩展形式博弈。我们将以扑克游戏为例,探讨在玩家行动有先后顺序,且彼此对对方的收益、策略或“手牌”等信息不完全了解的情况下,如何分析和表示这类博弈。

概述
上一节我们介绍了扩展形式博弈的基本概念。本节中,我们来看看当博弈中存在不完美信息时,情况会变得如何复杂。我们将以扑克游戏作为核心案例,因为它完美融合了顺序行动、信息不对称和策略推断等关键要素。
扑克游戏的特征
扑克是一种非常流行且古老的游戏。它的一个关键方面在于其顺序性:一名玩家先做出下注决策,其他玩家必须对此做出反应(如跟注、加注或弃牌)。同时,玩家只能看到部分信息(如自己的牌和公共牌),而无法得知对手的全部手牌强度。
因此,玩家必须根据对手的行动(如下注行为)来推断其可能持有的牌型以及其策略。这涉及到对对手动机、理性程度及其潜在收益的信念判断。
博弈树的复杂性
当我们尝试用博弈树来表示扑克时,会遇到巨大的复杂性。因为可能的手牌组合非常多,相应的策略分支(如下注、加注、弃牌)会使整棵博弈树变得极其庞大和复杂。


在屏幕上完整绘制这棵树几乎是不可能的。尽管如此,我们仍然可以通过分析这类博弈,来学习如何表示和理解不完美信息扩展形式博弈,并研究其中出现的策略类型。
超越扑克:更广泛的应用

扑克是一种相当复杂的游戏。类似的高风险博弈也存在于其他领域。
例如,一个国家考虑是否入侵另一个国家时,就面临着一场不完美信息博弈。入侵方可能不完全了解对方的真实军事实力、国民战斗意志或政治反应。在这种情况下,一方先行动(入侵),必须预期对方的反应(如投降或战斗);而被入侵方则必须根据入侵行动来推断对方的实力和意图。
这些情境都具有与扑克相似的特征:顺序行动、信息不对称和策略性互动。因此,开发一套表示和分析这类博弈的方法,是我们接下来的方向。

核心概念与表示
为了分析这类博弈,我们需要扩展之前的博弈树表示法,引入信息集的概念。在不完美信息博弈中,一个信息集包含了玩家在做出决策时无法区分的所有可能节点。
例如在扑克中,当轮到玩家A行动时,他可能处于对手持有“强牌”或“弱牌”的多种游戏状态下,但由于信息不完美,他无法区分具体是哪一个,这些状态就构成了他的一个信息集。
我们可以用以下方式简要描述一个不完美信息扩展式博弈:
- 玩家集合:
N = {1, 2, ..., n} - 行动顺序: 用博弈树表示。
- 信息集: 对于每个玩家i,将其决策节点划分成不同的集合
H_i,同一集合内的节点玩家i无法区分。 - 收益函数: 在博弈树终端节点,为每位玩家指定收益。
总结

本节课中,我们一起学习了不完美信息扩展形式博弈。我们以扑克游戏为例,探讨了其顺序行动、信息不对称和策略推断的核心特征。我们认识到直接绘制完整的博弈树非常困难,但通过引入信息集等概念,可以为分析此类复杂博弈提供框架。最后,我们看到这种分析框架不仅适用于扑克,也能应用于国际冲突等更广泛的高风险策略互动中。下一节,我们将深入探讨如何形式化地表示和分析信息集。
课程 P32:博弈论(31)不完美信息扩展形式的相关定义与策略 🎲
在本节课中,我们将学习如何正式定义不完美信息扩展形式博弈,并探讨如何在这种博弈中推理策略。我们将从回顾完美信息博弈开始,逐步引入新的概念,以描述玩家无法完全观察到对手行动的情况。
概述 📋
在完美信息的扩展形式博弈中,每个玩家在游戏的每个决策节点上行动,并且完全清楚之前发生的所有行动历史。然而,许多现实情况(如“战舰”游戏)中,玩家无法观察到对手的某些行动。为了模拟这种更丰富的情况,我们需要扩展博弈的定义,引入信息集的概念,以表示玩家无法区分的决策节点集合。
从完美信息到不完美信息 🔄
上一节我们介绍了完美信息扩展形式博弈。本节中,我们来看看如何将其扩展为不完美信息扩展形式博弈。

其核心方法是:我们保留完美信息博弈的原有定义,但增加一个关键成分——等价类。对于给定的玩家,我们将一些决策节点归入同一个等价类。这意味着,当轮到该玩家行动时,他只知道自己在某个等价类中,但无法确定具体是哪一个决策节点。
等价类的形式化定义
正式定义一个不完美信息扩展形式博弈,我们从一个完美信息扩展形式博弈开始,然后添加一个元素 I。I 是一组等价类的集合,每个玩家对应一组。
- 对于玩家 i,其等价类集合为 I_i = {I_i1, I_i2, ..., I_ik}。
- 每个等价类 I_ij 包含一个或多个决策节点,这些节点是玩家 i 无法区分的。
如果每个等价类都只包含一个节点,我们就回到了完美信息的情况。如果任何等价类包含多个节点,我们就有了一个玩家信息不完全的博弈。
为了使定义合理,我们需要对等价类施加两个限制:
以下是等价类必须满足的条件:
- 同一玩家:同一个等价类中的所有节点必须属于同一个玩家。
- 相同行动集:同一个等价类中的所有节点必须具有相同的可用行动集合。


示例与纯策略定义 🧩
让我们通过一个示例游戏来理解等价类和策略定义。
在这个游戏中:
- 玩家1首先行动(选择L或R)。
- 如果玩家1选择R,游戏结束。
- 如果玩家1选择L,则轮到玩家2行动(选择A或B)。
- 之后,玩家1再次行动,但他无法观察玩家2刚才的选择。因此,玩家1无法区分自己是在上方的节点还是下方的节点。我们用虚线将这两个节点连接,表示它们属于玩家1的同一个等价类。

那么,如何为这个游戏中的玩家定义纯策略呢?
在完美信息博弈中,纯策略是玩家在每个决策点上行动的笛卡尔积。但在不完美信息博弈中,玩家在同一个等价类中的不同节点上必须采取相同的行动。
因此,纯策略的定义修改为:
玩家 i 的纯策略,是其每个不同等价类中可用行动集的笛卡尔积。
对于本例中的玩家1:
- 他有两个等价类:第一个是根节点(单独一类),第二个是末端的两个节点(同一类)。
- 在第一个等价类中,他可选择
{L, R}。 - 在第二个等价类中,他可选择
{l, r}(注意,他在这两个节点上必须选相同的行动)。 - 因此,玩家1的纯策略是
{L, R} × {l, r} = {(L,l), (L,r), (R,l), (R,r)},共4种,而不是完美信息情况下可能的8种。
表示范式博弈与诱导范式 🔀
不完美信息扩展形式是一种更强大的表示方法。例如,我们可以用它来表示任何范式博弈(即标准式、矩阵式博弈),而这在完美信息扩展形式中是无法做到的。
以下是如何用不完美信息扩展形式表示“囚徒困境”博弈:
- 玩家1先决定合作(C)或背叛(D)。
- 然后玩家2决定合作(C)或背叛(D)。
- 关键点在于,玩家2行动时,无法区分玩家1选择了C还是D(即他的两个决策节点属于同一个等价类)。
- 双方行动后,根据结果给出收益,这些收益与矩阵中的收益一致。

反过来,我们也可以从一个不完美信息扩展形式博弈出发,构造其诱导范式博弈。方法与从完美信息博弈构造范式完全相同:
- 列出每个玩家的所有纯策略(基于其等价类定义)。
- 将玩家1的策略作为行,玩家2的策略作为列,形成一个矩阵。
- 对于矩阵中的每个单元格(即每一对纯策略组合),模拟博弈进程,计算出对应的收益并填入矩阵。
一旦得到这个诱导范式博弈,所有已有的概念——混合策略、纳什均衡、最佳对策——都可以直接应用。例如,根据纳什定理,由于诱导范式博弈是有限的,因此任何有限的不完美信息扩展形式博弈都至少存在一个纳什均衡。
变换的复合与战略等价性 ⚖️
最后,你可能会想:如果我将一个不完美信息扩展形式博弈先变成范式,再变回扩展形式,会得到原来的博弈吗?
答案是否定的。原始的扩展形式博弈可能具有复杂的树形结构和交错行动顺序,而经过“扩展形式→范式→扩展形式”的变换后,得到的将是一个只有两个层级(先一个玩家行动,后另一个玩家在一个大的等价类中行动)的简单扩展形式博弈。
尽管这两种扩展形式博弈在显式的时间顺序上看起来不同,但它们是战略等价的。它们拥有:
- 相同的玩家纯策略集合。
- 相同的收益函数。
- 因此,拥有相同的纳什均衡集。
总结 🎯
本节课中,我们一起学习了不完美信息扩展形式博弈的核心内容:
- 定义:通过引入等价类(信息集) 来形式化描述玩家无法区分的决策节点,并施加“同一玩家”和“相同行动集”的限制。
- 策略:在不完美信息下,玩家的纯策略是其每个信息集上行动的笛卡尔积,而非每个节点。
- 与范式博弈的关系:不完美信息扩展形式可以表示任何范式博弈,并且可以通过构造诱导范式来应用纳什均衡等分析工具。
- 战略等价性:博弈的不同表示形式(如复杂的扩展形式与简单的扩展形式)可能战略等价,拥有相同的均衡结果。

理解不完美信息是分析扑克、谈判、军事冲突等现实世界交互情境的关键一步。

博弈论课程 P33:混合策略与行为策略 🎲
在本节课中,我们将学习博弈论中两种重要的策略概念:混合策略与行为策略。我们将探讨它们的定义、区别,以及在不完全信息博弈和完美回忆条件下的关系。

概述
在具有不完全信息的扩展式博弈中,我们可以区分行为策略和混合策略。它们定义方式不同,但在某些条件下可以相互模仿。本节我们将通过具体例子来理解这两种策略。


混合策略与行为策略的定义
上一节我们介绍了不完全信息博弈的背景。本节中,我们来看看混合策略和行为策略的具体含义。
混合策略是以一种完全搁置的方式定义的。我们首先有一个纯策略的概念,即每个参与者在他们所有的信息集中选择一个确定的行动。混合策略则是对这种纯策略集合的一种概率分布。
一个行为策略则略有不同。它并不从纯策略出发,而是规定在每个信息集中,参与者应如何进行随机化选择。这看起来可能与混合策略类似,但本质上并不相同。

让我们看一个例子。
一个具体例子
考虑以下博弈树。这里有一个行为策略的例子:在第一个决策点以0.5的概率随机选择,在第二个决策点以0.3的概率随机选择。这意味着参与者会独立地在每个点进行随机化。
现在,让我们看看两个纯策略,例如策略A和策略G。一个混合策略可能是这两个纯策略的凸组合,比如以0.6的概率选择A,以0.4的概率选择G。观察这个例子,你可能会认为一种策略可以模拟另一种策略。

事实上,你是对的。在一个非常著名的结果——库恩1953年的论文中表明,在所有具有完全信息的博弈中,混合策略和行为策略可以相互模仿,并且在均衡中产生相同的收益。也就是说,混合策略均衡与行为策略均衡是结果等价的。

完美回忆的条件

这不仅适用于完全信息博弈,对于不完全信息的博弈,只要这些博弈具有所谓的完美回忆,上述结论同样成立。
不完全信息博弈具有完美回忆,直观上是指参与者在博弈的每个阶段,都完全记得他们之前的所有经历。这意味着他们在每个信息集中,都知道自己之前访问过的所有信息以及所采取的所有行动。
以下是一个没有完美回忆的博弈例子。
考虑下面的游戏,这里有两个节点(例如节点A和节点B),参与者无法区分它们。你可以将其想象为派两个代理代表你进行游戏,但这两个代理都不知道自己具体处于哪个位置。尤其是,其他参与者所做的选择,他们也可能不完全知晓。

无完美回忆博弈的分析
首先,在这种情况下,参与者1的纯策略很简单:在无法区分的信息集中,要么选择行动L,要么选择行动R。参与者2也有两种纯策略。

在这个博弈中,什么是混合策略均衡?这相当容易分析。

我们首先观察到参与者2有一个占优策略:选择行动D。因为无论另一个参与者做什么,选择D对参与者2来说总是更好或至少不差。因此,参与者1对参与者2选择D的最佳反应是选择R,因为这样他们会得到2的回报,而不是选择L得到1。所以,这个博弈的均衡是(R, D)。
但这里存在一个讽刺或令人不安的事实:存在一个非常高的回报(例如100),在混合策略下实际上是无法获得的。这暗示了纯策略与行为策略之间可能存在的差异。


行为策略均衡分析

那么,行为策略的均衡是什么样子的呢?

首先注意,参与者2的情况没有变化,他们仍然有一个占优策略D。
假设参与者2选择D,参与者1有机会在其信息集中重新随机化。每次他们发现自己在这个信息集中,都可以独立地随机选择。

假设参与者1以概率 p 选择向左(L),以概率 1-p 选择向右(R)。同时假设参与者2选择D。

以下是参与者1的期望收益计算:

- 以概率
p选择L,然后必然遇到选择D的参与者2,最终获得收益1。所以贡献为p * 1。 - 以概率
1-p选择R。此时:- 以概率
p,参与者1实际上处于左边路径但选择了R(这对应于博弈树中走到另一个节点的情况),最终获得收益100。贡献为(1-p) * p * 100。 - 以概率
1-p,参与者1处于右边路径并选择了R,最终获得收益2。贡献为(1-p) * (1-p) * 2。
- 以概率
因此,参与者1的总期望收益 U(p) 为:
U(p) = p + 100p(1-p) + 2(1-p)^2

我们可以简化这个表达式并求其最大值。通过计算发现,当概率 p 略低于0.5(即略低于一半的概率选择L,略高于一半的概率选择R)时,参与者1的期望收益最大化。
所以我们最终得到的行为策略均衡是:参与者1以最优概率 p* 随机化选择L和R,而参与者2选择D。我们可以看到,当博弈不具有完美回忆时,行为策略均衡与混合策略均衡是不同的,并且可能实现不同的收益。

总结
本节课中我们一起学习了:
- 混合策略是对纯策略集合的概率分布。
- 行为策略是在每个信息集独立进行随机化的规则。
- 在具有完全信息或不完全信息但具有完美回忆的博弈中,混合策略与行为策略在均衡意义上是结果等价的。
- 在没有完美回忆的博弈中,两种策略概念会产生不同的均衡结果,行为策略有时能实现混合策略无法达到的收益。我们通过一个具体例子演示了这种差异。

理解这两种策略的异同,对于分析复杂的不完全信息动态博弈至关重要。

课程P34:博弈论(33)拓展子博弈完美的推理 🧠
在本节课中,我们将学习如何将子博弈完美均衡的推理思想,拓展到那些没有合适子博弈的、具有不完美信息的扩展式博弈中。我们将通过一个具体的市场进入博弈例子,来理解为什么子博弈完美均衡在此类博弈中“咬合力”不足,并初步了解更高级的均衡概念(如序贯均衡和完美贝叶斯均衡)如何通过引入“信念”来增强预测能力。
游戏设定与挑战 ☕️
首先,我们来看一个简单的市场进入博弈。这个博弈模拟了一家新公司(玩家1)决定是否进入一个已有公司(玩家2)存在的市场。
- 玩家1:潜在进入者。其决策是进入(E)或不进入(N)。
- 玩家2:市场在位者。在玩家1进入后,其决策是战斗(F)或默许(A)。
- 不完美信息:玩家1可能是“强者”(概率1/2)或“弱者”(概率1/2)。玩家1知道自己的类型,但玩家2不知道。因此,当玩家1进入后,玩家2无法区分自己面对的是强者还是弱者,我们用信息集将这两个决策节点连接起来。
以下是该博弈的收益结构:
- 如果玩家1不进入(N),则收益为 (0, 2)。
- 如果玩家1进入(E),则收益取决于玩家2的行动和玩家1的类型:
- 强者:若玩家2战斗(F),收益为 (-1, -1);若玩家2默许(A),收益为 (1, 1)。
- 弱者:若玩家2战斗(F),收益为 (-2, 0);若玩家2默许(A),收益为 (-1, 2)。
子博弈完美均衡的局限性 🔍
上一节我们介绍了博弈的基本设定,本节中我们来看看如何使用子博弈完美均衡来分析它。
子博弈完美均衡要求均衡策略在每个子博弈(即从任一节点开始,包含其后所有节点的部分博弈树)中构成纳什均衡。然而,在这个博弈中,由于玩家2的信息集连接了两个节点,整个博弈中唯一的子博弈就是它本身。
因此,子博弈完美均衡在此博弈中退化为普通的纳什均衡。这意味着子博弈完美性无法帮助我们剔除那些在局部(即玩家2的决策点)看起来“不可信”的纳什均衡。
以下是该博弈的一些纳什均衡示例:
- 均衡A:玩家1(无论强弱)均选择不进入(N);玩家2声称将战斗(F)。这是一个纳什均衡,因为给定对方策略,无人愿意单方面偏离。但它“不可信”,因为如果玩家1真的进入,玩家2选择战斗(F)的收益(-1或0)总是低于默许(A)的收益(1或2)。玩家2的威胁只是空谈,因为它永远不会被实际执行。
- 均衡B:玩家2选择默许(A);强者玩家1进入(E),弱者玩家1不进入(N)。这也是一个纳什均衡,并且看起来更“可信”,因为当玩家2被要求行动时(即玩家1进入后),他确实在做最优反应(默许)。
实际上,这个博弈存在许多纳什均衡。子博弈完美性在此无法帮助我们筛选出更合理的那个。

引入信念与序贯理性 💡
上一节我们看到子博弈完美均衡的局限性,本节中我们来看看如何通过引入“信念”来拓展推理。
核心思想是:即使在非子博弈的信息集上,我们也要求玩家具有信念(即,他对自己处于该信息集中哪个具体节点的概率判断),并且在该信息集上,他的策略必须是对其信念的最优反应。这被称为序贯理性。

以下是应用此思想的关键步骤:

- 指定信念:对于每个信息集,指定玩家认为自己在各个节点的概率。例如,玩家2必须有一个信念:面对的是强者的概率是
p,是弱者的概率是1-p。 - 序贯理性:给定这些信念,玩家在每个信息集上的行动必须是最优的。例如,给定任何信念
p,玩家2选择默许(A)的期望收益总是高于选择战斗(F)。计算如下:- 选择A的期望收益:
p * 1 + (1-p) * 2 = 2 - p - 选择F的期望收益:
p * (-1) + (1-p) * 0 = -p - 由于
(2-p) > (-p)恒成立,因此无论信念p是多少,玩家2的最优选择总是默许(A)。
- 选择A的期望收益:
- 信念的一致性:在更严格的均衡概念(如完美贝叶斯均衡、序贯均衡)中,还要求玩家的信念必须与均衡策略相一致(例如,通过贝叶斯法则从策略中推导得出)。
将序贯理性应用于本例,我们得到唯一的合理预测:
- 玩家2将总是选择默许(A)。
- 因此,强者玩家1会选择进入(E)(收益1 > 0),弱者玩家1会选择不进入(N)(收益0 > -1)。

总结 📚

本节课中我们一起学习了如何将博弈分析拓展到不完美信息的情形。
- 我们首先通过一个市场进入博弈的例子,说明了子博弈完美均衡在缺乏合适子博弈的博弈中可能失效,无法剔除不可信的威胁。
- 接着,我们引入了序贯理性的核心思想:要求玩家在每个信息集上,基于其在该处的信念做出最优决策。
- 通过这一原则,我们能够对博弈做出更强、更合理的预测。在本例中,它唯一地推导出玩家2总会默许,进而决定了玩家1的最优进入决策。
- 更正式的解决方案概念(如完美贝叶斯均衡和序贯均衡)在此基础上,还增加了对信念与策略一致性的要求,为分析复杂的不完美信息动态博弈提供了强有力的工具。

这种基于信念和序贯理性的分析框架,极大地拓展了我们在信息不完美情况下进行策略推理的能力。
课程 P35:【斯坦福大学】博弈论(34)重复博弈 🎲

在本节课中,我们将要学习重复博弈。我们将探讨当玩家们反复进行同一个博弈时,策略、行为和结果会如何变化。理解重复博弈有助于我们分析现实世界中许多长期互动,例如企业竞争、国际关系和个人合作。
上一节我们介绍了重复博弈的基本概念及其重要性。本节中,我们来看看一个经典案例:石油输出国组织(OPEC)。这个案例展示了重复互动如何影响合作与背叛的动机。
OPEC是一个石油生产国卡特尔,成立于20世纪70年代初。在成立之前,经通货膨胀调整后的石油价格大约为每桶20美元或更低。OPEC的目标是通过限制产量来抬高油价。
然而,这里存在一个根本性的困难:如果其他成员国都遵守协议减产,油价就会上涨。此时,单个国家就有动机欺骗协议,私自增加产量以获取更多利润。这本质上是一个巨大的囚徒困境。
OPEC在初期取得了成功,将油价推高至每桶约90美元。但随后合作出现裂痕,在1986年至2002年间,油价回落至每桶40美元或更低。之后,由于地区冲突等因素,合作变得更加困难。直到2008年左右,油价才再次回升至每桶100美元以上。
这个案例表明,在重复博弈中维持合作需要满足特定条件。
理解了OPEC的案例后,我们来分析在重复的囚徒困境中,维持合作(如卡特尔协议)需要哪些关键要素。
以下是维持合作所需的几个关键条件:
- 可观察的行动:玩家必须能够观察到其他玩家的行为。如果无法发现谁在欺骗,就无法实施惩罚。
- 快速反应能力:玩家需要有能力对观察到的欺骗行为做出快速反应,例如通过增加产量来进行惩罚。
- 对未来有足够的重视:玩家必须足够关心未来的收益。如果玩家只关注眼前利益,那么背叛当期协议总是具有诱惑力的。
- 环境的稳定性:稳定的玩家集合和外部环境有助于合作。例如,战争或新生产者的加入会破坏合作的稳定性。
- 需求增长:不断增长的需求有助于维持高价,即使存在一定程度的欺骗,也可能使合作更容易维持。
上一节我们列出了维持合作的条件。本节中,我们来看看如何用博弈论的工具来形式化分析重复博弈。
重复博弈是指同一个基本博弈(称为阶段博弈)被重复进行多次。玩家在每一期的收益会累积,并且他们可以根据过去的历史来选择当前的行动。
考虑一个简单的囚徒困境阶段博弈,其收益矩阵如下:

| 玩家1 \ 玩家2 | 合作 (C) | 背叛 (D) |
|---|---|---|
| 合作 (C) | 3, 3 | 0, 5 |
| 背叛 (D) | 5, 0 | 1, 1 |
在一次性的博弈中,唯一的纳什均衡是(背叛,背叛),收益为(1, 1)。
然而,如果这个博弈重复进行无限次,并且玩家对未来收益有足够的耐心(用贴现因子 δ 表示,0 < δ < 1),那么合作就可能成为均衡结果。一个著名的策略是触发策略(或称冷酷策略):
- 从合作开始。
- 只要对方一直合作,就继续合作。
- 如果对方在任何一期背叛,则从下一期开始永远选择背叛。
对于玩家来说,坚持触发策略(即一直合作)的长期收益是:
3 + 3δ + 3δ^2 + ... = 3 / (1 - δ)

如果他在某一期选择背叛,他在当期获得5,但之后每期只能获得1(因为触发惩罚)。其长期收益是:
5 + 1δ + 1δ^2 + ... = 5 + δ / (1 - δ)
当合作的收益大于背叛的收益时,合作可以维持:
3 / (1 - δ) ≥ 5 + δ / (1 - δ)
解这个不等式,得到 δ ≥ 1/2。
这意味着,只要玩家对未来足够重视(δ足够大),合作就可以成为重复博弈的一个均衡。

本节课中我们一起学习了重复博弈的核心思想。我们通过OPEC的案例看到了现实世界中重复互动的影响,分析了维持合作所需的条件,并用博弈论的模型(以囚徒困境为例)展示了如何通过触发策略和贴现因子来形式化地理解合作的可能性。重复博弈理论为我们理解长期关系中的合作、惩罚与声誉提供了强大的分析工具。
课程 P36:无限重复博弈的效用定义 🎮
在本节课中,我们将学习如何在无限次重复的博弈中,为玩家定义合理的效用。无限重复博弈是指,同一个“阶段博弈”(一个标准形式的博弈)被玩家们一遍又一遍地重复进行。这意味着每个玩家会获得一个无限的收益序列。为了分析这种博弈,我们必须将这个无限序列转化为一个代表玩家效用的单一数值。
问题的挑战与现有方法的不足
上一节我们介绍了无限重复博弈的基本概念。本节中,我们来看看为其定义效用时面临的挑战。
首先,我们之前学到的博弈论工具不足以直接解决这个问题。你可能会想到两种方法,但它们都存在缺陷:
- 扩展形式表示法:我们无法用扩展形式(博弈树)来描绘这个博弈,因为博弈树将是无限深的,我们永远无法到达可以标注收益的终端节点。
- 简单加总法:我们也不能简单地将所有收益相加作为效用,因为如果收益始终为正,总和将趋于无穷大(
总效用 = ∞)。我们希望效用是一个有限值。
方法一:平均收益法 📊

因此,我们需要新的方法。第一种规范的方法是考察玩家在整个无限序列上的“平均收益”。
然而,直接计算无限序列的平均值(总和除以项数)同样会面临 ∞ / ∞ 的问题。为此,我们采用“有限平均值的极限”来定义。具体来说:
- 先计算序列前
k项的平均收益。 - 然后令
k趋向于无穷大,取这个平均值的极限。
用公式表示,玩家 i 的效用 U_i 定义为:
U_i = lim (k→∞) ( (r_1 + r_2 + ... + r_k) / k )
技术说明:这个极限并非总是存在,但对于本课程将讨论的情况,它都是定义良好的。若极限不存在,也有标准的技术方法进行修正。
这种方法给出了一个代表玩家在无限序列中平均表现的数字。
方法一的局限性与折现因子的引入

虽然平均收益法在数学上是清晰的,但它有一个反直觉的特性:它完全忽略了收益的时间顺序。根据这个定义,无论多糟糕的收益,只要它发生在有限的早期阶段,都会被未来无限多的收益“冲刷”掉,对最终的平均值没有影响。

但在现实中,我们通常认为近期的收益比远期的收益更重要。为了建立符合这种直觉的效用模型,我们引入了第二种方法。
方法二:折现收益法 ⏳
在折现收益法中,我们引入一个折现系数 β,其值严格介于0和1之间(0 < β < 1)。玩家的总效用是各期收益的折现值之和。
其核心思想是:距离现在越远的收益,其现值越低。具体计算如下:

- 第1期的收益
r_1的现值为β^0 * r_1 = r_1(即不打折)。 - 第2期的收益
r_2的现值为β^1 * r_2。 - 第3期的收益
r_3的现值为β^2 * r_3。 - 以此类推。
因此,玩家 i 的折现效用 U_i 公式为:
U_i = r_1 + β*r_2 + β^2*r_3 + β^3*r_4 + ... = Σ (t=1 to ∞) β^(t-1) * r_t
由于 β < 1,这是一个收敛的几何级数,保证了效用是有限值。
折现系数的双重解释
关于折现系数 β,有两种在数学上等价但视角不同的有趣解释:
- 耐心程度:玩家缺乏耐心,更看重近期回报。
β越小,表示玩家越“短视”。 - 继续概率:在每一轮阶段博弈结束后,游戏会以
(1-β)的概率永久结束,以β的概率继续下一轮。那么,β^(t-1)就代表了游戏能持续到第t轮的概率。此时,上述折现效用公式计算的就是玩家的期望收益。
这两种解释为我们理解无限重复博弈中的策略行为提供了丰富的洞见。

总结
本节课中,我们一起学习了为无限重复博弈定义效用的两种核心方法:
- 平均收益法:通过计算有限平均值的极限来定义效用,关注长期平均表现,但忽略了收益的时间价值。
- 折现收益法:通过引入折现系数
β,将未来收益折现后加总,既保证了效用有限,也体现了“近期收益比远期收益更重要”的直觉。折现系数可以解释为玩家的耐心程度或游戏继续的概率。

理解这两种效用定义方式,是分析无限重复博弈中合作、惩罚、声誉等复杂策略现象的基础。
课程P37:随机博弈入门 🎲
在本节课中,我们将要学习随机博弈的基本概念。随机博弈是重复博弈的推广,它允许玩家在每次互动后,根据行动结果以一定概率转移到另一个不同的博弈中,而不仅仅是重复同一个博弈。我们将从重复博弈出发,理解随机博弈的构成要素和形式化定义,并了解它与马尔可夫决策过程的关系。
从重复博弈到随机博弈 🔄
上一节我们介绍了重复博弈,它指的是同一个标准形式博弈(如囚徒困境)被重复进行多次。随机博弈则是对这一概念的推广。
在随机博弈中,我们反复进行博弈,但每次进行的博弈可能不同。具体来说,玩家在当前博弈中采取行动并获得收益后,整个系统会根据这些行动,以一定的概率“转移”到另一个(或同一个)博弈中,然后继续在新的博弈中进行决策。
用图形化的方式来看,如果重复博弈是在同一个节点上循环,那么随机博弈则是一个由多个节点(代表不同博弈)和带概率的转移箭头构成的网络。


随机博弈的形式化定义 📝
本节中我们来看看如何用数学语言精确地描述一个随机博弈。其核心是一个包含多个组件的元组。
一个随机博弈可以形式化地定义为以下元组:
(Q, N, A_i, P, R_i)
以下是每个符号的含义:
- Q: 一个有限的状态集合。每个状态
q ∈ Q代表一个可能进行的(标准形式)博弈。 - N: 玩家的集合。
- A_i: 玩家
i可用的行动集合。通常假设所有玩家在所有状态下的行动空间相同,以简化符号。 - P: 状态转移概率函数。
P(q‘ | q, a)表示在状态q下所有玩家采取联合行动a后,转移到状态q‘的概率。 - R_i: 玩家
i的收益函数。R_i(q, a)给出了在状态q下采取联合行动a后,玩家i获得的即时收益。


与其他模型的关系 🤝
理解了随机博弈的定义后,我们可以将其置于更广阔的视野中,看看它与我们已知的其他模型有何联系。
随机博弈是一个相当通用的框架,它概括了两种重要的模型:
- 重复博弈:当状态集合
Q中只包含一个状态时,随机博弈就退化为重复博弈。 - 马尔可夫决策过程(MDP):当玩家集合
N中只有一个玩家时,随机博弈就变成了一个MDP。在MDP中,一个智能体在状态间转移,获取奖励,其目标是最大化长期收益。
正是因为随机博弈同时概括了博弈论中的重复博弈和强化学习/优化中的MDP,所以它成为了一个连接多个学科、受到广泛研究的强大模型。
从重复博弈中,随机博弈继承了定义长期累积收益(如折扣收益、平均收益)的方式。从MDP中,它继承了关于策略(如马尔可夫策略)和状态可达性等概念的分析工具。

总结 📚

本节课中我们一起学习了随机博弈的基础知识。我们首先了解到随机博弈是重复博弈的扩展,允许博弈过程在不同游戏之间随机切换。然后,我们学习了其形式化定义 (Q, N, A_i, P, R_i),它通过状态、玩家、行动、转移概率和收益函数来描述整个系统。最后,我们认识到随机博弈是一个通用框架,它既包含了单次重复博弈,也包含了单智能体的马尔可夫决策过程,这为其在理论和应用上的重要性奠定了基础。
课程P38:博弈论中的两种学习形式 🎲
在本节课中,我们将学习博弈论中两种重要的学习形式:虚拟游戏和无悔学习。我们将探讨它们的基本原理、运作方式以及它们如何帮助智能体在重复博弈中调整策略。
概述
博弈论中的学习与其他学科(如机器学习或统计学)的学习有根本区别。在博弈论中,环境通常由其他智能体构成,这意味着你的学习过程会直接影响他人的行为,反之亦然。因此,学习与“教学”的概念密不可分。本节我们将聚焦于重复博弈场景,并介绍两种经典的学习方法。
虚拟游戏:基于模型的学习
上一节我们概述了博弈论学习的特殊性,本节中我们来看看第一种具体方法——虚拟游戏。这是一种基于模型的学习方法,每个智能体通过观察对手的历史行动来形成信念,并据此做出最佳反应。
虚拟游戏的工作原理很简单:每个智能体记录对手过去选择每个行动的次数,并假设对手在未来会以与历史频率成比例的概率选择行动。然后,智能体针对这个信念分布做出自己的最佳反应。
以下是虚拟游戏算法的步骤描述:
- 初始化:为每个对手的每个行动设定一个初始计数(通常非零)。
- 在每一轮中:
- 根据对手行动的当前历史频率,形成对其策略的信念。
- 针对这个信念分布,选择能带来最高期望收益的行动(即最佳反应)。
- 执行行动,并观察对手的实际行动。
- 更新对手该行动的历史计数。
需要注意:智能体自身总是选择纯策略,但他们假设对手在使用混合策略。
一个例子:匹配硬币游戏
考虑经典的“匹配硬币”游戏。两个玩家各选择“正面”(H)或“反面”(T)。若选择相同,则玩家1赢;若选择不同,则玩家2赢。
假设初始信念为:玩家1认为玩家2玩H和T的计数分别为1.5和2.5(即更可能玩T);玩家2认为玩家1玩H和T的计数分别为2和1(即更可能玩H)。
- 第一轮:
- 玩家1想“匹配”对手,因其认为对手更可能出T,故自己选择T。
- 玩家2想“不匹配”对手,因其认为对手更可能出H,故自己选择T。
- 结果:双方都出T。玩家1赢(匹配),玩家2输。
- 更新信念:双方都观察到对手出了T,相应增加T的计数。
- 第二轮:
- 玩家1仍认为对手更可能出T,故继续出T。
- 玩家2更新信念后,认为对手更可能出T,为求“不匹配”,故选择出H。
- 结果:(T, H)。玩家2赢。
- 更新信念:玩家1观察到H,玩家2观察到T。
如此继续,具体行动序列会交替变化。但长期来看,每个玩家选择H和T的经验频率(平均比例)会趋近于50%。
虚拟游戏与纳什均衡的关系
一个重要的定理揭示了虚拟游戏与纳什均衡的联系:
定理:如果在虚拟游戏中,玩家的经验频率收敛,那么它们必然收敛到该博弈的一个纳什均衡。
虽然行动序列本身不一定收敛,但在许多条件下,经验频率可以收敛。这些充分条件包括:
- 博弈是零和博弈。
- 博弈可通过迭代严格占优求解。
- 博弈是势博弈。
- 博弈是2xN 或 Mx2 的“通用”博弈。
虚拟游戏是博弈论学习研究的起点,它虽然不一定高效,但包含了更复杂学习模型的核心思想。
无悔学习:无模型的学习方法
了解了基于模型的虚拟游戏后,我们转向一种思路截然不同的学习范式——无悔学习。这种方法不显式地对其他智能体的策略进行建模,而是从定义我们希望学习规则满足的性能标准开始。

这个核心标准就是“无悔”。我们首先定义遗憾:在时间点T,智能体对于没有采取某个特定策略S而感到的遗憾,等于 “如果从第一轮开始就一直采用策略S所能获得的总收益” 与 “实际获得的总收益” 之间的差值。

公式化定义:遗憾_T(S) = (一直采用S的虚拟累积收益) - (实际累积收益)
如果一个学习规则能确保随着博弈轮次增加,智能体对于所有纯策略的遗憾增长率都趋近于零(即平均遗憾趋于零),则该规则被称为无悔学习规则。
后悔匹配算法

无悔学习家族中一个著名且简单的算法是后悔匹配。它的决策规则非常直观:根据过去对于每个纯策略的“正遗憾”的比例,来选择下一轮的行动。
以下是其决策公式:
下一轮选择策略S的概率 = max(0, 对S的累计遗憾) / (所有策略的正遗憾之和)
换句话说,你更有可能去尝试那些你“后悔”当初没有多选一些的策略。
后悔匹配的性质

后悔匹配算法具有强大的理论保证:
- 它是无悔的:使用该算法,长期来看,对于任何纯策略的遗憾都不会线性增长。
- 收敛于相关均衡:在有限博弈的重复进行中,如果所有玩家都采用后悔匹配算法,那么他们的长期经验分布会收敛到该博弈的一个相关均衡(这是比纳什均衡更一般的一个均衡概念)。
总结
本节课中我们一起学习了博弈论在重复博弈背景下的两种核心学习形式:
- 虚拟游戏:一种基于模型的学习,通过追踪对手历史行动频率形成信念并做出最佳反应。其经验频率的收敛与纳什均衡密切相关。
- 无悔学习:一种无模型的学习,以最小化“遗憾”为目标。其中后悔匹配算法通过根据过往遗憾的比例随机化选择,能收敛到相关均衡。

这两种方法为我们理解智能体如何在动态互动中通过经验调整行为提供了基础框架。博弈论中的学习是一个广阔而迷人的领域,本节内容仅为入门之匙。
课程P39:无限重复博弈中的均衡问题 🎲
在本节课中,我们将学习无限重复博弈的均衡概念。我们将探讨如何定义策略,理解“民间定理”的核心思想,并学习如何描述在均衡条件下可以实现的收益。课程内容将尽可能简单直白,以便初学者能够理解。
无限重复博弈中的纯策略定义 📝

上一节我们介绍了课程概述,本节中我们来看看无限重复博弈中纯策略的定义。
在无限重复博弈中,一个纯策略需要告诉你在每个决策点选择什么行动。这意味着你需要为每个阶段博弈指定一个行动。你的决策可以基于整个博弈的历史,包括你自己和对手过去的所有行动。
因此,纯策略空间是一个从所有可能的历史到行动选择的映射。由于历史是无限的,所以纯策略的数量也是无限的。这与有限博弈不同,在有限博弈中,纯策略集是有限的。

以下是无限重复博弈中两个著名的纯策略例子:
- 以牙还牙:在重复囚徒困境中,这个策略从合作开始。如果对手上一轮选择背叛,那么本轮它也选择背叛;如果对手上一轮选择合作,那么本轮它也选择合作。
- 触发策略:同样从合作开始。一旦对手在任何一轮选择背叛,那么从此以后它将永远选择背叛,永不原谅。
均衡的存在性与“民间定理” 🧠
上一节我们了解了纯策略的定义,本节中我们来看看无限重复博弈中均衡的存在性问题。
由于纯策略数量无限,我们无法像处理有限博弈那样,通过构建一个有限维度的诱导标准式并应用纳什存在性定理来保证均衡存在。这意味着,仅凭现有知识,我们甚至无法确定这些博弈中是否存在均衡。
然而,有趣的是,我们仍然可以系统地描述哪些收益结果可以在均衡中实现。这就是著名的“民间定理”。它之所以被称为“民间定理”,是因为在它被正式书写证明之前,其核心思想已在博弈论学者中广为流传。
在进入定理陈述前,我们需要先定义一些关键概念。
关键概念与记号 📊

上一节我们引出了“民间定理”,本节中我们来学习理解它所需的关键概念和记号。


我们从一个 n人阶段博弈 开始,这是一个标准形式的博弈。我们将讨论 平均收益 情况,即每个玩家关心的是其策略在无限重复博弈中带来的长期平均效用。
我们需要理解两个核心概念:
- 最小最大值:玩家i的最小最大值,记作 minmaxᵢ,是当其他所有玩家结成联盟,唯一目标就是最小化玩家i的收益时,玩家i通过最佳应对所能保证获得的最低效用。直观上,这是其他玩家能对玩家i施加的最严厉惩罚下,玩家i能为自己争取到的最低收益。
- 公式:
minmaxᵢ = min_{σ₋ᵢ} max_{aᵢ} uᵢ(aᵢ, σ₋ᵢ),其中σ₋ᵢ代表其他玩家的混合策略组合。
- 公式:

-
可行收益:一个收益向量 r = (r₁, r₂, ..., rₙ) 被称为是 可行 的,如果它能被表示为阶段博弈中各种行动组合收益的加权平均。具体来说,如果存在一组非负有理数权重
{αₐ}(对每个行动组合a),满足Σₐ αₐ = 1,并且对每个玩家i,都有rᵢ = Σₐ [αₐ * uᵢ(a)]。这意味着收益向量r可以通过在阶段博弈中按特定频率循环不同的行动组合来实现。 -
可执行收益:一个收益向量 r 被称为是 可执行 的,如果对于其中的每一个收益
rᵢ,都满足rᵢ ≥ minmaxᵢ。这意味着在均衡中,没有玩家会接受低于其最小最大值的收益,否则他可以通过偏离来获得至少等于最小最大值的收益。
“民间定理”的陈述与证明思路 📜

上一节我们定义了可行和可执行收益,本节中我们正式陈述“民间定理”并概述其证明思路。
民间定理(平均收益版本): 在任何n人博弈的无限重复博弈(考虑平均收益)中:
- 必要性:如果一个收益向量 r 是某个纳什均衡下的平均收益,那么 r 必须是可执行的(即对每个玩家i,
rᵢ ≥ minmaxᵢ)。 - 充分性:如果一个收益向量 r 既是可行的又是可执行的,那么 r 就是某个纳什均衡下的平均收益。
证明思路:
- 第一部分证明(必要性):采用反证法。假设存在一个均衡,其收益向量
r不可执行,即存在某个玩家i,其收益rᵢ < minmaxᵢ。那么,玩家i可以考虑偏离到这样一个策略:无论历史如何,都针对其他玩家的均衡策略s₋ᵢ做出最佳反应。根据最小最大值的定义,这样做至少能保证玩家i获得minmaxᵢ的收益,这高于他原先的收益rᵢ。因此,原先的策略组合不是一个均衡,矛盾。故均衡收益必须可执行。 - 第二部分证明(充分性):通过构造法证明。给定一个可行且可执行的收益向量
r,我们可以为所有玩家构造一个特定的策略组合,使得它构成一个纳什均衡,并且实现平均收益r。- 构造均衡策略:由于
r可行,我们可以找到一组有理数权重{αₐ}和公共分母γ,使得r可以表示为阶段博弈中γ个周期内,按特定次数(由βₐ = αₐ * γ决定)重复不同行动组合a的平均结果。我们构造一个行动序列A,它精确地按βₐ的次数包含每个行动组合a,并无限循环这个序列。 - 构造触发策略:每个玩家i的策略
sᵢ如下:- 只要所有玩家在历史上都按照序列
A的规定行动,则继续按A行动。 - 如果任何玩家在某一期偏离了序列
A的规定,那么从下一期开始,所有其他玩家将永远对偏离者采取最小最大化惩罚策略(即联合起来使偏离者的收益降至其最小最大值minmaxᵢ)。
- 只要所有玩家在历史上都按照序列
- 验证均衡:
- 如果所有人都遵守策略,那么长期平均收益正好是
r。 - 考虑任何玩家j的单方面偏离。由于收益
r可执行,rⱼ ≥ minmaxⱼ。如果玩家j偏离,触发惩罚后,他从那以后每期最多只能得到minmaxⱼ。在无限重复和平均收益的考量下,这次有限期的偏离带来的短期好处,会被之后无限期的低收益(minmaxⱼ ≤ rⱼ)所淹没,从而平均收益不会提高。因此,偏离无利可图。
- 如果所有人都遵守策略,那么长期平均收益正好是
- 因此,这个构造的策略组合是一个纳什均衡,并实现了收益
r。
- 构造均衡策略:由于

总结 🎯
本节课中我们一起学习了无限重复博弈的均衡问题。我们首先定义了无限重复博弈中的纯策略,并指出了由于策略空间无限,均衡存在性并非显然。然后,我们引入了“民间定理”,它完美地描述了在平均收益框架下,哪些收益结果可以在无限重复博弈的纳什均衡中实现。
定理的核心结论是:一个收益向量可以在某个纳什均衡中实现,当且仅当它既是可行的(能在阶段博弈中通过混合行动组合实现),又是可执行的(每个玩家的收益不低于其最小最大值)。我们不仅学习了定理的陈述,还概述了其证明的要点,特别是通过构造“触发策略”来证明充分性的巧妙方法。

“民间定理”揭示了重复博弈中合作得以维持的理论基础:只要未来收益足够重要(在平均收益模型中意味着无限期),并且偏离行为会触发足够的惩罚(使偏离者收益降至最小最大值),那么许多在单次博弈中无法实现的合作结果,在重复博弈中都可以成为均衡。
博弈论课程 P3:定义游戏 🎮

在本节课中,我们将学习如何正式地定义一个“游戏”。我们将探讨构成一个博弈论模型的核心要素,并介绍两种主要的游戏表示形式。
游戏的核心要素

一个游戏由几个基本部分构成。我们必须明确这些部分,才能对战略互动进行建模。
玩家 👥
玩家是游戏中做决策的主体。他们可以是个人、公司、政府或其他实体。关键在于,我们需要明确模型中包含哪些决策者。例如,在分析贸易协定时,玩家可能是各国政府;在分析市场竞争时,玩家可能是不同的公司。

行动 🎯
行动是玩家在游戏中可以做出的具体选择。例如,在拍卖中,玩家的行动是出价;在投资中,行动是买卖股票;在投票中,行动是选择投给哪位候选人。我们必须仔细定义所有可能的行动,以确保模型能够准确反映现实情况。

收益 💰
收益代表了玩家的动机或目标。它量化了玩家对不同游戏结果的偏好。收益通常以效用或利润来衡量。例如,公司可能追求利润最大化,个人可能同时关心自身收益和他人的福利。准确刻画收益函数对于预测玩家行为至关重要。
游戏的两种表示形式
游戏主要有两种标准的数学表示方法,它们适用于不同的情况。

标准式(或策略式)📋
标准式是一种简洁的表示方法,它列出了所有玩家、他们的可选行动以及对应于每个行动组合的收益。它通常隐含地假设玩家是同时行动的(尽管策略可以编码更复杂的信息)。我们将从这种形式开始学习。
以下是标准式游戏的关键成分公式化表示:

- 玩家集合:设共有
n个玩家,用i ∈ {1, 2, ..., n}表示单个玩家。 - 行动集:玩家
i所有可能行动的集合记为A_i。 - 行动组合:所有玩家行动的一个列表,记为
a = (a_1, a_2, ..., a_n),其中a_i ∈ A_i。 - 收益函数:对于每个玩家
i,都有一个收益函数u_i(a),该函数为每个可能的行动组合a指定一个数值收益。
扩展式(或树形式)🌳

扩展式更适合表示有先后顺序、信息不对称(例如,某些玩家不知道其他玩家的行动)的游戏。它通常用一棵树来表示,节点代表决策点,分支代表可能的行动。例如,在国际象棋中,白方先走,黑方看到白方的走法后再回应。我们将在课程后期深入学习扩展式。

这两种表示形式密切相关,标准式可以看作是扩展式的一种简化摘要。我们将从标准式入手,打下基础。

标准式游戏的矩阵表示
对于只有两个玩家且行动数量较少的游戏,我们可以用一个矩阵来直观地表示,这被称为收益矩阵。
假设有一个两人游戏:
- 玩家1(行玩家)的行动集为 {上, 下}。
- 玩家2(列玩家)的行动集为 {左, 右}。

那么收益矩阵如下:
| 玩家1 \ 玩家2 | 左 | 右 |
|---|---|---|
| 上 | (x₁, y₁) | (x₂, y₂) |
| 下 | (x₃, y₃) | (x₄, y₄) |
在矩阵的每个单元格中,括号内的第一个数字是玩家1的收益,第二个数字是玩家2的收益。例如,当玩家1选择“上”,玩家2选择“左”时,玩家1获得收益 x₁,玩家2获得收益 y₁。
更复杂的例子:集体行动博弈
并非所有游戏都能方便地用矩阵表示。考虑一个涉及大量玩家的“集体行动”博弈,例如是否参与反抗活动。
假设有1000万玩家,每个玩家 i 的行动是二元的:反抗(R)或不反抗(N)。即 A_i = {R, N}。
收益取决于总体结果和个人选择:
- 如果总反抗人数达到或超过200万,则反抗成功。
- 如果反抗成功,所有参与者(选择R的人)获得收益1。
- 如果反抗失败(总人数<200万),则参与者(选择R的人)获得收益-1(例如受到惩罚),而非参与者(选择N的人)获得收益0。
我们可以用以下方式形式化定义玩家 i 的收益函数 u_i:
def utility_i(action_i, total_rebels):
if total_rebels >= 2_000_000: # 反抗成功
if action_i == 'R':
return 1
else: # action_i == 'N'
return 0 # 假设非参与者在成功时收益为0,此处可修改
else: # 反抗失败
if action_i == 'R':
return -1
else: # action_i == 'N'
return 0

这个例子表明,玩家的收益不仅取决于自己的行动,还以复杂的方式依赖于所有其他玩家的行动。每个玩家都必须策略性地预测他人的行为才能做出自己的最优选择。
总结 📝

本节课中,我们一起学习了如何定义一场游戏。我们首先介绍了构成游戏的三个核心要素:玩家、行动和收益。接着,我们探讨了游戏的两种主要表示形式:标准式和扩展式,并说明本课程将从标准式开始。我们通过收益矩阵学习了如何表示简单的两人游戏,并通过一个集体行动博弈的例子,展示了如何用公式和代码描述更复杂的多玩家博弈情境。理解这些基本定义是分析任何战略互动的基础。
博弈论课程 P40:折扣重复博弈 💰

在本节课中,我们将学习折扣重复博弈。我们将探讨当玩家对未来收益进行贴现时,如何影响他们在重复互动中的策略选择。核心在于理解玩家如何在“当前收益”与“未来收益”之间进行权衡。
折扣重复博弈的基本概念
上一节我们介绍了重复博弈的一般框架。本节中,我们来看看当玩家对未来收益进行贴现时,情况会发生什么变化。

这意味着玩家更看重今天的收益,而明天的收益价值会打一个折扣。例如,如果今天的收益价值为1,明天的收益可能只值0.9,后天的值0.81,以此类推。这种价值随时间呈指数下降。
在折扣重复博弈中,我们考虑玩家反复进行同一个阶段博弈。每个玩家都有一个折扣因子,记为 β(通常 0 < β < 1)。如果β=0,意味着玩家完全不关心未来,博弈就退化成了单次阶段博弈。
玩家从一系列行动中获得的总收益,是每一期收益的贴现值之和。具体公式如下:
总收益 = u₁ + β·u₂ + β²·u₃ + β³·u₄ + ...
其中,u_t 代表第 t 期的收益。

策略与历史
在无限重复的博弈中,玩家的策略可以根据过去的互动历史来制定。
一段历史(History)记录了到某一时刻为止,所有玩家在每一期所做的选择。它是一个行动序列的列表。

一个策略(Strategy)则是一个映射规则:对于每一个可能的历史,它都指定了玩家在当前时期将采取何种(混合)行动。
以下是理解策略与历史关系的关键点:
- 策略决定了玩家在面对任何可能的历史时,将如何行动。
- 例如,在重复囚徒困境中,历史可能是“第一期都合作,第二期对手背叛,第三期都背叛”。策略则需要规定,在看到这个历史后,第四期应该合作还是背叛。

子博弈精炼均衡
与之前一样,我们关注子博弈精炼纳什均衡(SPNE)。这意味着,从任何一个历史点开始的“子博弈”中,玩家所遵循的策略组合都必须构成纳什均衡。
一个简单的SPNE例子是:无论过去发生了什么,每个玩家在每一期都永远选择阶段博弈的纳什均衡行动(例如,在囚徒困境中永远选择“背叛”)。可以验证,这是一个子博弈精炼均衡。
应用:折扣重复囚徒困境

现在,让我们在折扣背景下具体分析重复囚徒困境。假设阶段博弈的收益矩阵如下:
| 合作 | 背叛 | |
|---|---|---|
| 合作 | 3, 3 | 0, 5 |
| 背叛 | 5, 0 | 1, 1 |
静态博弈的唯一纳什均衡是(背叛,背叛),收益为 (1, 1)。但我们希望维持(合作,合作),收益为 (3, 3)。
我们考虑以下触发策略:
- 开始时选择合作。
- 只要历史上所有人都合作,就继续合作。
- 如果任何人曾经背叛,则从下一期开始,永远选择背叛。

我们需要找到,在什么样的折扣因子 β 下,这对触发策略能构成子博弈精炼均衡。
计算合作与背叛的收益:
- 始终合作的收益:
3 + β·3 + β²·3 + ... = 3 / (1 - β) - 当前期背叛的收益:如果对手本期合作,背叛能获得当期收益5。但触发惩罚,未来每期收益仅为1。
- 收益为:
5 + β·1 + β²·1 + ... = 5 + β/(1 - β)
- 收益为:
比较收益:
玩家愿意合作而不是背叛的条件是:合作的收益 ≥ 背叛的收益。
3 / (1 - β) ≥ 5 + β/(1 - β)

解这个不等式:
3 ≥ 5(1 - β) + β
3 ≥ 5 - 5β + β
3 ≥ 5 - 4β
4β ≥ 2
β ≥ 1/2
结论: 只要折扣因子 β ≥ 1/2,即玩家关心明天的程度至少是今天的一半,上述触发策略就能构成子博弈精炼均衡,从而维持合作。

参数变化的影响

上一节我们计算了特定收益下的合作条件。本节中我们来看看如果改变收益参数,结论会如何变化。

假设背叛的诱惑变得更大,收益矩阵变为:

| 合作 | 背叛 | |
|---|---|---|
| 合作 | 3, 3 | 0, 10 |
| 背叛 | 10,0 | 1, 1 |
重复同样的计算:
- 合作收益不变:
3 / (1 - β) - 背叛收益:
10 + β/(1 - β)
合作条件为:
3 / (1 - β) ≥ 10 + β/(1 - β)
3 ≥ 10(1 - β) + β
3 ≥ 10 - 10β + β
3 ≥ 10 - 9β
9β ≥ 7
β ≥ 7/9 ≈ 0.778
结论: 当背叛的当期收益更高时,要维持合作,玩家必须更加重视未来(β需要更大,达到约0.778)。这体现了基本权衡:未来的惩罚必须足够严厉,且玩家必须足够关心未来,才能抵消当期背叛的诱惑。
核心逻辑总结

本节课中我们一起学习了折扣重复博弈的分析方法。其核心逻辑可以总结为以下几点:
- 可持续性条件:一个高于单次纳什均衡的收益组合能否被维持,取决于三个因素:
- 当期偏离的诱惑有多大(当期额外收益)。
- 未来惩罚的严重性(惩罚阶段的收益损失)。
- 玩家对未来的重视程度(折扣因子β的大小)。
- 可信威胁:所承诺的未来惩罚本身,必须在惩罚开始的子博弈中构成均衡(即必须是可信的)。
- 公式化检查:通过比较“遵守协议的总贴现值收益”与“偏离协议的总贴现值收益”,可以解出维持合作所需的折扣因子临界值。

总结:在折扣重复博弈中,合作能否出现并维持,关键在于玩家对未来收益的重视程度是否足以让他们为了长远的利益,而克制住当期背叛的短期诱惑。通过设定可信的未来惩罚机制,并满足一定的折扣因子条件,即使是在囚徒困境这类冲突性博弈中,合作也可能成为理性玩家的均衡选择。
博弈论课程 P41:折扣重复博弈的一种民间定理 📜

在本节课中,我们将学习重复博弈理论中的一个重要概念——民间定理。我们将探讨在存在未来收益折扣的情况下,博弈参与者如何通过威胁和惩罚机制,在无限重复的博弈中维持比单次博弈纳什均衡更优的合作结果。
上一节我们介绍了一些重复博弈的例子,本节中我们来看看如何将这种逻辑推广到一般情况。

定理陈述与核心思想 🎯
民间定理有许多版本,我们将介绍一个特别且证明相对简单的版本。其核心思想如下:
- 首先,考察一个单阶段博弈,并找出它的一个纳什均衡策略组合。
- 其次,寻找一个替代策略组合,使得所有参与者在采用这个替代策略时获得的收益,都严格高于他们在纳什均衡中获得的收益。

那么,存在一个折扣系数的临界值。如果所有参与者的实际折扣系数都高于这个临界值,那么在无限重复的博弈中,就存在一个子博弈完美均衡,使得在均衡路径上的每一个阶段,参与者都执行那个更优的替代策略组合。

这个定理告诉我们,之前在囚徒困境等例子中使用的逻辑(通过“触发策略”惩罚偏离者以维持合作)具有普遍性。对于任何博弈,只要找到比纳什均衡更优的结果,并且参与者对未来足够有耐心(即折扣系数足够高),就可以在无限重复的博弈中维持这个更优的结果。
定理的证明思路 🔍

定理的证明思路与我们之前例子中的逻辑非常相似。
以下是构建均衡策略的核心步骤:

- 合作路径:只要历史上没有人偏离,所有参与者就在每一期都执行那个更优的替代策略组合。
- 惩罚机制:一旦有任何参与者偏离了合作路径,从下一期开始,所有参与者将永久性地转向执行单阶段博弈的纳什均衡。这是一个“冷酷触发”策略。
我们需要确保,参与者因今天偏离而获得的短期收益,不足以弥补其未来因遭受惩罚而带来的长期损失。关键在于,惩罚阶段所执行的纳什均衡,其收益低于合作路径的收益。

接下来,我们分析参与者是否会想要偏离。

偏离的收益与成本分析
我们需要检查,在合作路径上,参与者是否想单方面偏离。

- 偏离的最大单期收益:我们计算参与者
i通过偏离可能获得的最大额外收益。这等于他通过最佳可能偏离所能获得的最高收益,减去他在合作路径上原本能获得的收益。我们用M_i来表示这个最大值。- 公式:
M_i = max_{a_i} [u_i(a_i, a'_{-i}) - u_i(a')],其中a'是合作策略组合。
- 公式:
- 偏离的最小未来损失:偏离后,参与者
i从下一期开始,每期将损失合作收益与惩罚(纳什均衡)收益之间的差额。我们用m_i来表示这个最小损失。- 公式:
m_i = u_i(a') - u_i(NE),其中NE是纳什均衡策略组合。
- 公式:
为什么惩罚是可信的?因为在惩罚阶段,所有人都执行纳什均衡,这意味着给定其他参与者的策略,任何参与者都无法通过单方面改变自己的行为在惩罚阶段获得更好的收益。

可持续合作的条件

参与者 i 不会偏离的条件是:偏离带来的短期收益,小于未来所有期损失的总现值。

未来每期损失 m_i,其总现值为:m_i * (δ_i + δ_i^2 + δ_i^3 + ...) = m_i * δ_i / (1 - δ_i)

因此,不偏离的条件是:
M_i <= m_i * δ_i / (1 - δ_i)

对这个不等式进行变换,我们可以解出参与者 i 的折扣系数 δ_i 必须满足的下限:
δ_i >= M_i / (M_i + m_i)

这个条件对每个参与者 i 都必须成立。只要所有参与者的折扣系数都足够高(大于各自计算出的临界值),那么合作路径(执行更优的替代策略)就可以作为一个子博弈完美均衡得以维持。

上一节我们介绍了维持固定合作策略的定理,本节中我们来看看如何将其扩展以实现更复杂的合作模式。
定理的扩展与应用实例 🔄
民间定理不仅限于维持一个固定的策略组合。只要未来价值足够大,参与者可以维持许多复杂的、随时间变化的行动模式。
让我们回顾之前提到的囚徒困境博弈,但其收益矩阵有所不同:
| 合作(C) | 背叛(D) | |
|---|---|---|
| 合作(C) | 3, 3 | 0, 10 |
| 背叛(D) | 10, 0 | 1, 1 |
在这个博弈中:
- 纳什均衡 (NE) 是 (D, D),收益为 (1, 1)。
- 相互合作 (C, C) 的收益是 (3, 3),优于纳什均衡。
- 但还存在一个非常不均等的结果 (C, D) 或 (D, C),其收益分别为 (0,10) 和 (10,0),总和为10。
参与者可以设计一个更复杂的合作计划来获得更高的平均收益。例如,他们可以约定:
- 在奇数期(第1、3、5...期),执行 (C, D),玩家1获得0,玩家2获得10。
- 在偶数期(第2、4、6...期),执行 (D, C),玩家1获得10,玩家2获得0。
只要双方一直遵守这个轮流“占便宜”的规则,从长期平均来看,每个参与者每期都能获得 (0+10)/2 = 5 的收益,这比一直合作 (3,3) 或一直背叛 (1,1) 都要好。

以下是维持这种轮流合作模式的策略:
- 合作路径:按照上述规则轮流选择行动。
- 惩罚机制:如果任何参与者在任何一期没有按照约定行动(例如,该他合作时却背叛了),那么从下一期开始,双方将永久转向纳什均衡 (D, D),每期只获得1的收益。
然后,我们可以像之前一样,分别计算两位参与者在不同时期偏离的潜在收益 M_i 和未来损失 m_i,并求解出维持这种轮流合作模式所需的折扣系数下限。通常,两位参与者所需的最低耐心程度(折扣系数)会不同。
这种逻辑在现实中也有应用。例如,竞争公司轮流中标政府合同,以避免激烈的价格竞争,从而共同维持较高的利润水平。只要它们都看重未来的合作机会,并且有办法监督和惩罚违约者,这种“轮流坐庄”的合谋就可能持续。
总结与延伸思考 💡
本节课中我们一起学习了重复博弈中的一个核心结论——民间定理。
- 核心机制:在无限重复的博弈中,参与者可以通过基于历史的策略(如触发策略)来影响彼此的预期和行为,从而在单阶段博弈的纳什均衡之外,实现更优的合作结果。
- 关键条件:合作得以维持的关键在于参与者对未来有足够的耐心,即折扣系数
δ足够高,使得未来惩罚的威胁足以遏制当前的背叛冲动。 - 定理内涵:民间定理揭示了重复博弈中均衡的多重性。只要满足耐心条件,许多高于单阶段纳什均衡收益的结果都可以成为均衡。这部分知识在理论被严格形式化之前,就已以“民间传说”的形式在博弈论学者中流传。
重复博弈至今仍是活跃的研究领域,有许多有趣的延伸方向:
- 不完全信息:如果参与者不能完全观察到他人的行动(存在噪音),合作如何维持?
- 不确定收益:如果博弈的收益结构本身会随时间随机变化,策略该如何调整?
- 重新谈判:这是一个深刻的问题。如果偏离真的发生,惩罚开始后,参与者可能会觉得永远惩罚下去对大家都不利,从而想“重新谈判”回到合作。但如果偏离者预期最终会被原谅,那么最初的威慑力就会消失。如何将重新谈判的可能性纳入均衡分析,是一个复杂的课题。

总之,重复博弈模型为我们理解长期互动中的合作、声誉和惩罚提供了强大的框架。它表明,在静态环境中无法达成的合作,在动态的、面向未来的关系中是有可能实现的。
课程P42:贝叶斯博弈基本定义 🎲

在本节课中,我们将学习一种新的博弈表示方法——贝叶斯博弈。我们将通过拍卖的例子,理解为什么需要引入这种模型,以及它如何帮助我们分析参与者信息不完全的情况。
拍卖:一个普遍且重要的现实场景
拍卖是一种非常实际且重要的经济活动,在世界各地被用于多种不同的交易。


例如,1885年的一幅木刻画展示了澳大利亚墨尔本的一场拍卖。画面中,一个戴大礼帽的人站在房间前面,手持木槌,以可能很滑稽的语调说话。在某个时刻,他敲下木槌,意味着有人刚刚赢得了一批茶叶。
现代拍卖的多样性与必要性
拍卖在现代社会中的应用更加广泛,其形式也多种多样。


一个更现代的例子是2000年用于卖鱼的8场拍卖会。由于鱼容易变质且价值变化快,找到一种方法来确定每日的合理价格至关重要。另一个例子是美国法警服务举办的拍卖会,一群戴着牛仔帽的人围捕并出售某人的马匹,以收回被挪用的资金。拍卖在这里被使用,是因为像马匹这类物品的价值很不明确,它取决于供求关系以及特定时间市场上其他马匹的数量等无形因素。
还有一场橄榄球运动员的拍卖。同样,由于很难确定一名球员的确切价值,拍卖成为一种必要的定价机制。
互联网催生的新兴拍卖市场
互联网极大地扩展了拍卖的应用范围,甚至在以前不存在的领域创造了市场。

几年前eBay上发生的一场著名拍卖就是一个例子。佛罗里达州的一位女士在吃自制的烤奶酪三明治时,惊讶地发现烤痕的形状酷似圣母玛利亚。她认定这是宗教遗物,于是停止食用,并将其放在eBay上拍卖。当我截取这张截图时,距离拍卖结束还有近四天,最高出价已达到7600美元。这并非骗局,而是真实的新闻报道。这件事展示了拍卖在匹配买家和卖家方面的强大力量。

无声拍卖:一个直观的博弈模型
无声拍卖为我们提供了一个直观的视角,来理解拍卖如何可以被建模为一个博弈。

在慈善无声拍卖中,一个礼品篮被展出。所有有兴趣购买的人可以上前检查,决定它对自己值多少钱,然后在纸上写下自己的名字和出价金额。这看起来很像一个博弈:
- 我们有定义明确的行动空间:参与者前来,查看纸上的历史出价(其他参与者的行动),然后采取行动——写下自己的出价数字。
- 最终,参与者大概不会写出一个高于礼品篮对其自身价值的数字。
- 如果参与者出价最高,他将赢得礼品篮,并获得一定的效用。这个效用取决于礼品篮对他的价值减去他的出价(即“消费者剩余”)。
因此,我们可以尝试在本课程的框架下为无声拍卖建模。
从无声拍卖到贝叶斯博弈的关键洞察
然而,无声拍卖案例有一个关键点,使其不同于我们之前讨论过的博弈。
当我试图推理其他参与者在这场比赛中的行为时,我需要思考他们认为礼品篮对他们自己值多少钱。这对他们选择如何行动至关重要,因为这直接影响他们的效用函数。
关键问题在于:我并不知道其他参与者的效用函数。

即使我能想象到博弈中所有可能的行动,这也是一个与我们之前看过的环境不同的新情况。这对于为拍卖建模是必要的,因为我不太确定拍卖物品对其他所有参与者值多少钱,而这个事实对我自己在拍卖中的战略推理至关重要。
这种对他人效用函数的不确定性,是引入贝叶斯博弈的核心动机。
总结
本节课中,我们一起学习了贝叶斯博弈的基本概念。我们通过多个拍卖实例看到,在许多现实情境中,参与者无法完全知晓他人的偏好(效用函数)。这种信息的不完全性,使得传统的博弈模型不足以进行分析。因此,我们需要引入贝叶斯博弈这一新框架,它将参与者的“类型”(代表其私人信息,如对物品的估值)纳入模型,从而能够更准确地描述和分析这类包含不完全信息的战略互动场景。
课程 P43:贝叶斯博弈的第一个定义 🎲
在本节课中,我们将学习贝叶斯博弈的第一个正式定义。我们将探讨当玩家对游戏本身的信息不完全时,如何对博弈进行建模。这包括理解“共同先验”和“信息分区”等核心概念。
从完全信息到不完全信息
在考虑贝叶斯博弈之前,我们所讨论的博弈都假设所有玩家都完全了解正在进行的游戏。这意味着每个玩家都知道:
- 世界上有多少玩家。
- 每个玩家可以采取什么行动。
- 如果每个人都采取了一组完整的行动,会得到什么回报。
你可能会想,在不完全信息博弈中,这些假设还成立吗?答案是肯定的。在不完全信息博弈中,你不知道的是其他玩家已经采取了什么行动。但你仍然知道所有玩家可以采取的行动,以及所有可能行动组合带来的回报。
现在,我们来思考那些上述假设不再成立的博弈。我们需要引入新的假设来建模。
贝叶斯博弈的核心假设
我们放宽了“所有玩家都知道正在玩什么游戏”的假设。现在,玩家会考虑不止一个可能的游戏。
在这些可能的游戏中,我们假设它们都具有:
- 相同数量的玩家。
- 每个玩家相同的策略(行动)空间。

游戏之间的唯一区别在于效用函数。这个限制很重要,因为如果玩家连自己或他人有什么策略都不确定,将很难进行推理。
注:实际上,在这个框架内也可以建模“不确定有哪些其他玩家”的情况。你可以假设每场游戏都有最大数量的玩家在场,但通过设置效用函数,使得某些玩家的存在不影响结果。
我们要做的第二个关键假设,与玩家对这些不同可能游戏的信念有关。为了让模型可行,必须假设:
- 玩家对世界可能的状态有明确的信念。
- 玩家从一个共同的先验信念开始。即,每个人最初对可能玩哪个游戏有相同的概率判断。
- 随后,玩家可能会收到关于实际上在玩哪个游戏的私人信息。
- 玩家会根据私人信息,对共同先验进行贝叶斯更新,从而形成各自的事后信念。
我们假设玩家有共同的先验。虽然可以建模不同的先验信念,但在标准的贝叶斯博弈定义中,我们通常采用共同先验的假设。

贝叶斯博弈的形式化定义 🧮
一个贝叶斯博弈由以下四个元素定义:
- 玩家集合:
I = {1, 2, ..., n} - 博弈集合:
G = {G1, G2, ..., Gk}- 其中每个博弈
Gθ本身包含:玩家集合、每个玩家的行动集、每个玩家的效用函数。 - 我们限制集合
G中的所有博弈都有相同的玩家集合和相同的行动集。因此,这些博弈仅在效用函数上不同。
- 其中每个博弈
- 共同先验:
PP是定义在博弈集合G上的一个概率分布。它告诉我们每个游戏Gθ被“自然”选中的先验概率。
- 信息分区:对于每个玩家
i,在集合G上有一个分区ℐ_i。- 这个分区将
G划分为若干个等价类。对于玩家i来说,落在同一个等价类中的游戏是无法区分的。这代表了玩家i的私人信息。
- 这个分区将
一个具体的例子 📊
让我们通过一个例子来理解这个定义。假设有四种可能的游戏:匹配硬币、囚徒困境、协调博弈和性别之战。
我们有一个共同的先验概率分布:
- 玩“匹配硬币”的概率是 30%。
- 玩“囚徒困境”的概率是 10%。
- 玩“协调博弈”的概率是 20%。
- 玩“性别之战”的概率是 40%。
假设所有游戏中,玩家1的行动集都是 {上, 下},玩家2的行动集都是 {左, 右}。
现在,有趣的部分在于信息分区:
- 玩家1 认为“匹配硬币”和“囚徒困境”无法区分(属于一个等价类),同时认为“协调博弈”和“性别之战”无法区分(属于另一个等价类)。
- 玩家2 认为“匹配硬币”和“协调博弈”无法区分,同时认为“囚徒困境”和“性别之战”无法区分。
假设自然根据先验概率随机选择,实际进行的游戏是“性别之战”(概率40%)。那么:
- 玩家1会发现自己处于第二个等价类(协调博弈/性别之战)。他知道游戏不是匹配硬币或囚徒困境,但无法区分到底是协调博弈还是性别之战。
- 玩家2会发现自己处于第二个等价类(囚徒困境/性别之战)。他知道游戏不是匹配硬币或协调博弈,但无法区分到底是囚徒困境还是性别之战。
这意味着,当玩家决定采取什么行动时,他们必须在不完全知道正在进行哪个游戏的情况下做出选择。他们必须推理对手的行为,而对手同样在不完全信息下进行推理。
整个设定是玩家所知道的全部:他们知道共同先验 P,知道自己的信息分区(即自己看到了哪个等价类),也知道对手的信息分区结构。
总结
本节课中,我们一起学习了贝叶斯博弈的第一个正式定义。我们了解到,贝叶斯博弈用于建模玩家对游戏规则本身信息不完全的情景。其核心要素包括:
- 一组可能的不同博弈(仅在收益上不同)。
- 一个所有玩家共享的共同先验概率分布。
- 每个玩家的私人信息,由其在可能博弈集合上的信息分区表示。

这个框架为我们分析玩家如何在不确定性下进行策略互动奠定了基础。在接下来的课程中,我们将探讨如何在这种贝叶斯博弈中寻找均衡解。
课程P44:贝叶斯博弈的第一个定义 🎲

在本节课中,我们将学习一种新的博弈类型——贝叶斯博弈。这类博弈有时也被称为“不完全信息博弈”,但请注意,它不同于我们之前讨论的“不完美信息博弈”。我们将从基本定义开始,逐步理解其核心概念,并通过一个具体例子来阐明其运作方式。

博弈论基础回顾

到目前为止,我们接触的博弈都假设所有参与者(或称“智能体”)对博弈的基本设置拥有共同知识。具体而言,每个参与者都知道:
- 参与者是谁。
- 每个参与者可以采取哪些行动。
- 与每一个可能的行动组合(策略组合)相关联的收益是多少。

换句话说,尽管参与者可能不知道博弈最终会处于哪个具体状态,但他们完全清楚在所有参与者选定策略后,各种结果会带来什么收益。现在,我们将要放松其中一个关键假设。

引入不确定性:贝叶斯博弈的核心

我们将不再假设博弈的所有方面都是参与者的共同知识。原则上,我们可以放松多种假设,例如参与者可能不知道对手的数量,或者对手有哪些可用的行动选项。

然而,从非正式的角度理解,所有这些形式的不确定性,最终都可以归结为对博弈收益的不确定性。因此,在贝叶斯博弈中,我们做出如下设定:
- 参与者对博弈的其他一切(如参与者集合、行动空间)拥有完美的共同知识。
- 唯一的不确定性在于博弈的收益具体是什么。
- 存在一个所有参与者共享的先验信念,即关于可能收益分布的共同认知。
- 每个参与者会收到一个私人信号,基于这个共同的先验,他们会更新形成自己独特的后验信念。
这听起来可能有些抽象,接下来我们将通过正式定义和具体例子来使其变得清晰。

贝叶斯博弈的正式定义 📝

一个贝叶斯博弈由以下要素构成一个元组:
- 参与者集合:
N,表示所有参与博弈的个体。 - 可能世界集合:
G。这是一组常规形式的博弈(例如标准式博弈)。集合中的每一个游戏g ∈ G在其他方面都相同(参与者相同,策略空间相同),唯独收益函数不同。 - 先验分布:
P。这是对集合G中各个游戏的一个概率分布。可以理解为“大自然”会根据这个分布随机决定实际进行哪一个游戏g。 - 信号函数(或等价关系):对于每一个参与者
i ∈ N,在集合G上定义了一个划分(等价类)。当大自然选择了某个游戏g后,参与者i不会直接知道是哪个g,而是被告知g属于他个人划分中的哪一个等价类。这个信息就是他的私人信号。
基于收到的私人信号,参与者会更新对实际进行哪个游戏的信念(即计算后验概率),然后在这个不确定性的背景下选择行动。
实例解析:理解信号与信念更新 🧩
假设我们有四个可能的游戏(G包含四个元素),它们都是我们熟悉的2x2博弈,仅收益不同:
- 匹配硬币(Matching Pennies)
- 囚徒困境(Prisoner‘s Dilemma)
- 纯协调博弈(Pure Coordination)
- 斗鸡博弈(Chicken)
大自然根据以下先验概率P选择游戏:
P(游戏1) = 0.3P(游戏2) = 0.1P(游戏3) = 0.2P(游戏4) = 0.4
现在,定义两位参与者(行参与者Row和列参与者Col)的信号划分:
- 行参与者 (Row) 的划分:
{{游戏1, 游戏3}, {游戏2, 游戏4}}- 这意味着,如果实际游戏是游戏1或游戏3,Row会收到同一个信号(比如信号A)。
- 如果实际游戏是游戏2或游戏4,Row会收到另一个信号(比如信号B)。
- 列参与者 (Col) 的划分:
{{游戏1, 游戏2}, {游戏3, 游戏4}}- 同理,游戏1或2对应Col的一个信号(信号C)。
- 游戏3或4对应Col的另一个信号(信号D)。
情景推演:假设大自然实际选择的是游戏1(匹配硬币)。
- Row会知道:游戏要么是1,要么是3(因为他收到了信号A)。他不知道具体是哪一个。
- 基于先验概率,Row会计算他的后验信念:他正在玩游戏1的概率是
0.3/(0.3+0.2)=0.6,正在玩游戏3的概率是0.2/(0.3+0.2)=0.4。 - Col会知道:游戏要么是1,要么是2(因为她收到了信号C)。
- Col的后验信念:她正在玩游戏1的概率是
0.3/(0.3+0.1)=0.75,正在玩游戏2的概率是0.1/(0.3+0.1)=0.25。
此外,每个参与者还会对对方持有何种信念进行推断。例如,Row知道Col要么收到了信号C(如果实际是游戏1),要么收到了信号D(如果实际是游戏3)。这种对他人信念的信念,使得分析变得多层且复杂。
另一种视角:贝叶斯博弈的等价表述
正是由于上述多层信念的复杂性,在分析贝叶斯博弈时,我们通常会采用一种等价的、更易于处理的表述方式。这将在后续课程中详细展开,其核心思想是将每个参与者的类型(由其私人信号决定)直接纳入一个更大的扩展式博弈中进行分析。
本节总结
在本节课中,我们一起学习了贝叶斯博弈的第一个定义。我们了解到:
- 核心区别:贝叶斯博弈放松了“收益是共同知识”的假设,引入了收益的不确定性。
- 模型要素:一个贝叶斯博弈由参与者集合、一组可能世界(收益不同的游戏)、一个先验概率分布以及为每个参与者定义的信号函数(划分)共同构成。
- 决策过程:参与者根据私人信号更新对真实世界的信念(形成后验),并在这种不确定性下做出决策。
- 复杂性来源:参与者的信念不仅关乎世界状态,还关乎其他参与者的信念,形成信念的层级结构。

理解这个基本框架是分析更复杂的贝叶斯博弈及其均衡概念的基础。在下一节中,我们将探讨如何为贝叶斯博弈寻找均衡解。
课程 P45:【斯坦福大学】博弈论(44)贝叶斯博弈:第二个定义 🎲

在本节课中,我们将学习贝叶斯博弈的第二个定义。这个定义在数学上与第一个定义本质相同,但采用了基于“类型”的视角,将代理人的所有私人信息打包到一个抽象概念中,从而使模型在形式上更为简洁。
上一节我们介绍了基于博弈列表和共同先验的第一个定义。本节中,我们来看看这个基于“类型”的替代定义。
定义的核心要素 📝
贝叶斯博弈的第二个定义包含以下几个核心部分:
- 代理人集合:用
N表示所有参与博弈的代理人。 - 行动集合:每个代理人
i有一个可用的行动集合A_i。注意,这里没有“博弈列表”,代理人直接选择行动。 - 类型集合:每个代理人
i有一个类型集合T_i。类型是一个抽象的数学对象,旨在捕捉代理人的一切私人信息。这包括其收到的信号、对其他代理人可能信息的信念,以及其他代理人关于其自身信息的信念等。所有信息都被“折叠”进类型的概念中。 - 共同先验:存在一个所有代理人都知道的概率分布
P,用于从所有可能的类型组合(t_1, t_2, ..., t_n)中抽取一个具体的类型剖面。这对应于第一个定义中选择具体博弈的随机过程。 - 效用函数:每个代理人
i的收益不仅取决于所有代理人采取的行动组合(a_1, a_2, ..., a_n),还取决于所有代理人的类型组合(t_1, t_2, ..., t_n)。效用函数的形式为u_i(a_1, ..., a_n; t_1, ..., t_n)。
从数学形式上看,这个定义非常简单。但其直觉理解较为复杂,因为“类型”这个概念承载了大量信息。
通过示例理解定义 🧩

让我们通过一个具体例子来理解这个定义如何运作。回顾第一个定义中讨论的博弈,有四种可能的收益矩阵,并根据一个共同先验随机选择其一。代理人会收到私人信号(信息集),告知他们处于哪个博弈中。
在类型视角下:
- 行代理人的行动是 {上, 下}。
- 列代理人的行动是 {左, 右}。
- 代理人的类型 就对应他们收到的私人信息(即他们知道自己处于哪个信息集中)。
- 收益则取决于代理人采取的行动组合以及他们的类型组合。
以下是具体分析:
假设行代理人的类型是 t_row = “信息集1”,列代理人的类型是 t_col = “信息集A”。这共同决定了实际进行的是哪一个具体的收益矩阵(例如,左上角的博弈)。如果此时行代理人选择“上”,列代理人选择“左”,那么收益就由该特定矩阵中(上,左)对应的单元格决定,例如 (2, 0)。
再举一例,如果行代理人类型为 t_row = “信息集2”,列代理人类型为 t_col = “信息集B”,这决定了另一个收益矩阵。若行代理人选择“下”,列代理人选择“左”,则收益对应到该矩阵的(下,左)单元格,可能是 (0, 0)。
你可以检查其他类型与行动的组合,来验证基于类型的公式如何对应到具体的收益。
两种定义的关系与总结 🔄
最后需要说明的是,在这个特定的例子中,固定一组类型后,你最终会得到一个非常具体的博弈。然而,将类型视角映射回“具有不确定性的博弈”视角是一个复杂的话题。你可能无法得到一个唯一的博弈,而需要查看整个博弈集合及其上的期望。但本节所讨论的内容,已经为我们处理贝叶斯博弈的两种公式提供了良好的基础:
- 显式博弈列表公式:明确列出所有可能的博弈,并附带共同先验和代理人的信息划分结构。
- 基于类型的公式:将私人信息抽象为类型,直接定义行动、类型和收益函数。

本节课中,我们一起学习了贝叶斯博弈的第二个定义——基于类型的公式。我们了解了其核心构成要素(代理人、行动、类型、共同先验、效用函数),并通过例子加深了理解,最后探讨了它与第一种定义的内在联系。掌握这两种等价的视角,将帮助我们更灵活地建模和分析信息不对称的博弈情境。
课程 P46:贝叶斯博弈分析 🎲
在本节课中,我们将学习贝叶斯博弈的核心解决方案概念——贝叶斯纳什均衡。我们将了解其定义、计算方式以及它与标准纳什均衡的区别。
概述 📋
贝叶斯博弈是包含不完全信息的博弈模型。为了分析这类博弈,我们需要一个合适的均衡概念。本节将介绍由约翰·哈桑尼在20世纪60年代提出的贝叶斯纳什均衡。其核心思想是,每个玩家根据自己观察到的“类型”来选择行动,以最大化其期望效用,同时考虑其他玩家的策略和类型分布。
贝叶斯博弈的基本设定 ⚙️

上一节我们介绍了贝叶斯博弈的基本概念,本节中我们来看看其形式化定义。
一个贝叶斯博弈包含以下基本要素:
- 玩家集合:有限的玩家。
- 行动集合:每个玩家可选的行动是有限的。
- 类型空间:每个玩家可能的类型是有限的。
- 概率分布:定义在所有玩家类型组合上的先验概率分布。
- 效用函数:每个玩家的收益取决于所有玩家的行动和类型。
为了简化理解,我们在此讨论有限集合的情况。扩展到无限集合时需要考虑更多技术细节。
策略与期望效用 📊
在贝叶斯博弈中,策略的定义与完全信息博弈不同。以下是关键概念:

策略的定义
一个玩家的纯策略是一个从自身类型到行动的映射函数 s_i(θ_i) -> a_i。它明确规定了当玩家观察到自己是某种类型时,会采取什么行动。
混合策略则是纯策略的推广,它为每种类型指定一个行动上的概率分布。
期望效用的计算阶段
玩家在不同信息阶段计算期望效用:

- 事前阶段:玩家尚未得知任何类型信息(包括自己的)。此时制定的是“无条件”的行动计划。
- 事中阶段:玩家已知自己的类型
θ_i,但不知道其他玩家的类型。这是分析均衡时最关键的阶段。 - 事后阶段:所有玩家的类型都已公开。此时博弈退化为完全信息博弈。
事中期望效用公式
在事中阶段,已知自己类型为 θ_i 的玩家 i,在策略组合 s 下的期望效用计算公式如下:
E[u_i | θ_i, s] = Σ_{θ_{-i}} p(θ_{-i} | θ_i) * [ Σ_{a} ( Π_{j≠i} Prob(s_j(θ_j) = a_j) ) * u_i(a, θ) ]
其中:
θ_{-i}表示除i外所有其他玩家的类型组合。p(θ_{-i} | θ_i)是玩家i在已知自己类型时,对其他玩家类型分布的信念。- 内层求和是对所有可能行动组合
a的期望,计算基于其他玩家策略s_j所导出的行动概率分布。
事前期望效用则是事中期望效用在所有可能自身类型上的加权平均。

贝叶斯纳什均衡 ⚖️
理解了策略和期望效用后,我们现在可以定义贝叶斯博弈的均衡概念。
贝叶斯纳什均衡是一个混合策略组合 s* = (s*_1, s*_2, ..., s*n)。它要求对于每一个玩家 i 和该玩家的每一种可能的类型 θ_i,玩家 i 所选择的策略 s*_i 都能最大化他在事中阶段的期望效用。

用数学语言描述,对于所有 i 和所有 θ_i,有:
s*_i(θ_i) ∈ argmax_{s_i} E[u_i | θ_i, (s_i, s*_{-i})]
其中 s*_{-i} 表示其他所有玩家的均衡策略。
这个定义本质上是纳什均衡思想在贝叶斯博弈中的延伸:每个玩家的策略都是对其他玩家策略的最佳反应,只不过这里的“最佳反应”是在已知自身类型的条件下做出的。
重要说明与总结 🎯

最后,我们对贝叶斯纳什均衡的关键点进行总结。
- 只要所有类型都以正概率出现,从事前角度(要求策略最大化整体事前期望效用)和从事中角度定义的均衡是等价的。
- 贝叶斯纳什均衡将纳什均衡扩展到了包含不确定性的环境。它同时考虑了两种不确定性:
- 策略不确定性:对其他玩家行动的信念。
- 收益不确定性:对其他玩家类型的信念,这些类型可能直接影响自身的收益函数。

本节课中,我们一起学习了贝叶斯博弈的核心均衡概念——贝叶斯纳什均衡。我们明确了其定义,理解了如何在不同信息阶段计算期望效用,并看到了它是如何将标准纳什均衡的思想自然扩展到不完全信息场景的。掌握这个概念是分析众多现实世界策略互动(如拍卖、信号传递等)的基础。
课程 P47:贝叶斯博弈分析样例 👮♂️🔫
在本节课中,我们将通过一个名为“治安官的困境”的简单例子,学习如何分析并求解一个贝叶斯博弈。我们将理解贝叶斯纳什均衡的核心概念,并看到玩家如何在信息不完全的情况下做出最优决策。

博弈设定与概念回顾
上一节我们介绍了贝叶斯博弈的基本框架。本节中我们来看看一个具体的应用实例。
贝叶斯纳什均衡为每个玩家规定了一个行动计划,该计划是玩家所拥有的私人信息(即其“类型”)的函数。每个玩家的策略都旨在最大化其期望效用,这个期望同时考虑了其他玩家可能采取的行动以及其他玩家的类型(这会影响收益)。
核心公式:玩家 i 的策略 s_i(θ_i) 需满足:
对于所有可能的类型 θ_i 和所有可选行动 a_i‘,有 E[u_i(s_i(θ_i), s_{-i}(θ_{-i}), θ_i, θ_{-i})] ≥ E[u_i(a_i‘, s_{-i}(θ_{-i}), θ_i, θ_{-i})]。
案例:治安官的困境
这是一个简化的场景。一位治安官面对一名武装嫌疑人,双方持枪对峙,必须决定是否向对方开枪。

嫌疑人的类型是不确定的:
- 以概率 p,嫌疑人是罪犯。
- 以概率 1-p,嫌疑人是无辜者。
治安官不知道嫌疑人的具体类型。双方的偏好如下:
- 治安官:如果嫌疑人不开枪,治安官宁愿不开枪(无论对方是罪犯还是无辜者)。如果嫌疑人开枪,治安官则宁愿开枪自卫。
- 嫌疑人:
- 罪犯:倾向于开枪(即使治安官不开枪),因为他知道自己会被捕。
- 无辜者:即使治安官开枪,也倾向于不开枪(例如,避免背负杀害执法人员的罪名)。
收益矩阵与策略分析
以下是该博弈的收益结构。行代表嫌疑人的行动(开枪/不开枪),列代表治安官的行动。收益顺序为(嫌疑人收益,治安官收益)。
当嫌疑人为无辜者时(概率 1-p):
| 治安官:开枪 | 治安官:不开枪 | |
|---|---|---|
| 嫌疑人:开枪 | (-2, -1) | (1, -3) |
| 嫌疑人:不开枪 | (-3, 0) | (0, 0) |
当嫌疑人为罪犯时(概率 p):
| 治安官:开枪 | 治安官:不开枪 | |
|---|---|---|
| 嫌疑人:开枪 | (-1, -1) | (2, -2) |
| 嫌疑人:不开枪 | (-2, 0) | (0, 1) |
现在,我们开始分析玩家的最优策略。
首先分析嫌疑人的策略,这取决于他的类型:
- 无辜型嫌疑人:比较收益可知,“不开枪”严格优于“开枪”(例如,当治安官开枪时,-3 > -2;当治安官不开枪时,0 > 1)。因此,无辜者的严格占优策略是不开枪。
- 罪犯型嫌疑人:比较收益可知,“开枪”严格优于“不开枪”(例如,当治安官开枪时,-1 > -2;当治安官不开枪时,2 > 0)。因此,罪犯的严格占优策略是开枪。
因此,在贝叶斯均衡中,嫌疑人的策略已确定:无辜者不开枪,罪犯开枪。
治安官的最优反应与均衡求解
接下来,我们分析治安官的最优策略。治安官不知道嫌疑人的真实类型,但他知道嫌疑人会遵循上述类型依赖策略,且罪犯出现的概率为 p。
治安官需要计算“开枪”与“不开枪”哪个能带来更高的期望收益。

-
如果治安官选择开枪:
- 遇到罪犯(概率 p):收益为 -1。
- 遇到无辜者(概率 1-p):收益为 0。
- 期望收益 = p × (-1) + (1-p) × 0 = -p
-
如果治安官选择不开枪:
- 遇到罪犯(概率 p):收益为 -2(因为罪犯会开枪)。
- 遇到无辜者(概率 1-p):收益为 0。
- 期望收益 = p × (-2) + (1-p) × 0 = -2p
治安官会比较这两个期望收益。通过解不等式 -p > -2p,我们可以找到“开枪”更优的条件。

以下是推导过程:
- -p > -2p
- 两边同时加上 2p: p > 0
- 更严谨的比较是看差值:开枪的期望收益 (-p) 减去不开枪的期望收益 (-2p) 等于 p。
- 因此,当 p > 0 时,开枪的期望收益始终高于不开枪。但我们需要检查临界点。令两者相等:-p = -2p,解得 p = 0。
- 重新审视收益:当 p=1(肯定是罪犯)时,开枪收益-1,不开枪收益-2,开枪更好。当 p=0(肯定无辜)时,开枪收益0,不开枪收益0,无差异。
- 结论:只要 p > 0(即存在罪犯的可能性),治安官选择“开枪”的期望收益就严格高于“不开枪”。在 p = 0 时,两者无差异。
因此,治安官的均衡策略是:只要认为嫌疑人有可能是罪犯(p > 0),就选择开枪。
贝叶斯纳什均衡总结
本节课中我们一起学习了如何求解“治安官的困境”这个贝叶斯博弈。

该博弈的贝叶斯纳什均衡如下:
- 嫌疑人的策略(依类型而定):
- 如果类型是“无辜者”,则选择不开枪。
- 如果类型是“罪犯”,则选择开枪。
- 治安官的策略:
- 如果认为嫌疑人是罪犯的概率 p > 0,则选择开枪。
- 如果 p = 0(确信无辜),则在“开枪”与“不开枪”之间无差异。
这个简单的例子抓住了贝叶斯均衡的核心要素:
- 玩家的收益取决于类型(治安官面对不同嫌疑人的收益不同)。
- 其他玩家的策略也取决于其类型(无辜者和罪犯的行为不同)。
- 决策者(治安官)需要同时考虑策略不确定性(对方会怎么做)和状态不确定性(对方是什么类型),并最大化自己的期望收益。

贝叶斯纳什均衡是一个强大的工具,它允许我们在信息不完全的现实世界情境(如拍卖、商业竞争、信号传递等)中建模和分析玩家的策略互动。
课程P48:合作博弈论入门 🎲
在本节课中,我们将学习合作博弈论(或称联盟博弈论)的基本概念。我们将了解它如何模拟群体合作与竞争并存的情境,并探讨其与非合作博弈论的核心区别。

什么是联盟博弈论?🤝
联盟博弈论是一种模拟战略形势的方法,这与通常所说的非合作博弈论形成鲜明对比。事实上,联合博弈论常被称为合作博弈论,这个名字有点误导性,我们稍后会解释。首先,让我们谈谈联盟博弈论试图模拟什么情况。
你可能认识这两位先生。左边的人是大卫·卡梅隆,英国首相。在他的右边(就他们当时的座位而言,是他的左边)是尼古拉斯·克莱格,他的联合执政伙伴。他们走到一起,想必是有原因的:他们可以一起完成一些独自无法完成的事情。特别是在议会政治中,这是一个联盟形成的经典例子。
联盟的广泛存在 🌐
事实上,我们通常想到联盟时会思考政党。但联盟的形成不仅在政治中,当然也以商业的形式存在。例如,“风力联盟”是美国许多公司的联合,旨在共同推动风能议程。这些公司虽然是竞争对手,但它们觉得在一起可以完成独自做不到的事情,比如游说政府或制定行业标准。
联盟并不总是存在于组织、政党或公司之间。我们作为个人也经常聚集在一起共同完成事情,不管是结婚,还是盖房子。当你有一个木匠、一个电工和一个油漆工时,他们一起可以完成他们无法独自完成的事情。

合作中的竞争 ⚖️
现在,人们走到一起并不意味着他们的利益完全一致,或者他们给联盟带来了同样多的价值。可能施工队的木匠是不可替代的,但电工很容易被找到和取代。当他们为建造的房子得到报酬时,这应该反映在他们如何分配付款上。所以这里既有合作的成分,也有竞争的成分。
因此,将这些博弈统称为“合作博弈”就像将非合作博弈论统称为“非合作”一样具有误导性。例如,如果你看一个标准形式的博弈(非合作博弈的标准表示),你可以很容易地描述所谓“团队博弈”或“共同回报博弈”这种利益完全一致的情况。
核心建模差异 🔧
非合作博弈论和联盟(合作)博弈论都模型化了竞争与协调。本质区别在于,联盟博弈论的基本建模单元是组、团队以及他们能共同完成的事情。
总结 📝

本节课中,我们一起学习了合作博弈论的基本思想。我们了解到,合作博弈论关注的是群体(联盟)如何形成,以及他们如何分配合作产生的收益。其核心在于,联盟的整体价值可能大于成员单独行动价值之和,但联盟内部依然存在关于如何分配收益的竞争。下一节,我们将开始学习如何用数学语言来形式化描述这些联盟博弈。
课程P49:合作博弈定义 🎯
在本节课中,我们将学习合作博弈(或称联盟博弈)的基本定义。与之前讨论的非合作博弈不同,合作博弈的核心是研究一组参与者如何通过结成联盟来共同行动并分配收益。
什么是联盟博弈?🤝
上一节我们介绍了非合作博弈关注个体行动者,本节中我们来看看合作博弈的视角。合作博弈不对采取行动的单个代理人进行建模,而是考虑一群代理人一起行动。其核心思想是,我们考虑一组代理人,并探讨可以形成哪些联盟,即哪些代理人群体可以选择一起工作。
为了实现这一点,我们需要定义每一组不同的代理人能为自己争取到多大的利益。特别需要注意的是,在联盟博弈中,我们不考虑代理人如何在联盟内部划分工作,或者他们如何相互协调以组成联盟。我们将所有这些内部运作视为既定条件。相反,我们关注的是联盟作为一个整体能获得什么样的回报。
可转移效用假设 💰

为了分析联盟,我们从一个称为“可转移效用”的假设开始。这个假设意味着,联盟有可能在其成员之间任意地重新分配其获得的价值。
例如,如果一个联盟获得了一笔金钱收益,那么就有可能以任何方式在成员之间分配这笔钱,包括支付额外费用。这个假设使我们能够将联盟的回报视为一个单一的、可分配的总价值,并相信它可以被任意分配给成员。
在这个假设下,联盟博弈的定义如下:
一个联盟博弈由两部分组成:n 和 v。
n:一个有限的参与者集合。我们用i来索引集合中的单个玩家。v:一个函数,类似于联盟博弈的效用函数。它定义了对于玩家的每一个子集(即每一个可能形成的联盟,包括所有玩家组成的“大联盟”),该联盟能实现的价值V是多少。这个价值允许联盟在其成员之间进行分割。

我们通常做一个归一化假设:空集联盟的价值为零。
v(∅) = 0
联盟博弈的核心问题 ❓
我们通常用联盟博弈论来探讨两个基本问题:
- 在这场博弈中,组建哪个联盟是有意义的?
- 一旦我们知道哪个联盟会形成,这个联盟应该如何将其收益分配给所有成员?
我们不会花太多精力去思考第一个问题。通常情况下,答案是所谓的“大联盟”,即所有参与者都同意一起工作。然而,有时为了保证大联盟能够形成,我们必须仔细考虑联盟将如何分配其收益。

超可加性:大联盟形成的基础 🔗
以下是一个有助于我们思考第一个问题的博弈性质。我们说一个联盟博弈对所有联盟对 S 和 T 都是超可加的,如果 S 和 T 都是参与者集合 N 的严格子集,并且这两个联盟的交集为空(即涉及完全不同的代理人)。
那么,如果我们把这两个联盟合并成一个更大的联盟 S ∪ T,这个更大联盟的价值至少等于两个独立联盟价值之和。
v(S ∪ T) ≥ v(S) + v(T), 当 S ∩ T = ∅
换句话说,如果我用两个独立的联盟组成一个更大的联盟,那个更大联盟的价值总是至少和这两个独立联盟靠自己实现的价值之和一样大。如果联盟有可能在不相互干扰的情况下工作,这个假设通常是合理的。这也是我们在联盟博弈中常做的假设。
注意:超可加性假设意味着所有可能的收益中,最高的收益(至少是每周最高的收益)是由大联盟实现的。因此,当我们考虑一个超可加博弈时,很自然地会认为大联盟将希望组建。
在回答我之前谈到的第一个问题时,我们倾向于假设大联盟会形成。因此,本课程后续将集中讨论第二个问题:联盟应该如何分配其回报?

分配回报的两种视角 ⚖️
有理由问,当我说“应该如何分配回报”时,具体取决于联盟试图实现什么目标。我们将考虑两种不同的方法来回答这个问题:
- 基于公平的分配:如果联盟关心的是公平,它应该如何分配回报?
- 基于稳定的分配:相反,我们可能想知道,如果联盟关心的是稳定性(即每个人都愿意留在大联盟中,而不是脱离出去组成能为自己实现更高价值的小联盟),它应该如何分配回报?

本节课总结:本节课我们一起学习了合作博弈(联盟博弈)的基本框架。我们了解了它与非合作博弈的区别,掌握了其核心定义(参与者集合 n 和价值函数 v),并引入了“可转移效用”的关键假设。我们探讨了联盟博弈关心的两个核心问题(组建哪个联盟、如何分配收益),并解释了“超可加性”这一促使大联盟形成的性质。最后,我们指出了分析收益分配的两种主要视角:公平与稳定,为后续课程内容奠定了基础。

课程4:博弈论经典游戏示例 🎮
在本节课中,我们将学习博弈论中几个经典的、具有代表性的游戏模型。这些例子将帮助我们理解不同类型的博弈,包括纯粹冲突的零和博弈、纯粹合作的协调博弈,以及混合了合作与冲突的博弈。
囚徒困境 🤝

上一节我们介绍了博弈的基本概念,本节中我们来看看一个著名的例子——囚徒困境。这个博弈描述了两个囚犯面临的选择困境。

在囚徒困境中,两名囚犯可以选择“合作”(保持沉默)或“叛逃”(揭发对方)。收益矩阵通常设定如下:
- 如果两人都合作,每人获得中等收益
b。 - 如果两人都叛逃,每人获得较低收益
d。 - 如果一人合作而另一人叛逃,合作者获得最低收益
a,叛逃者获得最高收益c。

其中,收益关系通常满足 c > b > d > a。这个博弈的悖论在于,尽管双方合作能带来更好的集体结果,但个体理性的选择却会导致双方都叛逃的糟糕结局。


零和博弈 ⚖️
接下来,我们探讨一种概念清晰的博弈类型——零和博弈。这类博弈仅限于两名玩家,且具有纯粹的竞争性。

在零和博弈中,一名玩家的收益恰好是另一名玩家收益的相反数。它们的总和总是一个常数(通常简化为0)。因此,我们只需记录一名玩家的收益,就能推断出另一名玩家的收益。
以下是两个经典的零和博弈例子:
匹配硬币游戏

在这个简单的游戏中,两名玩家同时选择“正面”或“反面”。
- 如果双方选择相同,则玩家A获胜,收益为
+1,玩家B收益为-1。 - 如果双方选择不同,则玩家B获胜,收益为
+1,玩家A收益为-1。

石头剪刀布游戏
这是一个更广为人知的游戏,每名玩家有三个动作:石头、布、剪刀。
- 如果双方选择相同,则为平局,双方收益为
0。 - 否则,根据“石头赢剪刀、剪刀赢布、布赢石头”的规则决定胜负,胜者收益为
+1,负者收益为-1。

这个简单的游戏每年甚至举办奖金高达一万美元的比赛,促使我们思考如何制定策略。
纯粹合作博弈 🤝

与零和博弈相反,另一个极端是纯粹合作或纯粹协调博弈。在这类博弈中,所有参与者的利益完全一致。
这意味着,对于每一个可能的行动组合,所有玩家获得的效用(或收益)都是相同的。因此,在收益矩阵中,每个单元格只需填写一个数字,因为它代表了所有玩家的共同收益。
一个典型的例子是“人行道行走”游戏:
- 两名行人相向而行,每个人都可以选择靠自己的左边走或靠自己的右边走。
- 如果双方选择同侧(都靠左或都靠右),则顺利通过,双方获得高收益。
- 如果双方选择不同侧,则发生碰撞,双方获得低收益。
这个游戏强调了协调一致的重要性。

混合动机博弈:性别之战 🎬
在一般情况下,博弈往往既非纯粹合作,也非纯粹冲突,而是混合了两种动机。“性别之战”就是一个典型例子。
想象一对夫妻决定晚上看什么电影。有两个选择:一部动作片(《世界末日之战》)和一部爱情喜剧(《花童》)。
- 最重要的是,他们希望一起看电影。如果分开看不同的电影,双方都会不开心,获得低收益。
- 如果他们一起看同一部电影,双方都获得较高收益,但偏好有冲突:妻子更想看动作片,而丈夫更想看爱情喜剧。

这个博弈体现了在需要协调合作的大前提下,个体偏好存在冲突的常见情况。
总结 📚
本节课中,我们一起学习了博弈论中几个基础而重要的游戏模型:
- 囚徒困境:揭示了个人理性可能导致集体非理想结果的悖论。
- 零和博弈(如匹配硬币、石头剪刀布):描述了纯粹竞争、一方所得即另一方所失的情景。
- 纯粹合作博弈(如人行道行走):强调了利益完全一致时协调的重要性。
- 混合动机博弈(如性别之战):展示了现实世界中常见的、合作与冲突并存的复杂互动。

这些经典示例为我们分析更复杂的策略互动奠定了坚实的基础。
课程P50:博弈论(49)公平实现效用分配的方法:夏普里值 📊
在本节课中,我们将学习一种在合作博弈中公平分配总收益的著名方法——夏普里值。我们将探讨其背后的核心思想、定义它的公理体系,并通过具体例子理解其计算过程。
概述 📖
合作博弈的核心问题之一是如何在联盟成员之间公平地分配联盟产生的总价值。夏普里值提供了一种基于成员边际贡献的分配方案,并通过一组公理(对称性、假人玩家、可加性)来定义其公平性。本节课我们将详细解析夏普里值的概念、公理和计算方法。
夏普里值的核心思想 💡
夏普里值的基本思想是:联盟成员应获得的报酬,应与其加入联盟时带来的边际贡献成正比。也就是说,一个人应该根据他/她对联盟总价值的“增加值”来获得回报。
然而,直接按边际贡献分配有时会面临挑战。让我们通过一个简单例子来理解为什么需要更精细的加权方法。

一个关键案例
假设一个社会(联盟)需要所有成员都在场才能产生价值。用公式表示其特征函数 v:
v(N) = 1(所有成员都在时,总价值为1)- 对于任何成员不全的联盟
S(即S ⊂ N),v(S) = 0
在这个例子中,每个成员都是关键的。缺少任何一个人,总价值就是0。因此,当把任何一个成员 i 加入一个缺少他/她的联盟时,边际贡献都是 1(即从0变成1)。
如果简单地按边际贡献分配,每个人都应得到 1,但总价值只有 1,这显然无法实现。因此,我们需要一种方法来加权平均不同顺序下的边际贡献,从而得出一个可行的分配方案。夏普里值的公理体系将为我们提供这种方法。

定义夏普里值的公理体系 ⚖️
夏普里值由以下三个公理唯一确定。这些公理规定了“公平”分配规则应满足的性质。
1. 对称性公理
如果两个成员在所有可能的联盟中贡献完全相同,即他们是完全可互换的,那么他们应获得相同的分配。

公式化描述:
如果对于所有不包含 i 和 j 的联盟 S,都有 v(S ∪ {i}) = v(S ∪ {j}),那么在分配方案 ψ 下,应有 ψ_i(v) = ψ_j(v)。
这个公理体现了“同工同酬”的基本公平理念。
2. 假人玩家公理
如果一个成员加入任何联盟都不会增加价值,即他/她的边际贡献总是 0,那么该成员不应获得任何分配。
公式化描述:
如果对于所有联盟 S 不包含 i,都有 v(S ∪ {i}) = v(S),那么在分配方案 ψ 下,应有 ψ_i(v) = 0。

这个公理直观上合理:没有贡献,就没有报酬。但需注意,在社会保险等更广泛的视角下,可能会有不同的考量。
3. 可加性公理
如果我们把一场合作博弈看作两场独立博弈的和,那么成员的总分配额也应该是这两场博弈下各自分配额的和。

公式化描述:
如果有两个特征函数 v1 和 v2,定义新博弈 (v1 + v2)(S) = v1(S) + v2(S)。那么分配方案应满足:ψ_i(v1 + v2) = ψ_i(v1) + ψ_i(v2)。
这个公理可以理解为:如果社会价值来自两个互不影响的独立部分,那么分配也应该独立进行并加总。

夏普里值定理与计算公式 🧮
基于以上三个公理,我们可以得到夏普里值定理。
定理:对于任何合作博弈 (N, v),存在唯一一种分配总价值 v(N) 的方案,同时满足对称性、假人玩家和可加性公理。这个方案就是夏普里值。
夏普里值的计算公式如下:
公式:
ψ_i(v) = Σ_{S ⊆ N \ {i}} [ |S|! (|N| - |S| - 1)! / |N|! ] * [ v(S ∪ {i}) - v(S) ]

公式解读:
这个公式实现了对边际贡献的加权平均。
[ v(S ∪ {i}) - v(S) ]:计算成员i加入联盟S时带来的边际贡献。|S|! (|N| - |S| - 1)! / |N|!:这个权重是所有可能的加入顺序中,i恰好在S中所有成员之后、N\S\{i}中所有成员之前加入的概率。Σ_{S ⊆ N \ {i}}:对所有不包含i的可能联盟S求和。
直观理解:
想象我们以随机顺序将成员逐个加入联盟,形成“大联盟” N。成员 i 的夏普里值,就是其在不同加入顺序下所作边际贡献的平均值。

计算实例 🔢
让我们通过两个例子来具体计算夏普里值。
实例一:两人合作博弈
假设有两人合作,其特征函数为:
v({1}) = 1v({2}) = 2v({1,2}) = 4

计算成员1的夏普里值 ψ_1(v):
- 可能的联盟
S(不包含1):∅和{2}。 - 当
S = ∅:- 边际贡献:
v({1}) - v(∅) = 1 - 0 = 1 - 权重:
|S|! (2-|S|-1)! / 2! = 0! * 1! / 2! = 1/2
- 边际贡献:
- 当
S = {2}:- 边际贡献:
v({1,2}) - v({2}) = 4 - 2 = 2 - 权重:
|S|! (2-|S|-1)! / 2! = 1! * 0! / 2! = 1/2
- 边际贡献:
- 因此,
ψ_1(v) = (1/2)*1 + (1/2)*2 = 1.5

同理可计算 ψ_2(v) = (1/2)*2 + (1/2)*(4-1) = 2.5。
最终分配为:(1.5, 2.5),总和为 4。
实例二:三人“关键成员”博弈(回顾开篇案例)
假设三人社会,v(N)=1,任何真子联盟 S 的价值 v(S)=0。
计算成员1的夏普里值。所有不包含1的联盟 S 有:∅, {2}, {3}, {2,3}。
S=∅: 贡献=v({1})-0=1,权重=0!2!/3!=2/6S={2}: 贡献=v({1,2})-0=0,权重=1!1!/3!=1/6S={3}: 贡献=v({1,3})-0=0,权重=1!1!/3!=1/6S={2,3}: 贡献=v(N)-0=1,权重=2!0!/3!=2/6
因此,ψ_1(v) = (2/6)*1 + (1/6)*0 + (1/6)*0 + (2/6)*1 = 4/6 = 2/3。
由对称性,三人均相同,每人得 1/3。但注意,此例中三人完全对称,根据对称性公理,结果应为 (1/3, 1/3, 1/3)。上述详细计算中 S={2} 和 S={3} 的贡献应为 0(因为 v({1,2})=v({1,3})=0),但最终通过加权平均,依然得到 1/3。这里为了演示公式,采用了简化的特征函数描述,更严谨的定义下,v({i}) 可能不为0,但核心加权逻辑不变。
总结 📝

本节课我们一起学习了合作博弈中公平分配的经典方法——夏普里值。
- 核心思想:根据成员对联盟的边际贡献进行分配,并通过加权平均所有可能的加入顺序来得出稳定值。
- 公理基础:它由对称性、假人玩家和可加性三条公理唯一确定,为“公平”提供了严谨的定义。
- 计算方法:通过公式
ψ_i(v) = Σ_{S ⊆ N \ {i}} [ |S|! (|N| - |S| - 1)! / |N|! ] * [ v(S ∪ {i}) - v(S) ]计算,本质是边际贡献的概率加权平均。

夏普里值提供了一种强大而优雅的分配方案。然而,公平的概念并非唯一。在接下来的课程中,我们将探讨另一个重要的概念——核心,它基于不同的逻辑(如联盟稳定性)来预测合作博弈的结果。
博弈论课程 P51:合作博弈的核心概念 🎯
在本节课中,我们将学习合作博弈论中的一个核心解决方案概念——“核心”。我们将探讨在何种条件下,代理人愿意组成一个大联盟,而不是分裂成更小的联盟。核心概念帮助我们理解支付分配如何影响联盟的稳定性。

从沙普利值到联盟稳定性
上一节我们介绍了沙普利值作为一种公平的分配方式。本节中我们来看看,代理人是否总是愿意组成大联盟。
考虑一个由四个政党(A、B、C、D)组成的议会投票游戏。各党席位分别为:A(4席)、B(5席)、C(15席)、D(15席)。通过一项一亿美元的支出法案需要至少51票(简单多数)。如果法案未通过,所有政党都得不到资金。
计算得到的沙普利值分配如下:
- A: 2500万
- B: 2500万
- C: 2500万
- D: 2500万

值得注意的是,尽管B、C、D的票数不同,它们在沙普利值下获得了相同的份额。
现在,思考一个问题:是否存在一个次级联盟,可以通过脱离大联盟而获得更多收益?
答案是肯定的。例如,政党A和B可以组成一个次级联盟。他们共有9票,足以通过法案。如果他们两人瓜分一亿美元(例如A得7500万,B得2500万),双方所得均高于沙普利值下的分配。这表明,虽然沙普利值可能是公平的,但它不一定能为所有政党提供加入大联盟的正确激励。
因此,我们需要寻找一种支付分配方式,使得代理人愿意组成大联盟。这种分配需要属于一个名为“核心”的集合。

“核心”的定义与理解
“核心”是一组支付向量的集合,在这些支付下,没有任何代理人子集愿意脱离大联盟。
核心的正式定义如下:
对于一个给定的支付向量 x = (x₁, x₂, ..., xₙ),我们说 x 属于联盟博弈的核心,当且仅当对于大联盟 N 的每一个可能子集 S(包括 S = N),以下条件成立:
公式: ∑_{i ∈ S} x_i ≥ v(S)
其中:
- ∑_{i ∈ S} x_i 表示支付向量 x 分配给子集 S 中所有代理人的报酬总和。
- v(S) 表示子集 S 作为独立联盟时所能获得的总价值。
直观理解: 这个条件保证了,对于任何可能的次级联盟 S,其成员在大联盟中获得的报酬总和,至少不低于他们自己组成联盟 S 所能获得的价值。如果存在某个联盟 S 能通过偏离获得更多,那么当前的支付向量就不在核心中。

在投票游戏的例子中,沙普利值分配就不在核心内,因为A和B组成的联盟(v({A, B}) = 1亿)所能获得的,大于他们按沙普利值分配所得的总和(2500万 + 2500万 = 5000万)。
这个概念类似于纳什均衡,因为它要求“没有有利可图的偏离”。不同之处在于,核心考虑的是一组代理人的联合偏离,因此是一个比纳什均衡更强的稳定性概念。
核心的存在性与唯一性
引入一个新的解决方案概念时,我们通常关心两个问题:它是否总是存在?它是否唯一?
1. 核心是否总是非空?
答案是否定的。 有些博弈中,不存在任何能使大联盟稳定的支付分配。我们最初的投票游戏(51%多数)就是一个例子。
分析如下:
在该游戏中,最小的获胜联盟是 {A, B}, {A, C}, {A, D}, {B, C, D}。
- 如果支付给 {B, C, D} 的总和小于1亿,那么这三方有动机脱离并组成联盟。
- 如果支付给 {B, C, D} 的总和等于1亿(即A得到0),那么A可以与B、C、D中的任意一方组成新联盟(如{A, B}),并提议一个对双方都有利的分配(例如给B少量报酬,自己获得大部分),从而偏离。
因此,无论如何分配,总存在一个次级联盟可以通过偏离获利。该博弈的核心是空的。
2. 核心是否唯一?
答案也是否定的。 核心并不总是给出唯一的分配方案。
考虑修改投票游戏规则,将通过门槛从简单多数(51%)提高到绝对多数(80%)。此时,唯一的最小获胜联盟是 {A, B, C, D} 这个大联盟本身,因为任何缺少A或B的联盟都无法达到80%的席位。
在这种情况下,A和B成为了关键参与者(否决者)。只要A和B两人瓜分全部1亿美元(无论比例如何),支付向量就属于核心。因为C和D即使报酬为0,也无法通过组成其他联盟(如{C, D})获得任何收益(因为他们达不到80%多数)。因此,核心包含了所有满足 x_A + x_B = 1亿 且 x_C = 0, x_D = 0 的支付向量,它不是唯一的。

关于核心的正面结论
尽管核心可能为空或不唯一,但在某些特定类型的博弈中,我们可以得到更明确的结论。
首先定义两种博弈:

- 简单博弈:所有联盟的价值 v(S) 只能是 0 或 1。投票游戏就是简单博弈(1代表通过法案获得1亿,0代表不通过)。
- 否决者:玩家 i 是否决者,当且仅当所有不包含 i 的联盟 S,其价值 v(S) = 0。即,i 的参与是联盟产生任何价值的必要条件。
关于简单博弈的核心,有一个重要结论:
- 如果一个简单博弈中没有否决者,那么其核心一定是空的(如51%多数的投票游戏)。
- 如果一个简单博弈中存在否决者,那么其核心由所有满足“非否决者获得0报酬,而所有报酬在否决者之间任意分配”的支付向量组成(如80%多数的投票游戏)。

凸博弈与核心的稳定性
为了进一步探讨核心的积极性质,我们引入“机场博弈”的例子。
机场博弈描述:
几个城市需要建造机场。每个城市需要的跑道长度不同(对应不同规模的飞机)。它们可以选择各自建造机场,或者合资建造一个区域性机场。区域性机场的成本取决于所有参与城市中所需的最大跑道长度。联盟的价值定义为:各城市单独建造成本之和,减去建造区域性机场(满足最大需求)的成本。
公式: v(S) = ∑_{i ∈ S} c_i - max_{i ∈ S} c_i
其中 c_i 是城市 i 单独建造机场的成本。
接下来定义凸博弈:
一个博弈是凸的,如果对于大联盟 N 的任意两个子集 S 和 T,满足以下条件:
公式: v(S ∪ T) ≥ v(S) + v(T) - v(S ∩ T)
这比“超可加性”(要求 S ∩ T = ∅)条件更强。它意味着合并联盟的收益至少等于各自收益之和减去重叠部分的收益。机场博弈是一个凸博弈。

关于凸博弈,有两个非常积极的结论:
- 在凸博弈中,核心总是非空的。 总存在至少一种支付分配方式,可以稳定地支持大联盟。
- 在凸博弈中,沙普利值属于核心。 这意味着对于这类博弈,公平分配(沙普利值)与稳定分配(核心)的目标是一致的,并不矛盾。

总结
本节课中我们一起学习了合作博弈中的“核心”概念。
- 核心是一组支付分配,确保没有任何代理人子集愿意脱离大联盟去组建自己的小联盟。
- 核心不一定存在(如无否决者的简单博弈),也不一定唯一(如存在多个否决者时)。
- 在凸博弈(如机场博弈)中,核心总是非空的,并且沙普利值作为一种公平的分配方法,本身就位于核心之内,完美地兼顾了公平与稳定。

理解核心帮助我们分析在合作场景中,如何设计激励相容的分配机制,以促进大规模、稳定的合作。
课程 P52:博弈论核心与沙普利值计算实例 🎲
在本节课中,我们将通过一个具体的联盟博弈实例,分别计算其核心与沙普利值。我们将以联合国安全理事会的简化模型为例,分析不同分配规则下的结果差异,并理解这两种解决方案概念背后的逻辑。

实例背景:联合国安理会投票模型
联合国安理会负责通过各项决议。其组成包括五个拥有否决权的常任理事国(中国、法国、俄罗斯、英国、美国)以及十个无否决权的非常任理事国。决议通过需要满足两个条件:第一,所有常任理事国同意(或至少不反对);第二,获得多数票(即至少8票)。
为了简化分析,我们首先构建一个具有类似结构的三人博弈模型。
构建简化三人博弈模型
上一节我们介绍了安理会的基本规则。本节中,我们来看看一个简化的三人版本,以便清晰地计算和比较。
我们假设存在一个拥有否决权的“常任理事国”(玩家1)和两个“非常任理事国”(玩家2和玩家3)。决议通过规则采用简单多数决,且玩家1拥有否决权。因此,一个联盟能获得价值1(即通过决议)的条件是:
- 联盟必须包含玩家1。
- 联盟总人数至少为2(即简单多数)。
用合作博弈的特征函数 v(S) 表示如下:
v(S) =
\begin{cases}
1 & \text{如果 } 1 \in S \text{ 且 } |S| \geq 2 \\
0 & \text{其他情况}
\end{cases}
其中,S 代表任意玩家联盟,|S| 代表联盟 S 中的玩家数量。
计算博弈的“核心”
“核心”是一种分配方案,要求没有任何联盟能通过脱离大联盟而获得更高的总收益。这意味着,核心分配必须满足:对于任何可能的联盟 S,其成员所得收益之和不低于该联盟独立行动可获得的价值 v(S)。
以下是核心分配必须满足的条件:
- 个体理性:每个玩家所得
x_i ≥ 0,因为单人联盟最多只能获得0。 - 联盟理性:对于联盟 {1, 2},有
x1 + x2 ≥ v({1,2}) = 1。对于联盟 {1, 3},有x1 + x3 ≥ 1。 - 整体理性:所有玩家收益之和等于大联盟价值,即
x1 + x2 + x3 = v({1,2,3}) = 1。
结合这些条件进行推导:
- 由
x1 + x2 ≥ 1和x1 + x2 + x3 = 1,可推出x3 ≤ 0。 - 又因个体理性要求
x3 ≥ 0,所以x3 = 0。 - 同理,由
x1 + x3 ≥ 1可推出x2 = 0。 - 最后,将
x2 = 0和x3 = 0代入总和公式,得到x1 = 1。
因此,该博弈的核心是唯一的分配方案:(x1, x2, x3) = (1, 0, 0)。这意味着全部价值都分配给拥有否决权的关键玩家1。
如果将此逻辑扩展回完整的15人安理会模型,核心预测所有价值将在五个常任理事国之间分配,而十个非常任理事国获得零收益。
计算博弈的“沙普利值”
上一节我们看到了核心分配的结果。本节中,我们来看看基于边际贡献的另一种分配方案——沙普利值。
沙普利值根据每个玩家对所有可能联盟的边际贡献的平均值来分配总价值。玩家 i 的沙普利值 φ_i(v) 计算公式为:
φ_i(v) = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|! (|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]

其中,N 是全体玩家集合,S 是不包含玩家 i 的联盟。
对于我们的三人博弈(N={1,2,3}),我们计算玩家1的沙普利值。玩家1的边际贡献 v(S∪{1}) - v(S) 仅在联盟 S 本身不包含玩家1且 |S| ≥ 1 时为1(因为他加入后满足了“包含1”和“人数≥2”两个条件),否则为0。

考虑所有玩家加入联盟的等可能顺序(共3! = 6种):
- 顺序 (1,2,3): 玩家1第一个加入,此时
S={},边际贡献为0。 - 顺序 (1,3,2): 同上,边际贡献为0。
- 顺序 (2,1,3): 玩家1第二个加入,此时
S={2},边际贡献为v({2,1}) - v({2}) = 1 - 0 = 1。 - 顺序 (3,1,2): 玩家1第二个加入,此时
S={3},边际贡献为v({3,1}) - v({3}) = 1 - 0 = 1。 - 顺序 (2,3,1): 玩家1最后加入,此时
S={2,3},边际贡献为v({2,3,1}) - v({2,3}) = 1 - 0 = 1。 - 顺序 (3,2,1): 同上,边际贡献为1。
玩家1在6种顺序中的4种里做出了边际贡献1,因此其沙普利值为 4/6 = 2/3。
由于玩家2和3对称,他们将平分剩余的价值 1 - 2/3 = 1/3,即各得 1/6。
因此,该博弈的沙普利值为:(φ1, φ2, φ3) = (2/3, 1/6, 1/6)。

核心与沙普利值的比较与总结
本节课中,我们一起学习了如何为一个具体的联盟博弈计算核心与沙普利值。
通过对比,我们得到了两种截然不同的分配预测:
- 核心 (Core): (1, 0, 0)。这反映了“没有关键玩家1,其他联盟一事无成”的强谈判地位。核心关注的是联盟的稳定性,防止任何子联盟有动机脱离。
- 沙普利值 (Shapley Value): (2/3, 1/6, 1/6)。这反映了每个玩家对所有可能联盟的平均边际贡献。尽管玩家2和3没有否决权,但他们在半数情况下(当与玩家1结合时)对创造价值有贡献,因此也获得了部分收益。
这个例子清晰地展示了合作博弈论中不同解概念背后的逻辑:
- 核心源于联盟的稳定性和阻止偏离的思想。
- 沙普利值源于公平分配和边际贡献的思想。

合作博弈论提供了一套简洁的公理化工具(如核心、沙普利值等)来建模复杂的多方谈判与分配问题,避免了构建庞大非合作博弈扩展式的复杂性,直接对可能的合作结果做出预测。在实际应用中,可以根据具体情境和关注的公平或稳定性标准,选择合适的解概念进行分析。

课程P6:博弈论(5)纳什均衡导论 🎯
在本节课中,我们将学习博弈论中最核心的解概念之一——纳什均衡。我们将从一个著名的思想实验“凯恩斯选美比赛”入手,理解为什么在策略互动中,预测他人行为并据此做出最优反应是如此重要。通过本课,你将掌握纳什均衡的基本思想及其构成要素。

从凯恩斯选美比赛说起
上一节我们探讨了博弈的基本形式,本节中我们来看看一个具体的思想实验,它完美地诠释了策略互动的本质。
这个思想实验由经济学家约翰·梅纳德·凯恩斯提出,用以类比金融市场中的投资行为。设想你持有一只股票,其价格正在上涨。你开始认为股价可能被高估,存在泡沫,因此考虑卖出。你的目标是在价格达到最高点前卖出,但这需要你预测其他投资者何时会卖出。你必须思考他人对股价的看法以及他们将如何行动,然后再决定自己的最优策略。
凯恩斯将其比作一场报纸举办的选美比赛:参赛者需要猜测其他读者认为哪位女性最有吸引力,而非自己认为谁最美。这揭示了在策略环境中,预测他人的预测至关重要。
一个简化的游戏模型
为了将上述思想具体化,我们引入一个高度简化的游戏模型,即“猜平均数的三分之二”游戏。
以下是游戏规则:
- 玩家:多人同时参与。
- 行动:每个玩家秘密选择一个1到100之间的整数。
- 目标:玩家需要猜测所有玩家所选数字的平均值的三分之二。
- 获胜:最接近这个“目标值”(即平均值的2/3)的玩家获胜。
- 平局:如果多人猜中相同的最接近数字,则通过随机方式(如抛硬币)平分奖励。
那么,你会如何玩这个游戏?关键在于思考其他玩家会怎么做。
纳什均衡的核心思想
通过上面的游戏,我们已经触及了纳什均衡的两个核心成分:
- 预测:形成关于其他玩家将如何行动的信念。
- 最优反应:在给定这些信念的前提下,选择能使自己收益最大化的策略。
当一个策略组合满足以下条件时,它就构成了一个纳什均衡:在该组合下,每一位玩家选择的策略,都是针对其他玩家当前策略的最优反应。这意味着没有人可以通过单方面改变自己的策略而获得更好的结果。这是一种策略上的“稳定状态”。
用公式化的语言描述,在由 n 个玩家构成的博弈中,设 s* = (s1*, s2*, ..., sn*) 是一个策略组合。对于任意玩家 i 及其任意其他可选策略 si‘,如果都满足:
Ui(si, s-i) ≥ Ui(si‘, s*-i)
那么 s* 就是一个纳什均衡。其中,Ui 代表玩家 i 的收益函数,s*-i 代表除 i 之外所有其他玩家的均衡策略。
本节课总结

本节课中,我们一起学习了纳什均衡的初步概念。我们从“凯恩斯选美比赛”这一经典例子出发,理解了在策略性思考中预测他人行为的重要性。随后,我们通过一个具体的数字猜测游戏,引出了纳什均衡的定义:即一种所有参与者都选择了针对彼此策略的最优反应,从而无人愿意单方面改变的策略状态。这是分析博弈结果最基础、最重要的工具之一。

课程P7:战略推理与纳什均衡 🎯

在本节课中,我们将学习博弈论中的战略推理,并深入探讨纳什均衡的概念。我们将以凯恩斯选美比赛为例,分析玩家如何做出最优决策,以及纳什均衡如何在实际游戏中体现。

凯恩斯选美比赛游戏规则 📝

凯恩斯选美比赛是一个多人参与的博弈游戏。每个玩家需要选择一个介于1到100之间的整数。所有玩家提交数字后,系统会计算所有数字的平均值,并将该平均值乘以2/3。最接近这个结果的玩家获胜,其他玩家一无所获。如果出现平局,获胜者将被随机均匀地选出。
游戏的关键在于,玩家需要预测其他玩家的选择,并据此调整自己的策略,以最大化获胜机会。
纳什均衡的基本概念 ⚖️
纳什均衡是博弈论中的一个核心概念。在纳什均衡中,每个玩家都选择了针对其他玩家策略的最优反应。这意味着,在给定其他玩家策略的情况下,没有任何玩家可以通过单方面改变自己的策略来获得更高的收益。

在凯恩斯选美比赛中,纳什均衡要求每个玩家的选择都是对其他玩家选择的最优反应。具体来说,如果所有玩家都选择相同的数字,并且这个数字是唯一的稳定点,那么这就是纳什均衡。
战略推理过程 🤔
在凯恩斯选美比赛中,玩家需要进行多层次的战略推理。以下是推理的基本步骤:


- 初始假设:假设所有玩家随机选择数字,平均值为某个数 ( x )。
- 最优反应:根据平均值 ( x ),玩家的最优策略是选择最接近 ( \frac{2}{3}x ) 的整数。
- 理性推理:如果所有玩家都是理性的,他们会意识到没有人会选择超过67的数字,因为 ( \frac{2}{3} \times 100 \approx 67 )。
- 迭代推理:如果所有玩家都理解这一点,平均值 ( x ) 不会超过67,因此最优策略是选择不超过 ( \frac{2}{3} \times 67 \approx 45 ) 的数字。依此类推,最终所有玩家都会选择数字1。
- 纳什均衡:唯一的纳什均衡是所有玩家都选择数字1。在这种情况下,每个玩家的选择都是对其他玩家选择的最优反应。

实际游戏结果分析 📊
在实际游戏中,玩家的选择往往与纳什均衡有所偏差。以下是斯坦福大学在线课程中的游戏结果分析:
- 第一轮游戏:大多数玩家选择了50,这是最常见的数字。平均值为34,获胜数字为23。
- 第二轮游戏:玩家们根据第一轮的结果调整策略,选择更低的数字。纳什均衡(数字1)的玩家数量显著增加。

实际游戏结果表明,纳什均衡在玩家经验增加后逐渐显现。如果玩家理解游戏逻辑并多次参与,他们的选择会逐渐趋近于纳什均衡。

纳什均衡的意义与动态调整 🔄


纳什均衡不仅是一个理论概念,在实际游戏中也有重要意义。以下是纳什均衡的几个关键点:

- 一致性:在纳什均衡中,每个玩家的策略都是对其他玩家策略的最优反应,没有任何玩家有动机偏离。
- 稳定性:如果玩家理解游戏逻辑,非均衡策略会逐渐被淘汰,玩家的选择会动态调整至均衡状态。
- 预测性:纳什均衡可以作为预测玩家行为的工具,尤其是在玩家经验丰富或游戏重复进行的情况下。

总结 📚

本节课中,我们一起学习了博弈论中的战略推理和纳什均衡。通过凯恩斯选美比赛的例子,我们了解了玩家如何通过多层次推理做出最优决策,以及纳什均衡如何在实际游戏中体现。纳什均衡不仅是一个理论概念,更是玩家行为预测和动态调整的重要工具。在后续课程中,我们将进一步探讨博弈论中的其他概念和实际应用。
博弈论课程 P8:最佳对策与纳什均衡 ⚖️

在本节课中,我们将学习如何预测博弈中参与者的行为。核心概念是最佳对策和纳什均衡。我们将通过定义和例子来理解这些概念,并学习如何找到它们。
概述

假设你是博弈中的一名参与者。如果你知道其他所有参与者会采取什么行动,那么你就可以决定自己最好的应对策略。这个“最好的应对”就是最佳对策。
然而,在现实中,你通常并不知道其他人会怎么做。为了解决这个问题,我们引入纳什均衡的概念。纳什均衡描述了一种状态:当每个参与者选择的行动都是对其他所有人行动的最佳对策时,没有人有动机单方面改变自己的策略。本节课我们将详细探讨这两个核心概念。
最佳对策

上一节我们提到了在已知他人行动时选择最佳策略的想法。本节中,我们来正式定义最佳对策。
首先,我们需要一些符号来表示行动组合。假设有多个参与者,我们用 a 表示一个包含所有参与者行动的组合(即行动组合)。具体来说,a-i 表示除了参与者 i 之外所有其他参与者的行动组合。参与者 i 自己的行动记为 ai。
基于此,最佳对策的定义如下:
对于给定的其他参与者的行动组合 a-i,参与者 i 的行动 ai* 是其最佳对策,当且仅当:选择 ai* 给参与者 i 带来的收益(效用),不低于选择任何其他可能行动 bi 所带来的收益。
我们可以用公式更精确地描述。设 Ui(ai, a-i) 表示当参与者 i 采取行动 ai、其他人采取 a-i 时,参与者 i 获得的效用。那么,行动 ai* 是最佳对策的条件是:
Ui(ai*, a-i) ≥ Ui(bi, a-i),对于所有可能的 bi。
最佳对策可能不止一个,所有满足条件的行动构成的集合,称为最佳对策集,记作 BRi(a-i)。
这个概念非常直观:在已知对手策略的前提下,你自然会选择能让自己获得最高回报的策略。
从最佳对策到纳什均衡
理解了最佳对策,我们就有了构建预测模型的基础。但正如开头所说,问题在于我们通常不知道其他人的行动。接下来,我们将使用最佳对策作为基石,来构建一个更强大的概念——纳什均衡。

纳什均衡描述了一种稳定的策略状态。在这种状态下,每个参与者的策略都是对其他参与者当前策略的最佳对策。因此,没有人可以通过单方面改变自己的策略而获得更高的收益。
具体定义如下:
一个行动组合 a = (a1, a2, ..., an*)* 是一个(纯策略)纳什均衡,如果对于每一个参与者 i,其所选择的行动 ai* 都是针对其他参与者行动 a-i* 的最佳对策。

换句话说,在纳什均衡点,每个人都选择了针对当前局面的最优策略,从而达到了一个“策略稳定”的状态。因为任何一个人单独改变策略,都不会让自己变得更好,所以大家都没有动机去改变。
总结
本节课我们一起学习了博弈论中两个核心的分析工具。
首先,我们定义了最佳对策:它是在已知其他参与者行动时,能使自身效用最大化的策略选择。

接着,我们利用最佳对策的概念,定义了纳什均衡。纳什均衡是一个策略组合,其中每个参与者的策略都是对其他参与者策略的最佳对策,从而构成一个稳定的策略状态,无人愿意单方面偏离。
理解最佳对策是寻找和分析纳什均衡的基础。在接下来的课程中,我们将学习如何在实际博弈中识别和计算纳什均衡。
博弈论课程 P9:纳什均衡游戏示例 🎲

在本节课中,我们将通过几个经典游戏的例子,来具体理解纳什均衡的概念。我们将分析每个游戏的策略、收益以及其中存在的纳什均衡。
示例一:囚徒困境 ⛓️
上一节我们介绍了纳什均衡的定义,本节中我们来看看它在具体游戏中的应用。首先是一个熟悉的例子——囚徒困境。
在这个游戏中,两名囚犯被分别审讯。他们可以选择“合作”(保持沉默)或“叛逃”(揭发对方)。收益矩阵如下:

| 囚犯A \ 囚犯B | 合作 | 叛逃 |
|---|---|---|
| 合作 | (-1, -1) | (-3, 0) |
| 叛逃 | (0, -3) | (-2, -2) |

(-1, -1):双方都合作,各判1年。(-3, 0)或(0, -3):一方合作一方叛逃,合作者判3年,叛逃者释放。(-2, -2):双方都叛逃,各判2年。
以下是该游戏的分析:
- 对于每位玩家而言,“叛逃”是一个优势策略。无论对方选择什么,自己选择“叛逃”的收益(0或-2)总是优于选择“合作”的收益(-1或-3)。
- 因此,双方都选择“叛逃”
(叛逃, 叛逃)是唯一的优势策略均衡。 - 事实上,这也是该博弈中唯一的纳什均衡。因为给定对方选择“叛逃”,自己选择“叛逃”(收益-2)是最佳反应;选择“合作”的收益更差(-3)。
这个例子展示了一个具有唯一且很强的(优势策略)纳什均衡的游戏。

示例二:纯协调游戏 🚶♂️🚶♀️
接下来,我们看一个性质不同的游戏——纯协调游戏。
想象两个人在一条小路上迎面走来,他们需要决定靠左走还是靠右走以避免相撞。收益矩阵如下:
| 行人A \ 行人B | 左 | 右 |
|---|---|---|
| 左 | (1, 1) | (0, 0) |
| 右 | (0, 0) | (1, 1) |
(1, 1):双方选择同侧(都左或都右),顺利通过,获得收益。(0, 0):双方选择不同侧,发生碰撞,没有收益。
以下是该游戏的纳什均衡分析:
- 存在两个纯策略纳什均衡:
(左, 左)和(右, 右)。 - 在
(左, 左)均衡中,给定对方选“左”,自己选“左”是最佳反应(收益1),选“右”则收益为0。 - 在
(右, 右)均衡中,逻辑相同。给定对方选“右”,自己选“右”是最佳反应。
这个例子展示了存在多个纳什均衡的游戏,且均衡结果对双方都同样有利。
示例三:性别之战 🎬
现在,我们分析一个更复杂的协调游戏——性别之战。
一对夫妇决定晚上看哪部电影:一部暴力动作片《泰坦之战》(B)或一部轻松文艺片《花的生长》(F)。丈夫更喜欢F,妻子更喜欢B,但最重要的是两人要在一起。收益矩阵如下:
| 丈夫 \ 妻子 | 选B | 选F |
|---|---|---|
| 选B | (2, 3) | (0, 0) |
| 选F | (0, 0) | (3, 2) |
(2, 3):都看B,妻子更开心(3 > 2)。(3, 2):都看F,丈夫更开心(3 > 2)。(0, 0):选择不同,各自观看,两人都不开心。
以下是该游戏的纳什均衡分析:
- 同样存在两个纯策略纳什均衡:
(B, B)和(F, F)。 - 在
(B, B)均衡中,给定妻子选B,丈夫选B(收益2)是最佳反应,选F则收益为0。 - 在
(F, F)均衡中,给定妻子选F,丈夫选F(收益3)是最佳反应。 - 从妻子的角度分析,逻辑对称。
这个游戏表面类似纯协调游戏,但存在关键不同:在两个均衡中,双方的收益并不相等,存在偏好冲突。我们将在后续讨论混合策略时再深入探讨这个问题。
示例四:匹配硬币 🪙
最后,我们看一个没有纯策略纳什均衡的游戏——匹配硬币。
两个玩家同时出示硬币的正面(H)或反面(T)。规则是:如果两面相同(都H或都T),玩家1赢;如果两面不同,玩家2赢。这是一个零和游戏。收益矩阵如下(从玩家1视角):
| 玩家1 \ 玩家2 | 选H | 选T |
|---|---|---|
| 选H | (1, -1) | (-1, 1) |
| 选T | (-1, 1) | (1, -1) |
(1, -1):两面相同,玩家1得1分,玩家2失1分。(-1, 1):两面不同,玩家1失1分,玩家2得1分。
以下是该游戏的纯策略分析:
- 假设玩家1选H,玩家2的最佳反应是选T(得1分 > 失1分)。
- 如果玩家2选T,那么玩家1的最佳反应变为选T(得1分 > 失1分)。
- 如果玩家1选T,玩家2的最佳反应又变为选H(得1分)。
- 如果玩家2选H,玩家1的最佳反应又变回选H(得1分)。
我们可以看到,最佳反应构成了一个循环:(H, T) -> (T, T) -> (T, H) -> (H, H) -> (H, T)...。在这个循环中,没有任何一个策略组合能稳定下来,使得双方都不愿单独改变策略。因此,该游戏不存在纯策略纳什均衡。要找到它的均衡,需要引入混合策略的概念,这将是后续课程的内容。
总结 📝
本节课中,我们一起学习了纳什均衡在几个经典游戏中的应用:
- 囚徒困境:存在唯一的、也是优势策略的纳什均衡(叛逃,叛逃)。
- 纯协调游戏:存在多个对双方都同样有利的纯策略纳什均衡(如都左或都右)。
- 性别之战:存在多个纯策略纳什均衡,但在不同均衡中玩家的收益不同,体现了协调中的偏好冲突。
- 匹配硬币:不存在纯策略纳什均衡,最佳反应构成循环。

这些例子展示了纳什均衡的多样性:它可能是唯一的,也可能是多重的;可能对应优势策略,也可能需要精妙配合;甚至在某些游戏中,根本不存在纯策略意义上的纳什均衡。理解这些基础模型,是分析更复杂博弈情境的关键。


浙公网安备 33010602011771号