混合策略均衡:批评与辩护
Reference: purification in The New Palgrave Dictionary of Economics, edited by Steven Durlauf and Lawrence Blume
在混合策略均衡中,行为人会按照特定分布来随机化自己的行动。比如石头剪刀布游戏中,行为人会等可能地选择所采取的行动,并且她对这些行动是无差异的。
混合策略和我们日常的直觉并不一致。首先,行为人在实际决策中很少会随机化自己的决策(甚至可能不具有按照特定分布来随机化自己行动的能力)。其次,既然行为人对可能采取的行动是无差异的,那她按照特定分布来随机化自己行为的动机是什么呢?为什么不直接采取“更简单的”纯策略呢?
尽管存在这些批评,在很多完备信息博弈中只存在混合策略的纳什均衡(比如石头剪刀布)。因此,我们有必要为混合策略均衡概念的合理性提供辩护。 Harsanyi 的纯化定理说明,混合均衡可视作纯策略均衡的极限形式:
-
给定某个完备信息博弈,我们给行为人 i 的收益增加一些扰动,这些扰动是行为人 i 的私人信息。这个不完备信息博弈存在纯策略均衡。
-
当扰动项趋于零,这个不完备信息博弈会“收敛”到开始的完备信息博弈,对应的纯策略均衡也“收敛”到相应的混合策略均衡。
例子
考虑包含两个行为人的完备信息博弈,每个行为人同时选择行动 A 或 B.
| A | B | |
|---|---|---|
| A | 2,2 | 0,0 |
| B | 0,0 | 1,1 |
这个博弈存在三个对称均衡:都选 A, 都选 B, 都以概率 1/3 选 A.
- 假设上述矩阵中的公开收益和行为人的实际收益存在偏离。具体地,假设行为人 i 会从行动 A 中获得额外收益 \(\varepsilon x_{iA}\),其中 \(x_{iA}\) 为行为人 i 的私人信息。在其他行为人眼中,它服从某分布 G,\(x_{iA} \sim G(\cdot)\)。
| A | B | |
|---|---|---|
| A | 2+εx1A, 2+εx2A | εx1A, εx2B |
| B | εx1B, εx2A | 1+εx1B, 1+εx2B |
- 参数 \(\varepsilon\) 是公共知识,后面我们会令 \(ε\) 趋于零,从而使得这个不完备信息博弈收敛到开始的完备信息博弈。
行为人 i 的策略为私人信息到行动的映射,\((x_{iA}, x_{iB}) \mapsto a \in \{A,B\}\). 当行动 A 的收益冲击 \(x_{iA}\) 大于行动 A 的收益冲击 \(x_{iB}\) 时,行为人有额外激励选择行动 A.
这个不完备信息博弈的均衡是什么呢?考虑如下“门槛策略”,当 \(x_i \equiv x_{iA} - x_{iB}\) 高于某个门槛值时,行为人选择行动 A;否则选 B. 此时行为人 1 的策略表示如下:
类似地,行为人 2 的策略包含某个门槛 \(z_2\). 在这个策略下,行为人 i 选择 B 的事前概率为 \(\pi_i \equiv \Pr (x_i < z_i) = F(\pi_i)\),其中 \(F\) 是随机变量 \(x_i\) 的累积分布函数,它可由 \(x_i = x_{iA} - x_{iB}\) 和冲击的分布计算得到。
考虑策略组合 \((s_1,s_2)\),它由对应的门槛值 \((\pi_1,\pi_2)\) 刻画。固定行为人2的策略,相比于行动 B, 行为人1选择行动 A 的额外期望收益为:\(2(1-\pi_2) + \varepsilon x_1 - \pi_2\)。其中:
-
\(2(1-π_2) - \pi_2\) 是来自公开收益部分的额外好处
-
\(εx_1\) 是来自收益冲击的额外好处,它的大小取决于 \(ε\)
因此,行为人 1 的的最优 \(\pi_1^*\) 由下式决定:
由对称性,均衡双方均选择门槛 \(π^*\):
对很小的 \(ε\), 上述方程的三个解分别收敛到 0, 2/3 和 1 as \(ε \to 0\).
-
2/3 这个值很容易看出。方程 (*) 可写作 \(εF^{-1}(π^*) = 3π^*-2\),此时等号又边收敛到 0
-
0 和 1 这两个解的含义:此时(*)右边分别收敛到 −∞ 和 +∞,这对应等号左边的取值:\(F^{-1}(0) = -∞ , F^{-1}(1) = + ∞\).
posted on 2021-08-09 23:58 Albert_Lei 阅读(196) 评论(0) 收藏 举报
浙公网安备 33010602011771号