混合策略均衡：批评与辩护

Reference: purification in The New Palgrave Dictionary of Economics, edited by Steven Durlauf and Lawrence Blume

在混合策略均衡中，行为人会按照特定分布来随机化自己的行动。比如石头剪刀布游戏中，行为人会等可能地选择所采取的行动，并且她对这些行动是无差异的。

混合策略和我们日常的直觉并不一致。首先，行为人在实际决策中很少会随机化自己的决策（甚至可能不具有按照特定分布来随机化自己行动的能力）。其次，既然行为人对可能采取的行动是无差异的，那她按照特定分布来随机化自己行为的动机是什么呢？为什么不直接采取“更简单的”纯策略呢？

尽管存在这些批评，在很多完备信息博弈中只存在混合策略的纳什均衡（比如石头剪刀布）。因此，我们有必要为混合策略均衡概念的合理性提供辩护。 Harsanyi 的纯化定理说明，混合均衡可视作纯策略均衡的极限形式：

给定某个完备信息博弈，我们给行为人 i 的收益增加一些扰动，这些扰动是行为人 i 的私人信息。这个不完备信息博弈存在纯策略均衡。
当扰动项趋于零，这个不完备信息博弈会“收敛”到开始的完备信息博弈，对应的纯策略均衡也“收敛”到相应的混合策略均衡。

例子

考虑包含两个行为人的完备信息博弈，每个行为人同时选择行动 A 或 B.

	A	B
A	2,2	0,0
B	0,0	1,1

这个博弈存在三个对称均衡：都选 A, 都选 B, 都以概率 1/3 选 A.

假设上述矩阵中的公开收益和行为人的实际收益存在偏离。具体地，假设行为人 i 会从行动 A 中获得额外收益 \(\varepsilon x_{iA}\)，其中 \(x_{iA}\) 为行为人 i 的私人信息。在其他行为人眼中，它服从某分布 G，\(x_{iA} \sim G(\cdot)\)。

	A	B
A	2+εx_1A, 2+εx_2A	εx_1A, εx_2B
B	εx_1B, εx_2A	1+εx_1B, 1+εx_2B

参数 \(\varepsilon\) 是公共知识，后面我们会令 \(ε\) 趋于零，从而使得这个不完备信息博弈收敛到开始的完备信息博弈。

行为人 i 的策略为私人信息到行动的映射，\((x_{iA}, x_{iB}) \mapsto a \in \{A,B\}\). 当行动 A 的收益冲击 \(x_{iA}\) 大于行动 A 的收益冲击 \(x_{iB}\) 时，行为人有额外激励选择行动 A.

这个不完备信息博弈的均衡是什么呢？考虑如下“门槛策略”，当 \(x_i \equiv x_{iA} - x_{iB}\) 高于某个门槛值时，行为人选择行动 A；否则选 B. 此时行为人 1 的策略表示如下：

\[s_1(x_1) = \begin{cases} A, &\text{ if } x_1 \ge z_1\\ B, &\text{ otherwise. } \end{cases} \]

类似地，行为人 2 的策略包含某个门槛 \(z_2\). 在这个策略下，行为人 i 选择 B 的事前概率为 \(\pi_i \equiv \Pr (x_i < z_i) = F(\pi_i)\)，其中 \(F\) 是随机变量 \(x_i\) 的累积分布函数，它可由 \(x_i = x_{iA} - x_{iB}\) 和冲击的分布计算得到。

考虑策略组合 \((s_1,s_2)\)，它由对应的门槛值 \((\pi_1,\pi_2)\) 刻画。固定行为人2的策略，相比于行动 B, 行为人1选择行动 A 的额外期望收益为：\(2(1-\pi_2) + \varepsilon x_1 - \pi_2\)。其中：

\(2(1-π_2) - \pi_2\) 是来自公开收益部分的额外好处
\(εx_1\) 是来自收益冲击的额外好处，它的大小取决于 \(ε\)

因此，行为人 1 的的最优 \(\pi_1^*\) 由下式决定：

\[F^{-1}(π_1^*) = (3π_2-2) / ε \]

由对称性，均衡双方均选择门槛 \(π^*\):

\[F^{-1}(π^*) = (3π^*-2)/ε \tag{*} \]

对很小的 \(ε\), 上述方程的三个解分别收敛到 0, 2/3 和 1 as \(ε \to 0\).

2/3 这个值很容易看出。方程 (*) 可写作 \(εF^{-1}(π^*) = 3π^*-2\)，此时等号又边收敛到 0
0 和 1 这两个解的含义：此时(*)右边分别收敛到 −∞ 和 +∞，这对应等号左边的取值：\(F^{-1}(0) = -∞ , F^{-1}(1) = + ∞\).

posted on 2021-08-09 23:58 Albert_Lei 阅读(206) 评论(0) 收藏举报

刷新页面返回顶部

混合策略均衡：批评与辩护

例子

导航