纯策略和混合策略：纯策略是指博弈中玩家在每一个给定的信息情况下只选择一种特定的行动，也即玩家在其策略空间中选取唯一确定的策略；混合策略是指博弈中玩家获取得到的信息具有不确定性，因此玩家会以一定的概率值随机地选取行动。

混合策略（Mixed strategy）：用 $S_i=\{s_{i1}, s_{i2}, \dots, s_{im}\}$ 表示玩家 $i$ 的纯策略有限集合。$\Delta S_i$ 表示集合 $S_i$ 的单纯形，也即 $\Delta S_i$ 是 $S_i$ 所有概率分布的集合。对于玩家 $i$ 来说，他的混合策略 $\sigma_i$ 满足 $\sigma_i \in \Delta S$，因此 $\sigma_i=\{\sigma_i(s_{i1}), \sigma_i(s_{i2}),\dots, \sigma_i(s_{im})\}$ 是 $S_i$ 上的一个概率分布，其中 $\sigma_i(s_i)$ 表示玩家 $i$ 采取行动 $s_i$ 的概率。

博弈按照策略集合是否有限可以划分为

有限博弈（Finite game）：所有玩家的纯策略集都是有限集合。
无限博弈（Infinite game）：至少有一个玩家的纯策略集是无限集合。

博弈按照行动的顺序以及行动信息的掌握情况可以划分为

静态博弈（Static game）：所有玩家同时、独立地选择自己的行动；或者玩家们不同时行动，但是任何后行动的玩家都不能观察到之前其他玩家的具体行动信息以及不能和其他玩家之间沟通。
动态博弈（Dynamic game）：也称为序贯博弈，各个玩家按照一定的时间顺序，独立地选择自己的行动，后行动的玩家能够部分或完全地观察到前面玩家的行动信息。

博弈按照是否存在有关行动策略和收益函数的共识可以划分为

完全信息博弈（Game of complete information）：所有玩家在博弈之前，都了解博弈的所有基本信息，包括：有多少个玩家，每个玩家的所有可能的策略（策略空间），以及每种策略组合给每位玩家带来的收益（收益函数）。
非完全信息博弈（Game of incomplete information）：至少有一位玩家在博弈之前，不完全了解博弈的所有基本信息。非完全信息博弈中，首先行动的是自然 (Nature)，自然决定了博弈者以多大的可能性采取某种行动。

博弈按照玩家对其他玩家行动信息的掌握情况，动态博弈进一步可以分为：

完美信息动态博弈（Dynamic game of perfect information）：每个玩家在选择行动时，都知道所有先行动的玩家的行动信息。
不完美信息动态博弈（Dynamic game of imperfect information）：至少有一位玩家在选择行动时，不完全知道所有先行玩家的行动信息。由于决策者不完全掌握博弈过程的信息，因此在决策时常常是根据获取信息的情况以一定的概率随机选择行动（采取混合策略）。

博弈按照行动策略是纯策略还是混合策略可以划分为：

纯策略博弈（Pure strategy game）：玩家每次选取确定的行动。
混合策略博弈（Mix strategy game）：玩家根据获取信息的情况以一定的概率随机选择行动。常见的混合策略的博弈主要是不完全信息博弈(如贝叶斯博弈，马尔科夫博弈)。

按照上述分类法，可以对博弈做进一步的细分。大体上，最常见的博弈可以将博弈分为以下四类：

完全信息静态博弈（Static game of complete information）
不完全信息静态博弈（Static game of incomplete information）
完全信息动态博弈（Dynamic game of complete information）
不完全信息动态博弈（Dynamic game of incomplete information）

分类图示：

graph LR style start fill:#FFFF00,stroke:#333,stroke-width:4px,fill-opacity:0.5 style J fill:#C7FFEC,stroke:#f66,stroke-width:2px,stroke-dasharray: 10,5 start[博弈论] --> J[信息结构]; J --> L[完全信息博弈]; J --> M[不完全信息博弈]; L --> P[完全信息静态博弈]; L --> Q[完全信息动态博弈]; M --> R[不完全信息静态博弈]; M --> S[不完全信息动态博弈]; style A fill:#C7FFEC,stroke:#f66,stroke-width:2px,stroke-dasharray: 10,5 start[博弈论] --> A[是否合作]; A --> B[合作博弈]; A --> C[非合作博弈]; C --> F[静态博弈]; C --> G[动态博弈]; G --> H[完美信息动态博弈]; G --> I[不完美信息动态博弈];

博弈的正规形

一个纯策略规范形式的博弈包含以下三个部分：

有限的玩家，$N=\{1, 2, \dots, n\}$.
一个纯策略的集合， $\{S_1, S_2, \dots, S_n\}$.
对于每一个 $i \in N$, 收益函数的集合， $\{v_1, v_2, \dots, v_n\}$，为所选策略的每个组合分配一个收益值，即一组函数 $v_i : S_1 \times S_2 \times \dots \times S_n\rightarrow \mathbb{R}$.

纯策略规范形式的博弈符号化表示为三元组 $\Gamma=(N,\{S_i\}_{i\in N},\{v_i\}_{i\in N})$，其中，

$N=\{1, 2, \dots, n\}$表示玩家的集合；
$S_i$ 表示 $i$ 的纯策略空间；
$v_i : S_1 \times \dots \times S_n\rightarrow \mathbb{R}$: 玩家 $i$ 的收益函数。

类似地，混合策略规范形式的博弈符号化表示为三元组 $\Gamma=(N,\{\Delta S_i\}_{i\in N},\{v_i\}_{i\in N})$，其中，

$N=\{1, 2, \dots, n\}$表示玩家的集合；
$\Delta S_i$ 表示 $i$ 的混合策略空间；
$v_i : \Delta S_1 \times \dots \times \Delta S_n\rightarrow \mathbb{R}$: 玩家 $i$ 的收益函数。

此外，博弈问题中经常引入符号：

$s_{-i}=(s_1, \dots, s_{i-1}, s_{i+1} \dots, s_n)$ : 玩家 $i$ 的对手的纯策略组合。
$S_{-i}=S_1 \times \dots \times S_{i-1} \times S_{i+1} \dots \times S_n$：玩家 $i$ 的对手的纯策略组合空间。
$\sigma_{-i}=(\sigma_1, \dots, \sigma_{i-1}, \sigma_{i+1} \dots, \sigma_n)$ : 玩家 $i$ 的对手的混合策略组合。
$\Delta S_{-i}=\Delta S_1 \times \dots \times \Delta S_{i-1} \times \Delta S_{i+1} \dots \times \Delta S_n$ : 玩家 $i$ 的对手的混合策略组合空间。

完全信息静态博弈的解概念

帕累托最优(Pareto optimal)

在现实中资源是有限的，一个博弈，如果每个玩家是自私的，他们只考虑最大化自身的收益，那么这种竞争资源的过程往往会导致整个团体效率的下降。

帕累托最优是指资源分配的一种理想状态，假定固有的一群人和可分配的资源，从一种分配状态到另一种状态的变化中，在没有使任何人境况变坏的前提下，使得至少一个人变得更好，这就是帕累托改进或帕累托最优化。帕累托最优的状态就是不可能再有更多的帕累托改进的余地。

帕累托最优 (Pareto optimal)：考虑一个纯策略正规形博弈，策略 $s, s' \in S$ ，若对于任意一个玩家 $i\in N$ 都满足 $v_i(s)\geq v_i(s')$ ，且至少有一个玩家 $j \in N$ 使得 $v_j(s)>v_j(s')$，那么称策略 $s$ 帕累托支配策略 $s'$ ，或者称策略 $s'$ 被策略 $s$ 帕累托支配。若策略 $s$ 不被任何策略帕累托支配，那么这个策略 $s$ 被称为是帕累托最优的。

严格支配策略均衡(Strictly dominant strategy equilibrium)

严格支配策略 (Strictly dominant strategy) ：考虑一个纯策略正规形博弈，玩家 $i$ 的两个可能策略为 $s_i, s_i' \in S$，若对于其他玩家的任意策略组合 $s_{-i} \in S_{-i}$ 都满足 $v_i(s_i, s_{-i})>v_i(s_i', s_{-i})$，那么称策略 $s$ 严格支配策略 $s'$ ，或者称策略 $s'$ 被策略 $s$ 严格支配，并用符号表示为 $s_i \succ s_i'$。

严格支配策略均衡（Strictly dominant strategy equilibrium）：如果一个策略剖面集合 $s^D \in S$ 中的所有元素都是严格支配策略，也即任取 $s_i^D \in s^D$ (玩家 $i$ 的策略)以及 $s_i' \in S_i$，都满足 $v_i(s_i, s_{-i})>v_i(s_i', s_{-i})$。

理性决定了玩家会选择严格支配策略，而绝不会选择被严格支配的策略。严格支配均衡解概念的适用面很窄，实际上，绝大多数混合策略正规形博弈都没有严格支配均衡。

一个博弈如果存在一个严格支配策略均衡解 $s^D$ ，那么 $s^D$ 是唯一的严格支配策略均衡。

迭代消去均衡(Iterated elimination equilibrium)

为了拓宽严格支配均衡解概念的适用面，有必要放宽严格支配均衡的条件，提出新的解概念。下面提出第二种解概念。

迭代消去均衡 (Iterated elimination equilibrium) ：考虑一个混合策略正规形博弈。若反复地消去每个被严格支配的策略，直至最终得到的约简博弈再也没有被严格支配的策略，则称每个剩余的策略组合为迭代消去均衡，称相应的解概念为迭代消去均衡解概念。

一个博弈中，玩家在以下两条理性决策情况下可能会实现迭代消去均衡：

一个理性玩家不会选择被支配的策略；
一个玩家如果有一个严格支配的策略，那么他一定会选择这个策略。

迭代消去均衡的求解算法：用 $S_i^k$ 表示在执行了第 $k$ 轮迭代消去被支配策略后玩家 $i$ 保留下来的策略。初始时刻，用 $S_i^0$ 表示每个玩家 $i$ 的初始策略，有以下迭代算法：

step 1: 用 $S_i^0$ 表示博弈中每个玩家 $i$ 的初始策略，并设定 $k=0$；
step 2: 对于某个玩家 $i$ 来说，是否存在策略 $s_i \in S_i^k$ 是被玩家 $i$ 的另一个或者多个策略给严格支配？如果有，那么转到 step 3，否则转到 step 4；
step 3: 遍历所有的玩家 $i \in N$ ，如果玩家 $i$ 的某个策略 $s_i \in S_i^k$ 被另一个或者多个策略给严格支配，那么从 $S^k_i$ 中删除这个策略 $s_i$，设定 $k=k+1$ ，并将本次迭代中保留下来的策略作为下一次迭代的集合 $S_i^{k+1}$，然后转到 step 2；
step 4: 保留下来的策略集合 $S_i^k$ 是玩家 $i$ 决策的合理预测结果。

如果 $s^*$ 是一个博弈的严格支配策略均衡解，那么经过以上迭代消去过程后，只有 $s^D$ 会保留下来，也即 $s^*$ 同时是这个博弈的迭代消去均衡解。

迭代消去均衡解概念的适用面很宽，实际上，所有的纯策略正规形博弈都有迭代消去均衡，尤其是对那些一开始就不存在被严格支配策略的玩家来说，他的所有策略都可以被称为他的迭代消去均衡解。迭代消去均衡存在的问题是：有许多博弈有太多的迭代消去均衡，不能有效地预测博弈玩家的行为。

最佳响应(Best response)

最佳响应 (Best response) ：一个策略 $s_i \in S_i$ 如果满足：$v_i(s_i, s_{-i}) \geq v_i(s_i', s_{-i}), \forall s_i' \in S_i$，那么该策略被称为玩家 $i$ 相对于其对手策略 $s_{-i} \in S_{-i}$ 的最佳响应。

根据以上定义可以知道：

玩家 $i$ 的一个被严格支配的策略 $s_i$ 绝不可能是对于其对手策略 $s_{-i} \in S_{-i}$ 的一个最佳响应。
在一个有限的正规形博弈中，如果存在严格支配策略均衡 $s^*$ (同时也是迭代消去均衡) ，那么 $s_i^*$ 同时也是对于其对手策略 $s_{-i}^*, \forall i \in N$ 的最佳响应。

纳什均衡(Nash equilibrium)

最佳响应是纳什均衡解定义的基础。

纯策略纳什均衡 (Pure-strategy Nash equilibrium) ：一个纯策略集合 $s^*=(s_1^*, \dots, s_n^*) \in S$ 如果对于所有的玩家 $i$ 都满足：$v_i(s_i^*, s_{-i}^*) \geq v_i(s_i', s_{-i}^*), \forall s_i' \in S_i$ ，那么这个策略集合 $s^*$ 被称纳什均衡。

根据以上定义可以知道：一个策略集合 $s^*=(s_1^*, \dots, s_n^*)$ 如果满足以下任一条件，

$s^*$ 是一个严格支配策略均衡，
$s^*$ 是唯一的迭代消去均衡，

那么 $s^*$ 是唯一的纳什均衡解。

混合策略纳什均衡 (Mix-strategy Nash equilibrium) ：一个混合策略集合 $\sigma^*=(\sigma_1^*, \dots, \sigma_n^*) \in S$ 如果对于所有的玩家 $i$ 来说 $\sigma_i^*$ 都是对于其对手策略 $\sigma_{-i}^*$ 的最佳响应，也即：$v_i(\sigma_i^*, \sigma_{-i}^*) \geq v_i(\sigma_i, \sigma_{-i}^*), \forall \Delta \sigma_i \in \Delta S_i$ ，那么这个策略集合 $\sigma^*$ 被称纳什均衡。

在一个博弈中，如果一个玩家使用纯策略而另一个玩家使用混合策略，那么不存在纳什均衡解。

纳什存在性定理 (Nash's Existence Theorem)：任何 $n$ 个玩家、每个玩家 $i$ 的策略集合都是有限的博弈问题，一定存在纳什均衡 (这个纳什均衡可能包含混合策略)。

布劳威尔不动点定理是证明以上的纳什存在性定理的基础：

布劳威尔不动点定理 (Brouwer's Fixed-Point Theorem)：如果函数 $f(x)$ 在区间 $[0, 1]$ 内是连续函数且 $f: [0, 1]\rightarrow [0, 1]$，那么至少存在一个点 $x^* \in [0, 1]$ 使得 $f(x^*)=x^*$。

期望收益函数

当玩家 $i$ 选择一个纯策略 $s_i \in S_i$ 而他的对手选择混合策略 $\sigma_{-i} \in \Delta S_{-i}$ 时，玩家 $i$ 的期望收益(Expected payoff)为：

\[v_i(s_i, \sigma_{-i})=\sum_{s_{-i} \in S_{-i}}\sigma_{-1}(s_{-i})v_i(s_i, s_{-i}) \]

当玩家 $i$ 选择一个混合策略 $\sigma_i \in \Delta S_i$ 且他的对手选择混合策略 $\sigma_{-i} \in \Delta S_{-i}$ 时，玩家 $i$ 的期望收益(Expected payoff)为：

\[v_i(\sigma_i, \sigma_{-i})=\sum_{s_i \in S_i}\sigma_i(s_i)v_i(s_i, \sigma_{-i})=\sum_{s_i \in S_i}\Bigg(\sum_{s_{-i} \in S_{-i}}\sigma_i(s_i)\sigma_{-i}(s_{-i})v_i(s_i, s_{-i})\Bigg) \]

posted on 2018-12-24 16:33 hdawen 阅读(2511) 评论(0) 收藏举报

刷新页面返回顶部

导航

博弈的分类