对策论——矩阵对策求解理论(三)

在众多博弈模型中,占有重要地位的是二人有限零和对策,又称为矩阵博弈,这类对策是目前为止在理论研究和求解方法方面都比较完善的一个博弈,现代博弈理论就始于二人零和游戏 Zero-sum games 中的混合策略的均衡思想以及约翰·冯·诺依曼 John von Neumann 对该思想的论证。

石头剪刀布 老虎棒子鸡

一 矩阵对策概述

矩阵对策即二人有限零和对策,是一类较为简单的对策模型。有权决定自身行为的对策参加者称为局中人,所有局中人构成集合\(N\),在一局对策中可供剧中人选择的一个实际可行的完整的行动方案成为策略,对于任意剧中人 $ i \in N$,都有自己的策略集 \(S_i\)。一局对策中由各剧中人选定的策略构成的策略组称为局势$ s=(s_1,...,s_n)$,而全体局势集合 $$ S=S_1\times ... \times S_n $$ 局势决定了对策的结果,对局势$ s\in S $ ,局中人\(i\) 可以得到收益 \(u_i(s)\),也称为局中人$ i$ 的赢得函数或者收益函数。

1.1 二人有限零和博弈

二人有限零和博弈就是一个策略式博弈\(G=\{\{1,2\},\{S_1,S_2\},\{u_1,u_2\}\}\),使得对于任意\(s_1∈S_1\)\(s_2∈S_2\),都有$$u_1(s_1,s_2)+u_2(s_1,s_2)=0$$

用语言描述就是:在任何的博弈结果上,两个局中人的收益和都是0。

例1:石头剪刀布,赢的+1分,输的-1分,平局得0分。

玩家1\玩家2 Paper Scissors Rock
Rock 0,0 -1,1 1,-1
Paper 1,-1 0,0 -1,1
Scissors -1,1 1,-1 0,0

这类博弈都有这个特点,当一个玩家在一种结果的收益是\(x\)的时候,另一个玩家的收益一定是\(−x\),因此,无需完全记录两个局中人的收益,只需要记录一个局中人的收益即可。我们按惯例在收益矩阵中保留局中人\(I\)的收益。 这个收益矩阵记为A

1.2 矩阵对策模型描述

我们假设,局中人\(I\) 有纯策略 \(\alpha_1,...,\alpha_m\),局中人\(II\) 有纯策略 \(\beta_1,...,\beta_n\),二者各选择一个纯策略就构成\(m × n\)个纯局势\((\alpha_i, \beta_j)\),将\((\alpha_i, \beta_j)\)\(I\) 的赢得值记为\(a_{ij}\),设矩阵 \(A=[a_{ij}]\),称为 \(I\)的赢得矩阵或 \(II\)的支付矩阵。局中人 \(II\) 的赢得矩阵就是 \(−A^T\),后面统称为收益矩阵。

\[\begin{aligned} & \begin{array}{lll} && \beta_1 &&\beta_2 &&\beta_3 \end{array} \\ & \begin{array}{l} \alpha_1 \\ \alpha_2 \\ \alpha_3 \end{array}\left[\begin{array}{lll} a_{11} & a_{12} & a_{13}\\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{array}\right] \\ & \end{aligned} \]

当局中人\(I\)\(II\)的策略集\(S_1,S_2\)及局中人\(I\)的赢得矩阵\(A\)确定后,一个矩阵对策也就给定了,后面简化记为\(G=\{S_1,S_2;A\}\)

例2 收益矩阵示范

Player 1\ Player 2 L M R
U 2 6 1
M 3 1 4
D 4 3 6

显然该博弈局中人\(Player1\)的策略集为\(S_1=\{U,M,D\}\),局中人\(Player2\)的策略集为\(S_2=\{L,M,R\}\)\(player1\)的赢得矩阵为

\[A= \begin{bmatrix} 2 & 6 & 1 \\ 3 & 1 & 4 \\ 4 & 3 & 6 \end{bmatrix} \]

该博弈可记为\(G=\{S_1,S_2;A\}\)

例3 “齐王赛马”就是一个矩阵对策的典型例子,当时赛马的规矩是每一方出上等马、中等马、下等马各一匹,共赛三场,赢着收益为1,三局两胜制。由于双方都派上等、中等、下等马各一匹,田忌每一等级的马都比对方同等级的马慢一点,因为没有出场序,所说比赛的对阵形式可能有六种,每一种对阵形式的结局是很容易猜测的:
第一种情况:上等马对上等马,中等马对中等马,下等马对下等马。结局:三局零胜。
第二种情况:上等马对上等马,下等马对中等马,中等马对下等马。结局:三局一胜。
第三种情况:中等马对上等马,上等马对中等马,下等马对下等马。结局:三局一胜。
第四种情况:中等马对上等马,下等马对中等马,上等马对下等马。结局:三局一胜。
第种情况:下等马对上等马,上等马对中等马,中等马对下等马。结局:三局两胜。
第六种情况:下等马对上等马,中等马对中等马,上等马对下等马。结局:三局一胜。

齐王策略\田忌策略 $$β_1$$ $$β_2$$ $$β_3$$ $$β_4$$ $$β_5$$ $$β_6$$
\(α_1\) 3 1 1 1 1 -1
\(α_2\) 1 3 1 1 -1 1
\(α_3\) 1 -1 3 1 1 1
\(α_4\) -1 1 1 3 1 1
\(α_5\) 1 1 -1 1 3 1
\(α_6\) 1 1 1 -1 1 3

齐王和田忌各有6个策略,一局对策后,齐王的所得必为田忌的所失。在“齐王赛马”的例子中,齐王的赢得矩阵为:

\[ \left[ \begin{matrix} 3 & 1 & 1 & 1 & 1 & -1 \\ 1 & 3 & 1 & 1 & -1 & 1 \\ 1 & -1 & 3 & 1 & 1 & 1 \\ -1 & 1 & 1 & 3 & 1 & 1 \\ 1 & 1 & -1 & 1 & 3 & 1 \\ 1 & 1 & 1 & -1 & 1 & 3 \end{matrix} \right] \]

二 矩阵对策的纯纳什均衡

当矩阵对策模型给定后,各局中人面临的问题便是:如何选择对自己最有利的纯策略以取得最大的赢得(或最少所失?),这里分析各局中人应如何选择最有利策略。

例4 求矩阵对策\(G=\{S_1,S_2;A\}\)的纳什均衡,其中

\[A= \begin{bmatrix} -7 & 1 & -8 \\ 3 & 2 & 4 \\ 16 & -1 & -3 \\ -3 & 0 & 5 \end{bmatrix} \]

根据纳什均衡的定义,可求上面博弈两个局中人策略的最优反应,列表表示如下:

\(\beta_1\) \(\beta_2\) \(\beta_3\) 最优反应
\(\alpha_1\) -7, 7 1, -1 -8,8 8
\(\alpha_2\) 3, -3 2,-2 4,-4 -2
\(\alpha_3\) 16,-16 -1, 1 -3,3 3
\(\alpha_4\) -3,3 0,0 5,-5 3
最优反应 16 2 5

基于二人零和博弈的特征,局中人\(I\)的最优反应为

\[B_1(\beta_1)=\max_{i}a_{i1} =max\{-7,3,16,-3\}=16 \\ B_1(\beta_2)=\max_{i}a_{i2}=max\{1,2,-1,0\}=2 \\ B_1(\beta_3)=\max_{i}a_{i3}=max\{-8,4,-3,5\}=5 \]

同理,局中人\(II\)的最优反应为

\[B_2(\alpha_1)=\max_{j}(-a_{1j}) =-\min_{j}(a_{1j})=-min\{-7,1,-8\}=8 \\ B_2(\alpha_2)=\max_{j}(-a_{2j}) =-\min_{j}(a_{2j})=-2 \\ B_2(\alpha_3)=\max_{j}(-a_{3j}) =-\min_{j}(a_{3j})=3 \\ B_2(\alpha_4)=\max_{j}(-a_{4j}) =-\min_{j}(a_{4j})=3 \]

显然\((\alpha_2,\beta_2)\)是上面博弈的纳什均衡,\((2,-2)\)是博弈稳定的结果,可以预测两个局中人的行为。也可从下表的计算过程中得到纳什均衡,只要$$\max_{i}a_{ij}=\min_{j}a_{ij}$$
从中可得矩阵对策纯纳什均衡的计算方法,这是因为局中人\(I\)所得亦为局中人\(II\)所失,见定理3。

\(\beta_1\) \(\beta_2\) \(\beta_3\) $$\min_{j}a_{ij}$$
\(\alpha_1\) -7 1 -8 -8
\(\alpha_2\) 3 2 4 \(2^*\)
\(\alpha_3\) 16 -1 -3 -3
\(\alpha_4\) -3 0 5 -3
$$\max_{i}a_{ij}$$ 16 \(2^*\) 5

定理3:矩阵博弈在纯策略定义下有纳什均衡的充要条件是:存在一个策略组合,对应的那个局中人的收益是所在行的最小元素也是所在列的最大元素。

例5 求矩阵对策\(G=\{S_1,S_2;A\}\)的纳什均衡,其收益矩阵为

\[A= \begin{bmatrix} 2 & 4 & 1 \\ 1 & 1 & 4 \\ 5 & 3 & 6 \end{bmatrix} \]

\(\beta_1\) \(\beta_2\) \(\beta_3\) $$\min_{j}a_{ij}$$
\(\alpha_1\) 2 4 1 1
\(\alpha_2\) 1 1 4 1
\(\alpha_3\) 5 3 6 3
$$\max_{i}a_{ij}$$ 5 4 6

由定理3,显然该矩阵对策没有纯纳什均衡。这时可以求解其混合纳什均衡。

三 矩阵对策的混合策略纳什均衡

当纯策略不存在时,我们希望给出一个选取不同策略的概率分布。设有矩阵对策 \(G=\left\{S_1, S_2 ; \boldsymbol{A}\right\}\), 其中 \(S_1=\left\{\alpha_1, \alpha_2, \cdots, \alpha_m\right\}, S_2=\left\{\beta_1, \beta_2, \cdots, \beta_n\right\}\), \(\boldsymbol{A}=\left(a_{i j}\right)_{m \times n}\)

\[\begin{aligned} & S_1^*=\left\{x \in E^m \mid x_i \geqslant 0, i=1, \cdots, m, \sum_{i=1}^m x_i=1\right\} \\ & S_2^*=\left\{y \in E^n \mid y_j \geqslant 0, j=1, \cdots, n, \sum_{j=1}^n y_j=1\right\} \end{aligned} \]

\(S_1^*\)\(S_2^*\) 分别称为局中人\(I\)\(II\) 的混合策略集(或策略集);\(x \in S_1^*\)\(y \in S_2^*\) 分别称 为局中人\(I\)\(II\)的混合策略(或策略);对 \(x \in S_1^*, y \in S_2^*\), 称 \((x, y)\) 为一个混合局势 (或局势), 局中人\(I\) 的赢得函数,记成

\[E(x, y)=x^{\mathrm{T}} \boldsymbol{A} y=\sum_i \sum_j a_{i j} x_i y_j \]

这样得到的一个新的对策记成 \(G^*=\left\{S_1^*, S_2^*, E\right\}\), 称 \(G^*\) 为对策 \(G\) 的混合扩充。

由上述内容可知, 纯策略是混合策略的特例。例如局中人\(I\)的纯策略 \(\alpha_k\) 等价于混合策 略 \(x=\left(x_1, \cdots, x_m\right)^{\mathrm{T}} \in S_1^*\), 其中

\[x_i= \begin{cases}1, & i=k \\ 0, & i \neq k\end{cases} \]

3.1 线性方程组求混合纳什均衡

根据定理2,局中人选任意一种纯策略的期望收益是相同的,可以建立相应的线性方程组求出混合纳什均衡。
例7 求矩阵对策田忌赛马的混合纳什均衡。
收益矩阵添加行列———混合策略

\(\beta_1\) \(\beta_2\) \(\beta_3\) \(\beta_4\) \(\beta_4\) \(\beta_6\) 混合策略
\(\alpha_1\) 3 1 1 1 1 -1 \(x_1\)
\(\alpha_2\) 1 3 1 1 -1 1 \(x_2\)
\(\alpha_3\) 1 -1 3 1 1 1 \(x_3\)
\(\alpha_4\) -1 1 1 3 1 1 \(x_4\)
\(\alpha_5\) 1 1 -1 1 3 1 \(x_5\)
\(\alpha_6\) 1 1 1 -1 1 3 \(x_6\)
混合策略 \(y_1\) \(y_2\) \(y_3\) \(y_4\) \(y_5\) \(y_6\)

建立方程组:

\[\begin{cases} 3 x_1+x_2+x_3-x_4+x_5+x_6 & =v \\ x_1+3 x_2-x_3+x_4+x_5+x_6 & =v \\ x_1+x_2+3 x_3+x_4-x_5+x_6 & =v \\ x_1+x_2+x_3+3 x_4+x_5-x_6 & =v \\ x_1-x_2+x_3+x_4+3 x_5+x_6 & =v \\ -x_1+x_2+x_3+x_4+x_5+3 x_6 & =v \\ x_1+x_2+x_3+x_4+x_5+x_6 & =1 \end{cases}\tag{1} \]

\[\begin{cases} 3 y_1+y_2+y_3+y_4+y_5-y_6 & =w \\ y_1+3 y_2+y_3+y_4-y_5+y_6 & =w \\ y_1-y_2+3 y_3+y_4+y_5+y_6 & =w \\ -y_1+y_2+y_3+3 y_4+y_5+y_6 & =w \\ y_1+y_2-y_3+y_4+3 y_5+y_6 & =w \\ y_1+y_2+y_3-y_4+y_5+3 y_6 & =w \\ y_1+y_2+y_3+y_4+y_5+y_6 & =1 \\ \end{cases}\tag{2} \]

求解方程组,就得$$x_i=\frac{1}{6}(i=1, \cdots, 6), y_j=\frac{1}{6}(j=1, \cdots, 6)$$

\[v=w=1 \]

3.2 最大最小规则求混合纳什均衡

\(G =\{\{1,2\},\{A_1,A_2\},M\}\),其中:
\(A_1 = \{a_1,a_2,...,a_m\},A_2 = \{b_1,b_2,...,b_n\}\)

\(u_{ij} = u_1(a_i,b_j) = u(a_i,b_j)\)

\[M = (u_{ij})_{m\times n} \]

\(p = (p_1,p_2,...,p_m) \in \Delta_1\)是在\(A_1\)上的混合策略(\(\Delta\)表示纯策略上的概率分布)
\(q = (q_1,q_2,...,q_n) \in \Delta_2\)是在\(A_2\)上的混合策略
博弈结果:\((p,q)\)
参与人1的期望收益:$$U(p, q)=\sum_{i, j} p_{i} q_{j} u\left(a_{i}, b_{j}\right)=\sum_{i, j} p_{i} q_{j} u_{i j}=p M q^{\top}$$,(\(p,q\)是行向量)

定理4 冯诺依曼最大最小定理(John von Neumann’s Minimax Theorem)

对于有限二人零和博弈\(G =\{\{1,2\}, \{S_1, S_2\}, M\}\),一定有:

\[\max _{p \in \Delta_1} \min _{q \in \Delta_2} p M q^{\top}=\min _{p \in \Delta_2} \max _{q \in \Delta_1} p M q^{\top} \]

推论:二人有限零和博弈至少存在一个混合策略纳什均衡:任何一对最优策略都是纳什均衡。

根据之前几节学习的,策略式博弈的混合策略纳什均衡一定是存在的,不过那是后来Nash提出来的,运用了更高级的数学工具(不动点定理等),而最大化最小定理是在之前几十年提出的,没有相应的数学工具,所以只能是对二人零和博弈的证明。在求解上,之前的混合策略纳什均衡求解是NP-Hard问题,而最大化最小定理的求解是一个多项式时间可以求出的。

3.3 线性规划求混合纳什均衡

由定理1可知,矩阵对策既然一定存在MNE,求解混合策略可以转化为最优化问题,参看下面定理5。
既然一定存在MNE,由冯诺依曼最大最小定理4,那么直接求解最优化问题 \(\max _{p \in \Delta_1} \min _{q \in \Delta_2} p M q^{\top}\) 或者 \(\min _{q \in \Delta_2} \max _{p \in \Delta_1} p M q^{\top}\) 就可以求出MNE的解。
求解:

\[\max _{p \in \Delta_1} \min _{q \in \Delta_2} p M q^{\top} \]

\(v=\min _{q \in \Delta_2} p M q^{\top}\) ,求解 \(\max _{p \in \Delta_1} v_{\text {。 }} p M\) 是一个固定的行向量, \(q\) 是一个概率 分布,因此, \(p M q^{\top}\) 的最小值就是 \(p M\) 向量中最小的那个数。
因此,求解 \(\max _{p \in \Delta_1} \min _{q \in \Delta_2} p M q^{\top}\) 等价于求解线性规划问题:

\[\max v \]

s.t.

\[\begin{gathered} p M \leq v \mathbf{1} \\ p=\left(p_1, \ldots, p_m\right) \in \Delta_1 \\ \mathbf{1}=(1, \ldots, 1)^{\top} \end{gathered} \]

求解 \(\min _{q \in \Delta_2} \max _{p \in \Delta_1} p M q^{\top}\) 等价于求解线性规划问题:

\[\min v \]

s.t.

\[\begin{gathered} M q^{\top}\geq v \mathbf{1} \\ q=\left(q_1, \ldots, q_m\right) \in \Delta_1 \\ \mathbf{1}=(1, \ldots, 1)^{\top} \end{gathered} \]

定理5 具有博弈矩阵 \(\boldsymbol{A}=\left(a_{i j}\right)_{m \times n}\) 的二人有限零和博竎的混合战略纳什均衡 \(\left(p_1^*, p_2^*\right)\), 可以通过以下对偶线性规划问题

\[\begin{aligned} & \left\{\begin{array}{l} \min \left(x_1+x_2+\cdots+x_m\right), \\ \text { s. t. } \sum_{i=1}^m a_{i j} x_i \geqslant 1, j=1,2, \cdots, n, \\ x_i \geqslant 0, i=1,2, \cdots, m_{\circ} \end{array}\right. \\ & \left\{\begin{array}{l} \max \left(y_1+y_2+\cdots+y_n\right), \\ \text { s.t. } \sum_{j=1}^n a_{i j} y_i \leqslant 1, i=1,2, \cdots, m, \\ y_j \geqslant 0, j=1,2, \cdots, n_{\circ} \end{array}\right. \\ & \end{aligned} \]

的解 \(x^*=\left(x_1^*, x_2^*, \cdots, x_m^*\right)\)\(y^*=\left(y_1^*, y_2^*, \cdots, y_n^*\right)\) 得到

\[p_1^*=V_{x^*}, p_2^*=V_{y^*} \text { 。 } \]

其中, \(V\) 是博弈的值:

\[V=E\left(p_i^*, p_i^*\right)=\frac{1}{\sum_{i=1}^m x_i^*}=\frac{1}{\sum_{j=1}^n y_j^*} \]

定理6 矩阵对策收益矩阵的元素加上或乘上同一个数不改变其纳什均衡。

\[A = \left[ {\begin{array}{*{20}{c}} 0&1&{ - 1}\\ { - 1}&0&1\\ 1&{ - 1}&0 \end{array}} \right] \stackrel{A+2}{\longrightarrow} \left[ {\begin{array}{*{20}{c}} 2&3&1\\ 1&2&3\\ 3&1&2 \end{array}} \right] \]

四 总结

矩阵对策即为二人有限零和对策。“二人”是参加对策的局中人有两个,“有限”是指每个局中人的策略集均为有限集,“零和”是指在任一局势下, 两个局中人的赢得之和总等于零, 即一个局中人的所得值恰好等于另一个局中人的所失值, 双方的利益是完全对抗的。二人零和博弈是策略式博弈的一种特殊情况,普通的混合策略博弈求解难度随着博弈策略呈指数级增加,而二人零和博弈有高效的求解方法,可以化为一个线性规划问题。

参考文献

1.博弈论笔记(九):二人零和博弈
2.博弈论——策略式博弈7​
3.用gambit学博弈论---零和博弈

posted @ 2023-02-20 16:04  郝hai  阅读(3936)  评论(0)    收藏  举报