通过几个例子理解博弈论与纳什均衡

2019/12/18更新，重新叙述一下智猪博弈

2019/10/28更新，这里再举一个博弈论的经典例子，海盗分金问题。

转载自知乎https://zhuanlan.zhihu.com/p/25781797

喜欢玩德州扑克的人应该都听说过“GTO”这个词。GTO，即 GameTheory Optimal，翻译成中文应该叫做“游戏理论最优化”。直接翻译过来有点拗口，通俗一点的解释可以是：在游戏中，你可以采取一种最优策略，使得自己的损失最小，同时游戏中的对手也必须采取相对应的策略，否则只会扩大你的受益。

讲到GTO，就不得不提到博弈论中非常著名的一个理论：纳什均衡（Nash Equilibrium）。该理论是由著名的经济学家，博弈论创始人，诺贝尔奖获得者约翰·纳什提出的，也就是电影《美丽心灵》的男主角原型。该理论是说：在非合作类博弈中，存在一种策略组合，使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”，那么对于任何一位参与者来说，单方更改自己的策略不会带来任何好处。

约翰·纳什证明了在每个参与者都只有有限种策略选择，并允许混合策略的前提下，纳什均衡一定存在。上边的解释还是有点拗口，这里通过几个例子，更直观的理解一下这个理论。

囚犯的困境

假设有两个小偷A和B联手闯入民宅盗窃被抓，警方将两人置于不同的房间进行审讯，并给出如下政策：如果一个犯罪嫌疑人坦白并交出了赃物，两人都会被判有罪。如果另一个犯罪嫌疑人也坦白，则两人各被判刑8年；如果另一个犯罪嫌人抵赖，再加刑2年，而坦白者有功，会被立即释放。如果两人都抵赖，偷窃罪证据不足，但会因私入民宅而各判入狱1年。即：

表中的数字表示A，B各自的判刑结果。博弈论分析中一般都用这样的表来表示。

此时有人会觉得双方都抵赖就好了，但问题是双方被隔离，都会怀疑对方会出卖自己以求自保。两个人都会这么想：假如对方坦白，此时如果我抵赖得坐10年监狱，如果我坦白才坐8年监狱；假如对方抵赖，此时如果我也抵赖会被判1年，如果我坦白可以被释放。综合以上考虑，不管对方坦白与否，对我而言都是坦白划算。此时最后的“纳什均衡”只能是两个人都坦白，共同被判8年刑期。

智猪博弈

智猪博弈说的是，有两头非常聪明的猪（要不怎么叫智猪呢），一大一小共同生活在一个猪圈里。猪圈的一端有一个踏板，踏板连着开放饲料的机关。只要踏一下，在猪圈的另一端就会出现10个单位食物。经过精确的衡量，任何一头猪去踏这个踏板都会付出相当于两个单位食物的成本；每只猪都可以选择“踏”或者“不踏”踏板。
那么，大猪小猪分别会做什么选择呢？
给出下面四个方案：
1、两只猪一起去踏，然后一起回槽边进食，则大猪由于吃的更快可吃下8个单位食物，小猪只能吃到２个单位食物，扣除各自的成本，大猪实际赢利6个单位食物，小猪则赢利0个单位食物；
2、若大猪去踏，小猪先等候在是食槽边，则大猪因时间耽搁只食得6个单位食物，小猪食得4个单位食物，大猪扣除成本后赢利4单位食物，小猪没有成本因而赢利也为4单位食物；
3、若小猪去踏，大猪先候在槽边，则当小猪赶到槽边时大猪已经吃光了10个单位食物，小猪不仅什么都没吃到，反而付出了2个单位成本
4、两只猪都不去踏，则大家都只能赢利0

观察此博弈发现：小猪有优势策略——无论大猪踏或不踏，小猪选择不踏总是最合适的，但是大猪没有优势策略。对此作出改变方案

改变方案一：减量方案
投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。
如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。

改变方案二：增量方案
投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。
对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。

改变方案三：减量加移位方案

投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费完。对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。

智猪博弈的启示
       原版的“智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝“搭便车”现象，就要看游戏规则的核心指标设置是否合适了。
       智猪博弈深刻的反映了经济和社会生活中的免费搭便车问题。无论大猪踏或不踏，小猪都选择不踏；给定小猪不踏，大猪最好去踏。
       有意思的是大猪选择踏在主观上是为了自己的利益，但在客观上小猪也享受到了好处。在经济学里，这头小猪被称为“搭便车者”。若全部的博弈主体都试图免费搭车，那么就可能陷入囚徒困境。

范式博弈

GOO公司和SAM公司存在利益关系，二者的收益会随着博弈的变化而不断更替。如下图：

双方各有两个可选策略“合作”与“背叛”，格中的四组数据表示四个博弈结局的各自收益，每组数据的第一个数字表示GOO公司的收益，后一个数字表示SAM公司的收益。

现在我们站在GOO公司的角度来思考整个博弈策略。假如SAM选择合作，那么我方合作的收益是3，而我方背叛的收益是5，我方应该选择背叛；假如SAM选择背叛，那么我方合作的收益是 -3，而我方背叛的收益是-1，我方还是应该选择背叛。

同理，SAM公司也会做出相同的选择。最后我们发现，本次博弈的双方都采取了背叛策略，各自的收益都为-1，这是一个比较糟糕的结局，尽管对任何一方来说都不是最糟糕的那种。

但博弈的次数往往不止一次，当二家公司经历了多次背叛策略的博弈之后，发现公式上还有一个（3，3）收益的双赢局面，这个结果显然要好很多，因此二家公司在之后的博弈过程中必然会尝试互建信任，从而驱使双方都选择合作策略。

但假使双方都知道博弈次数是有限的，也许下一次博弈就是最后一次，那么为了避免对方在最后一轮博弈中选择背叛而使我方遭受-3的损失，于是双方都会采取了背叛策略，最后的博弈结果又回到了（-1，-1）。

由此可见，随着次数的变化，博弈的性质也会发生变化，纳什均衡点会发生变化。

饿狮博弈

假设有A、B、C、D、E、F六只狮子（强弱从左到右依次排序）和一只绵羊。假设A吃掉绵羊后就会打盹，这时比A稍弱的B就会趁机吃掉A，接着B也会打盹，然后比B稍弱的C就会吃掉B，以此类推。问：狮子A敢不敢吃绵羊？

该题须采用逆向分析法，从最弱的F开始分析，依次前推。假设E睡着了，F肯定会吃掉E，因为在F的后面已没有其它狮子了，不用担心自己被吃掉。继续前推，既然E知道自己睡着会被F吃掉，那么E必然不敢吃睡着了的D。既然E不敢吃掉D，那么D则可以放心去吃睡着的C。依次前推，得出C不吃，B吃，A不吃。所以答案是狮子A不敢吃掉绵羊。

但是，如果我们在狮子F的后面增加了一只狮子G，总数变成7只，用逆向分析法按照上题步骤再推一次，如下图。这次的答案变成了狮子A敢吃掉绵羊。

对比两次博弈我们发现，狮子A敢不敢吃绵羊取决于狮子总数的奇偶性：当总数为奇数时，A敢吃；总数为偶数时，A则不敢吃。因此，总数为奇数和总数为偶数的狮群博弈结果形成了两个稳定的纳什均衡点。

硬币正反博弈

加入你和一个美女一起玩个数学游戏。美女提议：让我们各自亮出硬币的一面，如果我们都是正面，那么我给你3元；如果我们都是反面，我给你1元；剩下的情况你给我2元。那么你该不该和这位美女玩这个游戏呢？

这里需要讲一下纳什均衡的分类：

（1）纯战略纳什均衡，也就是说玩家都能够采取固定的策略（比如一直出正面或者一直出反面），使得每人都赚得最多或亏得最少。

（2）混合战略纳什均衡，是对每个纯战略分配一个机率而形成的战略。混合战略允许玩家随机选择一个纯战略。混合战略纳什均衡中要用概率计算，达到某一概率时，可以实现支付最优。因为概率是连续的，所以即使战略集合是有限的，也会有无限多个混合战略。

你\美女	美女出正面	美女出反面
你出正面	+3，-3	-2，+2
你出反面	-2，+2	+1，-1

在这个游戏中，应该采用混合策略纳什均衡。

假设我们出正面的概率是x，出反面的概率是1-x，美女出正面的概率是y，出反面的概率是1-y。为了使利益最大化，应该在对手出正面或反面的时候我们的收益都相等，（因为对手会选对其有利的面。只有当他选哪个都一样时，才能使他不能通过自己的选择额外获利。）即：

3x + (-2)(1-x) = (-2) * x + 1*(1-x )

解方程得x=3/8；同样，美女的收益：

-3y + 2(1-y) = 2y+ (-1) * (1-y)，

解方程同样得y等于3/8。于是，我们就可以算美女每次的期望收益是：

(1-y) * (2x-(1-x)) + y(-3x+2(1-x)) = 1/8元

即双方都采取最优策略的情况下，美女平均每次赢1/8元。所以当然不能和她玩这个游戏。其实只要美女采取了（3/8, 5/8）这个方案（只要每8次游戏中出3次正面和5次反面就能受益，至少1/8元。），不论你采用什么方案，都是不能改变局面的。但是当你也采用最佳策略时，至少可以保证自己输得最少。否则，你会赔掉更多。

海盗分金

5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，投票要超过半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。

推理过程是这样的：

从后向前推，如果场上只剩下两个人，前三个人的方案都被否决，那么第四个人无论提什么方案，第五个人都会否决，这样1:1，不过半数，第四个人必然被处死，第五人独自占有所有金币。

因为所有海盗绝对聪明，且活着优先于拿金币，则第四人为了避免自己死亡，会极力赞成第三人提出的任何方案，以避免第三人死亡和上一段所描述的自己的必死结局。

因为所有海盗绝对聪明，所以第四个人的心态第三个人很清楚。所以一旦前两个海岛被处死，第三人必然提议的分发是：100:0:0。投票结果，三号自己支持，四号为了不死也支持，五号反对。投票通过，三号独得100金币。

因为所有海盗绝对聪明，所以后三个人的心态二号也很清楚。所以一旦一号海盗被处死，二号可以很好的利用之前所描述的自己被处死后的必然结局。所以二号可以议题分发为：
98，0，1，1
相比于三人存活场景，三号什么都分不到必然反对；但四号五号各多得了一枚金币，好于处死二号后自己一无所有的必然结局。所以绝对聪明的四号五号只能选择支持二号的这一提案。投票结果：三比一，过半，得以执行。

终于倒推到一号海盗了：
因为所有海盗绝对聪明，一号一旦死亡后的必然结局大家都知道，包括一号自己。所以一号可以提出以下方案，以拿到五人中的三票支持：
97，0，1，2，0
或
97，0，1，0，2

相对于一号死后的必然结局：
0，98，0，1，1
三号可以多拿一枚金币，四号或五号中的一人可以多拿一枚金币，所以后面四人中有两票支持。加上提议的一号海盗，总票数：三比二，通过。

这个问题最有意思的地方是，1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。而5号看起来最安全，没有死亡威胁，甚至还能坐收渔翁之利，却因不得不看别脸色行事而只能分得一小杯羹。

posted @ 2019-10-23 11:22 王陸阅读(7974) 评论(0) 收藏举报

刷新页面返回顶部

王陸

我可不是为了被全人类喜欢才活着的，只要对于某一个人来说我是必要的，我就能活下去。