「博弈论」耶鲁大学公开课笔记

入门结论

1.不要选择严格劣势策略(不管对方选择什么,你的选择都比另一个选择更劣)

2.理性选择导致次优结果

3.汝欲得之,必先知之(知道你的目的

4.学会换位思考对手

5.耶鲁大学学生都是自私鬼(娱乐向

经典案例:囚徒困境

\[\begin{array}{c|lcr} A/B & \text{α} & \text{β} \\ \hline α & 0,0 & 3,-1 \\ β & -3,1 & 1,1 \\ \end{array}\]

如上选择及打分条件(每个位置前一个数字是\(A\)得分,后一个是\(B\)得分),那么\(A\)\(B\)的最优策略应该选\(α\),因为无论对方选什么,选\(α\)都比选\(β\)收益更大

得出了结论\(1\):不要选择严格劣势策略

大家都选\(β\)每人都能得到\(1\)分,但因为心理黑暗等原因理性的人们趋向于选\(α\),所以结论\(2\):理性选择导致次优结果

若你是\(A\),由于情绪、喜好等因素,你眼中的得分变成了如下情况

\[\begin{array}{c|lcr} A/B & \text{α} & \text{β} \\ \hline α & 0,0 & -1,-3 \\ β & -3,-1 & 1,1 \\ \end{array}\]

此时你要做出选择的话,要先知道自己的选择在考虑了各种因素后的最终收益(表2),而不是开始时给出的表面收益(表1)

结论\(3\):汝欲得之,必先知之

若你的对手没有心,它的表仍然是\(1\),而你是善良美少女,你的表已经变成了\(2\),那么在你的对手眼中,评分表如下:

\[\begin{array}{c|lcr} A/B & \text{α} & \text{β} \\ \hline α & 0,0 & 3,-3 \\ β & -3,-1 & 1,1 \\ \end{array}\]

此时你的对手一定会选择\(α\)

在你的眼中,评分表如下:

\[\begin{array}{c|lcr} A/B & \text{α} & \text{β} \\ \hline α & 0,0 & -1,-1 \\ β & -3,1 & 1,1 \\ \end{array}\]

由于你知道你的对手没有心,必定会选择\(α\),那么为了让自己收益更高,你也应该选择\(α\),结论\(4\):学会换位思考对手

博弈要素

参与人(表述法)\(i\)、策略\(s_i\),策略集合\(S_i\),某一次博弈\(s\),策略组合(某次博弈中所有人的策略)、收益\(U_i(s)\)

\(s-i\) 除了\(i\)之外所有人的策略

严格优势策略:\(U(s_i,s-i)>U(s_{i'},s-i)\)对所有\(s-i\)成立

弱优势:\(U(s_i,s-i)≥U(s_{i'},s-i)\)对所有\(s-i\)成立,\(U(s_i,s-i)>U(s_{i'},s-i)\)对至少一个\(s-i\)成立

共同知识

数字游戏:在\(1—100\)中选择一个数字写下,最接近所有人写下数字的平均数的\(\frac{2}{3}\)的人可以获得奖励

那么在任何情况下,\(67\)以上的数字都不应该被选择,因为他们是严格劣势策略

如果你是理性的,而且你知道和你同台竞技的人都是理性的,那么\(67\)以上的数字已经出局了,现在再审视这个游戏,\(45\)以上的数字同样不应该被选择

在进行迭代剔除后,最后理性人之间的游戏应该都选择\(1\)

在这个游戏中,剔除\(45\)以上数字的前提是,你知道\(67\)以上的数字不应该选,你知道你的同伴是理性的他们不会选\(67\)以上的数字,你的同伴知道你是理性的不会选\(67\)以上的数字,你知道你的同伴知道你是理性的……

我们称这种相互知道的事情为共同知识

注意以下情况:

给两个人分别戴上一顶粉色帽子,每个人能看见对方帽子颜色但不能看见自己的,那么,游戏中至少有一顶粉色帽子是共同知识吗?

实际上不是

因为比如\(A\)知道\(B\)是粉色帽子,他知道游戏中至少有一顶粉色帽子这个事实,但是他也许会认为自己是一顶蓝帽子,他会认为\(B\)因为只能看到自己的蓝帽子而不认为游戏中至少有一顶粉色帽子,所以\(A\)知道而\(A\)不能确定\(B\)知道的事情不是共同知识

迭代剔除与中位选民定理

有两个候选人与十种立场\(1——10\),每个立场有\(10\%\)支持,每个立场的支持者会支持与他们立场最相近的候选人,候选人如何选择立场使得自己获得的选票更多?

容易发现立场\(2\)相比与立场\(1\)来说,是一个弱优势策略,相比之下我们是不会选择立场\(1\)的(立场\(10\)同理)

在剔除了立场\(1\)的选择之后,我们发现立场\(3\)相较立场\(2\)又是一个弱优势策略,我们同样不会选择立场\(2\)

要注意的是这个假设是建立在立场\(1\)已经排除的情况下,否则若立场\(1\)未被排除,在对手选择立场\(1\)的情况下立场\(2\)要优于立场\(3\),也就是要确保立场\(1\)是劣势策略是共同知识

在迭代剔除后,我们的选择只剩下了立场\(5\)\(6\)

这是中位选民定理,越中立的候选人越能获得大多数支持

现实中影响因素很多,不完全符合模型

但并不意味着模型是无意义的,我们可以通过添加因素看看模型预测结果的变化,来理解因素对结果的影响是如何体现的

最佳对策

\(1.\)

参与人\(i\)的策略\(\hat{s_i}\)是对手的策略\(S-i\)的最佳对策(\(BR\)

\(U(\hat{s_i},S-i)≥U(s_{i'},S-i)\)对参与人的所有\(s_{i'}\)都适用

\(\hat{s_i}—>max\{U(s_i,S-i)\}\)

\(2.\)

参与人\(i\)的策略\(\hat{s_i}\)是对对手的可能采取的策略\(P\)时的最佳对策(\(BR\)

\(EU(\hat{s_i},P)≥EU(s_{i'},P)\)对参与人的所有\(s_{i'}\)都适用

\(\hat{s_i}—>max\{EU(s_i,P)\}\)

不要选择非最佳对策的策略

例如:

\[\begin{array}{c|lcr} A/B & \text{α} & \text{β} \\ \hline α & 9,-9 & 4,-4 \\ β & 6,-6 & 6,-6 \\ γ & 4,-4 & 9,-9 \\ \end{array}\]

函数

可以发现在对手的任何策略下,\(β\)都不是最佳对策,所以\(β\)应该被排除

纳什均衡

假设一家公司利润两人平分,每个人可以选择为公司贡献\(s=[0,4]\)的工作时间(注意此处的策略是连续的,可以选择\(0\)\(4\)间的任何数字)

公司总收益为\(w=4*(s_1+s_2+b*s_1*s_2)\)

若无\(b*s_1*s_2\)项,合作将无意义

收益:\(U_1=(s_1,s_2)=\frac{w}{2}\),成本\(s_1^2\)

由于决策连续,我们不能对每个决策列出一条曲线

\(U(s_1,s_2)=2(s_1+s_2+b*s_1*s_2)-s_1^2\)

求导

\(U'=2(1+b*s_2)-2\hat{s_1}=0\)

为了确定它是最大值还是最小值需要求二阶导

\(U''=-2<0\)说明上述是最大值

解出一阶导

\(\hat{s_1}=1+b*s_2=BR_1(s_2)\)

同理

\(\hat{s_2}=1+b*s_1=BR_2(s_1)\)

假设此时\(b=\frac{1}{4}\)

\(\hat{s_1}=1+\frac{s_2}{4}=BR_1(s_2)\)
\(\hat{s_2}=1+\frac{s_1}{4}=BR_2(s_1)\)

对二者列出函数

根据不要选非最佳对策,任何人都不会选择小于\(1\)和大于\(2\)的部分

所以我们的视线缩小到1*1范围的框内

在迭代剔除后,最终的最佳对策是两函数交点

\(\hat{s_1*}=\hat{s_2*}=\frac{1}{1-b}\)

交点被称作纳什均衡点

任何人都不愿意偏离纳什均衡点

在偏离纳什均衡点的过程中,比如上述合作,偏离的越远,那么玩家的边际效应递减

有时结果会趋近纳什均衡点

如我们多次玩猜数字游戏,在不提及纳什均衡点的前提下,结果会不断趋近\(1\)

正式定义:

纳什均衡\((NE)\)

一个策略集合\(S=(s_1*,s_2*……s_m*)\)对于任意参与其中的玩家\(i\)所选择的策略\(s_i*\)是其他参与人所选策略的最佳对策\((S*-i)\)

实施纳什均衡的动机(听不懂)

\(1.\)不后悔

\(2.\)纳什均衡可以被想象成自我实施的信念(几个人都认为事情会向纳什均衡发展,那么事情就一定会向纳什均衡发展)

找纳什均衡点:

\[\begin{array}{c|lcr} A/B & \text{a} & \text{b} & \text{c} \\ \hline α & 0,2 & 2,3 & 4,3 \\ β & 11,1 & 3,2 & 0,0 \\ γ & 0,3 & 1,0 & 8,0 \\ \end{array}\]

\(BR(a)=β,BR(b)=β,BR(c)=γ\)
\(BR(α)=c,BR(β)=b,BR(γ)=a\)

那么\((b,β)\)是纳什均衡点,因为在这一点,两个玩家都选择了最佳对策

严格劣势策略不会出现在纳什均衡里,弱劣势策略不一定

投资博弈

先猜后证:人数很多 策略不多

预测:如果一开始投资概率超过阈值,那么博弈将会趋近于较优的纳什均衡,如果一开始低于阈值,那么博弈将会趋近于较劣的纳什均衡

但较劣的纳什均衡和囚徒困境不同,因为这里 没有严格劣势策略

协调博弈,如果协调成功就到了较优的纳什均衡没有人会反悔,但经常有协调谬误

银行挤兑:

银行有两种纳什均衡,较优均衡是大家对银行有信心而存钱

较劣均衡是人们对银行失去信心疯狂提款

协同谬误不同,仅凭沟通而非合同就可以改善结果

交流可以改变纳什均衡,约束才能改变囚徒困境

这和领导力紧密联系,协调博弈是领导力的用武之地

在投资中别人越投资你就越想投资

这种别人付出越多你就付出越多的博弈叫做策略互补博弈

性别大战

\[\begin{array}{c|lcr} A/B & \text{a} & \text{b} & \text{c} \\ \hline a & 2,1 & 0,0 & 0,-1 \\ b & 0,0 & 1,2 & 0,-1 \\ c & -1,0 & -1,0 & -2,-2 \\ \end{array}\]

\(c\)电影是严格劣势策略

而两人都看\(a\)\(b\)电影都是纳什均衡

这是一个每参与者爱好不同的纳什均衡,这很容易导致协调失败

古诺双寡头模型

前提:学习过怎么在参与者较少且策略不多的博弈中找到纳什均衡

这个博弈介于经济学导论的两种极端情况之间:完全竞争和垄断

研究市场如何发展 对消费者有利还是生产者有利

策略:同质商品的产量,连续,用\(q\)来表示策略

生产成本\(:c*q\),边际成本是常数\(c\)

市场价格\(:p=a-b(q_1+q_2)\)

利润\(:w=p*q_1-c*q_1=aq_1-bq_1^2-bq_1q_2-cq_1\)

\(2\)的生产数量确定时我们要找出\(1\)的最佳产量

求导后令导数等于零之类的

\(\hat{q_1}=\frac{a-c}{2b}-\frac{q_2}{2}\)
\(\hat{q_2}=\frac{a-c}{2b}-\frac{q_1}{2}\)

边际收入等于边际成本的那点是垄断产量

根据纳什均衡定义大力找函数交点

posted @ 2021-07-30 23:55  lovelyred  阅读(1169)  评论(0编辑  收藏  举报