自然

自然天地,自然而然,无为而至!

导航

理解博弈论——童话

这篇寓言的作者把博弈论的一些基本的理论要素表现在这篇精悍的文章中,
写得的确非常精妙,大家不妨耐心品位以下!

那蚂蚁一直在旁边袖手微笑,待到此时,方才向狐狸说道:“狐兄豪气干云,小弟十分
敬佩,倒想领略一番。”
狐狸笑道:“不知蚁兄是要下里巴人还是要阳春白雪?”
蚂蚁奇道:“下里巴人又如何?阳春白雪又如何?”
狐狸缓缓说道:“下里巴人,至俗也,便是那乡间七旬老母,犹能听得手舞足蹈,击节
而歌。却可惜譬如那山溪之水,来势汹汹,去也匆匆,入骨不过三分矣。”
“那阳春白雪,又当如何?”
狐狸道:“夫阳春白雪也,一望无垠,恰似大海潮生,初时广袤沉静,星光点点,不觉
有异。然细心听处,远方隐隐似有天籁之音,像那闷雷滚过,却又悠扬有如长笛呜咽。
待到听得更是真切之时,又有冰河破碎,清泉下流,入小河,汇大江,浩浩荡荡,终归
大海,成了万丈涛声,千年不绝。” 蚂蚁叹道:“怎信世间能有如此神奇之学问。你且先让我们听听那下里巴人罢!”
狐狸道:“博弈便是赌博。” 绛仙不满道:“我说不准赌博的!”
蚂蚁摇手道:“姑娘莫恼,刚才既是我说要下里巴人,才有赌博这些鄙陋之事,须不要
怪狐兄。” 狐狸宛尔笑道:“姑娘也可把它看作打架。博弈之要义,先要知你是谁,要看你出手,
然后我的还手必要是最有利自己。此为最基本也。”
“然高手过招,赢在料敌机先。纵然彼先出手,但既知我是谁,故出手后,必要想以我
之能,当如何还手。彼出招与我还招,构成一个局面,非但可定我之生死,亦可以定彼
之生死。彼必要选择对其最有利的局面为先着。是故彼未出手,我已知其意矣。”
“那也未必!”绛仙插嘴道,“我可以用对方从来没有见过的天山折梅手,对方防不胜
防,便无从计算得失了。” “姑娘莫急,”狐狸道,“博弈论中,什么样的人用哪些招数,都是事先假定好的,也
是大家各方都知道的,而且大家都知道大家知道的,却不允许你弄些稀奇古怪的旁门左
道来捣乱。” “狐兄之意我已知之,”蚂蚁沉吟道,“于我方,最想知道的是对方如何出手,只要确
定对方的招数,我便可以在此前提下选择于自己最有利的应对措施,得到一个我的盈利
函数。然而对方也能想象到我盈利函数最大化下的出招,并因此计算他自己的所得。对
方所出招必定是能使他盈利最大的招数。”
“所以我便可知对方如何出招,对方也知我会如何应对。我若不如此应对,必定吃亏;
对方若不如此出招,必定不能使其利益最大。”
“Nod,”狐狸点头,“这些招数的组合,便成为了一条均衡路径。”
“但凡事总要未雨绸缪,难保中途哪个出错,出了一个对他自己不利的臭招,你下一招
也得针对新情况,解决新问题。”
“所以,对于局中人任何招数,无论香臭也罢,如果真的发生了,我们就要根据前面蚁
兄说的原则重新计算出招和应招。但是我们只朝前看,不算旧帐。”
“如果每一个回合的每一招(无论这一招的出现如何愚蠢)我们都想好了其后的最佳出
招和应招,即任何招数的出现,其后都有均衡路径;而最长的那条均衡路径,为整个博
弈的均衡路径。那么,我们就算完事大吉,高枕无忧了。”
但文书还是不服气:“你这个总是分了出招的先后顺序,所以别人出后你可以悠然地选
择自己最优的。倘若你们都是同时出招,你看到对手出招时,你的剑也已经刺出,变不
了招,岂非全都乱了套?” 狐狸笑道:“文书想的周到。不过这个虽原理与前无异,倒也不好用话来说,且先等它
一等。”“狐兄总是这么刚愎自用,”绛仙幽幽地叹口气,“俗话说,画虎画皮难画骨、知人知
面不知心。你怎么就一定知道对方是什么人?” 狐狸的心不觉颤了一下,因为很久以前自己也曾这般叹过,故而听来分外熟悉。不过这好比微风吹起的一丝涟漪,很快就从水面的这边,掠过水面的那边,然后就消失
了。狐狸道:“按博弈论的要求,我们即便不知道对方一定是什么人,但却知道他属于哪一
类人的概率。譬如是好人的概率是2/3,坏人的概率是1/3。能够知道这个,我们也可以
作出选择了。” “但是......”绛仙欲言又止,因为她想到了1/3的那种可能,所以她并不满意狐狸的这
个回答。但是她知道这已经是最好的回答。所以也不再问。
狐狸笑着把眼睛从她身上扫过。
“先前我们知道博弈中每个人是什么类型,然后我们可以算出每个人的盈利函数,每个
人的决策,便是根据这盈利函数来的。现在我们只知道每个人属于哪个类型的概率,也
还是一样按照刚才的步骤进行,只不过盈利函数成为数学期望值罢了。无论先出招还是
后出招,都是一样希望自己的盈利期望最大。” 文书嚅嗫道:“这个数学期望......”
狐狸乐了:“大二数学便有这些东东,文书缘何记不得了?譬如你有1/3的可能得到9元
钱,有2/3的可能得到18元钱,那你可能得到钱的数学期望便是9*1/3+18*2/3=15元。一
个量乘以自身的概率,便是数学期望。”
说到这里,狐狸不觉朝蚂蚁望了一下:“现在所说,虽力图下里巴人,但......”
蚂蚁已知其意,挥手道:“下里巴人也不应是文书这样的幼儿园水平,概率的起码意义要懂!”
“换言之,”蚂蚁笑道,“即便国人素质低,狐兄要说的,也至多是阳春白雪,未可算
是艳阳高照。在下还听的懂,尽管放心的说下去。”
狐狸摇头道:“我要说的,就要说完了。现在我们在每个局中人的类型、每种类型局中
人的各个招数上,都各假设一个概率,这些概率假设可全用符号来表示未知量,它们可
以代表小数,也可以代表0,也可以代表1。”
“但是引入这些符号之时,便要这些符号之间满足概率上的约束,譬如归一化约束。作
为代数式,这种约束是可以满足的。”
“此时,局中人选择策略,实质上便是计算概率。概率为0,便不选此策略;概率为1,
便一定选此策略,概率若为小数,则为混合策略。”
“令μa,μb,μc......为A,B,C......决策顺序中局中人所属类型的概率向量(各个
决策顺序的局中人可同可不同,但我们只把顺序作为区分标准),βa,βb,βc...... 为分布在相应局中人各招数上的概率向量。注意,这儿μa,βa等都是向量,譬如μa=( μa1,μa2,......μan)。”
“由此可以列出依照A,B,C......的先后次序决策时,各人的盈利代数式:
Ua=fa(μa,μb,μc......;βa,βb,βc......βn)
Ub=fb(μa,μb,μc......;βa,βb,βc......βn)
......
Un=fn(μa,μb,μc......;βa,βb,βc......βn)”
“现在先不考虑出招较早的那些人,首先考虑最后一个决策者,他当取βn*使得
Un*=maxfn(μa,μb,μc......;βa,βb,βc......βn)的βn*策略。此时,βn* βn
可以表示为μa,μb,μc......;βa,βb,βc......βn-1的函数式。因此可得(n-1)个决策者的盈利式为:
Un-1*=maxfb1(μa,μb,μc......;βa,βb,βc......βn-1) βn-1
同样又确定βn-1*,并消掉βn-1变量,依次类推。最后确定μa*后,把μa*的数值代入
其它所有人的策略代数式,即可求得依先后顺序计算的所有局中人均衡策略。此时,各
人的盈利函数为代数方程,自变量概率向量在0-1区间又是连续的,因此完全可用解方
程的办法来求极值。” “博弈论的全部内容,我便已说完了。”
文书呆了一呆,并不相信自己的耳朵,急忙从包里抱出本5、600页厚的《博弈论》,嘴
里嚷嚷道:“打死我都不信,那博弈论里面有什么完全信息、不完全信息、静态动态、
占优弱劣、多重性、贝叶斯、有限、无限、颤抖手、序贯......那么多花样,你却拿这
几句话来打发我,而且还是夹杂在童话故事中间!” “文书说得有一定道理,”蚂蚁也接口道,“倘若有如此简单,这些经济学家也不成其为经济学家了。狐兄终究是年少,须知武学一道,总是要循序渐进,不好来半点浮躁的。”
“我也如此说过他好多次了,他总是不听。”绛仙看了狐狸一眼,眼神中倒有一大半是怨色。
不过狐狸最受不了这种温柔的责备,因为这个时候还招也罢,不还招也罢,大约都是显得自己愚蠢。
“当真是没有这么简单,”狐狸暗自思忖,“譬如此时我便计算不出最优策略。”
但是文书看到大家都支持他,狐狸又没有作声,顿时感到自己把天底下最充分的理由都
占全了。于是打开书本,按书上的条目一条一条的问狐狸问题:
“譬如你就没有说什么是完全信息!”
“这个区分重要么?”
“不重要么?”
狐狸火了:“本公子不知道什么是完全信息一样可以搞定!”
“哈哈哈哈,”文书大乐,“狐兄开什么玩笑?什么是完全信息这种最基本的东东都不
懂,还要搞定?”它便笑着边转动脑袋望着蚂蚁和绛仙。
不过蚂蚁和绛仙都没有笑。绛仙有点担心的望着狐狸。这使得文书很扫兴。
蚂蚁镇静地道:“不妨等狐兄说完搞定的办法。”
狐狸朝蚂蚁投去感激的一眼,转向文书:“你说说什么是完全信息,看我能否搞定?”
文书便照着书本念了:“完全信息是指自然不首先行动或自然的初始行动被所有参与人
准确观察到的情况,即没有事前的不确定性.....
.”
“Too simple!too naive!”狐狸不等文书说完就打断了,“你所说的完全信息便是我
以上方程中μa,μb,μc......均事先确定为0或1的情况!”
文书不料被如此打断,脸上一红,急忙又翻过一页:“那完美信息呢?”
“拜托!”狐狸微笑中夹杂一丝嘲讽,“每次你说一个东东,请随即念它的书本定义,好节省大家的时间!”
文书有点恼羞成怒,但是它克制住了自己:“完美信息,便是指你对别人究竟是什么人
和他曾经采取了什么具体行动都一清二楚,没有半点含糊
!”
狐狸两眼朝天,懒懒地说:“就是μa,μb......βa,βb......都是0或者1。”
纳什均衡:给定别人不动,没有人有兴趣动?”
“每个人盈利函数对于自己策略β的偏导小等于0。注意啊,这儿是偏导,可不是全导!
全导可是要好多人都可能调整策略了。” 狐狸答得太快了,文书决定把刚才蚂蚁的那个重磅炸弹扔出来:
“怎么解决静态均衡的问题,你还一直没有说过呢!” “Sigh!”狐狸啐了一声。
“你一样列出各人盈利函数多项式;然后对个人赢利函数取对自己策略的偏导为零得出
方程式,每个人都有自己的方程式。把这些方程式联解的解,就是静态博弈之均衡。”
文书急忙去翻下页,嘴里叽里咕哝的,想是十分的不满意。 它头也不抬:“子博弈精炼纳什均衡?”不过狐狸也不含糊:“μa,μb......βa,βb......都是0或者1时得出的均衡就是子博弈精炼纳什均衡!”
不完全信息博弈?” “μa,μb......都是小数!”
贝叶斯纳什均衡?” “只要我那代数式成立便是贝叶斯纳什均衡!”
海萨尼转换?” “这是废话,不需要!你把μ换成β便是,符号变一变,计算上没有什么大不了的改进,画蛇添足!”
不完全信息静态......” “什么静态都跟我刚才说的方法一样!”
精炼贝叶斯均衡......” “停停!怎么个精炼法?”
“哼哼,”文书感觉大是欣喜。它骄傲地说:“听好了!精炼贝叶斯均衡就是......修改后验概率。”
它念了十分钟。蚂蚁和绛仙都糊涂了。“Robbish!”狐狸不耐烦地道,“莫不是知道某β已经发生,来确定某μ是否合理?” “你按我那式子计算出来的均衡策略解集中,倘若没有某β,岂不就μ出了矛盾?当然
是要修改μ,此时便需要进一步精炼;倘若解集中就有某β,则此均衡就没有问题,就
是那精炼贝叶斯均衡吧?说起来不过就是以前μ已知,求β;变为β已知,求μ而已!何必再安些名词出来?”
“那,不完美信息博弈的精炼贝叶斯均衡......” “同上!”
文书的脸色有些难看:“序贯均衡?”
“呵呵,你那序贯均衡无非是不想让人们在非均衡路径上乱来,所以想着任何零概率事
件都赋予正的小概率,好利用条件概率的性质到所有决策上是么?我那代数表达式在所
有策略上都有概率符号,不管它是零概率也好还是其它什么也好,保证在哪儿都不会乱
来!岂非不就是序贯均衡?”
颤抖手均衡呢?” “只要第一步用代数式来表达,就也是颤抖手均衡!绝对没有那些乱七八糟的怪现象出现!”
文书语气开始有些软了。
“你能说说显示原理么?”
“不就是所谓的纳什均衡么?给定每个人的性质,可以设计出一个纳什均衡。要是其中
有一个人谎报自己的情况,便是单独偏离了此均衡,故结果定然对他不利。所以他的唯
一选择就是说实话。” “我便不信!”绛仙叫道,“你根本不了解别人的情况,居然就能让别人说实话!”
“是啊,这个显示原理也有个前提,就是其它所有人都说的是实话的前提下,单个人不
会偏离均衡而说谎。倘若其它多数人都是说谎,便不是单个人偏离均衡,而是多数人偏
离均衡了,此时谁能保证偏离不会得到更大的利益呢?所以社会环境的确是重要啊!”
无名氏定理又是怎么回事?”
“这个是无限次重复博弈中的东东。一般说来,博弈中双方合作时得益最大,但若一方
不遵守合作约定,必定是另一方老好人吃亏。所以便引入惩罚机制:谁TMD违约,以后就
要处罚他,使他不敢违约。这便是无名氏定理的要义。”
“处罚的方式有很多,譬如既然已经违约,这个人是不值得相信的了,别人也决计不会
再想和他合作,所以便可能选择一个对这个人最不利的纳什均衡策略,使得此人受损—
—你知道,在无限重复博弈中,倘若损失不考虑时间贴现,则违约人因此受到的损失当
是无穷大;如果时间贴现为0,则违约人不会因惩罚而受到任何损失,所以必有一个贴现
值居于中间,使得凡大于此贴现时的损失,超过违约人一次违约的利益。”
“当然了,其它人倒未必一定要永远处罚下去,只要一段时期损失累计大于违约利益后
,大家又可以合作,倘若再违约,再开始一段时期的处罚。所以违约必亏,大家便永远合作了。”
文书黯然把书合上了。狐狸笑道:“还有么?”

posted on 2005-09-01 16:53  愚者  阅读(951)  评论(1编辑  收藏  举报