合作的进化

摘要

合作产生的条件是易识别的、善良的、可激怒的小群体有足够的概率遇见同一群体。对处于”囚徒困境“参与者来说，目的是自己尽可能做得更好些，而不管其他人做得怎么样，因此要记住以下四点：1）不要妒忌对方的成功，其他人的成功是自己成功的前提；2）不要首先背叛，背叛代价很高，并会导致各种问题的出现；3）要对合作和背叛都作出回报，回报的反应速度要快，对背叛的回报程度要比对方稍微弱一点，防止仇恨出现；4）不要耍小聪明，你给予对方的最终会返还给你，要宽容、容易被对方识别你的策略。维持合作的条件是增大未来的影响。让合作产生也可以通过改变环境，方法包括增大未来的影响、改变收益值、教育人们互相关心、教育人们要回报、改善识别能力。标记、声誉、管理和领地对合作也会产生影响。

囚徒困境介绍

	合作	背叛
合作	R=3, R=3	S=0, T=5
背叛	T=5, S=0	P=1, P=1

R：对双方合作的奖励；T：对背叛的诱惑；S：给笨蛋的报酬；P：对双方背叛的惩罚

囚徒困境包含的现实特征：

对策者的收益不必是可比较的。
收益不必是对称的。但是必须假设的是，对每个对策者来说，四种收益是按＂囚徒困境＂的定义要求排序的，即“对双方合作的奖励”大于“对背叛的诱惑”和“给笨蛋的报酬”的平均值（\(R>\frac{T+S}{2}\)）
对策者的收益值只是相对的，不是绝对的。
决定是否合作不必顾及他人的看法。
不必假设对策者是理性的。
对策者的行为不必都是有意识的选择。一个人有时会回报一个恩惠，有时不会，他可能不会认真思考他采用的是什么策略。

合作的出现

第二章，研究参与计算机竞赛“囚徒困境”的程序，共举行了两次比赛，排名靠前的程序大部分是善良的，而排名靠后的程序大部分是不善良的。

第三章，在没有集权的自私自利者的世界中，合作产生需要哪些条件。

第二章

在第一次比赛中，有：1）具有善良性的程序得分相对较高（不首先背叛）；2）不善良的程序可以决定善良程序之间的相对名次，其中“唐宁”使用最大期望算法，它根据对方的反应决定下一步怎么做，因为它头两步的背叛会招致其他程序的过激反应，所以它能判别其他算法是否有宽容性；3）要避免报复升级，一旦一方的背叛诱发一串的报复和反报复，双方都会吃亏，尤其是一个孤立的背叛可能导致无休止的报复（其中一个狡猾的规则是“一报还一报”的改进，试图偶尔进行背叛而不受惩罚，它遇到“一报还一报”时开始表现的不错，然而在某一次孤立的背叛时，由于上一次“一报还一报”惩罚它的背叛而在这次背叛，这导致了无休止报复）；4）多点宽容。

在第二次比赛中，有两个不善良的规则占好说话规则的便宜，分别是“检验者”和“镇定者”。“检验者”专门欺负软骨头，它在第一步就背叛，如果对方背叛，它就赶快抱歉，回之以合作，然后在其余的步中采用＂一报还一报＂；如果对方不反应它的第一步背叛，它就在第二步和第三步合作，但是后面它每隔一步背叛一次。“镇定者”首先争取与对方创建双方合作的关系，然后才偶尔试探看看是否有便宜可占。

“一报还一报”成功的原因是它综合了善良性、可激怒性、宽容性和淸晰性。它的善良性防止它陷入不必要的麻烦，它的可激怒性在作一次反击后就原谅一个孤立的背叛，但是不管过去相处的关系如何好，它总能被一个背叛所激怒，它的宽容性有助于重新恢复合作，它的清晰性使它容易被对方理解，从而引出长期的合作。

第三章

折扣系数w指的是未来对于现在的影响。有两个原因使得现在比未来更为重要。首先，对策者倾向于认为未来所得的价值随着时间的推移而减少。其次，对策者总会有些机会不再相遇。这种持续的关系会由于其中一个对策者迁移、改变职业、去世或破产而结束。如，在一个稳定的小镇或同一种族的邻里之间就容易创建互惠的规范；相反，一个访问教授就很可能受到其他教工的冷落，而他们对待固定同事并不这样。

命题：

如果折扣系数w足够大，则不存在独立于对方所采用的策略的最优策略
当且仅当w足够大时，“一报还一报”是集体稳定的，且w的临界值与囚徒困境中四个收益参数的函数。
只有当w足够大时，任何可能首先合作的策略才可能是集体稳定的
对于善良的策略，如果是集体稳定的，它就必须能被对方的第一个背叛所激怒。
当侵入的是单一个体时，“总是背叛”策略总是集体稳定的。
能以最小p值（小群体自己之间相遇的概率）的一个小群体侵入“总是背叛”的策略是那些具有最大识别力的策略，如“一报还一报”。
如果一个善良的策略不能被单个个体侵入，那么它也不能被这类个体的小群体侵入。
如果一个规则是集体稳定的，那么它就是领地稳定的。

根据这些命题，合作出现的条件有：1）只要具有识别能力的小群体之间有一个阈值概率能彼此相遇；2）必须是善良的；3）必须是可激怒的。

没有友谊和预见的合作

第四章和第五章说明第三章结果的适用范围，第四章说明当合作的条件出现时，合作可以在毫无希望、对抗的双方之间出现并且保持稳定，第五章说明合作可以在没有预见的情况下产生，以及合作在多个方面的应用。

第四章

“自己活也让别人活”的系统是怎么开始的？一个可能原因是两方同时进餐，另一个原因是糟糕的天气不适合大规模进攻而出现休战，而这休战在天气转好后有时还在持续。此外，双方需要认识到对方是愿意回报合作的。在一定时间内实行的克制会延续更长的时间，一种特殊形式的克制会导致尝试其他类型的克制，而且这些行为也会被其他部队模仿。

它是怎么持续下去的？在双方克制期间，敌人的士兵都努力向对方证明如果必要的话他们是会报复的，如精准射击对方的某面墙壁、炮兵精准炮击某块无人区，这些报复能力的显示有助于维持这个系统，它表明克制不是由于软弱，背叛只能是自我伤害。换防时撤离部队向进驻部队介绍情况，使得部队换防仍能维持稳定，此外，步兵会欢迎、尊重炮兵，因此炮兵在保持双方克制中的双重作用是没有被挑衅时的守势和敌人破坏和平时的立即报复。

为什么战争后期会破裂？司令部命令占领对方的阵地的情况，或者司令部能够监视检查的一系列不停顿的进攻，即突然袭击。因为只有小部队卷入“囚徒困境”，而上级并不了解士兵们的感受。袭击是受司令部控制的，因此无法阻止报复的升级，最终失去合作。

为什么它是第一次世界大战的堑壕战的特征，而不是其他战争？使得堑壕战与其他大多数战斗不同的是，相同的小单位部队长时间在固定的防区里相互对峙，形成了“重复囚徒困境”。

第五章

进化稳定的策略的定义：采用某个策略的群体，不会被采用其他不同策略的变异体侵入。

有两种方法可以在“总是背叛”策略的群体中产生合作，一是亲缘关系，二是小群体。

当代价、利益和亲密关系使得亲属个体身上的利他基因有净收益时（自己注：即使选择合作而对方背叛仍然有收益），真正的利他主义就能出现。基因在自己终有一死的载体之外看到存在于其他相关个体中自己的永恒拷贝。如果对局者有足够密切的关系，即使单个利他者有所损失，利他主义仍然给这组复制品带来了好处。与这个理论的预测相一致的是，几乎所有利他主义的实例和大部分观察到的合作行为（除人类以外）都是发生在密切的亲缘关系中，通常是在直系家庭成员中。每当亲缘关系较远或对亲缘关系有怀疑时，在对方的消极反应之后改用更自私的行为是有利的。因此需要有对另一个体的行为反应的能力，合作才能够渗透到越来越少亲缘关系的情形中去。最后，当两个个体再次相遇的概率足够大时，在没有任何亲缘关系的群体中，基于回报的合作也能够繁荣并且是进化稳定的。

在生物界，对合作的进化的两个基本要求是：1）背叛能够必将受到报复；2）两个个体再次相遇的概率足够大。高级生物通过识别能力确认相遇过的个体，而低级生物由于没有识别能力则要用其他方法，比如一直在一起，或者在固定区域相遇。

对参与者和改革者的建议

第六章，给处于”囚徒困境“的参与者提供建议，参与者的目的是尽可能做得更好些，而不管其他人做得怎么样。不要妒忌对方的成功、不要首先背叛、要对合作和背叛都作出回报、不要耍小聪明。

第七章，尝试不同的相互作用条件来促进合作，为改革者提供建议。

第六章

给处于一个给定环境的个体提供的建议，以促进合作。

不要嫉妒：生活中大部分情况是非零和博弈，双方可以做得很好，也可以做得很差，参与者的目的是尽可能做得更好些，而不管其他人做得怎么样，然而人们倾向于采用相对的标准，这个标准经常把对方的成功与自己的成功联系起来，从而导致嫉妒，嫉妒又导致企图抵消对方已经得到的优势。在”囚徒困境“的形式下，抵消对方的优势只能通过背叛来实现，但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。要求自己比对方做得好不是一个很好的标准，除非你的目的是消灭对方。一个更好的相对标准是把你所做的与处在相同情况下的其他人所做的做比较。对于一个给定的对方策略，你是否做得最好？其他人在这种情况下能做得更好吗？这就是检验表现是否成功的一个很好的标准。在长时间的“重复囚徒困境”中，其他人的成功是你自己成功的前提。

不要首先背叛：首先背叛导致冲突的代价有时是很高的，放弃占他人便宜的可能性，占便宜有时是有利可图的，但是在广泛的环境中，试图占便宜而引来的问题也多种多样。虽然不善良在最初看来获得很多利益，但长期下去它将毁坏使自己成功所必需的环境。不同的善良规则之间相处融洽，还能够阻止单个变异个体侵入的善良规则群体也能阻止这个变异规则的任何小群体侵入，但对它们来说，有一个限制是如果折扣系数不够大，可能导致首先背叛情况的产生。首先背叛产生的可能条件有两个，一是短暂的接触，二是意识到合作不可能得到回报。（自己注：现实的例子是老年人得不到赡养）

对合作与背叛都要给予回报：回报背叛也回报合作说明是可激怒的，多于一次背叛来回报对方的背叛将有可能使冲突升级，少于一对一的回报将有被占便宜的危险。

不要耍小聪明：第一种小聪明是忽略了相互作用，在“囚徒困境”中的对方不应该被认为是一心想背叛你的。对方将把你的行为看作你是否回报合作的信号。因此，你自己的行为将会反射到你的身上。第二种太聪明是“永久报复”，因为它为避免背叛提供了最大的激励，但是它为了自己的利益显得太严厉了，也就是说太快放弃合作了，没有给对方改过的机会。第三种太聪明的形式是，它们采用的概率策略是如此复杂以至于其他策略不能把它们与纯粹的随机选择区分开来。因此，对方会把一个显得不可预测的规则看作是不可改造的，结果自然是导致背叛。“一报还一报”在竞赛中得到巨大成功的原因之一是它的清晰性使它非常容易被对方理解。

第七章

如何通过改变策略的环境本身，来促进合作。对于参与者来说，合作是好事，然而对于一些情形来说，人们需要破坏合作，如公司联合固定价格。

增大未来的影响：如果未来相对于现在是足够重要的话，双方的合作就会是稳定的。因为每个对策者可以用隐含的报复来威胁对方，如果相互之间的接触时间持续足够长，使得这种威胁能够奏效的话。增大未来影响的方法有两种，一是相互作用更持久，二是使接触更加频繁。相互作用更持久的例子有婚礼、“自己活也让别人活”，使接触更加频繁的例子有邻居、定期见面的客户与商人。等级和组织可以协调跨部门之间以及同部门之间员工的合作；集中接触使得每个人只与其他少数几个人经常见面；另一个使接触更频繁的方法是分解，在商业上，商人们喜欢一个大订单分别按每次发货时间付款，而不愿等到最后付总账。使得当前步的背叛相对于整个未来的接触过程来说不是那么有诱惑力。

改变收益值本身：如果收益值改变了，情况就可能从不稳定的合作转变成稳定的合作。所以，通过改变收益值来促进合作没有必要去消除背叛的短期激励与合作的长期激励之间的紧张关系，而只要使对双方合作的长期激励大于对背叛的短期激励就行。政府所做的正是改变收益值，在个体没有个人激励去合作时保证他们无论如何也得做那些对社会有用的事。

教育人们相互关心：即这些新一代的公民的偏好中，不仅有他们自己个人的利益，还至少在某种程度上结合了他人的利益。利他主义就是描述这样一个现象，一个人的利益效用是与另一个人的福利相联系的。因此利他主义是一个人行为的动机。但是必须认识到，有一些看起来是宽宏大量的行为可能有其他各种原因而不是利他主义，如慈善行为往往不是出于对不幸者的关心而是为了它所能带来的社会赞赏、赠送礼物使受惠者承担某种义务而不在于改善受惠者的福利。

教育人们要回报：无条件的合作不仅伤害你自己而且伤害了这个成功的剥削者接着要相遇的无辜的旁观者。无条件合作将会宠坏对方，并为社会留下了改造被宠坏者的负担。这说明回报是比无条件合作更好的道德基础。使“一报还一报”有点令人不舒服的是它坚持“以牙还牙”。这确实只是大致公平的，但问题在于是否还有其他选择。在有集权时人们可以依赖集权推行公共标准作为其他选择；当没有集权的时候，参与者必须依靠他们自己相互给予激励来引导合作而不是引导背叛，然而“一报还一报”的麻烦在于一旦结下仇恨，它就会无休止地继续下去。一个更好的策略可能是一报还十分之九报，这样既能够减弱冲突的振荡，又能提供一个激励使对方不敢尝试无缘无故的背叛。

改进辨别能力：没有识别能力，就无法鼓励对方进行合作。识别能力包括识别他人的特征和行为、背叛何时发生。通过改善对策者基于过去的接触而相互识别的能力和确定以前已经发生过的行为的能力，持续合作的范围可以得到扩展。

结论

第八章，讨论标记、声誉、管理和领地对社会结构的影响。

第九章，具有预见能力的参与者会使合作发生什么变化。

第八章

标记：一个人的可观察特征，包括肤色、性别、穿着风格，能引起成见和地位层次的稳定形式。特征使人们在和陌生人打交道时期望陌生人的行为会像其他具有相同可观察特征的人的行为一样。当有标记时，一个策略做出的选择受到标记和过去作用的历史两个因素影响。标记造成两个结果，分别是成见和地位等级。成见指的是如果你拥有某种标记，你会和拥有相同标记的人相处的很好，但是，如果和不同标记的人相处，即使你愿意改变尝试去合作，他们对你的成见导致不和你合作，最终导致你的收益下降，因此你不得不回到你所被期望的角色。地位等级指的是如果每个人都欺侮那些在他之下的人，而对他之上的人则是逆来顺受，这种情况也是稳定的。比如对在他之下的人使用合作背叛交替使用，但如果对方背叛一次则不再合作，这是霸道的，因为他可以背叛但决不容忍对方背叛；对他之上的人使用对方两次不合作时就永远不再合作，这是软弱的，因为他容忍对方占便宜，但也是可激怒的，因为他不能容忍太被占便宜。

信誉：一个人的信誉是可塑的，当另一个人知道他在与其他人对局时所采用的策略时，他的信誉就产生了。知道某些人的信誉能使你在作出第一次选择之前就能知道一些关于他们采用的策略的情况，在知道他人的信誉之后你能否做得更好决定了该信息的价值，或者反过来说，让其他人知道你的策略有什么价值，如果你使用“永久背叛”，那么对方可能不会尝试进行背叛，而如果你使用“两报还一报”，那么对方可能会占便宜。创建信誉是要通过可信的威胁来达到威慑的作用，你试图作出某个反应的许诺，当偶然情况发生时即使你并不想真正去这样做也不得不做。比如，中国对待台湾问题就是在塑造信誉。

管理：统治的严厉性和实施过程的问题。政府必须阻止它的公民触犯法律，保证公民服从的关键在于政府能够并且愿意投入比当前利益多得多的资源来保持它的强硬信誉，如逃税。政府必须诱导大多数被统治者服从它的政策，而不是强迫推行它的政策。要做到这一点就要求创建和实行一些规则，使得大多数的被统治者在大部分时间里，只要服从这些规则就会得到好处。比如垃圾分类的推广，使用一些物品奖励做得好的人。

领地：当人们只和邻居而不是与所有其他人打交道时，就出现了领地。与邻居的接触比与其他相距较远的个体的接触多得多，因此成功很大部分取决于与邻居相处得怎样，另外邻居可以提供模板，如果邻居做得好，他的行为就会被模仿，然后传播开来。这里的邻居和领地是广义上的，包括具体的和抽象的，比如村庄的邻居是村里人、饮料的邻居是竞品。在领地系统中，有些策略可能做得比“一报还一报”做得更好，比如“奈德格”，它决不首先背叛，独特之处在于当对方背叛后有时能给对方道歉的机会，也就是重新引导出合作。

本书中考虑的五个结构揭示了合作进化的各个不同的方面：

随机混合被用来作为最基本的结构。循环赛和理论上的命题说明了基于回报的合作如何能够在这种即使是最少的社会结构情况下成长起来。
对小群体的考察说明了合作的进化是如何开始的。小群体允许新来者至少有一个小的机会与其他新来者相遇，尽管新来者本身是原来群体的一个可忽略的部分。即使新来者绝大部分是与原来的非合作策略相遇，但采用回报的小群体的新来者能够侵入“小人”的群体。
当与通过它们自己相互作用的经历所得的信息相比，对策者之间拥有更多的信息时，群体的分化就发生了。如果对策者有标记指示它们的群体身份和个体的态度，成见和等级地位就会产生。如果对策者能相互观察到对方与其他个体的相互作用，它们就能创建信誉，而信誉的存在能导致一个以尽力阻止恶棍为特征的世界。
政府在使它的大部分公民服从方面有它自己的策略问题，这不仅是在某一特定情况下选择一个有效的策略的问题，而且还是一个如何设立标准；使得服从既对公民有吸引力又能有利于社会。
领地系统是考察如果对策者只和它们的邻居打交道并且模仿比它们做得更成功的邻居时，会出现什么情况。与邻居的相互作用，产生了特定策略传播的复杂模式，并且为有些做得很差的策略在某些情况下做得异常出色提供了可能

第九章

交易的公平不是靠法律诉讼的威慑来保证，而是由双方未来交易的好处的预期来保证的。 当这个未来相互作用的预期破灭时，就需要一个外来的权威。

合作的基础不是真正的信任，而是关系的持续性。当条件具备了，对策者能通过对双方有利的可能性的试错学习、通过对其他成功者的模仿或通过选择成功的策略剔除不成功的策略的盲目过程来达到相互的合作。当相互作用有可能持续一段较长时间时，对策者就会一起关心他们的未来。

可激怒性的价值在于通过快速反应，给对方一个反馈信号，背叛是没有好处的，并且反应时间越短，合作就越稳定，“两报还一报”是反应慢的策略。

冲突的持续是由于反射作用，双方用各自新的背叛反应对方上一次的背叛。控制反射作用的三种解决方法：1）找一个中央权威，通过法律条款来控制双方。不幸的是，这种方法通常是不可行的或者费用太高；2）当采用中央权威是不可能的或代价太高的时候，最好的办法是依靠一个能自我控制的策略。这样的自我控制的策略必须是可激怒的，但是反应必须不能太激烈以免导致一个无止境的互相报复。在许多情况下，如果这个反应稍稍少于挑衅的话，合作的稳定性便可以得到增强；3）首先背叛的一方要认识到对方的反应不应该再引起自己的另一个背叛。

总结

合作的进化要求个体有足够大的机会再次相遇，使得他们能形成在未来打交道的利害关系，如果是这样的话，合作的进化可以分三个阶段。1）起始阶段：合作可以在一个无条件背叛的世界里产生。零散个体之间几乎没有机会交往，合作也就不会产生。然而，以相互回报合作为宗旨的小群体之间，一旦有交往的可能，合作便会出现。2）中间阶段：基于回报的策略能够在许多不同类型的策略组成的环境里成长起来。3）最后阶段：基于回报的合作一旦创建起来，就能防止其他不太合作的策略的侵入。因此，社会进化的齿轮是不可逆转的。

posted @ 2022-02-14 14:22 sjmuvx 阅读(399) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

sjmuvx

合作的进化

摘要

囚徒困境介绍

合作的出现

第二章

第三章

没有友谊和预见的合作

第四章

第五章

对参与者和改革者的建议

第六章

第七章

结论

第八章

第九章

总结

公告