博弈论66个经典事例(博弈论)

发布日期:2024-12-22 12:13:30     作者:汽水桔子     手机:https://m.xinb2b.cn/sport/xud173885.html     违规举报


罗伯特·阿克塞尔罗德在静态群体中研究博弈论,最终得到的最优策略是“一报还一报”策略。那么作为获得最高分的策略,“一报还一报”策略在动态群体中是否也是最优的呢?

假设博弈的参与者们是一个动态进化的群体,那么其中是否会产生“一报还一报”的合作者?他们是否能发展和生存下去呢?一个生物群体是倾向于进化成相互合作的群体,还是倾向于进化成不合作的群体呢?假如所有的成员在最初都是不合作的,那么他们是否会在生存发展的道路上进化成相互合作的呢?


罗伯特·阿克塞尔罗德提出了这些具有深度的问题,并运用生态学原理进行了他的第三次实验。罗伯特·阿克塞尔罗德首先假设参与者组成的群体是动态进化的群体,他们会一代接着一代发展进化下去。接着,他又制定了进化的规则:

第一,所有参与者在进化的过程中都会有“试错行为”。参与者在一个陌生环境中不知道该怎么做,他只能不断进行尝试,若某种尝试后的结果是好的,他就会照着这个尝试的方法继续做下去。

第二,参与者之间会有遗传现象。如果一个人本身是爱合作的,那么他的后代就会拥有更多的合作基因。

第三,每一个参与者都具备学习性。对参与者来说,对局过程也是一个相互学习的过程,比如“一报还一报”策略优秀,参与者就会学习这种策略。

在第三次实验中,罗伯特·阿克塞尔罗德规定,参与者在第一轮得分越高,其在第二轮中所占比例就越高,之后每一轮以此类推。这样一来,群体的结构就会随着进化而改变,通过最终的结果能够分析出群体进化的方向。


最优的“一报还一报”策略最初只占群体总份额的1/63,进化1000代后,其份额占到了总体的24%。不过,也有一些程序在后代中所占份额是逐渐下降,甚至完全消失的。前15名程序中唯一“不善良”的程序,其策略是先合作,若对手一直选择合作,它就突然尝试一次不合作,当对手立刻报复它时,它又立刻与其合作,若对手继续合作,它又会突然背叛。这个“不善良”程序凭借它最开始的分数优势在接下来的进化中有着一定的发展,但等到一些程序开始消失时,它在群体中所占的比例便开始下降了。

通过对这样的合作系数的测量,可以得出结论——群体中的合作是逐渐扩大化的,或者说,群体是向着越来越合作进化的。

罗伯特·阿克塞尔罗德的进化实验说明了这样的道理:优秀的策略总是建立在别人成功的基础之上的。


虽然“一报还一报”策略在两人博弈中无法获得超越对手的分数,利用这个策略最多和对方打个平手,但是对于团体来说,它所得到的分数却是最高的。“一报还一报”策略能够使参与者稳定地生存下去,这是因为它总能让对手获得高分。而前15名中那个“不善良”程序总是让自己得到高分,使对方得低分,它总是把自己的利益建立在别人的损失之上,即使它能在一段时间内继续生存,但当那些失败者被淘汰之后,这个投机取巧、爱占别人便宜的成功者也会被淘汰。

如果把坚持“一报还一报”策略的参与者放入一个极端自私自利的群体中,他是否能生存下去呢?如果得分矩阵是一定的,未来的折现系数也是一定的,那么由此可以计算出只要该群体中有至少5%的成员坚持使用“一报还一报”的策略,那么这些“善良的”合作者就能一直生存发展下去。更为有趣的是,只要这些合作者所得分数高于群体平均分,他们在群体中就会逐渐壮大,直到取代整个群体。


从反向来看,即使不合作者在一个群体中占有较大比例,他们也不会在未来的进化中一直增长下去。这说明社会群体是向着合作方向进化的,且这个进化的大方向是不可逆转的,随着群体的发展,他们的合作性会越来越大。毫无疑问,这是一个十分鼓舞人心的结论,罗伯特·阿克塞尔罗德用这个结论成功地解决了与“囚徒困境”相同的难题。

罗伯特·阿克塞尔罗德的研究揭示了合作的必要条件:

第一个条件是博弈要持续进行下去,参与者在一次或几次的博弈中是找不到合作动机的;

第二个条件是决策者要对对手的行为做出“回报”,这个“回报”可以是好的,也可以是坏的,若一个人永远选择合作,那么是不会有太多人选择与他合作的。


对于合作性的提高:

第一是要建立在持久的关系上,爱情很美好,但恋人之间的合作也需要建立在婚姻契约上才能长久。

第二是每一个想提高合作性的人都要提高识别别人行动的能力,如果你连对方是否合作都搞不清楚,你便没法对他的行为做出回报。

第三是要说到做到,信誉第一,若比赛的某一回合别人对你采取不合作策略,你承诺在下一轮比赛中也不与他合作,就一定要做到,当别人知道你是个不好惹的人,就不敢不与你合作。

第四是避免一次性对局,能多次完成的对局要尽量分步完成。这样做的好处在于可以使对弈双方长久地维持关系,如此才有合作的可能,比如在贸易谈判的过程中尽量多步骤进行,这样可以一步步敦促别人与你合作。

第五是对于别人的成功不要嫉妒,对于别人的失败不要落井下石。

第六是不要主动背叛别人,避免成为罪魁祸首,成为众矢之的。

第七是不仅要对合作予以回报,也要对背叛进行“回报”。

第八是不要贪小便宜,耍小聪明占别人便宜的人不会有人与他合作。


通过对博弈论中合作问题的研究,罗伯特·阿克塞尔罗德发现了两个规律:

第一个规律是合作不仅能发生在友人之间,也能发生在敌人之间。在博弈中,友谊不能保证持续的合作,因为它不能作为合作的必要条件。而如果敌人之间能在持续的关系中满足相互回报的条件,他们也能进行合作。举例来说,在第一次世界大战中,德军和英军相互交战时遇到了连续的阴雨天气,结果在三个月的交战中,双方达成了一种默契——不攻击对方的粮草,直到大反攻时才决一死战。所以,友谊不是合作的前提,敌对不代表不会合作。

第二个规律是不能把预见性看作合作的前提,低等动物之间可以进行合作,甚至低等植物之间也能进行合作,而这些生物之间并没有预见性。然而,人类是有预见性的动物,若在了解合作规律的情况下,人类的这种预见性可以加快合作的进程。所以,这个时候预见性和学习都是有用的。如果博弈中出现随机干扰,比如参与者因为相互误会而相互背叛时,背叛者采取“悔过的一报还一报”,被背叛者采用“修正的一报还一报”能使群体利益最大化。所谓“悔过的一报还一报”,就是指参与者对对方的背叛行为有一定概率不予以报复。所谓“修正的一报还一报”,指的是参与者有一定概率主动停止背叛别人。群体成员随机应变的能力越强,这两种策略的效果越好。


阿克塞尔罗德在研究如何突破囚徒困境时,引入了合作概念,他不仅继承了传统的数学化方法来实行这一研究,还与时俱进地借助计算机化的研究方法将这项研究提高到了一个全新的境界。就如何突破囚徒困境,他给出的证明是令人信服的,至少很少有博弈专家能雄辩过他。他用计算机模拟整个博弈过程,为我们得出了一些惊人的结论,他让我们明白了,总得分最高并不意味着在每一次博弈中都要拿到最高分。

从社会学的角度来看,阿克塞尔罗德得出的最优的“一报还一报”策略是一种“互惠式利他”。

参与者实行这一策略的动机在于个人私利,不过最终的结果却是博弈的双方都能获利。这种策略几乎覆盖了人类的整个社会生活。人们常常通过送礼和回报的方式来进行交流与合作,这似乎早已成为一种生活秩序,即使相互隔绝、无法用语言交流的人群也很容易理解这种秩序。


例如,哥伦布在发现美洲大陆后,最初与那里的印第安人交往的方式就是互赠礼物。无偿捐款看似是一种纯粹的利他行为,但这种行为也可能间接地得到回报,比如它能为捐款者赢得社会声誉等。这些有趣的行为蕴含了生活的哲理,它们能帮助我们理解社会生活,具有非凡的意义。

增加“囚徒困境”的参与者,将它扩展成多人博弈,就能引申出一个更广泛的话题,即“社会资源悖论”。

地球上的资源是有限的,人类所能分配使用的资源也是有限的。人们都希望从有限的资源中多分一些,这就导致了利益纷争,个人利益与群体利益的冲突早已屡见不鲜。利用“社会资源悖论”可以解释许多现实问题,比如资源危机、交通堵塞、人口问题等。

解决这些问题的方法在于建立规则,控制每个人的行为。中国传统道德文化中有许多思想与阿克塞尔罗德的“一报还一报”策略相对应,比如“投桃报李”“人不犯我,我不犯人”都是该策略的典型体现。


由于现实社会生活中充满了随机性,所以这些策略都不能成为最优策略,这正是“一报还一报”在多变环境中的缺陷所在。圣贤孔子曾提出人与人之间应该“以德报德,以直报怨”的观点,这是一种“修正的一报还一报”策略,其先进程度跨越了几千年。“直”的意思是公正,“以直报怨”就是用公正来回报背叛,其所修正的是惩罚背叛者的程度,依据公正的原则,本来要罚背叛者10分,现在只需罚其5分。这样做可以结束世代循环报复的魔咒,让文明得以形成。

不过,阿克塞尔罗德的研究是建立在相对理想的假设基础之上的,这使得相关的研究难免会与社会脱节。在阿克塞尔罗德的研究中,他假定了个体之间的博弈完全不存在差异,而现实生活中这种公平是难以达到的。在现实生活中,参与博弈的人可能存在着实力上的差异,当两者相互背叛时,可能是强者得3分,弱者得0分,而不是两者每人得一分。这样一来,弱者的报复对强者不起作用,因此也就丧失了意义。


假如博弈双方的实力确实旗鼓相当,但一方存在赌徒心理,认定自己比对方实力更强,只要采取背叛就能占得便宜,那么在这样的情形中,阿克塞尔罗德的得分矩阵是不适用的。若这种赌徒心理不断蔓延,势必会引发许多零和博弈,这也是现实中经常会有的情况。

所以,阿克塞尔罗德的程序还能根据这些特殊情况继续改进。有不少人支持阿克塞尔罗德的“一报还一报”结论,但也有人对他的观念产生了质疑,比如阿克塞尔罗德坚持认为合作不需要信任,也不需要预期就是诟病最多的地方。


人们习惯根据对手之前的策略来安排战术,合作者希望识别与其产生相互作用的个体和历史,这样才能根据预期做出反应。在复杂的环境中,信任可能促成合作,或者成为合作的必要条件。但将预期和信任反映于计算机程序是有待研究的。现实生活中存在的博弈大多数是一次性博弈,这种博弈引发不合作是常有的事情。

然而,重复博弈的例子却很少或很难实现,参与者在遭到背叛后往往没有机会给予反击,甚至毫无还手之力,比如核威慑、资本实力悬殊的违约行为等。因此,这时就要引入法律手段,用法律的惩罚来取代“一报还一报”,实现依法治国,以法律促进合作。


 
 
本文地址:https://xinb2b.cn/sport/xud173885.html,转载请注明出处。

推荐图文
推荐运动知识
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  违规举报  |  蜀ICP备18010318号-4  |  百度地图  | 
Processed in 0.043 second(s), 1 queries, Memory 2.45 M