手机浏览器扫描二维码访问
一秒记住【xiaoyanwenxue.com】精彩无弹窗免费!“罗辑思维荐书集锦(套装共24册)(.shg.tw)”!
第12章好人终有好报
“好人垫后。”——这句俗语似乎来自棒球界,不过有些权威人士声称它有其他内涵。美国生物学家加勒特·哈丁(GarrettHardin)用这句俗语来总结“社会生物学”或者“自私的基因”,其中的贴切不言而喻。在达尔文主义中,“好人”是那些愿意自身付出代价,帮助种群中其他成员个体,以此使他们的基因传到下一代的“人”。这么看来,好人的数目注定要减少,善良在达尔文主义里终将灭亡。这里的“好人”还有另一种专有解释,和俗语中的含义相差并不远。但在这种解释里,好人则能“得好报”。在这一章节里,我将阐释这个相对乐观的结论。
想想第10章里的斤斤计较者。那些鸟儿显然以利他的方式互相帮助,但对那些曾经拒绝帮助他人的鸟,它们却怀恨在心,以牙还牙地拒绝给予帮助。比起傻瓜(那些无私奉献却遭遇剥削的个体)和骗子(那些互相无情剥削而共同毁灭的个体),斤斤计较者在种群中占优势,因为它们可以将更多基因传递给后代。斤斤计较者的故事表达了一个重要原则,罗伯特·特里弗斯将此称为“互惠利他理论”。在清洁工鱼(第10章)的例子里,互惠利他不仅局限于单个物种,还存在于所有共生关系中。类似的例子还有蚂蚁为它们的“奶牛”蚜虫挤“奶”(第10章)。当第10章写就时,美国政治科学家罗伯特·阿克塞尔罗德将互惠利他的概念延伸至更为激动人心的方向。阿克塞尔罗德曾与威廉·唐纳·汉密尔顿合作,后者的名字在这本书里已经出现无数次了。开篇已经暗示过,正是阿克塞尔罗德赋予了“好人”一个专有含义。
如同许多其他政治科学家、经济学家、数学家与心理学家一样,阿克塞尔罗德对“囚徒困境”这一简单的博弈游戏很感兴趣。这个游戏极其简单,但我知道许多聪明人完全误解了游戏,以为其复杂无比。不过,它的简单也带有欺骗性。图书馆里关于这个博弈衍生物的书籍多如牛毛。许多有影响力的人认为它是解决战略防御规划问题的钥匙,这个模型需被仔细研究,以阻止第三次世界大战的发生。而作为一个生物学家,我站在阿克塞尔罗德与汉密尔顿一边。许多野生动物和植物正以其演化进程,精确无误地进行着“囚徒困境”的博弈。
在其原始的人类版本中,“囚徒博弈”是这样的:一个“银行家”判定两位玩家的输赢,并付与赢家报酬。假设我们便是这两位玩家,当我们开始博弈时(虽然我们将看到,“对立”是我们最不应该做的),我们手中各有两张卡,分别为“合作”与“背叛”。我们各自选定一张牌,面朝下摆放在桌子上,这样我们都不知道对方的选择,也不会为对方选择所影响,这便等同于我们同时行动。然后我们等待“银行家”来翻牌。我们的输赢不仅取决于我们出的牌,还取决于对方打出的牌。其悬念在于:虽然我们清楚自己的出牌,却并不知道对方的出牌。我们都只能等“银行家”来揭晓结果。
我们一共有2×2=4张牌,于是也便有4种可能的结果。为向这个游戏的发源地——北美致敬,我们以美元来表示这4种输赢结果。
结果1:我们俩都选择了“合作”。“银行家”给我们每个人300美元。这个不菲的总数是对相互合作的奖赏。
结果2:我们俩都选择了“背叛”。“银行家”对每个人罚款10美元。这是对相互背叛的惩罚。
结果3:你选择“合作”,我选择“背叛”。“银行家”付给我500美元(这是背叛的诱惑),罚了你(傻瓜)100美元。
结果4:你选择“背叛”,我选择“合作”。“银行家”将背叛的诱惑付给了你,而罚了我这个傻瓜100美元。
结果3与4明显互为镜像。一个玩家得到好处,则有另一个玩家将付出代价。在结果1与2里,我们俩得到相同的结果,而结果1对我们俩都有好处。这里金钱的具体数目并不要紧,重要的是这个博弈里“囚徒困境”结果的排列顺序:背叛的诱惑>相互合作的奖赏>相互背叛的惩罚>失败的代价。(严格来说,这个博弈还有另一个条件:背叛的诱惑与失败的代价的平均值不可高于相互合作的奖赏。我们将在后边附加条件里提到这个原因。)这四种结果总结于表12—1里。
表12-1我在囚徒困境博弈里各种结果的输赢状况
那么,为什么这是一个“困境”?看看这张输赢状况的表格,想象一下我在与你博弈时脑海中盘旋着的想法。我知道你只有两张牌,“合作”或者“背叛”。让我们按次序来想想。如果你打出“背叛”(这表示我们将看向表格中的右边一列),我能打出最好的牌也只能是“背叛”。虽然我也将接受相互背叛的惩罚,但我知道,如果选择了“合作”,失败者的代价只会更高。而如果你选择了“合作”(看向左边一列),我最好的结果也只能是选择“背叛”。如果我们合作了,我们都能得到300美元;但如果我选择背叛,我将得到更多—500美元。这里的结论是:无论你选择哪张牌,我最好的选择是永远背叛。
我已经运用我无懈可击的逻辑算出,无论你如何选择,我都必须“背叛”。而你,也将算出同样的结果。于是当两个理性的对手相对时,他们将同时背叛,也将同时被罚款,获得一个较低的分数。虽然每个人都心知肚明,如果他们彼此选择“合作”,两人都将得到较高的相互合作的奖赏(我们的例子里是300美元)。这就是为什么这个博弈被称为困境,自相矛盾得令人恼火。这也就是为什么人们开始提出必须有一个法律来对付这个问题。
“囚徒”来自一个特殊的、想象中的例子,上述例子中的现金被监狱的刑罚取代。两个在监狱中的囚徒——姑且称他们为彼得森与莫里亚蒂,有共同犯罪的嫌疑。囚徒们各自被关押在单独的牢房里,并各自被劝诱背叛他的同伙,将所有犯罪证据栽赃对方。他们的判决结果将取决于两个囚徒的行为,而双方都不知道对方的选择。如果彼得森将所有罪过都推向莫里亚蒂,而莫里亚蒂始终保持沉默(与他从前的朋友、现在的叛徒合作),莫里亚蒂将接受重罚,而彼得森得以无罪释放,享受背叛的诱惑。如果两人互相背叛,便都将获罪,但可以因为供认不讳而得到轻判,这便是互相背叛的惩罚。如果两人互相与对方而不是当局合作,闭口不谈过往,所得证据将不足以把两人判以重罪,则两人也都将得到轻判,得到互相合作的奖赏。虽然将牢狱刑罚称为“奖赏”有点儿奇怪,但比起漫长的铁窗生涯,犯人们肯定会将此看作奖赏的。你可以发现,虽然这里的回报不是美元而是牢狱刑罚,博弈的主要特征依然保存着(看看四个结果可取性的排列顺序)。如果你将自己放在任何一个囚徒的位置上,假设两人都以理性的自我利益为动机,你将看到两人都只能背叛对方,而同样接受沉重的刑罚。
有没有逃离困境的方法呢?双方都知道,无论对方如何选择,他们能做出的最好的选择都是“背叛”。但他们也都知道,如果双方都选择合作,任何一方都可以得到更多的好处。如果……如果……如果能有一个办法让他们达成共识,能有一个办法让双方都坚信对方可以被信任,不至于奔向那个自私的奖赏,能有一个方法来维持双方共识……
在“囚徒困境”这个简单博弈里,没有任何方法可以达成信任。除非其中一方是一个虔诚的傻瓜,善良得根本不可能适应这个世界,这个博弈注定将以相互背叛、相互损伤告终。然而,这个博弈还有另一个版本:“重复博弈”的“囚徒困境”。这个“重复博弈”更为复杂,但复杂性里孕育着希望。
“重复博弈”只是简单将上述博弈与同一个对手无限次重复。你我再次在“银行家”面前左右相对,再次拥有手中的两张牌——“合作”与“背叛”,我们再次各自打出一张牌,由“银行家”根据上述规则给出奖赏与惩罚。但这一次对弈不再是博弈的终结,我们捡起手中的牌,准备着下一轮。下一轮的游戏给予我们机会来重新建立信任与怀疑,实施对抗或和解,给予报复或宽恕。在这无限长的博弈里,我们最重要的任务是:赢了“银行家”,而不是对方。
在10次博弈后,理论上我也许可以获得最多5000美元,但只有在你完全愚不可及,或者大公无私地每次都打出“合作”的时候,我才有可能每次都得到最高奖赏“背叛的诱惑”。在更实际一点儿的情况里,我们各自都在10次对弈中打出“合作”,并各自从“银行家”里得到3000美元。这样,我们并不需要特别大公无私,因为我们彼此都能从对方过往的行为中,知道对方可以信任。我们事实上也在监管着对方的行为。还有另一个也可能发生的结果,我们彼此不信任对方,在10次对弈中都打出了“背叛”,“银行家”则从每个人处得到了100美元。最可能发生的是,我们并不完全信任对方,打出了各种次序的“合作”与“背叛”,双方都得到了并不多的金钱。
在第10章中,那些互相从对方羽毛中捉出蜱虫的鸟,正是进行一场“囚徒困境”的重复博弈。这怎么进行呢?你应该还记得,对于鸟来说,从自己身上清除蜱虫非常重要,但它无法自己清除头部的蜱虫,只能依靠同伴来帮助它,而让它同样报答对方也是公平的。但这项工作耗费了许多时间精力,鸟类在这方面并不宽裕。如果某只鸟能以欺骗方式从这个小圈子中逃出来,让别人清除自己的蜱虫,而拒绝互惠互利,它则能得到所有实惠,而不需支付任何代价。如果你将这些回报结果排列一下次序,你将发现这正是真实的“囚徒困境”博弈。互相合作以清除彼此的蜱虫固然是好事,但还有着更好的诱惑促使你拒绝支付互惠的代价。互相背叛以拒绝清除蜱虫固然不是好事,但也没有比花精力帮别人除虫而自己无人理睬更不好。表12—2展示了这个回报结果。
表12-2鸟类清除蜱虫的博弈:我从各种结果中得到的回报
但这只是一个例子。如果你继续思考,你更会发现,从人类到动植物,生活中充满了“囚徒困境”的重复博弈。植物?是的。记得我们谈到策略时,我们没有提到有意识的策略(但我们之后可能会提及),但我们提及了“梅纳德·史密斯”的意识,这便是一种预定基因的策略。我们之后还会提到植物、动物甚至细菌,它们都在进行着“囚徒困境”的重复博弈。现在,先让我们详细探索一下,为何重复博弈如此重要。
在简单博弈里,我们可以预见“背叛”是唯一的理性策略。但重复博弈并不相同,它提供了许多选择范围。简单博弈里只有两种策略,合作或是背叛。但重复博弈可以有很多我们想象得到的策略,并没有任何一个是绝对的最佳方案。比如“大部分时间合作,而在随机的时间里背叛”这个策略,便是成千上万的策略里中的一个。也可以基于过往历史来选择策略,我的“斤斤计较者”正是一个例子。这种鸟对脸部有很好的记忆力,尽管它基本采取合作策略,但它也会背叛那些曾经背叛过它的对手。还有一些其他策略可能更为宽容,或者有更短期的记忆。
显然,重复博弈里可用的策略之多取决于我们的创造力。但我们能够算出哪个是最佳方案吗?阿克塞尔罗德也这么问自己。他想出了一个很具娱乐性的方案:举行一场竞赛。他广发通知,让博弈论的专家们来提交策略。在这里,策略指的是事先确定的行动规则,所以竞争者可以用计算机语言编程加入博弈。阿克塞尔罗德总共收到了14个策略。为了得到更好的结果,他还加了第15个策略,取名为“随机”。这个策略只是简单地随机出“合作”或“背叛”牌,基本等于“无策略”。如果任何一个其他策略比“随机策略”的结果更坏,这一定是个非常差的策略。
阿克塞尔罗德将这15个策略翻译成一种常用的计算机语言,在一台大型计算机中设定这些策略互相博弈。每个策略轮流与其他策略(包括它自己)进行重复博弈。15个策略总共组成15×15=225个排列组合,在计算机上轮番进行。每一个组合需要进行200回合的博弈,所有输赢累积计算,以得出最终的赢家。
这里,我们不关心某一个策略是否优于另一个策略,我们只关心哪个策略在与15个对手博弈后,最终赢得最多的“钱”。在这里,“钱”指的是赢得的分数。相互合作的奖赏为3分,背叛的诱惑为5分,互相背叛的惩罚为1分(相当于我们早先例子中的轻判),失败的代价为0分(等同于之前例子中的重罚)。
表12-3阿克塞尔罗德的计算机竞赛:我在各种结果中所得的回报
无论是哪一种策略,理论上它们能得到的最高总分都是15000分(每一回合5分,15个对手共有200回合),最低分则是0分。不用说,这两个极端都没有实现。实际上,一个策略如果能超过15个对手中的平均水平,最多也只能获得比600分高出一些的分数。因为如果双方决定持续合作,每人在200场博弈中都能得到3分,总共便是600分。我们可以将600分作为基准分,将所有分数表达为600分的百分比。这么算来,理论上面对一个对手的最高分将是166%(1000分)。但事实上,没有任何一个策略的平均分超过600分。
要知道,竞赛中的博弈者并不是人类,而是计算机事先设定好的程序。而基因在这些程序的作者里事先设定了“程序”,使得它们身体力行地扮演同样的角色(想想第4章中的计算机对弈与“仙女座”超级计算机)。你可以将这些策略想象成这些作者的微型代理。虽然一个作者原本可以提交一个以上的策略,但这其实是作弊,这表示作者将在竞争本身中加入策略,使得其中一个角色从另一个角色的牺牲中得到合作的好处。阿克塞尔罗德应该不会接受这一点。
有一些交上来的策略很聪明,当然它们远没有其作者聪明。然而,最后胜出的策略却是一个最简单的,而且看起来最不聪明的一个。这个策略被称为“针锋相对”(TitforTat),它来自多伦多一位著名心理学家和博弈学家阿纳托尔·拉波波特(AnatolRapoport)教授。这个策略在第一回合时采取合作行动,然后在接下来的所有步骤里,只是简单复制对手上一步的行动。
有了“针锋相对”策略的博弈将如何进行呢?一如寻常,下一步的出牌完全取决于对手。假设另一对手也选择了“针锋相对”的策略(每一个策略不止与其他14个对手竞争,也与自己博弈),双方都选择以“合作”开场,第二步中,双方都复制对方上一步的策略,仍然采取“合作”。这样,博弈双方持续合作,直到游戏结束,双方都能获得100%的600分基准分。
那么,假设“针锋相对”与另一个策略“老实人探测器”(NaiveProber)开始博弈。事实上,“老实人探测器”并没有出现在阿克塞尔罗德的博弈竞赛中,但它依然是一个富有指导性的策略。这个策略基本等同于“针锋相对”,但每隔一会儿,比如在每十步中任意选择一步,这个策略会打出恶意的“背叛”牌,而获得最高的分数“背叛的诱惑”。如果“老实人探测器”不打出其试探的“背叛”牌,博弈双方便是两个“针锋相对”,打出一场漫长且互利的“合作”牌,彼此安稳地获得100%的基准分。但突然间(假设在第8回合),“老实人探测器”出其不意地“背叛”了,“针锋相对”却依然不知情地坚持“合作”,也便只能付出“失败者的代价”,得到0分,而“老实人探测器”能得到最高成绩5分。但在下一步里,“针锋相对”开始报复,复制了对手上一步的行动,打出了“背叛”牌,而“老实人探测器”盲目地继续原本设定的程序,复制对手上一步的“合作”牌,于是它只能获得0分,而“针锋相对”得到5分。再下一步,“老实人探测器”极其不公正地又开始了报复,“背叛”了“针锋相对”。反之亦然。在每一轮交替报复的回合里,双方各自平均获得2.5分(5分与0分的平均值)。这依然低于双方持续双向合作所能轻而易举获得的3分(这也是本章前文中尚未解释的“特殊情况”的原因)。于是,当“老实人探测器”与“针锋相对”开始博弈,双方都未能获得两个“针锋相对”博弈时所得的分数。而如果“老实人探测器”互相对弈,其结果只可能更坏,因为这种以牙还牙的冤冤相报可能开始得更早。
让我们再来考虑另一个叫“愧疚探测器”(RemorsefulProber)的策略。这个策略有点类似于“老实人探测器”,但它可以主动终止循环于双方间的交互背叛。这便需要一种比“针锋相对”或“老实人探测器”更长的记忆。“愧疚探测器”能记住自己是否刚刚主动“背叛”,或者只是为了报复。如果是后者,它便“愧疚地”让对手得到一次反击的机会,而不加以报复。这便将此循环报复行为终结在萌芽状态。如果你在想象中旁观“愧疚探测器”与“针锋相对”的博弈,你会发现可能的循环报复行动不攻自破。博弈中大部分时间都采取互相合作,使得双方都能获得相应的高分。在与“针锋相对”的博弈中,“愧疚探测器”能获得比“老实人探测器”更高的分数,但依然没有“针锋相对”与自己对弈的分数高。
阿克塞尔罗德的竞赛里还有一些比“老实人探测器”与“愧疚探测器”更为复杂的策略,但它们平均分都比“针锋相对”低。事实上最失败的策略(除了随机)是最复杂的那一个,作者为“匿名”。这个作者的身份引发了一些饶有兴趣的猜测:五角大楼的高层?中央情报局的首脑?国务卿基辛格?阿克塞尔罗德自己?我们也许永远也不会知道。
不是每个策略的细节都值得研究,这本书也不谈计算机程序员的创造力,但我们可以给这些策略归类,并检验这些类别的成功率。阿克塞尔罗德认为,最重要的类别是“善良”。“善良”类别指的是那些从不率先“背叛”的策略。“针锋相对”便是其中一个例子。它虽然也采取“背叛”的行动,但它只在报复中这么做。“老实人探测器”与“愧疚探测器”也偶尔采取“背叛”,但这种行为是主动起意挑衅的,属于恶意的策略。这场竞赛中的15个策略中,有8个属于“善良”策略。令人吃惊的是,策略中的前8名也是这8个善意的策略。“针锋相对”的平均分504.5分,达到我们600分基准分的84%,是一个很好的分数。其他“善良”策略所得分数要比“针锋相对”少一些,从83.4%到78.6%不等。排名中接下来的则是由格雷斯卡普(Graaskamp)所获得的66.8%,与高分们有很大差距,而这已经是所有恶意策略中的最高分了。令人信服的结果表明,好人在这个博弈中可以胜出。
重生年代:胖厨娘的红火小日子 小农女种田忙 世家三代录 守城使 前妻别跑:偏执慕总放肆宠 沈再云夏顾雪重生鉴宝 重生:影后夫妇疯狂撒狗粮 面对秋阳 重生九零之神医商女 神王殿 天才萌宝:爹地超宠妻 她切回满级大号了 穿越梦境 市场·情场·官场 婚心动魄:我的神秘大boss 盗墓笔记之尘封的记忆 蜜宠霸爱:厉少,你失宠了 人在航海,开局艾尔沃特海战 凰谋天下 夫人,总裁他罪不至死
杨平凡意外得到全基因解锁能力身负地球生命史上各种特异功能但他的战场不止这个时空...
百年门阀舒氏家族,历来子弟擅长权谋,历经三超都辅佐皇室宗族,有王佐之族的美称。舒仪,舒家七小姐,行为乖张,贪图享乐,被派去辅佐异姓王爷,无意中发现王爷真实身份...
一觉醒来,洛甜甜发现自己穿书了,还穿成了反派他女儿。书中的反派丧尽天良无恶不作,最后惨死在一场大火中,作为反派的女儿,书中的洛甜甜最后也落了个被拐卖的下场。难道就这样认命坐等结局吗?呸!我命由我不由天!今天就让我来手撕这渣渣剧本,我的爸爸我来守护!拯救反派爸爸计划启动!但是我为什么还是个在喝奶的屁孩儿啊!洛遇北其人,传闻中心狠手辣无恶不作,从不曾有人敢在他面前撒野,但是有一天,有人看到一个小女孩儿骑在他的背上把他当成了大马啊这...
深爱闺蜜男友陆泽承,为了闺蜜之情,单渝薇压抑自己的感情,压抑的心肝脾肺肾都疼了。为了逃避分手的事实,闺蜜出国,四年后,突然回国想要挽回旧爱。可是单渝薇已经成了陆泽承的炮友。陆泽承,景诗回来了。那又怎么样?陆泽承将她单薄的身子揽进怀里,声音懒懒,我爱的是你,上的也是你。...
起点新作盟作品我是一匹嗜血如狂的复仇之狼,我要用爪子抓破你的肚腹,把你肮脏的内脏掏出来摊在地上践踏我要咬断你的喉咙,让你饱尝痛苦的死去但又无法呼喊我要划开你的头皮,生生的剥下你的人皮我要挑断你全身的动脉,让你污秽的血没过我的脚背我要捏碎你全身每一根骨头,吸干你全身的骨髓!一部以星际战争科幻为主体,以一款异时空网游为引,揭开银河系人类的生存之战。Q群12603752!欢迎长久以来一直热心支持我的兄弟姐妹加入!毁灭公爵都市新作--堕落大亨已正式上传,书号为57256,感谢新老朋友的热心支持。...
龙尊,六年了,盛世如您所愿隐忍假死六年,引蛇出洞,荡平边境三十六国。权倾天下的他,归隐都市,从此边境清宁,都市中,却多了一位盖世至尊。...