这里,们不关心某个策略是否优于另个策略。们只关心哪个策略在与15个对手博弈后,最终赢得最多“钱”。在这里,“钱”指是赢得分数。相互合作奖赏为3分,背叛诱惑为5分,互相背叛惩罚为1分(相当于们早先例子中轻判),失败代价为0分(等同于之前例子中重罚)。
zsdjy3
无论是哪种策略,理论上它们能得到最高分都是15000分(每回合5分,15个对手共有200回合),最低分则是0分。不用说,这两个极端都没有实现。实际上,个策略如果能超过15个对手中平均水平,最多也只能获得比600分高出些分数。因为如果对手双方决定他们持续合作,每人在200场博弈中都能得到3分,总共便是600分。们可以将600分作为基准分,将所有分数表达为600分百分比。这算来,理论上最高分将是166%(1000分)。但事实上,没有任何个策略平均分超过600分。
要知道,竞赛中博弈者并不是人类,而是计算机事先设定好程序。而基因则在这些程序作者里事先设定“程序”,使得它们身体力行地扮演同样角色(想想第四章中计算机对弈与“仙女座”超级计算机)。你可以将这些策略想象成这些作者微型代理。虽然个作者原本可以提交个以上策略,但这其实是作弊,这表示作者将在竞争本身中加入策略,使得其中个角色从另个角色牺牲中得到合作好处。阿克塞尔罗德应该不会接受这点。
交上来有些很聪明策略,当然它们远没有其作者聪明。然而,最后胜出策略却是个最简单、而且看起来最不聪明个。这个策略称为“针锋相对”(TitforTat),它来自多伦多位著名心理学家和博弈学家阿纳托尔(AnatolPapoport)教授。这个策略在第回合时采取合作行动,然后在接下来所有步骤里,只是简单复制对手上步行动。有“针锋相对”策略博弈将如何进行呢?如寻常,下步出牌完全取决于对手。假设另对手也选择“针锋相对”策略(每个策略不止与其他14个对手竞争,也与自己本身博弈),双方都选择以“合作”而开场。第二步中,双方都复制对方上步策略,仍然采取“合作”。这样,博弈双方持续合作,直到游戏结束,双方都能获得100%600分基准分。
那,假设“针锋相对”与另个策略“老实人探测器”(NativeProber)开始博弈。事实上,“老实人探测器”并没有出现在阿克塞尔罗德博弈竞赛中,但它依然是个富有指导性策略。这个策略基本等同于“针锋相对”,但每隔会儿,比如在每十步中任意选择步,这个策略会打出恶意“背叛”牌,而获得最高分数“背叛诱惑”。如
请关闭浏览器阅读模式后查看本章节,否则可能部分章节内容会丢失。