2009年2月10日星期二

什么是博弈论?

本文包括:
  1. 1. 引言
  2. 2. 囚徒困境
  3. 3. 博弈
  4. 4. 博弈树
  5. 5. 一次性博弈和重复博弈
  6. 6. 博弈规则和冷战
  7. 7. 其他博弈和博弈论的应用
  8. 8. 博弈论的批评
  9. 9. 了解更多信息
  10. 10. 阅读所有军事科学类文章

假设您是一名驻守防线的战士,明天就要有一场恶仗。这场战斗只会有两个结果(非胜既败),并且您也只有两种结局(非死即活)。您显然会选择活下来。

韩国士兵和美国士兵在韩国扬州(Yangju)参加医疗运送实地演习。根据博弈论,士兵在战争中的最佳选择是战斗,即使这意味着有可能负伤。
Chung Sung-Jun摄影/Getty Images供图
韩国士兵和美国士兵在韩国扬州(Yangju)参加医疗运送实地演习。根据博弈论,士兵在战争中的最佳选择是战斗,即使这意味着有可能负伤。

如果您所在的阵线被攻破,那么您肯定活不了。即使守住了,您也有可能战死沙场。似乎最好的选择就是逃跑。但是如果您那么做,其它参战人员就可能会战死。您知道防线上的每个人都是这么想的。如果您留下来与战友们共同战斗,而其他人都逃走了,那死的可就是您了。

这个问题自战争初期就一直困扰着军事家。后来,军事家提出如果士兵逃走或叛变就会被作为叛国者枪毙。因此,您只有坚守防线,并且努力取得胜利,才有可能使生存机会最大化。

可是这与博弈论又有什么关系呢?

博弈论的研究课题,不是如何在象棋比赛中取胜。通常,博弈论与您印象中的棋类游戏毫不相干。

简单来说,博弈论是研究人、公司或国家(在这里被称为"参与者")在面对其他参与者或参与者采用的竞争策略时,如何根据不同情况确定自己的策略。博弈论假定参与者在任何时候都会做出理智的决定。这个假定存在一些问题:许多大众看来非理性的行为按照博弈论的标准却是合理的,例如增加核武器

但是,即使博弈论分析出了违反常规的结果,我们仍能从中深刻洞察人性。例如,社会成员的相互合作是为了获得物质利益,还是有其他目的?有人需要帮助时,您会伸出援手吗?如果最后您会受到伤害,您还会帮助别人吗?

要想知道为什么理性的人一定自私,请继续阅读下一节。


学习博弈论基本原则的最佳方法就是参考一个经典示例:囚徒困境。该模型分析了两名参与者如何在了解动机和策略的情况下相互影响。"囚徒困境"是包括 两个参与者的博弈模型,这两个参与者都是犯罪嫌疑人。他们被捕后被送到警察局。如果这两个嫌疑犯什么都不交代,以此互相保护(博弈论术语中称为"合作"),警察凭手头所掌握的证据,只能把这两个嫌疑犯各判五年。

可是这两个嫌疑犯还有其他选择。如果其中一人坦白交代("背叛"合作关系),而另一人未坦白交代,则背叛者将会获得自由,不交代的嫌疑犯会被判入狱二十年。如果这两个嫌疑犯都坦白交代,则均将被判入狱十年。

两 个参与者如果相互合作似乎最为有利。被判入狱20年是让人难以接受的结果。由于他们可以通过背叛对方,获得免罪释放,并且两位参与者都知道对方在这样想, 所以他们一定都会为自己的利益背叛对方。如此一来,两名嫌疑犯均将入狱10年。这不是最好的结果,但在这种处境中只能这么选择。

两位嫌疑犯的任何保持合作关系的协议或承诺,只会导致两人将背地里背叛对方。相互承诺实际上只会促进相互背叛,从而达到使自己获得自由(个人最好结果)的目的。

这就是囚徒困境。博弈论学者认为坦白交代在这个案子中是双方永恒不变的选择。原因在于双方认定对方只会考虑自身利益。

我们可以利用下面的矩阵来分析这种情况。通过矩阵,我们可以了解到所有可能的策略以及策略组合产生的结果。

囚徒困境

为了确定动机,我们将为不同结果设置一个优选区间,1代表最坏结果(入狱20年),而4代表最好结果(获得自由):

  • 20年:1
  • 10年:2
  • 5年:3
  • 获得自由:4

现在我们知道了各种不同的结果、优选策略以及我们可以采用的策略:不坦白交代(参与者间的合作策略)或坦白交代(背叛策略)。我们可以看到不同的策略组合到一起可以产生不同的结果。结果由数对表示,第一个数字代表参与者1的结果,第二个数字代表参与者2的结果。

现在让我们来分析各栏结果,并对您的选择进行评估。从第一列中,我们可以发现结果2比结果1好;在第二列中,结果4比结果3好。因此无论您的搭档采用何种策略,您最好的策略就是背叛(坦白交代)。因为您坦白交代后的结果总比不坦白交代的结果好,这种情况就被称为严格优势策略

博弈论学者为什么不研究单人纸牌游戏(solitaire)?请继续阅读下文,寻找答案。


1943年,约翰•冯•诺依曼(John von Neumann)和奥斯卡•莫根施特恩(Oskar Morgenstern)发表了《博弈论和经济行为》(Theory of Games and Economic Behavior),首次介绍了博弈论。他们希望博弈论能为经济问题提供数学解答。

根据经济学理论,生产者可对供求关系等因素做出反应,以获取更大利润。但这些理论无法解释其他生产者会采取什么策略,以及策略的预期结果会对各生产者的行动产生什么影响。后来,人们尝试用博弈论来解释所有这些策略间的相互影响。军事战略家也很快看到了博弈论的价值。

约翰•冯•诺依曼,《博弈论和经济行为》的作者之一,在给美国哲学学会即兴讲授计算机理论。
Alfred Eisenstaedt 摄影//Time Life Pictures/Getty Images 供图
约翰•冯•诺依曼在给美国哲学学会即兴讲授计算机理论。

我们在讨论博弈论时,要做如下假设:

  • 如 何有两人参与,且双方可以通过不同策略相互竞争,一方所采用的策略会对另一方的行为产生影响;这种情况就可以称为一场博弈。单纯靠运气的情况不包括在内, 因为在这种情况中没有选择的自由,因此也没有策略可言。单人游戏,如单人纸牌游戏,也不会被博弈论学者看做博弈,因为缺少两个对手之间的策略互动。
  • 博弈中的参与者知道所有可选策略以及所有可能的结果。所有参与者对这些结果都有自己的偏好,并且每个参与者不仅知道自己的偏好,同时也知道其他参与者的偏好。
  • 结果可以通过参与者从中得到的好处或价值来衡量。如果您认为结果A比结果B好,则结果A有更高的价值。如果对手猜到了您的想法,他就可以预测您的行动,并制定相应的策略。
  • 所有参与者的行为都是理性的。即使看起来不理性的行为,在某些情况下也是理性的。比如,如果您要打两局台球,您不会在第一局有意输,除非这样做的目的是让对手轻敌,在第二局(您估计第二局会赢)多押钱。这也是一次性博弈重复博弈的本质区别。一次性博弈中,您只博弈一次,在重复博弈中,您博弈多次。
  • 如果所有参与者都无法通过转变策略获得更好的结果,则博弈陷被称为纳什均衡(Nash Equilibrium)的僵局。最终,参与者只会维持他们的当前策略(即使他们没有得到最想要的结果),因为改变策略不会带来任何好处。
浴室中的博弈论?
数学家约翰•纳什(John Nash)是1994年诺贝尔经济学奖获得者,"纳什均衡"就是根据他的名字命名的。他在1948年发明了一个叫做"纳什"(Nash)或"约翰"(John)的游戏。在普林斯顿大学数学系所在的范氏大楼(Fine Hall)中,他经常在浴室中的六角地砖上玩这个游戏。

"纳什"是一个双人游戏。游戏中两位参与者轮流将棋子放在由六边形组成的菱形板上的空缺位置中。第一个用棋子连接棋盘两侧边线的参与者获胜。一位丹麦数学家也独立发明了与此类似的"多边形游戏"。1952年,帕克兄弟(Parker Brothers)将这款游戏进行商业推广,并将它命名为"六边形游戏"(Hex)【资料来源:Weisstein】。

在下一节中,我们将把这些知识加以使用,看看通过绘制博弈树图,可以学到什么策略。

在前文中,我们了解了囚徒困境,并将其绘入矩阵。这是一个同时行动的博弈模型。博弈包括同时行动顺序行动两种。在同时行动博弈中,两位参与者均在不了解对方行动的情况下采取行动。秘密竞标时,采取的就是这种方式。顺序行动博弈类似于国际象棋或谈判,参与者轮流行动。

对于两位参与者同时行动的游戏,我们必须假定对手的目标是得到最好的结果。因此,我们也必须采取尽可能有利的行动保护自己。如果在囚徒困境中,采用顺序行动的模式而非同时行动的模式,参与者是否会选择不同的策略?

同时行动博弈可以采取绘制矩阵的方式分析,而顺序行动博弈则要采取绘制博弈树的方式分析。下图是为囚徒困境绘制的博弈树:

博弈树

行动次序在树形图中按照从上到下的顺序排列。最上端的结点代表参与者1采取的第一步行动(坦白交代或不坦白交代)。其下面的两个结点为两个子博弈。每个结点代表参与者2对第一步行动所可能作出的反应。在最下面一排的四个结点是终结结点,代表这次博弈可能得出的所有结果。

我们可以通过博弈树来研究这场博弈,为最后行动的参与者(即参与者2)选择最佳策略。根据树形图,我们可以推理参与者2每一步会采取什么行动,由此逆向确定参与者1应该采取什么行动,这种从后到前研究博弈的方法被称为逆向归纳法。我们看到无论参与者1采取怎样的开局行为,参与者2的最佳策略均是坦白交代。将我们的分析进一步展开,来到博弈的开始位置,我们发现参与者1必须选择背叛(坦白交代)。

我们看到在一次性博弈(如囚徒困境)中,无论采取同时行动的模式或顺序行动的模式,每个参与者的最佳策略均不会发生改变。

最好的治疗是不治疗?
数学家约翰•纳什在上世纪五十年代末期患上了精神分裂症。这种病是一种精神疾病,会影响患者的思维、知觉和行为。多年以来,纳什在多家医院进行治疗。1970年,他改变策略,完全停止服用安定药。随后,他的精神分裂症发生明显好转,几乎恢复了正常。

世界卫生组织(WHO)发现,从长期来看,欠发达国家的精神分裂症患者的状况好于发达国家的患者。在确诊后五年内,贫穷国家有大约2/3的患者(较少使用安定药)病情发生好转,有40%的患者基本康复【资料来源:Whitaker】。而发达国家的病人,转化为慢性病的比例则较高。没有药物治疗的地区,精神分裂症的复发率会降低10倍【资料来源:James】。世界卫生组织甚至还宣称,在发达国家生活的精神分裂症患者十有八九会发展为慢性精神衰退。

在下一节中,我们将了解为什么在重复进行囚徒困境博弈时,必须摒弃完全理性的自私。


在一次性博弈,比如囚徒困境的例子中,赌注很大,但不会发生进一步影响。 然而,如果是重复博弈,一次性博弈的策略可能就不是最佳策略了。从长远来看,您和您的对手可以通过时而合作(不坦白)时而背叛(坦白)的策略来获得更好结果,这被称为混合策略

假 使您知道囚徒困境只是一系列重复博弈中的一场,那么您第一步就会选择不坦白交代。参与者2可能不会利用这点,而是报答您的信任,也不坦白交代,以达到互利 的最佳结果:各被判入狱五年。重复博弈策略会考虑到对手的信誉和今后合作的可能性,因此这类博弈和一次性博弈有很大不同。

实际上,即使 是重复博弈,如果参与者准确知道重复的次数,那么双方都会料到对手将在最后一步,或重复博弈中的最后一次背叛自己,以期达到最佳结果。因此,两位参与者都 会意识到必须在倒数第二步背叛对手。但由于双方都知道这是最优策略,因此都会在此之前采用对自己有利的策略——背叛。以此类推,双方都会先发制人,在第一 步就背叛。为避免陷入不利局面而永远不得翻身,双方只能抓住这个唯一的机会。

美国参议院能源委员会高级官员彼得•V•多梅尼西(Pete V. Domenici),参议院多数党领袖米切尔•麦康奈尔(Mitch McConnell)和参议员约翰•康尼(John Cornyn)介绍《2008年美国能源生产法案(America
Scott J. Ferrell 摄影/Congressional Quarterly/Getty Images 供图
美国参议院能源委员会高级官员彼得•V•多梅尼西(Pete V. Domenici)、参议院多数党领袖米切尔•麦康奈尔(Mitch McConnell)和参议员约翰•康尼(John Cornyn)介绍《2008年美国能源生产法案》(American Energy Production Act of 2008)

如果双方都不知道博弈会重复多少次,参与者可以采用"以牙还牙"策略,惩罚对手的背叛行为。在尝试重新建立信任之前,参与者会采取背叛策略来报复对方的背叛。这被称为触发策略。例如,如果参议员1对参议员2的提案采取合作策略,而参议员2未对参议员1的合作给予回报,则当参议员2下次再提出提案时,参议员1会拒绝合作,这就是以牙还牙策略。

另一个触发策略是严格触发策略。此策略中,参与者1和参与者2合作,参与者2背叛后,无论他之后是否采取合作策略,参与者1在此后的每一步都将选择背叛。以牙还牙的策略为双方达成谅解留有余地,而严格触发策略将会把双方带入无休止的背叛循环中。

有时,参与者会威胁采用严格触发机制,但并不会兑现。这被称为"廉价磋商":一种不兑现的口头威胁。因此如果您的未婚夫只搬来与您同住,但并未将他的公寓退租,那便是"廉价磋商"。如果他将原来的房子烧掉(并在身上纹上您的名字),那就是付诸行动了。

继续阅读下文,了解在过去的几十年中博弈论学者是如何拯救世界,或者说差点毁灭世界的。

以虔诚的方式得到赞赏?
有 的人表面上乐于合作、慷慨大方,实际上心怀私利,为的是获取更大的长期利益。经常有人指责特蕾莎修女(Mother Teresa)就是这种人,说她过敬虔的生活是为了赢得别人的颂扬。特蕾莎修女为自己的行为辩护道: "如果您善良,人们会指责您自私、动机叵测;但无论如何,都要做个善良的人。"【资料来源:Derderian】。

第二次世界大战期间,博弈论以前所未有的速度发展。尽管这一理论原来是用于经济学的,但美国和苏联很快都注意到了该理论在制定战略方面的价值。

2005年12月,博弈论学者托马斯•谢林(Thomas Schelling)和罗伯特•奥曼(Robert Aumann)在斯德哥尔摩的皇家协会进行诺贝尔讲演。
HENRIK MONTGOMERY/AFP/Getty Images 供图
2005年12月,博弈论学者托马斯•谢林(Thomas Schelling)和罗伯特•奥曼(Robert Aumann)在斯德哥尔摩的皇家协会进行诺贝尔讲演。

早在冷战时期,艾森豪威尔政府就认为核武器和其他武器一样可以用于实战【资料来源:Spence】。但博弈论学者托马斯•谢林却认为核武器仅可作为威慑性武器,并说服了官员们。此外,他还提出美国应根据受到侵犯的不同程度,作出不同反应。

亨利•基辛格
美国
国务卿亨利•基辛格年轻时在哈佛大学曾学习过博弈论,并参加过很多智囊团的冷战策略的制定工作。在职期间,他曾出席了一些博弈论学术会议,并听取了托马斯•谢林等一流博弈论学者的意见。

使用核武器的后果不堪设想,哪个国家使用核武器都得不到好处,这样就形成了一种平衡制约,即所谓的"相互确保摧毁"(Mutual Assured Destruction,MAD)。保持这个平衡需要公开各国的实力和弱点。然而,正如囚徒困境那样,双方肯定会假定另一方只关心自己的利益,因此双方必定采用优势策略以减少风险。

如 果某个国家打破了力量均势(比如建立导弹防御系统),是否会导致策略上的失误,以致造成核战争呢?政府当局向博弈论学者进行了咨询以避免平衡被打破。如果 一国建立导弹发射井,另一国家会将其作为目标。当时的苏联和美国在全球秘密设立导弹发射基地,这要求两国准备更多的导弹,以便先发制人,削弱另一国采取报 复行动的实力。同时他们也会安排装有核武器的飞机随时在天上待命,当导弹发射井遭到破坏时,用它们起到威慑作用。为了达到威慑目的,两国还配备了核潜艇。这几乎覆盖了海陆空各个领域。

当时的气氛十分紧张,随时都可能因为交流中的误会导致灾难性后果。双方缺乏信任,在这种情况下,即使采取防御性行动,比如建造防辐射掩蔽所,也会被当成挑衅行为。建造防辐射掩蔽所会被看作是您认为要有麻烦了。如果您没有其它图谋,怎么会担心出现麻烦呢?

无论是根据理性的推理还是精确的计算,一个国家遭受重创后都不应该采取发射核武器的报复行为。那么为什么要进行核报复呢?为了复仇而毁灭地球?但是如果复仇不能作为威慑的因素,又是什么阻止了两国开火呢?为了避免对方先发动进攻,美国和苏联领导人有时会采用"疯子策略"或散布谣言,称他们情绪不稳或非常愤怒,让对方疏于防范。

武器控制和裁军协商本质上是允许双方奖励合作、惩罚背叛的重复博弈。经过多次会议和不断交流,在信任和合作的基础上,双方进行了(若干次)裁军,减少了战略部署。同时,双方控制武器和削减军备也是因为保持核能力持续增长需要耗费大量资源。

幸运的是,两国都不愿意在这场博弈中走出最后一步,如果真到了那个时候,即使一方获得最佳结果,他们也只能有少数幸存者在地下庆祝胜利了。

那么除了冷战策略外,博弈论还有哪些用途呢?请继续阅读下文。


博弈论对于社会学研究同样有用。理论家分析行为模式所采用的博弈模型有很多,其中一种是"最后通牒博弈"。

在 最后通牒博弈(一次性博弈)中,两位参与者开始时一分钱都没有。主持试验的人先给1号参与者10美元,然后让他分给2号参与者一部分,参与者2可以接受或 拒绝。如果参与者2接受了参与者1的钱,两位参与者最后都有收获。但如果参与者2拒绝参与者1的钱,则两位参与者都得不到钱。

开始时理论家 认为,参与者1分钱时会严重不均,比如从10美元中拿出2美元给参与者2,不过参与者2也会接受,因为这总比一分钱都没有好。这一分析支持了早期的经济模 型,参与者总是根据自身利益行事。因此,如果参与者1只分1美元给参与者2,参与者2会接受。因为毕竟有总比没有好。但研究表明,即使在一次性博弈中,参 与者2有时也会拒绝接受。这可能是因为参与者1让渡的份额过低,有悖公平原则,参与者2觉得接受是对自己的侮辱。但真的是这样吗?

如果接受 2美元,所得收益可被看作净收益或相对收益。因此,一方面来讲,2美元总比什么都没有强。然而,如果您的净收益是2美元,您将从和您的对手相同的情形(都 没钱),变为非常不利的情形,您的对手在这次行动后,比您多得到6美元。因此,拒绝任何不公平的分配才是对自己有利的做法。

中国消费者在政府禁止使用免费塑料袋后,自带可重复使用的袋子。环境法规是现实生活中的公共产品博弈的例子。
China Photos/Getty Images 供图
中国消费者在政府禁止使用免费塑料袋后,自带可重复使用的购物袋。环境法规是现实生活中的公共产品博弈的例子。

这个研究对我们有什么帮助呢?通过了解参与者在博弈中的行为,我们可以了解人的动机。经济学理论认为尽可能多赚最 重要。我们知道人生不是只有这一个追求,但金钱对于生存至关重要,我们花钱的方式体现了我们的价值观。有的文化重视赠送礼物,有此类文化背景的研究对象一 般会做出有利别人的馈赠;也有的文化认为收取礼物就会亏欠人情,所以来自此类文化的研究对象可能会拒绝接受对自己有利的赠予。【资料来源:Henrich】。

博弈论的另外一种应用理论是进化博弈论,每个参与者本身都被看作一项策略。即您代表着您祖先的决定。如果您的祖先选择偷窃邻居的东西,您就是这种生存策略的现实承载者。由于这些策略竞争主导地位,有些策略会占据优势,传承给后代继续采用。最终,这些策略就会以数量上的优势压倒其他策略,占据主导地位。

有个被称为公共产品博弈的 场景可以测试参与者的理性。在该博弈场景中,六名参与者每人得到10美元,他们可以将这10美元拿出一部分作为公共资金,不管有多少人往里面投了多少钱, 这笔公共资金都会变成三倍,最后平均分给所有的参与者。该博弈场景中的理性行为是采取自私的做法,不向公共资金中投钱,收取分到的钱从中获利。幸运的是, 在真实场景中,人们有时不会采取理性行为,而向公共金中投钱。公共产品博弈的一个现实例子就是环保。个体无论是否为环保工作出钱出力,都会从他人对环保的 贡献中得到好处。

博弈论会不会只是自私的借口?请继续阅读下文,寻找答案。


尽管博弈论很实用,但也会遭到批评。有人指出,博弈论的作用只限于预测实际行为。根据博弈论,各种行为,无论好坏,都可以用利己来解释。

博弈论模型永远面临的难题是,要对所有影响策略和结果的因素和变量进行定义、限制、分离或解释。但总是存在未知因素无法解释。例如,如果谈判中的一方受到了宗教启示,内心正非常痛苦,任何策略也没法预测他会采取什么行动。

博 弈论是以理性为基础的。在传统经济模型中,理性就是使自己的收益最大化。因此,在任何情况下,您采取行动时,只会考虑如何使自己的利益最大化,而不会顾忌 您的行为对别人会造成什么影响。有趣的是,研究表明经济模型中的利己行为会在幼儿园小朋友身上得到充分体现。但到了四年级,小朋友们就开始倾向于采取合作 策略了【资料来源:Henrich】。

小朋友在柏林的斯宝丽基塔(Spreekita)幼儿园做游戏。幼儿园小朋友的行为是博弈论经济模型的最好体现。
JOHN MACDOUGALL 摄影/AFP/Getty Images 供图
小朋友在柏林的斯宝丽基塔(Spreekita)幼儿园做游戏。幼儿园小朋友的行为是博弈论经济模型的最好体现。

博弈论认为合作的策略始终是最理性的,至少在博弈论试验中是这样(即使这意味着输掉游戏)。想象一下这个场景:您参加一场博弈,开始时告诉您这是一场一次性博弈。为了获胜,您必须利用另一名参与者。获胜后,您发现这场博弈其实是两次博弈中的一次。

这时角色发生了转变。主持试验的人想要看一下,在第一次博弈中参与者1背叛后,参与者2接下来会如何表现,这才是该研究的真正目的。您在第一次博弈中采取了使自己利益最大化的理智行为,然而这种理智行为在新的博弈条件下就是不理性的了。

主 持试验的人经常将欺骗参与者作为策略,以获得最佳结果:充分了解参与者在不同的博弈场景中的策略选择。主持试验的人隐瞒博弈本身真实性质的做法在博弈中将 优于任何参与者的策略。这样,主持试验的人可以获得最多的信息(这些信息在更大的试验框架内提供最大的效用)。主持试验的人获得了信息,但参与者却要因此 付出代价,参与者在博弈游戏中的背叛行为可能会使他在真实的生活中失去别人的信任。

在囚徒困境中,我们知道必须假定参与者始终采用最有 利的策略。因此,博弈论试验中的最佳策略是,假定主持试验的人利用博弈让参与者们泄漏信息。那么,在博弈中,最好始终采取合作策略,即使会输掉也要如此, 因为该策略最差的结果仍然可以让人接受。其实,博弈游戏只是一个试验,即使输掉也无关痛痒,您在生活这场更大的博弈中的声誉远比博弈游戏的胜负重要。

如果博弈的假设条件包括博弈后您可能还不得不和您的对手共用电梯,您还会欺骗对手吗?在下一次开会前问问自己这个问题。

要了解博弈论的更多信息,请访问下页中的链接。

电影中的博弈论
电影《奇博士》(Dr. Strangelove: How I Learned To Stop Worrying And Love The Bomb)是一部关于冷战逻辑的讽刺作品。前苏联拥有"可以毁灭世界的终极武器"。在反击美国的攻击时,这种武器可以毁灭地球上的所有生命。表面看这是一个威力强大的终极武器,但影片中它的威慑作用有个漏洞:美国并不知道它的存在【资料来源:IMDB】。
博闻网相关文章

更多精彩链接

资料来源


没有评论:

发表评论