汤姆·齐格弗里德《纳什均衡与博弈论》笔记（2）纳什均衡

第三章纳什均衡——博弈论的基础

冯·诺伊曼没有解决的问题

博弈论在其建立初始也显现出了严重的局限性。冯·诺伊曼解决了二人零和博弈，但对多人博弈问题仍无法解决。如果只是鲁宾逊·克鲁索和星期五玩游戏，博弈论可以很好地被应用，但它无法精确解决盖里甘岛问题。

冯·诺伊曼用于解决多人博弈的方法是假定这些人之间会形成联盟。如果盖里甘、船长和玛丽安娜组队来对抗教授、豪厄尔斯和金哲，那么就可以应用二人零和博弈的简单规则。博弈可能涉及很多人，但如果他们分成两队，在数学分析中就可以用队伍来替代多个个体了。

但是，正如后来的评论家所提到的，冯·诺伊曼的方法存在着矛盾，使博弈论的内在完整性遭到了破坏。二人零和博弈的核心是选择一个你所能做的最优策略来对抗一个理性的对手。你的最佳选择是不管对手做什么，都采取你自己的最优（很有可能是混合的）策略。但如果在多人博弈中形成了联盟，如冯·诺伊曼相信的那样，你的策略就必须依赖于与他人的协调。无论如何，当博弈论应用于非零和情况下的多人博弈时——也就是应用于现实生活时——还需要补充一些最初的博弈论所不能提供的理论。这正是约翰·纳什所为我们带来的。

纳什的“讨价还价”

“讨价还价”体现了博弈论的另外一种表述形式，博弈者们有着共同的利害关系。在二人零和博弈中，赢家获得的就是输家输掉的，而与之不同的是，讨价还价博弈提供了一种双赢的可能。在这种“合作性”博弈理论中，对所有人来说目标都是自己做得最好，但不必以牺牲他人利益为代价。好的议价结果是双赢。一种典型的现实生活的讨价还价场景就是公司和工会间的谈判。

在纳什的“讨价还价”博弈论文中，他讨论了存在多种途径达到互惠结果的情形。问题是找到一种使双方的利益（或效用）最大化的方式——其前提是双方都是理性的（知道如何量化他们的期望），是具有同等技能的协商者，并且都了解彼此的期望。

当对资源交换进行讨价还价时（在纳什的例子里，如书本、球、笔、小刀、球拍和帽子一类的东西），博弈双方可能会对物品有不同的估价（运动员可能会认为球拍比书更有价值，但是偏于智力导向的议价者可能会认为书比球拍更有价值）。纳什展示了如何评价这些不同的估价，计算每个人在各种交换中的效用，并提供了精确的数学图解，找寻最佳成交点——促成最佳交易发生的点（即最大化各自效用的增长）。

“纳什均衡”

关于讨价还价理论的论文本身已确立了纳什作为博弈论领军人物之一的地位，但是真正使他成为博弈论先驱的是他的博士论文。这篇文章引入了最终成为博弈论卓越构架的“纳什均衡”。

在博弈中，一旦达到均衡，人们将不再有改变策略的动机——所以对策略的选择将维持不变（换句话说，博弈达到了稳定的状态）。所有的玩家都对自己所采取的策略感到满意，认为当前策略比其他任何策略都要好（只要其他人也不改变策略）。类似的，在社会环境中，稳态指每个人都满足于现状。你不一定喜欢当前的状态，但是改变现状只会让事情变得更糟。因此没有改变的动机，就像山谷里的石头，达到了一个平衡点。

在二人零和博弈中，你可以用冯·诺依曼的最小最大化原理来确定平衡点。无论采用纯策略还是混合策略，如果偏离博弈论所确定的最佳策略，没有人会获得更多的收益。但是冯·诺依曼并未证明，当你从鲁宾逊·克鲁索与星期五经济系统转移到盖里甘岛或曼哈顿岛经济系统时，也会产生类似的稳态解。而且正如你看到的那样，冯·诺依曼认为分析大型经济系统（或博弈）的方法是玩家们形成联盟。

但是，纳什采用了不同的方法——如他几十年后描述的那样，违背了博弈论的“基本路线”。假设玩家之间不存在联盟或者合作。并且每个玩家都追求效用的最大化。是否存在着一组策略使博弈达到稳态，给予每个玩家可能性的最佳的个人收益（假设每个人都选择了可用的最优策略）？纳什认为答案是肯定的。借助一种称之为“不动点定理”的巧妙的数学技巧，他证明了所有的多人博弈（只要玩家的数目有限）都有一个均衡点。

通过两种不动点定理的任何一个［分别来自鲁伊兹·布劳威尔(Luitzen Brouwer)和角谷静夫(Shizuo kakutani)］纳什用了不同的方法推导出了他的证明。对不动点定理的详细解释需要复杂的数学，但是展示其核心观点却非常简单。取两张同样的纸，揉皱其中一张，并将它放在另一张之上，在揉皱的纸上必然存在着一点位于平整的纸上和其相对应点的正上方。这个点就是不动点。如果你不相信，可以将一张美国地图放在地板上——在美国境内的任何一块地板都可以（地图代表了揉皱的纸）。不管你将地图放在何处，总有一点会在其对应的真实地点的正上方。将同样的法则用于博弈论中的玩家，纳什证明了总是至少存在一个让所有竞争玩家的策略达到均衡的“稳定”点。

“均衡点，”他在博士论文中写道，“意味着…在其他玩家的策略不变时，每个玩家采取的混合策略都最大化其自身收益。”换句话说，在博弈中至少存在着这样一种策略组合，如果你改变你的策略（其他任何人的策略都不改变）你会获得比之前差的结果。更通俗地讲，经济学家罗伯特·韦伯(Robert Weber)表示，你可以说“纳什均衡描述了一个没有人犯错的世界是什么样子的。”或者像萨缪尔·鲍尔斯(Samuel Bowles)向我形容的那样，纳什均衡“是一种在其他人的状态给定的条件下，每个人都尽其所能，做到最好。”冯·诺依曼对纳什的结果不以为然，因为它的确使博弈论转向了不同的方向。但是最终很多人还是意识到纳什理论的闪光点和有效性。“纳什均衡的概念可能是博弈论中唯一最基础的概念，”鲍尔斯宣称，“绝对的基础。”

纳什很快发表了他的均衡理论。1950年的《美国国家科学院院刊》刊登了他一篇简短的（两页）题为《多人博弈中的均衡点》的文章。文章简要地（虽然对非数学家来说不是特别清楚）说明了多人博弈“解”的存在性（解意指存在一组策略，使得没有任何玩家能通过单方面改变其策略而获得更多的收益）。他把这篇文章扩展为他的博士论文，并在1951年的《数学年刊》上发表了名为《非合作博弈》的长文版。

纳什在他的文章中客气地指出，冯·诺依曼和摩根斯特恩已经建立了一种“富有成效”的二人零和博弈理论。但是，他们的多人博弈理论则仅限用于纳什所讲的“合作”博弈，也就是说它仅限于分析由玩家组成的联盟之间的交互。“我们的理论与此相反，它是建立在没有联盟的基础上的，因为我们假定每个参与者都独立决策，不与其他任何人合作或交流。”换句话说，纳什设想出一种多人博弈的“自私自利”的版本，这也正是他称其为“非合作”博弈论的原因。当你仔细考虑这个理论时，就会发现它很好地概括了很多社会现象。在一个竞争激烈的世界中，纳什均衡描述了每个自利的人如何实现他可能的最大收益。“纳什得出的非合作博弈和合作博弈的区别对这个可能的实现起决定性作用。”博弈论理论家哈罗德·库恩(Harold Kuhn)这样写道。

囚徒困境

纳什均衡——个人利益驱动下做出的稳定的策略组合——产生了一个更差的总体收益。从博弈论和纳什的数学方法来看，这种选择是明确的。如果每个人的动机是获得最大的个人利益，恰当的选择就是背叛。

当然，在现实生活中你永远不知道会发生什么，因为背叛者可能有其他的考虑（例如如果错误地出卖了同伙他们可能也会难逃一劫）。因此，纳什的均衡计算并不总能够预测事实上人们会如何行动。有时人们为公平起见而调整了他们的策略，而有时则出于恶意来做决定。在囚徒困境的情形中，一些人确实会选择合作。但这样并没有贬低了纳什均衡的重要性，正如经济学家查尔斯·霍尔特(Charles Holt)和阿尔文·罗斯(Alvin Roth)所指出的那样，“纳什均衡的用处不只局限于其能准确预测人们如何在博弈中行动，即使不能预测时它也非常有用，”他们写道，“因为此时纳什均衡可以辨别出什么情况下个人动机和其他动机之间存在着紧张关系。”所以如果人们在囚徒困境情况下合作（至少开始是合作）时，纳什的数学方法告诉我们这种合作“因为不是一种均衡，所以不稳定，以致很难维持下去。”

虽然囚徒困境只是现实生活的简化，但是它确实体现了诸多社会交互的本质。但显然你不能通过计算纳什均衡来轻易地估计任何社会情况。现实生活中的博弈通常涉及很多人和复杂的利益规则。虽然纳什证明了至少存在着一个均衡，但算出这个均衡是什么就是另外一回事了（而且通常有不止一个纳什均衡点存在，这使得事情变得非常复杂）。记住，每个人的“策略”都是精心地从数十数百数千（或者更多）的“特定”的纯策略中提取出来的混合策略。在大多数多人博弈中，计算所有选择组合的概率超出了英特尔、微软、IBM和苹果四大厂商计算能力的总和。

批注：多个均衡点？

公共物品博弈

尽管如此，这并非毫无希望。让我们来看另一个用来解释“背叛”的著名博弈——公共物品博弈。它描述的是团体里的一些成员没有尽到责任但却分得成员利益。就好像看公共电视却从不承诺任何的资金支持。乍看来，背叛者赢得了博弈——分文不花就可以收看侦探福尔摩斯和波洛的电视。但是，请想一下，如果每个人都背叛，将没有人能获益。搭便车的人将变成搭不到便车的倒霉者。

类似的，假设你的社区决定集资建一个公园。你喜欢这个提议，但是如果你认为会有足够的邻居捐了足够的钱来建它，你可能不会捐款。如果每个人都这样想，就不会有公园了。但假设背叛（拒绝捐款）和合作（捐出你的份额）并非仅有的可行策略。可能会有第三种策略，称之为双赢策略。如果你是一个互惠者，你只在确保一定数量的其他人捐款的情况下才会捐钱。计算机对这种博弈的模拟告诉我们，玩家采取这些策略的混合策略可能达到纳什均衡。

真人参与的实验得到了同样的结果。2005年报道的一项研究对大学生们在一个人为设计的公共博弈中的行为进行了实验。4个玩家都得到了一些代币（代表钱）并且被告知他们可以按自己的意愿捐任意多的钱到一个“公共储蓄罐”，剩下的将保留在个人账户中。实验者然后将使罐子中的代币进行翻倍。每次有一个玩家被告知储蓄罐里已捐献了多少钱，并且有一次改变自己捐赠的机会。当游戏结束（轮数是随机的），储蓄罐里所有的代币将均分给所有玩家。

你会如何玩这个游戏？因为在最后4个人平分罐里的钱，向罐中放进最少钱的那个人将得到最多的代币——包括他们所均分的罐中的钱加上自己保留在个人账户里的钱。当然，如果没有人向罐子里放钱，就没有人会因实验者的慷慨而受益，有点像地方政府拒绝为一个高速公路进行联邦基金注资。因此向罐中投一些钱看起来是个不错的选择。但如果你想要比其他人得的更多，你必须比其他人投的更少。哪怕只是一个代币。从另一方面来说，如果你向罐中投入了更多的钱，组中的其他人也将获得更多。（在这种情况下，你可能不会比其他人得的多，但这比你不这么做要好一些。）

当4个玩家反复进行这个游戏，就会出现一种行为模式。玩家们很容易地分成3种已知的类型：合作者、欺骗者（或搭便车者）和互惠者。因为所有人在某个时点都知道已经捐赠了多少钱，他们可以据此调整自己的行为。一些人仍然保持吝啬（欺骗者），一些人继续慷慨捐献（合作者），一些人会在组织其他成员大量捐赠时，愿意捐献更多（互惠者）。

几轮游戏下来，每组的成员获得了同样多的钱，表示达到了类似纳什均衡的稳态——他们都在给定其他人策略的前提下赢得了尽量多的钱。换句话说，在这种博弈中，人们采用了混合策略——大约13%的人是合作者，20%是欺骗者（搭便车者），在这个特定的实验中60%的人是互惠者。“我们的结果说明了受试人群是在一个稳定的……多类型的均衡中，”研究者罗伯特·库斯本(Robert Kurzban)和丹尼尔·豪泽(Daniel Houser)这样写道。了解纳什均衡有助于理解诸如此类的结果。

批注：生活中更多的情况或许不是冯·诺伊曼的零和博弈，或许会更接近于纳什描述的博弈情况，比如说囚徒博弈、公共物品博弈吧。当然，这也并不会消解冯·诺伊曼的贡献，譬如最小最大化原理我觉得就十分有意思~接下来的话就看作者怎么把博弈论（更接近于纳什均衡的博弈论）和各个领域联系到一起吧~

实际上，流言是博弈论行为研究的一个重要结果，因为它是了解人类社会行为的核心，使得通过利己的斗争在丛林中生存下来从而建立起人类文明成为可能的“自然法则”。正是在生物学中，在解释达尔文进化论神秘的结论方面，博弈论显示了其强大的力量。毕竟，人类也许不会按你所期待的方式来进行博弈，但是动物那里的“自然法则”就是真正的丛林法则。

……