汤姆·齐格弗里德《纳什均衡与博弈论》笔记(2)纳什均衡

第三章 纳什均衡——博弈论的基础

冯·诺伊曼没有解决的问题

博弈论在其建立初始也显现出了严重的局限性。冯·诺伊曼解决了二人零和博弈,但对多人博弈问题仍无法解决。如果只是鲁宾逊·克鲁索和星期五玩游戏,博弈论可以很好地被应用,但它无法精确解决盖里甘岛问题。

冯·诺伊曼用于解决多人博弈的方法是假定这些人之间会形成联盟。如果盖里甘、船长和玛丽安娜组队来对抗教授、豪厄尔斯和金哲,那么就可以应用二人零和博弈的简单规则。博弈可能涉及很多人,但如果他们分成两队,在数学分析中就可以用队伍来替代多个个体了。

但是,正如后来的评论家所提到的,冯·诺伊曼的方法存在着矛盾,使博弈论的内在完整性遭到了破坏。二人零和博弈的核心是选择一个你所能做的最优策略来对抗一个理性的对手。你的最佳选择是不管对手做什么,都采取你自己的最优(很有可能是混合的)策略。但如果在多人博弈中形成了联盟,如冯·诺伊曼相信的那样,你的策略就必须依赖于与他人的协调。无论如何,当博弈论应用于非零和情况下的多人博弈时——也就是应用于现实生活时——还需要补充一些最初的博弈论所不能提供的理论。这正是约翰·纳什所为我们带来的。

纳什的“讨价还价”

“讨价还价”体现了博弈论的另外一种表述形式,博弈者们有着共同的利害关系。在二人零和博弈中,赢家获得的就是输家输掉的,而与之不同的是,讨价还价博弈提供了一种双赢的可能。在这种“合作性”博弈理论中,对所有人来说目标都是自己做得最好,但不必以牺牲他人利益为代价。好的议价结果是双赢。一种典型的现实生活的讨价还价场景就是公司和工会间的谈判。

在纳什的“讨价还价”博弈论文中,他讨论了存在多种途径达到互惠结果的情形。问题是找到一种使双方的利益(或效用)最大化的方式——其前提是双方都是理性的(知道如何量化他们的期望),是具有同等技能的协商者,并且都了解彼此的期望。

当对资源交换进行讨价还价时(在纳什的例子里,如书本、球、笔、小刀、球拍和帽子一类的东西),博弈双方可能会对物品有不同的估价(运动员可能会认为球拍比书更有价值,但是偏于智力导向的议价者可能会认为书比球拍更有价值)。纳什展示了如何评价这些不同的估价,计算每个人在各种交换中的效用,并提供了精确的数学图解,找寻最佳成交点——促成最佳交易发生的点(即最大化各自效用的增长)。

“纳什均衡”

关于讨价还价理论的论文本身已确立了纳什作为博弈论领军人物之一的地位,但是真正使他成为博弈论先驱的是他的博士论文。这篇文章引入了最终成为博弈论卓越构架的“纳什均衡”。

在博弈中,一旦达到均衡,人们将不再有改变策略的动机——所以对策略的选择将维持不变(换句话说,博弈达到了稳定的状态)。所有的玩家都对自己所采取的策略感到满意,认为当前策略比其他任何策略都要好(只要其他人也不改变策略)。类似的,在社会环境中,稳态指每个人都满足于现状。你不一定喜欢当前的状态,但是改变现状只会让事情变得更糟。因此没有改变的动机,就像山谷里的石头,达到了一个平衡点。

在二人零和博弈中,你可以用冯·诺依曼的最小最大化原理来确定平衡点。无论采用纯策略还是混合策略,如果偏离博弈论所确定的最佳策略,没有人会获得更多的收益。但是冯·诺依曼并未证明,当你从鲁宾逊·克鲁索与星期五经济系统转移到盖里甘岛或曼哈顿岛经济系统时,也会产生类似的稳态解。而且正如你看到的那样,冯·诺依曼认为分析大型经济系统(或博弈)的方法是玩家们形成联盟

但是,纳什采用了不同的方法——如他几十年后描述的那样,违背了博弈论的“基本路线”。假设玩家之间不存在联盟或者合作。并且每个玩家都追求效用的最大化。是否存在着一组策略使博弈达到稳态,给予每个玩家可能性的最佳的个人收益(假设每个人都选择了可用的最优策略)?纳什认为答案是肯定的。借助一种称之为“不动点定理”的巧妙的数学技巧,他证明了所有的多人博弈(只要玩家的数目有限)都有一个均衡点。

通过两种不动点定理的任何一个[分别来自鲁伊兹·布劳威尔(Luitzen Brouwer)和角谷静夫(Shizuo kakutani)]纳什用了不同的方法推导出了他的证明。对不动点定理的详细解释需要复杂的数学,但是展示其核心观点却非常简单。取两张同样的纸,揉皱其中一张,并将它放在另一张之上,在揉皱的纸上必然存在着一点位于平整的纸上和其相对应点的正上方。这个点就是不动点。如果你不相信,可以将一张美国地图放在地板上——在美国境内的任何一块地板都可以(地图代表了揉皱的纸)。不管你将地图放在何处,总有一点会在其对应的真实地点的正上方。将同样的法则用于博弈论中的玩家,纳什证明了总是至少存在一个让所有竞争玩家的策略达到均衡的“稳定”点。

“均衡点,”他在博士论文中写道,“意味着…在其他玩家的策略不变时,每个玩家采取的混合策略都最大化其自身收益。”换句话说,在博弈中至少存在着这样一种策略组合,如果你改变你的策略(其他任何人的策略都不改变)你会获得比之前差的结果。更通俗地讲,经济学家罗伯特·韦伯(Robert Weber)表示,你可以说“纳什均衡描述了一个没有人犯错的世界是什么样子的。”或者像萨缪尔·鲍尔斯(Samuel Bowles)向我形容的那样,纳什均衡“是一种在其他人的状态给定的条件下,每个人都尽其所能,做到最好。”冯·诺依曼对纳什的结果不以为然,因为它的确使博弈论转向了不同的方向。但是最终很多人还是意识到纳什理论的闪光点和有效性。“纳什均衡的概念可能是博弈论中唯一最基础的概念,”鲍尔斯宣称,“绝对的基础。”

纳什很快发表了他的均衡理论。1950年的《美国国家科学院院刊》刊登了他一篇简短的(两页)题为《多人博弈中的均衡点》的文章。文章简要地(虽然对非数学家来说不是特别清楚)说明了多人博弈“解”的存在性(解意指存在一组策略,使得没有任何玩家能通过单方面改变其策略而获得更多的收益)。他把这篇文章扩展为他的博士论文,并在1951年的《数学年刊》上发表了名为《非合作博弈》的长文版。

纳什在他的文章中客气地指出,冯·诺依曼和摩根斯特恩已经建立了一种“富有成效”的二人零和博弈理论。但是,他们的多人博弈理论则仅限用于纳什所讲的“合作”博弈,也就是说它仅限于分析由玩家组成的联盟之间的交互。“我们的理论与此相反,它是建立在没有联盟的基础上的,因为我们假定每个参与者都独立决策,不与其他任何人合作或交流。”换句话说,纳什设想出一种多人博弈的“自私自利”的版本,这也正是他称其为“非合作”博弈论的原因。当你仔细考虑这个理论时,就会发现它很好地概括了很多社会现象。在一个竞争激烈的世界中,纳什均衡描述了每个自利的人如何实现他可能的最大收益。“纳什得出的非合作博弈和合作博弈的区别对这个可能的实现起决定性作用。”博弈论理论家哈罗德·库恩(Harold Kuhn)这样写道。

囚徒困境

纳什均衡——个人利益驱动下做出的稳定的策略组合——产生了一个更差的总体收益。从博弈论和纳什的数学方法来看,这种选择是明确的。如果每个人的动机是获得最大的个人利益,恰当的选择就是背叛。

当然,在现实生活中你永远不知道会发生什么,因为背叛者可能有其他的考虑(例如如果错误地出卖了同伙他们可能也会难逃一劫)。因此,纳什的均衡计算并不总能够预测事实上人们会如何行动。有时人们为公平起见而调整了他们的策略,而有时则出于恶意来做决定。在囚徒困境的情形中,一些人确实会选择合作。但这样并没有贬低了纳什均衡的重要性,正如经济学家查尔斯·霍尔特(Charles Holt)和阿尔文·罗斯(Alvin Roth)所指出的那样,“纳什均衡的用处不只局限于其能准确预测人们如何在博弈中行动,即使不能预测时它也非常有用,”他们写道,“因为此时纳什均衡可以辨别出什么情况下个人动机和其他动机之间存在着紧张关系。”所以如果人们在囚徒困境情况下合作(至少开始是合作)时,纳什的数学方法告诉我们这种合作“因为不是一种均衡,所以不稳定,以致很难维持下去。”

虽然囚徒困境只是现实生活的简化,但是它确实体现了诸多社会交互的本质。但显然你不能通过计算纳什均衡来轻易地估计任何社会情况。现实生活中的博弈通常涉及很多人和复杂的利益规则。虽然纳什证明了至少存在着一个均衡,但算出这个均衡是什么就是另外一回事了(而且通常有不止一个纳什均衡点存在,这使得事情变得非常复杂)。记住,每个人的“策略”都是精心地从数十数百数千(或者更多)的“特定”的纯策略中提取出来的混合策略。在大多数多人博弈中,计算所有选择组合的概率超出了英特尔、微软、IBM和苹果四大厂商计算能力的总和。

批注:多个均衡点?

公共物品博弈

尽管如此,这并非毫无希望。让我们来看另一个用来解释“背叛”的著名博弈——公共物品博弈。它描述的是团体里的一些成员没有尽到责任但却分得成员利益。就好像看公共电视却从不承诺任何的资金支持。乍看来,背叛者赢得了博弈——分文不花就可以收看侦探福尔摩斯和波洛的电视。但是,请想一下,如果每个人都背叛,将没有人能获益。搭便车的人将变成搭不到便车的倒霉者。

类似的,假设你的社区决定集资建一个公园。你喜欢这个提议,但是如果你认为会有足够的邻居捐了足够的钱来建它,你可能不会捐款。如果每个人都这样想,就不会有公园了。但假设背叛(拒绝捐款)和合作(捐出你的份额)并非仅有的可行策略。可能会有第三种策略,称之为双赢策略。如果你是一个互惠者,你只在确保一定数量的其他人捐款的情况下才会捐钱。计算机对这种博弈的模拟告诉我们,玩家采取这些策略的混合策略可能达到纳什均衡。

真人参与的实验得到了同样的结果。2005年报道的一项研究对大学生们在一个人为设计的公共博弈中的行为进行了实验。4个玩家都得到了一些代币(代表钱)并且被告知他们可以按自己的意愿捐任意多的钱到一个“公共储蓄罐”,剩下的将保留在个人账户中。实验者然后将使罐子中的代币进行翻倍。每次有一个玩家被告知储蓄罐里已捐献了多少钱,并且有一次改变自己捐赠的机会。当游戏结束(轮数是随机的),储蓄罐里所有的代币将均分给所有玩家。

你会如何玩这个游戏?因为在最后4个人平分罐里的钱,向罐中放进最少钱的那个人将得到最多的代币——包括他们所均分的罐中的钱加上自己保留在个人账户里的钱。当然,如果没有人向罐子里放钱,就没有人会因实验者的慷慨而受益,有点像地方政府拒绝为一个高速公路进行联邦基金注资。因此向罐中投一些钱看起来是个不错的选择。但如果你想要比其他人得的更多,你必须比其他人投的更少。哪怕只是一个代币。从另一方面来说,如果你向罐中投入了更多的钱,组中的其他人也将获得更多。(在这种情况下,你可能不会比其他人得的多,但这比你不这么做要好一些。)

当4个玩家反复进行这个游戏,就会出现一种行为模式。玩家们很容易地分成3种已知的类型:合作者、欺骗者(或搭便车者)和互惠者。因为所有人在某个时点都知道已经捐赠了多少钱,他们可以据此调整自己的行为。一些人仍然保持吝啬(欺骗者),一些人继续慷慨捐献(合作者),一些人会在组织其他成员大量捐赠时,愿意捐献更多(互惠者)。

几轮游戏下来,每组的成员获得了同样多的钱,表示达到了类似纳什均衡的稳态——他们都在给定其他人策略的前提下赢得了尽量多的钱。换句话说,在这种博弈中,人们采用了混合策略——大约13%的人是合作者,20%是欺骗者(搭便车者),在这个特定的实验中60%的人是互惠者。“我们的结果说明了受试人群是在一个稳定的……多类型的均衡中,”研究者罗伯特·库斯本(Robert Kurzban)和丹尼尔·豪泽(Daniel Houser)这样写道。了解纳什均衡有助于理解诸如此类的结果。

批注:生活中更多的情况或许不是冯·诺伊曼的零和博弈,或许会更接近于纳什描述的博弈情况,比如说囚徒博弈、公共物品博弈吧。当然,这也并不会消解冯·诺伊曼的贡献,譬如最小最大化原理我觉得就十分有意思~接下来的话就看作者怎么把博弈论(更接近于纳什均衡的博弈论)和各个领域联系到一起吧~

实际上,流言是博弈论行为研究的一个重要结果,因为它是了解人类社会行为的核心,使得通过利己的斗争在丛林中生存下来从而建立起人类文明成为可能的“自然法则”。正是在生物学中,在解释达尔文进化论神秘的结论方面,博弈论显示了其强大的力量。毕竟,人类也许不会按你所期待的方式来进行博弈,但是动物那里的“自然法则”就是真正的丛林法则。

……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/642773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JAVA设计模式—工厂模式

JAVA设计模式—工厂模式 工厂模式是一种创建型设计模式,它提供了一种创建对象的接口,但是由子类决定要实例化的类是哪一个。工厂模式使得一个类的实例化延迟到其子类。 用代码进行举例演示 假设我们有一个产品接口 Product 和两个具体产品类 Concrete…

TensorRT英伟达官方示例解析(二)

系列文章目录 TensorRT英伟达官方示例解析(一) TensorRT英伟达官方示例解析(二) 文章目录 系列文章目录前言一、03-BuildEngineByTensorRTAPI1.1 建立 Logger(日志记录器)1.2 Builder 引擎构建器1.3 Netwo…

【GitHub项目推荐--Awesome-Go/Python/JavaScript/Java】【转载】

Awesome 译为令人惊叹的、极好的,GitHub 上有很多 Awesome 开头的开源项目。比如 Awesome-Go、Awesome-Python。 就像汇总常用的软件一样,GitHub上有大量的开源项目,开发者就会根据需要汇总一些常用的好用的资源,并且根据 Awesom…

美易官方:小米汽车交付时间传闻被官方辟谣

在科技与互联网的快速发展浪潮中,各类信息传播速度之快令人咋舌。然而,信息的真实性却时常成为公众关注的焦点。近日,关于小米汽车交付时间的谣言再次引起市场的广泛关注。小米公司发言人迅速作出回应,明确指出这些关于小米汽车交…

OCP NVME SSD规范解读-7.TCG安全日志要求

在OCP NVMe SSD规格中,TCG的相关内容涉及以下几个方面: 活动事件记录: NVMe SSD需要支持记录TCG相关的持久事件日志,用于追踪固态硬盘上发生的与TCG安全功能相关的关键操作或状态变化,如启动过程中的安全初始化、密钥…

计算机网络(第六版)复习提纲8

第三章 数据链路层 数据链路层在五层体系结构中处于第二层 链路层的任务是,把下面不可靠的物理层(信道)改成相对可靠的逻辑信道,把网络层提供的数据封装成数据帧交给物理层进行传递。 透明传输问题:不要因为封装成帧导…

当键入网址后,到网页显示,其间发生了什么

解析 URL: 浏览器地址栏输入 URL,浏览器解析 URL,从而生成发送给 web 服务器的请求信息(例如 www.example.com)。 检查域名缓存: 浏览器查看浏览器缓存系统缓存路由缓存, 如有存在缓存&#x…

并查集算法实现

测试链接 牛客测试链接 介绍 并查集(Disjoint Set)是一种用于处理集合合并与查询问题的数据结构。它支持两种操作:合并(Union)和查询(Find)。 合并操作将两个不相交的集合合并为一个集合&am…

SQL注入实战:盲注

盲注: 1、当攻击者利用SQL注入漏洞进行攻击时,有时候web应用程序会显示,后端数据库执行SQL查询返回的错误信息,这些信息能帮助进行SQL注入,但更多时候,数据库没有输出数据web页面,这是攻击者会…

JRT集中打印

之前一直在夯实基础,现在是补demo的时段了。了解过检验集中打印的人知道,集中打印的逻辑有多复杂。既要考虑普通检验报告加上换页。又要考虑微生物报告加上换页,既有A5的报告,也有A4的报告,还要考虑A4打印两个组装A5时…

ChatGPT是不是未来的灵魂伴侣?

嗨,亲爱的读者们!今天,我们要探讨的话题是有点科技感,有点时尚感,也有点梦幻感——没错,就是ChatGPT,你们心中的那位聊天界的巨星。 1. ChatGPT:我的AI小助手还会聊天 ChatGPT&…

【栈与队列专题】滑动窗口的最大值

一、滑动窗口的最大值输入:nums [1,3,-1,-3,5,3,6,7], k 3输出:[3,3,5,5,6,7]解释: 滑动窗口的位置 最大值 --------------- ----- [1 3 -1] -3 5 3 6 7 3 1 [3 -1 -3] 5 3 6 7 3 1 …

工程化代码管理高频面试题

1. git常用命令以及工作中都怎么工作 git init 初始化仓库 ​ git status 查看当前各个区域的代码状态。 ​ git log查看commit记录 ​ git reflog查看完整记录 ​ git add 添加工作区代码到暂存区 ​ Git commit 暂存区代码的提交 ​ git reset 代码的版本回退 ​ git stash …

《WebKit 技术内幕》学习之七(3): 渲染基础

3 渲染方式 3.1 绘图上下文(GraphicsContext) 上面介绍了WebKit的内部表示结构,RenderObject对象知道如何绘制自己,但是,问题是RenderObject对象用什么来绘制内容呢?在WebKit中,绘图操作被定…

finalshell连接linux的kali系统

kali的ssh服务似乎是默认关闭的,笔者在玩CentOS系统时可以直接用finalshell完成连接,但kali不行,需要先手动开启ssh服务。 开启kali的ssh服务 输入【ssh start】命令开启ssh服务,可以用【ssh status】命令查看ssh状态&#xff0c…

第40集《佛法修学概要》

请大家打开讲义第一百零六页。我们讲到大乘的果位。大乘佛法的修学跟小乘最大的差别,主要在于一句话,就是大乘佛法是一种“称性起修,全修在性”。大乘佛法的功德第一个“称性”,这个“称”就是随顺。我们一念明了的心,…

【数据结构】 链栈的基本操作 (C语言版)

目录 一、链栈 1、链栈的定义: 2、链栈的优缺点: 二、链栈的基本操作算法(C语言) 1、宏定义 2、创建结构体 3、链栈的初始化 4、链栈的进栈 5、链栈的出栈 6、获取栈顶元素 7、栈的遍历输出 8、链栈的判空 9、求链…

AtCoder Beginner Contest 337 A~G

A.Scoreboard(循环) 题意: 两个队伍进行 N N N场比赛。在第 i i i场比赛中 ( 1 ≤ i ≤ N ) (1≤i≤N) (1≤i≤N),两队各得到 X i X_i Xi​和 Y i Y_i Yi​分。比赛结束后总分更高…

BACnet网关BL121BN 实现稳定可靠、低成本、简单的楼宇自控协议BACnet转OPC UA解决方案

随着楼宇自控系统的迅猛发展,人们深刻认识到在楼宇暖通行业中,实时、可靠、安全的数据传输至关重要。在此背景下,高性能的楼宇暖通数据传输解决方案——协议转换网关应运而生,广泛应用于楼宇自控和暖通空调系统应用中。 钡铼技术…

[反转链表] [合并两个有序链表][分割链表]

这里写目录标题 反转链表合并两个有序链表分割链表 反转链表 1、题目: 2.思路  思路1:建立一个newHead,取一个节点进行头插。具体做法如下! 建立一个newHead(新头),由于一个节点里面存的是下一个节点的地址,如果取…