博弈论
学习参考视频:bilibili-【浙江大学/耶鲁大学】《博弈论》(61课全)(中英双语字幕)
第一讲 概述
知人者智,自知者明;
胜人者力,自胜者强;
小胜者术,大胜者德。
第一章 何为“博弈”
第一节
博:博览全局;
弈:对弈棋局。
要谋定而动。
博弈一一是指在一定的游戏规则约束下,基于直接相互作用的的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。
直接相互作用:必须要把你的决策会对对方造成的影响作为你的决策依据。
博弈既可以是竞争,也可以是合作。
双赢(做大蛋糕,生产性努力)是合作。(利益一致)
单赢(争抢蛋糕,非生产性努力)是竞争。(利益对立)
市场经济的本质是通过卖者之间(买者之间)的竞争,实现买卖双方的合作。(市场博弈比的是谁能和用户建立更持久的合作关系)
第二节
特别提示:
博弈,必须学会换位思考!
博弈,只需领先一步,高人一筹!
博弈的核心在于整体四位基础上的理性换位思考,用他人的得益去推测他人的策略(行动),从而选择最有利于自己的策略(行动)。
例子
罗森赛尔蜈蚣博弈(击鼓传花)
下图中,A表示继续,D表示不继续。如果在第一次,1选择不继续,1会得到40美分,2得到10美分;如果1选择继续,那么轮到2决策,他也有两种选择...
继续还是不继续,这是个问题。

换位思考:越精明的人会选择越早结束,但是他所获得的却越少。
领先一步:只需要比对方多想一层,那么就足以获得你的最大利益。
提示:如果因为对方眼中的你傻,而让对方更愿意和你合作,那么何乐而不为呢?
特别提示:
愿意吃亏,与那些比你更愿意吃亏的人做朋友。
在博弈之前,博弈就已经开始了。
第三节 学习博弈论的收益
一、当局者清。
做出更有利的选择;做出更快速的反应。
二、旁观者更清。
理解历史与现实;预测未来的发展。
三、提出完善游戏规则(制度)的建议。
第二章 发展简史
第一节 一些博弈论模型
古诺模型
参加博弈的双方以各自在同一时间内相互独立的产量作为决策的变量,是一个产量竞争模型。
伯川德模型
企业把其产品的价格而不是产量作为竞争手段和决策变量,通过制定一个最优的销售价格来实现利润最大化。(打价格战)
斯塔克尔伯格
该模型分析的是这么一种市场竞争:企业A先决定一个产量,然后企业B可以观察到这个产量,并根据所观察到的产量来决定它自己的产量。
第二节 理论的诞生与发展
- 20世纪40年代的社会变化。
- 约翰·冯·诺伊曼的卓越贡献。
- 约翰·福布斯·纳什的发扬光大。
- 后来的发展方向。
- 对纳什均衡的弱化(或一般化);
- 对纳什均衡的精炼(或筛选);
- 对博弈论的基本假设的研究;
- 对博弈论的应用的研究。
第三章 术语解读
术语
- 参与人(players):理性选择的主体。
- 信息(information):参与者有关博弈的知识。(知己知彼,百战不殆)
- 行动(action):参与者能够选择的变量。
- 策略(strategies):参与者在行动之前所准备好的一套完整的行动方案(预案)。
- 完整性;
- 多样性;
- 不可观察性。(但是可以通过不断博弈来推测对方策略)
一种策略:人不犯我,我不犯人;人若犯我,我必犯人。
- 损益(payoff):参与者的得与失。
- 结局(outcome):所有参与者选择各自策略后的结果。
- 均衡(equilibrium):所有参与者的最优策略组合。
- 博弈的规则(rules of the game):参与者、行动和结果合起来称为博弈的规则。
- 博弈论(game theory):一种研究人们怎么做策略(行动)选择及其最后的均衡结果会是什么的理论。
策略
好的应急预案:
- what?(信息分类)
- who?(责任到人)
- action?(措施具体)
- when?(时效性)
特别提示:
策略让我们建立起了从信息到行动的快速反应机制,从而能够以最快的速度做出行动选择。
三十六计是策略吗?
就其中的某一计而言,它只是一种行动方式,而不能称之为策略;
但在某种特殊情况下你选择某一计来行动,这可以称之为策略。
博弈的分类
合作博弈和非合作博弈
合作博弈:参与者能够达成一种具有约束力的协议,在协议范围内选择有利于双方的策略。
非合作博弈:参与者无法达成这样一种协议。(不能理解为一定是一种竞争关系)
静态博弈和动态博弈
静态博弈:在博弈中,参与者同时选择,或虽非同时选择,但是在逻辑时间上是同时的。(比如师生互相评分)
动态博弈:在博弈中,参与者的行动有先后顺序,且后行动者能够观察到先行动者的行动。(比如下棋)
注意:“同时”,不是指时间上的,而是指逻辑上的同时。
完全信息博弈与不完全信息博弈
完全信息博弈:在博弈中,每个参与者对其他参与者的类型、策略空间及损益函数都要准确的信息。
不完全信息博弈:总有一些信息不是所有参与者都知道的。(信息不对称)

零和博弈和非零和博弈
零和博弈:博弈前的损益总和与博弈后的损益总和相等。(比如在家里打麻将)
非零和博弈:博弈后的损益总和大于(小于)博弈前的损益总和(正和或负和)。(比如买彩票是负和博弈)
建议:不玩负和游戏,少玩零和游戏,多玩正和游戏。
直播课 如何在博弈中实现利益最大化
懦夫博弈

启示:先下手为强,后下手遭殃!(天下武功,唯快不破!)
竞争博弈,领先一步,高人一筹!
竞争博弈
竞争博弈的核心问题:
-
比什么?(规则)
- 拍卖(出价高者得)
- 竞选(选票多者得)
- 摇号(运气好者得)
- 成绩(分数高者得,比能力+运气)
- 抢夺(力量大者得,武器优者胜)
- 排队(先到者先得)
- ……
提示:
- 游戏的规则决定了你的能力发展方向。
- 如果你有极大的力量,那么制定游戏规则;
- 如果你有较大的力量,那么挑选游戏规则;(此地不留爷,自有留爷处)
- 如果你缺乏足够的力量,那么适应游戏规则。
-
和谁比?(对手)
-
怎么比?(策略)
只要资源稀缺,竞争是不可避免的。
赢者通吃的竞争博弈
特别提示:
在竞争博弈中,要谨防过度竞争,特别是在赢者通吃(winner-take-all)的竞争博弈中。
拍钱游戏:
一种赢者通吃的竞争博弈。全班同学扫码支付,支付金额最高者拿到奖金100元。其余一律不返还。很容易导致过度竞争:

鼓掌游戏:
最后一个停下鼓掌的人可以得到20美元。结果拿到钱的同学鼓了四个半小时的掌。
特别提示:
- 存量绑架。已有的存量(还有几人在鼓掌)会让你骑虎难下。
- 目标偏移。最后变成好胜心/面子的比拼,死磕到底。
- 学会止损。
- 过度竞争,反而会损害未来的竞争力。
如何在竞争博弈中实现利益最大化?
- 定规则(扬长避短)
- 定方向(聚焦聚能)
- 定对手(以强胜弱)
- 定策略(止盈止损)
合作博弈



合作博弈的核心问题:
- 合作剩余(新增收益)怎么分配?
- 合作风险怎么分配,如何承担?
AB双方对合作收益的三种分配模式:
- A拿剩余,B拿固定,如雇主和雇员之间。
- A拿固定,B拿剩余,如银行和企业之间。
- AB约定一个分配比例,如分成制、股份制,以及婚姻关系中平分婚后收入的制度安排。
把非生产性努力(争抢蛋糕)转变成生产性努力(做大蛋糕)的关键是在蛋糕没有做之前先约定好怎么分。
为保证合作博弈的双赢结果,就必须确保参与者的自由退出权。(结婚自由、离婚自由)
如何在合作博弈中实现利益最大化?
- 贡献越大,收益越大;
- 机会越多,收益越大;
- 沟通越易,收益越大;
- 做事越稳,收益越大。
未来的努力方向:
- 从竞争意识转换为成长意识;
- 从竞争能力转换为合作能力。
博弈的最高境界:双赢
第二讲 基本假设
第一章 认知理性
人是自我利益的判断者
-
偏好的完备性(completeness)。
也就是说,人对A和B两样东西的偏好是完备的。如更喜欢A(A>B)、更喜欢B(A<B)或者两个没区别(A~B)。
-
偏好的传递性(transitivity)。
比如A>B,B>C,可以得出A>C。
-
中庸之道。(要综合激励)
如果两样东西都差不多喜欢,那么偏中间一点的C物品会是更容易选择的。
第二章 行为的理性
我们是自我利益的追求者(行为者),会追求利益的最大化。
两利相权取其重,两害相权取其轻。
参照的不同会影响人的判断
例1:两根红线其实一样长。

例2:《经济学人》杂志全年订单价格表
| A方案 | 购买比例 | B方案 | 购买比例 |
|---|---|---|---|
| 1.电子版:$59 | 68% | 1.电子版:$59 | 16% |
| 2.电子版+印刷版:$125 | 32% | 2.印刷版:$125 | 0% |
| 3.电子版+印刷版:$125 | 84% |
特别提示:
对于顾客来说,需要的不是便宜,而是占到了便宜。
例3:微波炉价格表
| A方案 | 购买比例 | B方案 | 购买比例 |
|---|---|---|---|
| 1.三星微波炉:$110,7折优惠 | 57% | 1.三星微波炉:$110,7折优惠 | 27% |
| 2.松下微波炉:$180,7折优惠 | 43% | 2.松下微波炉(A款):$180,7折优惠 | 60% |
| 3.松下微波炉(B款):$200,9折优惠 | 13% |
特别提示:
- 让对方在2个或者3个选项里选择;
- 给对方的几个选项必须有明显区别。
如果不给对方您的两利让其相权,那么对方就很可能会把您的一利和他人的一利相权,从而离您而去。
第三章 合作与共识
在信息不对称的情况下,有时候博弈的结果不取决于大家是怎么想的,而是取决于大家认为大家是怎么想的。重点是达成共识
第三讲 囚犯困境
第一章 囚犯困境及原因
第一节 现象及解释
现在有两个已经被抓住的小偷(囚犯),警官审问他们之前是否还有过盗窃行为。规则是:如果他们都拒不承认曾经偷窃,那么只能按照本次量刑,各判处半年;加入他们都承认曾经偷窃,那么各判处3年;若一方坦白另一方不承认,那么本着“坦白从宽,抗拒从严”的原则,坦白方不判刑,抗拒方判5年刑。(如下表)
| 囚犯A\囚犯B | 坦白(不遵守/说谎) | 抗拒(遵守/说实话) |
|---|---|---|
| 坦白(不遵守/说谎) | -3,-3 | 0,-5 |
| 抗拒(遵守/说实话) | -5,0 | -0.5,-0.5 |
一、假设两个囚犯都是惯犯,两人没有交流协商。
假如你是某个囚犯,因为你不知道对方会选择什么,所以对你来说,坦白是最好的,判3年总比判5年好,不判总比判半年好。当然,驴对方也是这么想的。因此最终会是两人都被判处3年。
二、假设两个囚犯经过了沟通,并协商承诺一致选择“抗拒”。
看起来这样双方都能得到最好的结果。但他们都清楚对方是盗贼,他们敢保证对方就一定会遵守承诺吗?在你觉得对方会选择“抗拒(遵守)”的时候,你选择“坦白”(也就是不遵守)绝对是最佳选择。当然,驴对方也是这么想的。猜疑链形成,最终两人依然是都被判处3年。
三、假设两个囚犯都是第一次犯罪,坦白就意味着说谎。
与一相同,假如你是某个囚犯,因为你不知道对方是否会说谎,所以对你来说,说谎是最好的,判3年总比判5年好,不判总比判半年好。当然,驴对方也是这么想的。因此最终会是两人都被判处3年。
无论哪种情况:两人均坦白成了占优策略的均衡。
特别提示:
游戏的规则才决定了游戏的结局。
第二节 囚犯困境的定义及原因分析
| A\B | 背叛 | 合作 |
|---|---|---|
| 背叛 | \(a_1,b_1\) | \(a_2,b_2\) |
| 合作 | \(a_3,b_3\) | \(a_4,b_4\) |
在一般条件下,囚犯困境形成有两个条件:
-
双方都有占优策略,即:
\(a_1>a_3,\;a_2>a_4,\;b_1>b_2,\;b_3>b_4\)
在 \(a_1>a_3,\;a_2>a_4\) 的条件下,A选择背叛是占优策略;在 \(b_1>b_2,\;b_3>b_4\) 的条件下,B选择背叛是占优策略。
-
存在一个合作解,使双方的收益都优于其在占优策略均衡下的收益,即:\(a_1<a_4,\;b_1<b_4\)
如果双方能够选择合作,原本可以得到更好的结果。
在对称条件下的囚犯困境:
| A\B | 背叛 | 合作 |
|---|---|---|
| 背叛 | R,R | P,T |
| 合作 | T,P | S,S |
在两人双策略对称博弈中,如果满足以下条件:P > S > R > T。那么其占优策略均衡(R,R)就构成了囚犯困境。
总结:因个人理性而呈现出集体非理性。
表面上看,囚犯对自身利益的追求是导致囚犯困境的原因,其实真正的原因是:囚犯们在追求自身利益的同时,是以更多的损害他人利益为代价的。
例如,从下面这个例子可以看出,囚犯同样追求自我利益,但却并没有陷入囚犯困境。
| 囚犯A\囚犯B | 坦白 | 抗拒 |
|---|---|---|
| 坦白 | -0.5,-0.5 | 0,-5 |
| 抗拒 | -5,0 | -3,-3 |
或者可以解释为,囚犯困境的根本原因在于:私人成本与社会成本的差异,即个人行为的负外部性。
特别提示:
损人利己和损己利人在本质上是一样的,是一个硬币的正反面;从一方来看是损己利人的行为,在另一方看来是损人利己的行为,问题的关键是所损(失)的部分和所利(得)的部分哪个更多。
如果有一种制度,每个人都必须通过利人的方式才能利己,那么这个制度才是一种好制度(市场的逻辑)。
第二章 真实世界的囚犯困境
价格战
一旦两家企业打价格战,那么最终的结局一定是两败俱伤。
独裁和多数人的懦弱
枪打出头鸟
民主与多数人的暴政
100名同学分100万奖学金。
特别提示:
民主必须与法治(不是法制)相辅相成,才能避免多数人的暴政。