博弈论笔记

news/2025/11/26 23:39:18/文章来源:https://www.cnblogs.com/h-elden/p/19274968

博弈论

学习参考视频:bilibili-【浙江大学/耶鲁大学】《博弈论》(61课全)(中英双语字幕)

第一讲 概述

知人者智,自知者明;

胜人者力,自胜者强;

小胜者术,大胜者德。

第一章 何为“博弈”

第一节

博:博览全局;

弈:对弈棋局。

谋定而动

博弈一一是指在一定的游戏规则约束下,基于直接相互作用的的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。

直接相互作用:必须要把你的决策会对对方造成的影响作为你的决策依据。

博弈既可以是竞争,也可以是合作。

双赢(做大蛋糕,生产性努力)是合作。(利益一致)

单赢(争抢蛋糕,非生产性努力)是竞争。(利益对立)

市场经济的本质是通过卖者之间(买者之间)的竞争,实现买卖双方的合作。(市场博弈比的是谁能和用户建立更持久的合作关系)

第二节

特别提示:

博弈,必须学会换位思考

博弈,领先一步,高人一筹!

博弈的核心在于整体四位基础上的理性换位思考,用他人的得益去推测他人的策略(行动),从而选择最有利于自己的策略(行动)。

例子

罗森赛尔蜈蚣博弈(击鼓传花)

下图中,A表示继续,D表示不继续。如果在第一次,1选择不继续,1会得到40美分,2得到10美分;如果1选择继续,那么轮到2决策,他也有两种选择...

继续还是不继续,这是个问题。

image-20230920231029050

换位思考:越精明的人会选择越早结束,但是他所获得的却越少。

领先一步:需要比对方多想一层,那么就足以获得你的最大利益。

提示:如果因为对方眼中的你傻,而让对方更愿意和你合作,那么何乐而不为呢?

特别提示:

愿意吃亏,与那些比你更愿意吃亏的人做朋友。

在博弈之前,博弈就已经开始了。

第三节 学习博弈论的收益

一、当局者清。

做出更有利的选择;做出更快速的反应。

二、旁观者更清。

理解历史与现实;预测未来的发展。

三、提出完善游戏规则(制度)的建议。

第二章 发展简史

第一节 一些博弈论模型

古诺模型

参加博弈的双方以各自在同一时间内相互独立的产量作为决策的变量,是一个产量竞争模型

伯川德模型

企业把其产品的价格而不是产量作为竞争手段和决策变量,通过制定一个最优的销售价格来实现利润最大化。(打价格战)

斯塔克尔伯格

该模型分析的是这么一种市场竞争:企业A先决定一个产量,然后企业B可以观察到这个产量,并根据所观察到的产量来决定它自己的产量。

第二节 理论的诞生与发展

  1. 20世纪40年代的社会变化。
  2. 约翰·冯·诺伊曼的卓越贡献。
  3. 约翰·福布斯·纳什的发扬光大。
  4. 后来的发展方向。
    1. 对纳什均衡的弱化(或一般化);
    2. 对纳什均衡的精炼(或筛选);
    3. 对博弈论的基本假设的研究;
    4. 对博弈论的应用的研究。

第三章 术语解读

术语

  1. 参与人(players):理性选择的主体。
  2. 信息(information):参与者有关博弈的知识。(知己知彼,百战不殆)
  3. 行动(action):参与者能够选择的变量。
  4. 策略(strategies):参与者在行动之前所准备好的一套完整的行动方案(预案)。
    1. 完整性;
    2. 多样性;
    3. 不可观察性。(但是可以通过不断博弈来推测对方策略)

一种策略:人不犯我,我不犯人;人若犯我,我必犯人。

  1. 损益(payoff):参与者的得与失。
  2. 结局(outcome):所有参与者选择各自策略后的结果。
  3. 均衡(equilibrium):所有参与者的最优策略组合。
  4. 博弈的规则(rules of the game):参与者、行动和结果合起来称为博弈的规则。
  5. 博弈论(game theory):一种研究人们怎么做策略(行动)选择及其最后的均衡结果会是什么的理论。

策略

好的应急预案

  1. what?(信息分类)
  2. who?(责任到人)
  3. action?(措施具体)
  4. when?(时效性)

特别提示:

策略让我们建立起了从信息到行动的快速反应机制,从而能够以最快的速度做出行动选择。

\[\boxed{信息} \Rightarrow \boxed{策略} \Rightarrow \boxed{行动} \]

三十六计是策略吗?

就其中的某一计而言,它只是一种行动方式,而不能称之为策略;

但在某种特殊情况下你选择某一计来行动,这可以称之为策略。

博弈的分类

合作博弈和非合作博弈

合作博弈:参与者能够达成一种具有约束力的协议,在协议范围内选择有利于双方的策略。

非合作博弈:参与者无法达成这样一种协议。(不能理解为一定是一种竞争关系)

静态博弈和动态博弈

静态博弈:在博弈中,参与者同时选择,或虽非同时选择,但是在逻辑时间上是同时的。(比如师生互相评分)

动态博弈:在博弈中,参与者的行动有先后顺序,且后行动者能够观察到先行动者的行动。(比如下棋)

注意:“同时”,不是指时间上的,而是指逻辑上的同时。

完全信息博弈与不完全信息博弈

完全信息博弈:在博弈中,每个参与者对其他参与者的类型、策略空间及损益函数都要准确的信息。

不完全信息博弈:总有一些信息不是所有参与者都知道的。(信息不对称)

image-20230921111839103

零和博弈和非零和博弈

零和博弈:博弈前的损益总和与博弈后的损益总和相等。(比如在家里打麻将)

非零和博弈:博弈后的损益总和大于(小于)博弈前的损益总和(正和或负和)。(比如买彩票是负和博弈)

建议:不玩负和游戏,少玩零和游戏,多玩正和游戏。

直播课 如何在博弈中实现利益最大化

懦夫博弈

image-20230921124838382

启示:先下手为强,后下手遭殃!(天下武功,唯快不破!)

竞争博弈,领先一步,高人一筹!

竞争博弈

竞争博弈的核心问题:

  1. 比什么?(规则)

    1. 拍卖(出价高者得)
    2. 竞选(选票多者得)
    3. 摇号(运气好者得)
    4. 成绩(分数高者得,比能力+运气)
    5. 抢夺(力量大者得,武器优者胜)
    6. 排队(先到者先得)
    7. ……

    提示:

    1. 游戏的规则决定了你的能力发展方向。
    2. 如果你有极大的力量,那么制定游戏规则;
    3. 如果你有较大的力量,那么挑选游戏规则;(此地不留爷,自有留爷处)
    4. 如果你缺乏足够的力量,那么适应游戏规则。
  2. 和谁比?(对手)

  3. 怎么比?(策略)

只要资源稀缺,竞争是不可避免的。

赢者通吃的竞争博弈

特别提示:

在竞争博弈中,要谨防过度竞争,特别是在赢者通吃(winner-take-all)的竞争博弈中。

拍钱游戏:

一种赢者通吃的竞争博弈。全班同学扫码支付,支付金额最高者拿到奖金100元。其余一律不返还。很容易导致过度竞争

image-20230921130850666

鼓掌游戏:

最后一个停下鼓掌的人可以得到20美元。结果拿到钱的同学鼓了四个半小时的掌。

特别提示:

  1. 存量绑架。已有的存量(还有几人在鼓掌)会让你骑虎难下。
  2. 目标偏移。最后变成好胜心/面子的比拼,死磕到底。
  3. 学会止损。
  4. 过度竞争,反而会损害未来的竞争力。

如何在竞争博弈中实现利益最大化?

  1. 定规则(扬长避短)
  2. 定方向(聚焦聚能)
  3. 定对手(以强胜弱)
  4. 定策略(止盈止损)

合作博弈

image-20230921132013766

image-20230921132117607

image-20230921132138781

合作博弈的核心问题:

  1. 合作剩余(新增收益)怎么分配?
  2. 合作风险怎么分配,如何承担?

AB双方对合作收益的三种分配模式:

  1. A拿剩余,B拿固定,如雇主和雇员之间。
  2. A拿固定,B拿剩余,如银行和企业之间。
  3. AB约定一个分配比例,如分成制、股份制,以及婚姻关系中平分婚后收入的制度安排。

把非生产性努力(争抢蛋糕)转变成生产性努力(做大蛋糕)的关键是在蛋糕没有做之前先约定好怎么分。

为保证合作博弈的双赢结果,就必须确保参与者的自由退出权。(结婚自由、离婚自由)

如何在合作博弈中实现利益最大化?

  1. 贡献越大,收益越大;
  2. 机会越多,收益越大;
  3. 沟通越易,收益越大;
  4. 做事越稳,收益越大。

未来的努力方向:

  1. 从竞争意识转换为成长意识;
  2. 从竞争能力转换为合作能力。

博弈的最高境界:双赢

第二讲 基本假设

第一章 认知理性

人是自我利益的判断者

  1. 偏好的完备性(completeness)

    也就是说,人对A和B两样东西的偏好是完备的。如更喜欢A(A>B)、更喜欢B(A<B)或者两个没区别(A~B)。

  2. 偏好的传递性(transitivity)。

    比如A>B,B>C,可以得出A>C。

  3. 中庸之道。(要综合激励)

    如果两样东西都差不多喜欢,那么偏中间一点的C物品会是更容易选择的。

第二章 行为的理性

我们是自我利益的追求者(行为者),会追求利益的最大化

两利相权取其重,两害相权取其轻。

参照的不同会影响人的判断

例1:两根红线其实一样长。

image-20230922235610603

例2:《经济学人》杂志全年订单价格表

A方案 购买比例 B方案 购买比例
1.电子版:$59 68% 1.电子版:$59 16%
2.电子版+印刷版:$125 32% 2.印刷版:$125 0%
3.电子版+印刷版:$125 84%

特别提示:

对于顾客来说,需要的不是便宜,而是占到了便宜。

例3:微波炉价格表

A方案 购买比例 B方案 购买比例
1.三星微波炉:$110,7折优惠 57% 1.三星微波炉:$110,7折优惠 27%
2.松下微波炉:$180,7折优惠 43% 2.松下微波炉(A款):$180,7折优惠 60%
3.松下微波炉(B款):$200,9折优惠 13%

特别提示:

  1. 让对方在2个或者3个选项里选择;
  2. 给对方的几个选项必须有明显区别。

如果不给对方您的两利让其相权,那么对方就很可能会把您的一利他人的一利相权,从而离您而去。

第三章 合作与共识

在信息不对称的情况下,有时候博弈的结果不取决于大家是怎么想的,而是取决于大家认为大家是怎么想的重点是达成共识

第三讲 囚犯困境

第一章 囚犯困境及原因

第一节 现象及解释

现在有两个已经被抓住的小偷(囚犯),警官审问他们之前是否还有过盗窃行为。规则是:如果他们都拒不承认曾经偷窃,那么只能按照本次量刑,各判处半年;加入他们都承认曾经偷窃,那么各判处3年;若一方坦白另一方不承认,那么本着“坦白从宽,抗拒从严”的原则,坦白方不判刑,抗拒方判5年刑。(如下表)

囚犯A\囚犯B 坦白(不遵守/说谎) 抗拒(遵守/说实话)
坦白(不遵守/说谎) -3,-3 0,-5
抗拒(遵守/说实话) -5,0 -0.5,-0.5

一、假设两个囚犯都是惯犯,两人没有交流协商。

假如你是某个囚犯,因为你不知道对方会选择什么,所以对你来说,坦白是最好的,判3年总比判5年好,不判总比判半年好。当然,对方也是这么想的。因此最终会是两人都被判处3年。

二、假设两个囚犯经过了沟通,并协商承诺一致选择“抗拒”。

看起来这样双方都能得到最好的结果。但他们都清楚对方是盗贼,他们敢保证对方就一定会遵守承诺吗?在你觉得对方会选择“抗拒(遵守)”的时候,你选择“坦白”(也就是不遵守)绝对是最佳选择。当然,对方也是这么想的。猜疑链形成,最终两人依然是都被判处3年。

三、假设两个囚犯都是第一次犯罪,坦白就意味着说谎。

与一相同,假如你是某个囚犯,因为你不知道对方是否会说谎,所以对你来说,说谎是最好的,判3年总比判5年好,不判总比判半年好。当然,对方也是这么想的。因此最终会是两人都被判处3年。

无论哪种情况:两人均坦白成了占优策略的均衡

特别提示:

游戏的规则才决定了游戏的结局。

第二节 囚犯困境的定义及原因分析

A\B 背叛 合作
背叛 \(a_1,b_1\) \(a_2,b_2\)
合作 \(a_3,b_3\) \(a_4,b_4\)

一般条件下,囚犯困境形成有两个条件:

  1. 双方都有占优策略,即:

    \(a_1>a_3,\;a_2>a_4,\;b_1>b_2,\;b_3>b_4\)

    \(a_1>a_3,\;a_2>a_4\) 的条件下,A选择背叛是占优策略;在 \(b_1>b_2,\;b_3>b_4\) 的条件下,B选择背叛是占优策略。

  2. 存在一个合作解,使双方的收益都优于其在占优策略均衡下的收益,即:\(a_1<a_4,\;b_1<b_4\)

如果双方能够选择合作,原本可以得到更好的结果。

对称条件下的囚犯困境:

A\B 背叛 合作
背叛 R,R P,T
合作 T,P S,S

在两人双策略对称博弈中,如果满足以下条件:P > S > R > T。那么其占优策略均衡(R,R)就构成了囚犯困境。

总结:因个人理性而呈现出集体非理性

表面上看,囚犯对自身利益的追求是导致囚犯困境的原因,其实真正的原因是:囚犯们在追求自身利益的同时,是以更多的损害他人利益为代价的。

例如,从下面这个例子可以看出,囚犯同样追求自我利益,但却并没有陷入囚犯困境。

囚犯A\囚犯B 坦白 抗拒
坦白 -0.5,-0.5 0,-5
抗拒 -5,0 -3,-3

或者可以解释为,囚犯困境的根本原因在于:私人成本与社会成本的差异,即个人行为的负外部性。

特别提示:

损人利己损己利人在本质上是一样的,是一个硬币的正反面;从一方来看是损己利人的行为,在另一方看来是损人利己的行为,问题的关键是所损(失)的部分和所利(得)的部分哪个更多。

如果有一种制度,每个人都必须通过利人的方式才能利己,那么这个制度才是一种好制度(市场的逻辑)。

第二章 真实世界的囚犯困境

价格战

一旦两家企业打价格战,那么最终的结局一定是两败俱伤。

独裁和多数人的懦弱

枪打出头鸟

民主与多数人的暴政

100名同学分100万奖学金。

特别提示:

民主必须与法治(不是法制)相辅相成,才能避免多数人的暴政。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/977761.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Bazaar - 现代化的 GNOME 应用商店

Bazaar 是一款专为 GNOME 设计的现代化应用商店,专注于从 Flatpak 远程仓库发现和安装应用程序及插件。它强调对 Linux 桌面开发者的支持,提供流畅的多线程体验和本地化内容推荐。BazaarBazaar 是一款专为 GNOME 桌面…

快速排序板子

好多年了,竟然没忘,蓝书上的,之后数据结构书又改一了版void quick_sort(vector<int>& nums, const int& k, int x, int y) {if (x >= y) return;int p = x, q = y;int stash = nums[x];while(p &l…

黑马程序员SpringCloud微服务开发与实战-微服务05

黑马程序员SpringCloud微服务开发与实战-微服务05Posted on 2025-11-26 23:22 心默默言 阅读(0) 评论(0) 收藏 举报1. 服务注册和发现 在上一章我们实现了微服务拆分,并且通过Http请求实现了跨微服务的远程调用。…

CF1774F2

Sol 不妨思考操作三的本质:对于先前插入的某个当前值为 \(x\) 的数,将其分裂为 \(x\) 与 \(x-w\)。其中 \(w\) 是如果执行一次当前操作三, 期间所有二操作的和。这样转化的正确性是显然的。 考虑 \(w\) 如何更新,显…

sscanf用法

本文详细介绍了C++中`sscanf`函数的用法,包括其语法、参数、返回值及多种实用示例。`sscanf`用于从字符串中按指定格式读取数据,支持跳过字符、限定长度、分割字符串等操作,常用于格式化输入解析和输入校验,是处理…

sprintf用法

本文介绍了C++中`sprintf`函数的用法,用于将格式化数据写入字符串。其语法与`printf`类似,但输出目标为字符数组。文章讲解了参数含义、宽度精度控制、返回值(写入字符数)及常见注意事项,如不可直接写入`string.c…

订单多到做不完?四步把交期、缺料、进度和插单都解决了

工厂订单源源不断,但车间来不及做?为什么越忙越慢?遇到急单插单如何快速调整工单优先级? 这几年我见过太多类似的工厂:订单并不少,但是却出现这个现象:订单越多、越加班、越忙,反而越慢。 那问题到底出在哪?要…

八、热插拔

一、概述udev设备文件系统,基于netlink-socket,用户态监听内核发出的uevent事件处理设备的插入和拔出 mdev设备文件系统,是udev的轻量级,基于uevent_helper,内态调用用户注册的回调函数处理设备的插入和拔出 udev…

第37天(中等题 数据结构)

打卡第三十七天 2道中等题题目:思路:总数对-好数对=坏数对 代码: class Solution { public:long long countBadPairs(vector<int>& nums) {int n = nums.size();unordered_map<int,int> cnt;long l…

PostgreSQL权限管理实践

基于user模型 模式和用户同名 只有一个模式 # postgres用户连接 psql -U postgres -c "create user test password test;" psql -U postgres -c "create database testdb with owner=test;" psql…

预编译命令

本文介绍了C/C++中的预编译命令,重点讲解了`#include`、`#define`、`#if`和`#pragma`的使用方法与注意事项。`#include`用于文件包含,支持尖括号和双引号两种查找方式,并可嵌套包含;通过条件编译或`#pragma once`避…

2025 KEYDIY KD-MP: Add Keys for MLB MQB – Key Identification, Data, Calculation

The Key Replacement Challenge: Why Modern Vehicles Are a Headache For European and American automotive repair shops and car owners, replacing keys for MLB and MQB systems in Volkswagen Group vehicles (…

把 CLI 搬上 Web:在内网打造“可二开”的 AI IDE,为什么这条路更现实? - 指南

把 CLI 搬上 Web:在内网打造“可二开”的 AI IDE,为什么这条路更现实? - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-…

[LangChain] 23. 回调机制

invoke/stream() 方法,方法签名如下: invoke/stream(input: Input,options?: RunnableConfig ): AsyncGenerator<StreamEvent<Output>>1. 输入参数 (input) 类型:Input 与 invoke() 方法保持一致:如果…

本地环境自建的es重启,http和https访问es,nested数据类型及设置es别名

本地环境自建的es重启,http和https访问es,nested数据类型及设置es别名本地环境自建的es重启,http和https访问es,nested数据类型及设置es别名 link:https接口的支持判断,http升级到https需求https://www.cnblogs.com/…

一文入门 LangChain 开发

2024-05-22 [[Ollama]] [[N_LangChain]] [[N_LangGraph]] LangChain github langchain 项目页 github langgraph 项目页 官方文档 introduction 官方文档 0.2 introductio 0.2 langserve 官方文档 0.1 Components La…

freedom of speech

but N cannot be bad. I think its just the difference between cultures.

七、设备模型

一、概述kobject内核抽象出来的通用对象,对应/sys目录下的一个文件 kset是kobject的一个扩展,一个kset尅包含多个kobject,将多个kobject通过parent进行关联,实现了层次化的结构 sysfs虚拟文件系统,向用户空间提供…

Scrum冲刺阶段 Day Three

一、站立会议纪要 1. 已完成工作 后端开发:设计用户与文件表结构 实现注册登录接口 实现文件上传接口 实现全局异常处理 封装请求拦截器前端开发:搭建前端基础框架 开发注册登录页面2. 今日计划工作实现文件列表查询…

鼎鉴时代锋芒 智启品牌新章 ——2025品牌智鉴榜荣耀登临

当全球产业重构与消费升级浪潮澎湃交汇,品牌早已成为衡量时代实力的核心标尺,更是穿越周期、引领变革的核心力量。2024 品牌智鉴榜,以 “智识为基、专业为刃、价值为魂”,历经百日全域筛查、多维体系核验、业界权威…