博弈论模型中的学习与算法设计

news/2025/12/9 18:07:49/文章来源:https://www.cnblogs.com/codeshare1135/p/19327827

Éva Tardos,康奈尔大学计算机科学Jacob Gould Schurman教授,是计算机协会哥德尔奖和电气电子工程师学会约翰·冯·诺依曼奖章的获得者。她的研究重点在于算法博弈论,即博弈论在算法设计中的应用。

2018年,Tardos获得了一项研究奖项,用于探索博弈中的学习问题:在同一游戏的重复迭代中,参与者能否学习到使其奖励最大化的策略?以及,博弈的结构能否被设计成使得参与者个体的奖励最大化策略也能最大化共同利益?

“我最着迷的问题有三个层面,”Tardos说。“一是,‘如果人们学习,我们能对结果的质量说些什么?’ 另一个是,‘学习意味着什么?’ 当我观察用户的行为时,人们实际上满足哪些学习条件?”

“第三——也许在某些方面是最具可操作性的——是,‘在变化的环境中,什么才是正确的学习形式?’ 如果你是一家中心机构,你想学习如何为产品定价,你的库存是多少?你有多少书?如果你在销售它们,库存就会减少。随着时间的推移存在一些遗留效应。这告诉你什么?在环境变化且存在遗留效应的情况下,正确的学习形式是什么?当然,人们会以那种方式学习吗?”

学习的概念

以足球中的点球为例,罚球者射向球门的左侧或右侧,守门员则猜测扑救方向。在最简单的博弈论模型中,如果守门员和罚球者选择了相同的方向,守门员获胜;如果他们选择了不同的方向,罚球者获胜。

在这个模型下,如果双方都试图最大化获胜机会,他们的最优策略是以相等的概率随机选择左或右。如果一方偏离该策略,另一方就有机会提高其获胜概率。

一组博弈中任何参与者都没有动机单方面改变的策略集合被称为纳什均衡。点球游戏是一个零和博弈:一方赢,另一方输。但许多现实世界的场景——例如,在高峰时段选择驾驶路线——可以被建模为非零和博弈,它们也有纳什均衡。

关于博弈论学习的一个早期假设是,在游戏的重复迭代中,参与者会收敛到纳什均衡。但最近的研究表明这不太可能,因为复杂博弈的纳什均衡在计算上是难以处理的。

“如果存在一个长期来看一直相当不错的单一策略,那么请至少做得和那个一样好,” Tardos解释道。“如果有一条路线每天都能让你相当快地到达公司,你不必非要走那条路,但如果你做得比那更差,那就出了问题。你的学习应该足够好,能够观察到那个策略比你正在做的更好。这就叫做‘无悔学习’。”

遗留效应

Tardos最近在博弈论学习方面的工作,许多都集中在具有遗留效应的博弈上。这类博弈的最佳学习算法是什么?在什么情况下学习能够发生?学习到的策略与最优策略分布相比如何?

Tardos主要在两个应用背景下研究了这些问题:广告拍卖(广告商竞标网站上的广告位)和数据包交换网络路由(例如我们在互联网上看到的那种)。

对于广告拍卖,遗留效应是成功竞得广告会减少广告买家用于后续购买的预算。Tardos和她的同事分析了真实世界的数据并得出结论,在广告拍卖中,无悔学习可以发生,但仅适用于拥有足够资源的广告买家。否则,预算限制会阻止他们充分探索选项空间以识别好的策略。

对于数据包交换路由,遗留效应是数据包传输失败会导致发送方重新发送数据包,从而增加网络拥塞。Tardos和她的同事表明,学习可以确保系统高效运行,但前提是网络中的每个路由器能够同时处理足够多的传入数据包。

然而,这里的分析是理论性的,因此他们可以将参与者学习到的策略与某个全知规划者根据发送方的传输需求最优分配网络带宽的策略进行比较。他们发现,如果发送方只是试图学习最大化自身网络吞吐量的策略,那么为了确保每个人的数据包都能通过,路由器的容量需要大约是最优情况下的两倍。

然而,在一项后续研究中,Tardos和她的一个学生表明,一个更好的学习算法可以将参与者的学习策略推向更接近最优值。如果参与者足够有耐心——如果他们坚持某个给定的传输策略足够长的时间以获得其长期有效性的可靠信号——那么学习将导致高效路由,而路由器容量仅需大约是最优情况的1.6倍。

这些都是初步结果,但它们展示了一套解决一系列非常困难、相互关联问题的方法论。在正在进行的工作中,Tardos正在将相同的分析技术推广到产品定价和库存管理之间的关系上,其中的遗留效应是根据不同价格点的销售率而定的在手库存量。这显然是一个令相关机构感兴趣的问题。

“有些问题我们还没有回答,但很希望去回答,” Tardos说。“这些都是正在进行的项目。所以也许我们最终会回答它们。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/995325.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Zephyr RTOS 深度学习指南与生成式AI结合方法探讨》第六章 - 详解

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025 年 12 月上海逃生装备厂家权威推荐榜:聚焦逃生滑道、缓降管、应急器材,解析智能与柔性技术的安全守护之选

2025 年 12 月上海逃生装备厂家权威推荐榜:聚焦逃生滑道、缓降管、应急器材,解析智能与柔性技术的安全守护之选 随着城市化进程的加速,高层及超高层建筑日益增多,火灾等突发性公共安全事件的应急逃生需求变得前所未…

HiAgent vs Coze:企业级智能体平台大对比

HiAgent vs Coze:企业级智能体平台大对比Posted on 2025-12-09 18:00 Java后端的Ai之路 阅读(0) 评论(0) 收藏 举报HiAgent vs Coze:企业级智能体平台的深度对比 专业术语解释 HiAgent HiAgent是字节跳动火山引…

关于敏感信息检测技术的理论知识

在之前的文章中,探索了不同的检测敏感信息的方法,并通过Demo进行了学习,对算法、模型等一些概念有一些初步认知,这片文章想更加完整的学习涉及的概念,以及知识框架。 信息识别 “敏感信息检测”本质上是一种信息识…

自定义拦截器不生效问题记录

新项目里面我把之前的告警添加了进来,添加后发现有个问题:我新增的拦截器一直不生效:我的代码如下Configuration public class OraDingdingConfigurer implements WebMvcConfigurer, Interceptor {/*** 拦截器参数校…

2025年地毯品牌最新推荐榜,聚焦企业技术创新、原料品质与市场口碑深度解析羊毛,无胶,可拆洗双层,客厅,卧室,中古风,儿童房,可拆洗,床边,无胶防水地毯公司推荐

引言 随着家居消费升级,健康环保与设计美学成为地毯选购核心诉求,为精准筛选优质品牌,本次推荐榜依托中国家用纺织品行业协会(CNTAC)2024-2025 年度地毯品类测评数据,结合第三方检测机构 SGS 的 128 项指标检测结…

中美跨境国际快递配送清单:轻小件低价寄,带电_特货合规清关

2025 年中美跨境电商轻小件需求同比增长 45%,饰品、3C 配件等 0.5-10KG 包裹占比超 60%,但 “低价难寻合规渠道、带电特货清关险、轨迹追踪不透明” 仍是核心痛点。第三方数据显示,48% 卖家曾因 “敏感货扣关” 损失…

Elasticsearch:如何为 Elastic Stack 部署 E5 模型 - 下载及隔离环境 - 详解

Elasticsearch:如何为 Elastic Stack 部署 E5 模型 - 下载及隔离环境 - 详解2025-12-09 17:51 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-…

JVM运营内存清空查看

ps -ef | grep "java" 找到定开服务PID 然后 jmap -heap PID 可以看到对应jvm 内存分配情况

Flutter 应该如何实现 iOS 26 的 Liquid Glass

要在 Flutter 中实现 iOS 26 的Liquid Glass(液态玻璃) 视觉交互效果,需先明确 Liquid Glass 的核心特征:iOS 26 推出的液态玻璃质感聚焦「动态流体形变、玻璃拟态(Glassmorphism)进阶版、触控反馈的液态柔化、层…

IIS反向代理

模块安装 首先安装代理需要的模块,Application Request Routing Cache和URL重写(URL Rewrite)两个模块 下载地址: Application Request Routing Cache URL重写(URL Rewrite) 注:Application Request Routing …

102302122许志安作业4

数据采集第四次作业 作业一:基于 Selenium + MySQL 的沪深 A 股股票数据爬取 要求: ▪ 熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内 容。 ▪ 使用Selenium框架+ MySQL数据库存储技术路线爬…

Prefect 产品使用说明

一. 部署地址 环境部署在 k8s环境,支持高并发,高可用,可扩展动态扩容。UI 地址API地址备注http://192.168.10.107:30420http://192.168.10.107:30420/apiapi地址由集群内部调用二. Prefect详细说明什么是 Prefect?…

电池的荷电状态(SOC)估计

电池的荷电状态(SOC)估计是电池管理系统的核心,直接关系到电池的安全、寿命和性能。简单说,SOC就像电池的“剩余油量表”,但它无法直接测量,只能通过电压、电流、温度等外部参数进行估算。 核心估算方法对比 目前…

nginx保姆及教学

一、概览与核心概念 NGINX 是高性能的反向代理、负载均衡器、HTTP 静态服务器与 TCP/UDP(stream)代理。它以事件驱动、异步非阻塞著称,适合高并发场景。 nginx.org 配置文件以 nginx.conf 为入口,常见结构:全局指…

2025年最新垃圾分类/处理/分拣设备实力厂家TOP5深度解析

在 “无废城市” 建设精细化推进与循环经济深度发展的双重驱动下,垃圾分类与固废处理行业正朝着智能化、全链化、资源化方向加速升级。从前端分类的数据化管控到后端处理的高效转化,具备核心技术实力、完整产品矩阵与…

Xcode16

Xcode 16 是苹果公司 2024 年推出的新一代集成开发环境(IDE),主要适配 macOS 15(Sequoia)、iOS 18、iPadOS 18、watchOS 11、tvOS 18 等全新系统版本,聚焦Swift 语言升级、跨平台开发效率、AI 辅助编程、性能优化…

2025 激光焊接机权威榜单出炉!10 大厂家硬核 PK,国产化技术领跑全球

在高端制造升级的浪潮中,激光焊接机凭借高能量密度、低热影响区、高精度焊接的核心优势,成为新能源汽车、医疗设备、消费电子等行业的 “刚需装备”。2025 年全球激光焊接机市场规模已突破 320 亿美元,中国产能占比…

纯前端也能用大模型?我的本地推理 + 云端推理混合方案经验

前言 最近前端圈越来越多人尝试在浏览器里跑 AI:有的想做一个“小而快”的本地工具,有的想做离线智能补全,有的想让页面自带一点 AI 感知能力。可真到落地时才发现:本地推理没你想的快,云端推理没你想的稳,两者怎…