Éva Tardos,康奈尔大学计算机科学Jacob Gould Schurman教授,是计算机协会哥德尔奖和电气电子工程师学会约翰·冯·诺依曼奖章的获得者。她的研究重点在于算法博弈论,即博弈论在算法设计中的应用。
2018年,Tardos获得了一项研究奖项,用于探索博弈中的学习问题:在同一游戏的重复迭代中,参与者能否学习到使其奖励最大化的策略?以及,博弈的结构能否被设计成使得参与者个体的奖励最大化策略也能最大化共同利益?
“我最着迷的问题有三个层面,”Tardos说。“一是,‘如果人们学习,我们能对结果的质量说些什么?’ 另一个是,‘学习意味着什么?’ 当我观察用户的行为时,人们实际上满足哪些学习条件?”
“第三——也许在某些方面是最具可操作性的——是,‘在变化的环境中,什么才是正确的学习形式?’ 如果你是一家中心机构,你想学习如何为产品定价,你的库存是多少?你有多少书?如果你在销售它们,库存就会减少。随着时间的推移存在一些遗留效应。这告诉你什么?在环境变化且存在遗留效应的情况下,正确的学习形式是什么?当然,人们会以那种方式学习吗?”
学习的概念
以足球中的点球为例,罚球者射向球门的左侧或右侧,守门员则猜测扑救方向。在最简单的博弈论模型中,如果守门员和罚球者选择了相同的方向,守门员获胜;如果他们选择了不同的方向,罚球者获胜。
在这个模型下,如果双方都试图最大化获胜机会,他们的最优策略是以相等的概率随机选择左或右。如果一方偏离该策略,另一方就有机会提高其获胜概率。
一组博弈中任何参与者都没有动机单方面改变的策略集合被称为纳什均衡。点球游戏是一个零和博弈:一方赢,另一方输。但许多现实世界的场景——例如,在高峰时段选择驾驶路线——可以被建模为非零和博弈,它们也有纳什均衡。
关于博弈论学习的一个早期假设是,在游戏的重复迭代中,参与者会收敛到纳什均衡。但最近的研究表明这不太可能,因为复杂博弈的纳什均衡在计算上是难以处理的。
“如果存在一个长期来看一直相当不错的单一策略,那么请至少做得和那个一样好,” Tardos解释道。“如果有一条路线每天都能让你相当快地到达公司,你不必非要走那条路,但如果你做得比那更差,那就出了问题。你的学习应该足够好,能够观察到那个策略比你正在做的更好。这就叫做‘无悔学习’。”
遗留效应
Tardos最近在博弈论学习方面的工作,许多都集中在具有遗留效应的博弈上。这类博弈的最佳学习算法是什么?在什么情况下学习能够发生?学习到的策略与最优策略分布相比如何?
Tardos主要在两个应用背景下研究了这些问题:广告拍卖(广告商竞标网站上的广告位)和数据包交换网络路由(例如我们在互联网上看到的那种)。
对于广告拍卖,遗留效应是成功竞得广告会减少广告买家用于后续购买的预算。Tardos和她的同事分析了真实世界的数据并得出结论,在广告拍卖中,无悔学习可以发生,但仅适用于拥有足够资源的广告买家。否则,预算限制会阻止他们充分探索选项空间以识别好的策略。
对于数据包交换路由,遗留效应是数据包传输失败会导致发送方重新发送数据包,从而增加网络拥塞。Tardos和她的同事表明,学习可以确保系统高效运行,但前提是网络中的每个路由器能够同时处理足够多的传入数据包。
然而,这里的分析是理论性的,因此他们可以将参与者学习到的策略与某个全知规划者根据发送方的传输需求最优分配网络带宽的策略进行比较。他们发现,如果发送方只是试图学习最大化自身网络吞吐量的策略,那么为了确保每个人的数据包都能通过,路由器的容量需要大约是最优情况下的两倍。
然而,在一项后续研究中,Tardos和她的一个学生表明,一个更好的学习算法可以将参与者的学习策略推向更接近最优值。如果参与者足够有耐心——如果他们坚持某个给定的传输策略足够长的时间以获得其长期有效性的可靠信号——那么学习将导致高效路由,而路由器容量仅需大约是最优情况的1.6倍。
这些都是初步结果,但它们展示了一套解决一系列非常困难、相互关联问题的方法论。在正在进行的工作中,Tardos正在将相同的分析技术推广到产品定价和库存管理之间的关系上,其中的遗留效应是根据不同价格点的销售率而定的在手库存量。这显然是一个令相关机构感兴趣的问题。
“有些问题我们还没有回答,但很希望去回答,” Tardos说。“这些都是正在进行的项目。所以也许我们最终会回答它们。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码

公众号二维码
