1.1 采样问题 Sampling and Bandits

news/2025/10/7 20:13:05/文章来源:https://www.cnblogs.com/zzzxx/p/19128834

n臂bandits(n-armed bandits)

n臂bandits(multi-armed bandit)是最简单的试错式学习形式。学习与动作选择都发生在同一个状态中,在该状态下有 \(n\) 个可用动作,每个动作对应不同的奖励分布。目标是通过试错的方式找出哪个动作在平均意义上能获得最多的奖励。

bandit-example

我们可以在 \(N\) 个不同的动作 \((a_1, ..., a_N)\) 中进行选择。每次在时间 \(t\) 采取动作 \(a\) 时,会获得一个奖励 \(r_t\),该奖励是从与动作相关的概率分布 \(r(a)\) 中抽样得到的。

该分布的数学期望即为该动作的期望奖励,也称为该动作的真实价值 \(Q^*(a)\)

\[ Q^*(a) = \mathbb{E} [r(a)] \]

奖励分布还具有方差,但在强化学习(RL)中我们通常忽略它,因为我们主要关心的是最优动作 \(a^*\)(不过在分布式强化学习中我们会重新考虑方差):

\[a^* = \text{argmax}_a \, Q^*(a) \]

如果我们无数次地选择最优动作,我们就能平均意义上最大化奖励。
问题在于:如何通过试错找出最优动作?
也就是说,在不知道奖励分布 \(r(a)\) 的情况下,我们只能通过采样获得其样本。

\[r_t \sim r(a) \]

bandit-samples

接收到的奖励 \(r_t\) 随时间在真实值附近波动。
我们需要基于采样结果建立每个动作的价值估计 \(Q_t(a)\)。这些估计在开始时会非常不准确,但会随着时间逐渐变好。


随机采样(Random sampling)

期望(Expectation)

随机变量的一个重要指标是其数学期望或期望值。
对于离散分布,它是每个可能结果乘以对应概率后的加权平均:

\[ \mathbb{E}[X] = \sum_{i=1}^n P(X = x_i) \, x_i \]

对于连续分布,则需要对其概率密度函数(pdf)进行积分:

\[ \mathbb{E}[X] = \int_{x \in \mathcal{D}_X} f(x) \, x \, dx \]

同样可以计算随机变量函数的期望:

\[ \mathbb{E}[g(X)] = \int_{x \in \mathcal{D}_X} f(x) \, g(x) \, dx \]


随机采样(Monte Carlo Sampling)

在机器学习和强化学习中,我们通常面对概率分布未知的随机变量,但仍然关心其期望或方差。

随机采样蒙特卡洛采样(MC)指从分布 \(X\)(离散或连续)中取 \(N\) 个样本 \(x_i\),并计算样本平均值:

\[ \mathbb{E}[X] = \mathbb{E}_{x \sim X} [x] \approx \frac{1}{N} \, \sum_{i=1}^N x_i \]

\(f(x)\) 较大(即 \(x\) 概率较高)时,采样到的次数也较多,因此样本平均值会接近真实的期望值。

大数定律(Law of Large Numbers)
当随机变量的数量增加时,其样本均值会趋近于理论均值。

MC 估计只有在以下条件下才正确:

  1. 样本必须是独立同分布(i.i.d.)的;
  2. 样本数量足够大。

同理,可以估计随机变量的任意函数:

\[ \mathbb{E}[f(X)] \approx \frac{1}{N} \sum_{i=1}^N f(x_i) \]


中心极限定理(Central Limit Theorem)

假设我们有一个未知分布 \(X\),其期望为 \(\mu = \mathbb{E}[X]\),方差为 \(\sigma^2\)
随机取 \(N\) 个样本并计算样本均值:

\[ S_N = \frac{1}{N} \, \sum_{i=1}^N x_i \]

中心极限定理
样本均值的分布服从均值为 \(\mu\)、方差为 \(\frac{\sigma^2}{N}\) 的正态分布:

\[S_N \sim \mathcal{N}(\mu, \frac{\sigma}{\sqrt{N}}) \]

IllustrationCentralTheorem

这说明样本均值是分布期望的无偏估计量

\[\mathbb{E}(S_N) = \mathbb{E}(X) \]

估计量(estimator)是用于估计分布参数的随机变量,但估计量可能存在偏差

例如,假设温度 \(T\) 是一个服从正态分布(\(\mu=20, \sigma=10\))的随机变量,温度计 \(M\) 的测量关系为:

\[ M = 0.95 \, T + 0.65 \]

estimators-temperature

此时:

\[ \mathbb{E}[M] = 0.95 \, \mathbb{E}[T] + 0.65 = 19.65 \neq \mathbb{E}[T] \]

因此,温度计是温度的有偏估计量

估计量的偏差(bias)定义为:

\[ \mathcal{B}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta \]

而其方差(variance)为:

\[ \text{Var}(\hat{\theta}) = \mathbb{E}[(\hat{\theta} - \mathbb{E}[\hat{\theta}] )^2] \]

理想情况下,我们希望估计量既低偏差低方差。但实际中,这两者存在权衡关系,即偏差-方差权衡(bias-variance trade-off):

biasvariance3


基于采样的估计(Sampling-based evaluation)

bandit-samples2

奖励分布的期望可以用采样均值来近似:

\[ \mathbb{E} [r(a)] \approx \frac{1}{N} \sum_{t=1}^N r_t |_{a_t = a} \]

当动作 \(a\) 被选择了 \(t\) 次后:

\[ Q_t (a) = \frac{r_1 + r_2 + ... + r_t }{t} \]

随着时间推移:

\[ \lim_{t \to \infty} Q_t (a) = Q^* (a) \]

可以用在线(online)方式更新均值估计:

\[ Q_{t+1}(a) = Q_t(a) + \frac{1}{t+1}(r_{t+1} - Q_t(a)) \]

如果奖励分布是非平稳(non-stationary)的,则 \(\frac{1}{t+1}\) 会太小,更新变慢。
此时用固定步长参数(学习率\(\alpha\) 替换之:

\[ Q_{t+1}(a) = Q_t(a) + \alpha (r_{t+1} - Q_t(a)) \]

该形式称为指数滑动平均(EMA)

更新规则总结为:

\[ \text{新估计} = \text{当前估计} + \alpha (\text{目标} - \text{当前估计}) \]


动作选择(Action selection)

我们已得到当前的 \(Q_t(a)\) 估计,接下来应选哪个动作?

贪婪策略(Greedy)

贪婪动作为:

\[ a^*_t = \text{argmax}_{a} Q_t(a) \]

贪婪策略总是选择当前估计值最高的动作,但这可能导致陷入局部最优。

bandit-estimates-greedy

探索-利用(exploration-exploitation)困境

  • 利用:使用当前估计选择最佳动作(但可能错误);
  • 探索:尝试其他动作以改进估计。

通常做法是:

  • 初期更多探索;
  • 后期更多利用。

exploration_vs_exploitation


\(\epsilon\)-贪婪策略(\(\epsilon\)-greedy)

以概率 \(1-\epsilon\) 选择贪婪动作,以概率 \(\epsilon\) 随机选择其他动作:

\[ \pi(a) = \begin{cases} 1 - \epsilon, & a = a_t^* \\\frac{\epsilon}{|\mathcal{A}| - 1}, & \text{否则}\end{cases} \]


Softmax 动作选择

通过软最大分布(Gibbs/Boltzmann 分布)选择动作:

\[ \pi(a) = \frac{\exp(Q_t(a)/\tau)}{\sum_{a'} \exp(Q_t(a')/\tau)} \]

温度参数 \(\tau\) 控制探索程度:

  • 高温 → 动作几乎等概率;
  • 低温 → 只选贪婪动作。

bandit-estimates-softmax


乐观初值(Optimistic initial values)

若初始 \(Q_0\) 较大,则所有动作都会被尝试,从而自然实现探索。
但会导致初期的高估


强化比较(Reinforcement comparison)

仅维护每个动作的偏好值 \(p_t(a)\)

\[ p_{t+1}(a_t) = p_t(a_t) + \beta (r_t - \tilde{r}_t) \]

其中 \(\tilde{r}_t\) 是平均奖励的滑动估计。
动作的选择概率:

\[ \pi_t (a) = \frac{\exp p_t(a)}{\sum_{a'} \exp p_t(a')} \]

此思想是演员-评论家(actor-critic)架构的核心。


梯度bandit算法(Gradient bandit)

与强化比较类似,但还会减少非执行动作的偏好:

\[ p_{t+1}(a_t) = p_t(a_t) + \beta (r_t - \tilde{r}_t)(1 - \pi_t(a_t)) \]

\[ p_{t+1}(a) = p_t(a) - \beta (r_t - \tilde{r}_t)\pi_t(a), \quad a \neq a_t \]


上置信界(UCB)动作选择

基于对动作价值的不确定性(方差)自动平衡探索与利用:

\[ a^*_t = \text{argmax}_{a} \left[ Q_t(a) + c \sqrt{\frac{\ln t}{N_t(a)}} \right] \]

其中:

  • \(Q_t(a)\) 是当前估计;
  • \(N_t(a)\) 是动作 \(a\) 被选择的次数;
  • \(c\) 控制探索程度。

当某动作被探索次数少时,第二项较大,会鼓励探索;
当动作被充分探索时,第二项趋近于0,策略趋向贪婪。

bandit-ucb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/930791.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

升级下载:进阶版(二级单工序)

升级下载:进阶版(二级单工序)Posted on 2025-10-07 20:09 EXLman 阅读(0) 评论(0) 收藏 举报. 当前款式:进阶版(二级单工序) . 文件名称:PXCtwobom.dll . 升级方法:下载解压后,直接替换该文件 .

绵阳 网站建设百度官网网址

最近接触一个新的传统项目,在联调过程中,查看日志特别不方便,既无trackId,即无接口耗时,所以写了该博客。话不多说,直接上代码 1、实体类user package com.yk.domain;import lombok.Data;Data public cla…

UCB-CS70_离散数学_个人笔记:至少和至多 - Zeeh

有趣的命题 在note1中,提出了两个关于“至少”和“至多”的命题:There are at least three distinct integers x that satisfy P(x). 有 最多 三个不同的整数x这满足p(x)。对于这两个命题,可以分别用下面两个式子…

太原网站制作开发域名怎么实名认证

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1. 找镜像: docker search nexus2. 拉取镜像:(我已经拉取过,不选择版本时,默认…

模板做的网站 怎么提升排名商标设计公司推荐

冒泡排序 比较相邻的元素。如果第一个比第二个大,就交换他们两个。对每一对相邻元素做同样的工作,从开始第一对到结尾的最后一对。在这一点,最后的元素应该会是最大的数。针对所有的元素重复以上的步骤,除了最后一个。持续每次对越…

10.7 NOIP 模拟赛 T2. 中心极限定理

思路 发现吃马不好维护, 考虑直接状态压缩马的存活情况, 可以做到 \(\mathcal{O} (n^2 2^m)\) 考虑进一步处理, 发现由于你的棋子不能回头, 吃掉一个马后, 最多走三步就跳出了马的范围, 所以我们可以直接把前两步的路线…

【题解】10.6 国庆中秋 提高组 热身赛

1.栅栏密码 题目传送门题目大意: 给定高度 h 和一行使用栅栏密码加密的密文字符串 s,请你输出一行明文字符串 plain。 即把明文排列成若干个 \/\/\/ 的形状,然后再逐行按从左到右的顺序取出字符,形成密文。STEP 1.…

深圳手机网站建设牛商网购物网站的排版

简介: 先说下什么是人脸识别系统:举个例子,公司门口有个人脸识别系统,员工站到门口,看着摄像头,大屏幕上会抓拍到你的人脸,然后和公司的员工照片库里的照片比对,比对成功就提示&…

深入解析:pikachu通关教程-File Inclusion

深入解析:pikachu通关教程-File Inclusion2025-10-07 20:03 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: blo…

UCB-CS70个人笔记:至少和至多 - Zeeh

有趣的命题 在note1中,提出了两个关于“至少”和“至多”的命题:There are at least three distinct integers x that satisfy P(x). 有 最多 三个不同的整数x这满足p(x)。对于这两个命题,可以分别用下面两个式子…

几个重要的偏微分方程

几个重要的偏微分方程1. 弦振动方程

虚拟机器人学习自然语言指令技术解析

介绍两项创新性研究,通过视觉与语言理解技术提升虚拟环境中机器人任务完成能力。包含DialFRED对话增强框架和感知可用性神经SLAM模型,在模拟环境中实现超过20%的性能提升。虚拟机器人学习自然语言指令技术解析 研究背…

vr技术在网站建设的应用南京浦口网站建设

🤖 与ChatGPT亲密接触 🤖 ChatGPT!它就是一款强大的聊天型人工智能模型,可以与你进行各种有趣的对话,就像我们在这里一样。不论你想聊天、提问、寻求建议,还是只是想找个伙伴一起闲聊,ChatGPT都…

题解:换乘旅行

换乘旅行 题目描述 小明来到了一座著名的旅游城市,这座城市有一个包含\(n\)个站点的公共交通网络。该网络的运行方式非常独特。每个站点\(i\)都有一个按顺序排列的摆渡车出发队列。每辆摆渡车都有一个固定的、预先设定…

2025企业级AI数据防泄漏指南:精准选型与核心指标全景透视

2025企业级AI数据防泄漏指南:精准选型与核心指标全景透视为应对AI应用敏感数据泄露的严峻挑战,2025年市场主流方案已形成流式网关技术路线共识。本文基于AI-FOCUS团队的AI FENCE测试数据与合规要求,深度解析拦截召回…

网站排名优化有哪些牛霸天的软件1莆田百度seo公司

使用python时,我们会发现经常需要import一些模块。模块其实就是一个python文件,导入模块的实质是把模块中的内容执行一次。例如,有个模块叫mokuai,我们可以这样导入from mokuai import * # 导入所有的内容from mokuai import a #从import中导…

完整教程:结构型设计模式之Proxy(代理)

完整教程:结构型设计模式之Proxy(代理)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

感觉你是那种

感觉你是那种写完T1被卡常问候出题人后发现没删fsanitize的人。 感觉你是那种计数题都不愿意在纸上写式子的人。 感觉你是那种看完计数题题解后都不知道结论是怎么观察到只能喷题目的人。 感觉你是那种打完CF最后总是会…

完整教程:三层架构 vs SOA vs 微服务:该选谁?

完整教程:三层架构 vs SOA vs 微服务:该选谁?2025-10-07 19:49 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display…

学做网站论坛vip共享网站设计的基本过程

人工湿地计算书1、尾水提升泵房集水池基本参数集水池设计规模为30000m3/d,约折合1250m3/h,按水力停留时间HRT为0.25 h计,集水井有效容积应为312.5 m3,考虑到与污水厂原有排污管道相契合,集水设计尺寸为:LBH…