《强化学习数学原理》学习笔记7——从贝尔曼最优方程得到最优策略 - 教程

news/2025/10/29 19:42:43/文章来源:https://www.cnblogs.com/yangykaifa/p/19175246

下面求解贝尔曼最优方程,从而得到最优状态价值v ∗ v^*v 和最优策略 π ∗ \pi^*π

一、求解最优状态价值v ∗ v^*v

v ∗ v^*v是贝尔曼最优方程的解,那么它满足:
v ∗ = max ⁡ π ∈ Π ( r π + γ P π v ∗ ) (1) v^* = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v^*) \tag{1}v=πΠmax(rπ+γPπv)(1)
显然,v ∗ v^*v是一个不动点,源于v ∗ = f ( v ∗ ) v^* = f(v^*)v=f(v)(这里 f ( v ) = max ⁡ π ∈ Π ( r π + γ P π v ) f(v) = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v)f(v)=maxπΠ(rπ+γPπv))。结合压缩映射定理,大家有以下结论。

存在性、唯一性与算法:对于贝尔曼最优方程v = f ( v ) = max ⁡ π ∈ Π ( r π + γ P π v ) v = f(v) = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v)v=f(v)=maxπΠ(rπ+γPπv),始终存在唯一的解v ∗ v^*v,可以通过迭代法求解:
v k + 1 = f ( v k ) = max ⁡ π ∈ Π ( r π + γ P π v k ) , k = 0 , 1 , 2 , … (2) v_{k + 1} = f(v_k) = \max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v_k), \quad k = 0, 1, 2, \dots \tag{2}vk+1=f(vk)=πΠmax(rπ+γPπvk),k=0,1,2,(2)
对于任意初始给定的v 0 v_0v0,当 k → ∞ k \to \inftyk 时,v k v_kvk会以指数速度快速收敛到v ∗ v^*v

由于 f ( v ) f(v)f(v)是压缩映射,该定理的证明可直接由压缩映射定理得到。这个定理很核心,因为它回答了一些基本问题:

二、求解最优策略π ∗ \pi^*π

一旦得到 v ∗ v^*v的值,我们可以通过求解下式轻松得到π ∗ \pi^*π
π ∗ = arg ⁡ max ⁡ π ∈ Π ( r π + γ P π v ∗ ) (3) \pi^* = \arg\max_{\pi \in \Pi} (r_{\pi} + \gamma P_{\pi} v^*) \tag{3}π=argπΠmax(rπ+γPπv)(3)
将式(3)代入贝尔曼最优方程可得:
v ∗ = r π ∗ + γ P π ∗ v ∗ (4) v^* = r_{\pi^*} + \gamma P_{\pi^*} v^* \tag{4}v=rπ+γPπv(4)
因此,v ∗ = v π ∗ v^* = v_{\pi^*}v=vππ ∗ \pi^*π的状态价值,且贝尔曼最优方程是一个特殊的贝尔曼方程,其对应的策略是π ∗ \pi^*π

此时,尽管我们可以求解v ∗ v^*vπ ∗ \pi^*π,但仍不清楚这个解是否是最优的。下面的定理揭示了解的最优性。

v ∗ v^*vπ ∗ \pi^*π 的最优性:解 v ∗ v^*v是最优状态价值,π ∗ \pi^*π是最优策略。即,对于任意策略π \piπ,有
v ∗ = v π ∗ ≥ v π (5) v^* = v_{\pi^*} \geq v_{\pi} \tag{5}v=vπvπ(5)
其中 v π v_{\pi}vππ \piπ的状态价值,≥ \geq是按元素比较。上述定理的证明如下:

对于任意策略π \piπ,有
v π = r π + γ P π v π (6) v_{\pi} = r_{\pi} + \gamma P_{\pi} v_{\pi} \tag{6}vπ=rπ+γPπvπ(6)
因为
v ∗ = max ⁡ π ( r π + γ P π v ∗ ) = r π ∗ + γ P π ∗ v ∗ ≥ r π + γ P π v ∗ (7) v^* = \max_{\pi} (r_{\pi} + \gamma P_{\pi} v^*) = r_{\pi^*} + \gamma P_{\pi^*} v^* \geq r_{\pi} + \gamma P_{\pi} v^* \tag{7}v=πmax(rπ+γPπv)=rπ+γPπvrπ+γPπv(7)
所以我们有
v ∗ − v π ≥ ( r π + γ P π v ∗ ) − ( r π + γ P π v π ) = γ P π ( v ∗ − v π ) (8) v^* - v_{\pi} \geq (r_{\pi} + \gamma P_{\pi} v^*) - (r_{\pi} + \gamma P_{\pi} v_{\pi}) = \gamma P_{\pi} (v^* - v_{\pi}) \tag{8}vvπ(rπ+γPπv)(rπ+γPπvπ)=γPπ(vvπ)(8)
重复应用上述不等式可得v ∗ − v π ≥ γ P π ( v ∗ − v π ) ≥ γ 2 P π 2 ( v ∗ − v π ) ≥ ⋯ ≥ γ n P π n ( v ∗ − v π ) v^* - v_{\pi} \geq \gamma P_{\pi} (v^* - v_{\pi}) \geq \gamma^2 P_{\pi}^2 (v^* - v_{\pi}) \geq \dots \geq \gamma^n P_{\pi}^n (v^* - v_{\pi})vvπγPπ(vvπ)γ2Pπ2(vvπ)γnPπn(vvπ)。由此可得
v ∗ − v π ≥ lim ⁡ n → ∞ γ n P π n ( v ∗ − v π ) = 0 (9) v^* - v_{\pi} \geq \lim_{n \to \infty} \gamma^n P_{\pi}^n (v^* - v_{\pi}) = 0 \tag{9}vvπnlimγnPπn(vvπ)=0(9)
因为就是最后一个等式成立γ < 1 \gamma < 1γ<1,且 P π n P_{\pi}^nPπn是一个非负矩阵,其所有元素都小于或等于 1(因为P π n 1 = 1 P_{\pi}^n \mathbf{1} = \mathbf{1}Pπn1=1)。因此,对于任意π \piπ,有 v ∗ ≥ v π v^* \geq v_{\pi}vvπ

接下来,我们更仔细地研究式(3)中的π ∗ \pi^*π。具体来说,下面的定理表明,始终存在一个确定性的贪婪策略是最优的。

贪婪最优策略证明

贪婪最优策略:假设 v ∗ v^*v是贝尔曼最优方程的最优状态值解。对于任意s ∈ S s \in \mathcal{S}sS,确定性贪婪策略
π ∗ ( a ∣ s ) = { 1 , a = a ∗ ( s ) 0 , a ≠ a ∗ ( s ) (10) \pi^*(a|s) = \begin{cases} 1, & a = a^*(s) \\ 0, & a \neq a^*(s) \end{cases} \tag{10}π(as)={1,0,a=a(s)a=a(s)(10)
是求解贝尔曼最优方程的最优策略。这里,
a ∗ ( s ) = arg ⁡ max ⁡ a q ∗ ( a , s ) (11) a^*(s) = \arg\max_{a} q^*(a, s) \tag{11}a(s)=argamaxq(a,s)(11)
其中
q ∗ ( s , a ) ≜ ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v ∗ ( s ′ ) (12) q^*(s, a) \triangleq \sum_{r \in \mathcal{R}} p(r|s, a)r + \gamma \sum_{s' \in \mathcal{S}} p(s'|s, a)v^*(s') \tag{12}q(s,a)rRp(rs,a)r+γsSp(ss,a)v(s)(12)
证明如下:
最优策略的矩阵 - 向量形式是π ∗ = arg ⁡ max ⁡ π ( r π + γ P π v ∗ ) \pi^* = \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v^*)π=argmaxπ(rπ+γPπv),其元素展开形式为
π ∗ ( s ) = arg ⁡ max ⁡ π ∈ Π ∑ a ∈ A π ( a ∣ s ) ( ∑ r ∈ R p ( r ∣ s , a ) r + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) v ∗ ( s ′ ) ) ⏟ q ∗ ( s , a ) , s ∈ S (13) \pi^*(s) = \arg\max_{\pi \in \Pi} \sum_{a \in \mathcal{A}} \pi(a|s) \underbrace{\left( \sum_{r \in \mathcal{R}} p(r|s, a)r + \gamma \sum_{s' \in \mathcal{S}} p(s'|s, a)v^*(s') \right)}_{q^*(s, a)}, \quad s \in \mathcal{S} \tag{13}π(s)=argπΠmaxaAπ(as)q(s,a)(rRp(rs,a)r+γsSp(ss,a)v(s)),sS(13)
显然,如果 π ( s ) \pi(s)π(s)选择具有最大q ∗ ( s , a ) q^*(s, a)q(s,a)的动作,那么∑ a ∈ A π ( a ∣ s ) q ∗ ( s , a ) \sum_{a \in \mathcal{A}} \pi(a|s) q^*(s, a)aAπ(as)q(s,a)会被最大化。

式(10)中的策略被称为贪婪策略,缘于它选择具有最大q ∗ ( s , a ) q^*(s, a)q(s,a)的动作,它指出总是存在一个确定性的贪婪策略是最优的。最终,大家讨论π ∗ \pi^*π的两个要紧性质:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/950196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

白忙活这么多年!早知道有这9款软件,我少熬好几个通宵!

有时候回头一想,过去几年真的太多“重复劳动”“无效沟通”“忙着忙着就下班了”的时刻。 现在回过头来看,那根本不叫“勤奋”,那叫“工具落后”。 换句话说: 不是你不努力,是你用的工具太原始。 今天不讲虚的,也…

P4427 [BJOI2018] 求和

P4427 [BJOI2018] 求和 题解题目传送门 欢迎光临我的博客喵 (以下记每个点的点权为它在此题中的深度) (以下运算均忽略取模) 我曾经听说过一个技巧:对于有关树上路径的一类问题,我们可以把 \(u -> v\) 的路径…

C++ string底层完成逻辑(与类知识点结合)string——下

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025青科会启幕,网易伏羲携游戏AI前沿实践共话未来

2025年10月24日-26日,由中国科协与浙江省人民政府共同发起的2025世界青年科学家峰会(以下简称“青科会”)在浙江温州举行。这场面向全球青年高层次人才的科技盛会,吸引了来自47个国家和地区、70余家国际科技组织的…

Python电力负荷预测:LSTM、GRU、DeepAR、XGBoost、Stacking、ARIMA结合多源数据融合与SHAP可解释性的研究

全文链接:https://tecdat.cn/?p=44127视频出处:拓端抖音号@拓端tecdat分析师:Junye Ge作为数据科学团队,我们在电力能源领域深耕多年,曾为多地电网公司提供负荷预测咨询服务,本文内容正是基于过往某省级电网预测…

第二十九篇

今天是10月29日,上了离散和马原

Paper Reading: Symbolic Regression Enhanced Decision Trees for Classification Tasks

本文提出的 SREDT 模型融合了符号回归与决策树的优势,其核心思想是在决策树构建过程中,将传统的轴平行分割替换为通过符号回归发现的丰富数学表达式分割。SREDT 基于 CART 算法框架,但在每个节点分割时不再局限于单…

专题:2025年医疗健康行业状况报告:投融资、脑机接口、AI担忧|附130+份报告PDF合集、图表下载

原文链接:https://tecdat.cn/?p=44088原文出处:拓端抖音号@拓端tecdat2025年医疗健康行业在“消费透明化”“资本聚焦创新”“技术跨国竞争”“AI风险管控”四大维度呈现显著特征——香港私家医院常见治疗收费差距最…

SQL Server创建指定数据库的账号且看不到其他任何用户创建的数据库

SQL Server创建指定数据库的账号且看不到其他任何用户创建的数据库-- 创建一个 SQL Server 身份验证的登录名CREATE LOGIN 登录名WITH PASSWORD = 设置密码; -- 切换到你希望授权的特定数据库USE 指定数据库名称;GO --…

专题:2025年制造业数智化发展白皮书:数字化转型与智能制造|附130+份报告PDF、数据、绘图模板汇总下载

原文链接:https://tecdat.cn/?p=44117原文出处:拓端抖音号@拓端tecdat20年前,制造业还是“机器轰鸣、人工巡检”的传统图景,一条生产线要靠老师傅的经验把控质量;10年前,自动化设备开始普及,但数据孤岛让“智能…

大家好,我个人爱好开通了一个公众号!!!

大家好,我个人爱好开通了一个公众号!!! 个人爱好,开通了一个公众号“与君说事”,与君说世间事,带您玩转生活圈!让我们一起关注世间百态,共赏人间烟火! 欢迎喜欢我博客园的有缘人,移步微信公众号,搜索关注…

思源笔记多端同步方案:Docker MinIO + Siyuan-unlock

思源笔记多端同步方案:Docker MinIO + Siyuan-unlock1. 需求背景 思源笔记功能强大,有多端 PC 使用需求,但官方同步需付费 78 元。本方案仅需一台服务器即可实现免费同步。 适用人群:拥有一台服务器 多台 PC 需要同…

AI辅助渗透测试小试牛刀

AI辅助渗透测试小试牛刀 传统的自动化渗透测试工具在过去几十年中已成为安全评估的标准组成部分。然而,这些工具的效能主要局限于已知漏洞的广泛扫描和配置检查,其内在的局限性也日益凸显。传统自动化工具本质上是确…

python设置永久的国内镜像源

python设置永久的国内镜像源命令行配置(推荐) 通过pip config命令直接修改全局配置: # 设置全局镜像源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple/​# 设置信任的主机(解决HTTPS证…

完整教程:FFmpeg 全面教程:从安装到高级应用

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

程序员修炼之道:从小工到专家读后感(2025_10_29)

翻开《程序员修炼之道》的前三章,一种奇特的熟悉感扑面而来——不是那种已知内容的熟悉,而是那种“这正是我需要的”的熟悉。作为一个在代码世界中摸索前行的人,我曾无数次陷入技术的细枝末节,却忘了思考自己究竟在…

VisionPro学习笔记- CogCreateGraphicLabelTool

CogCreateGraphicLabelTool 工具文档 1. 工具概述 CogCreateGraphicLabelTool 是康耐视 VisionPro 视觉软件中的核心图形标注工具,用于在图像上叠加文本或坐标信息,以标识、注释或动态显示检测结果。它的主要功能是通…

Linux内核6.15.4性能调优、网络优化与稳定性增强详解

本文深入解析Linux内核6.15.4版本的关键改进,涵盖内存管理优化、网络协议栈增强、文件系统性能调优及稳定性修复。该版本重点解决了TLB刷新效率、零拷贝接收、TCP重传控制等核心问题,为生产环境部署提供重要参考。Li…

跨平台发布总翻车?真正能“一稿通发”的编辑器长什么样?实测揭晓答案

跨平台发布总翻车?真正能“一稿通发”的编辑器长什么样?实测揭晓答案2025年公众号编辑器怎么选?实测5款主流工具,这款全链路提效神器让运营效率翻3倍! 作为一名深耕新媒体领域十年的资深运营人,我每天都会被同行…