PPO是属于什么类型的RL算法,on policy还是off policy

PPO是属于什么类型的RL算法,on policy还是off policy

PPO(Proximal Policy Optimization属于 on-policy 的强化学习算法


结论一句话

👉PPO 是 on-policy 的策略梯度(Policy Gradient)方法,而不是 off-policy。


为什么 PPO 是 on-policy?

1️⃣ 数据来源决定属性

  • on-policy
    使用**当前策略(或非常接近的策略)**采样得到的数据来更新策略

  • off-policy
    可以用历史策略或其他策略采样的数据(例如 replay buffer)

👉 PPO 在每一轮更新中:

  • 当前策略πθ_old采样轨迹

  • 用这些轨迹来更新新策略 πθ

虽然更新过程中会进行多次gradient step,但这些数据不能跨策略长期复用,这就是 on-policy 的核心特征。


2️⃣ PPO 的核心目标函数是 on-policy 的

PPO 的 clipped objective:

LCLIP(θ)=Et[min⁡(rt(θ)At, clip(rt(θ),1−ϵ,1+ϵ)At)]L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) A_t,\; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]LCLIP(θ)=Et​[min(rt​(θ)At​,clip(rt​(θ),1−ϵ,1+ϵ)At​)]

其中:

rt(θ)=πθ(at∣st)πθold(at∣st)r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}rt​(θ)=πθold​​(at​∣st​)πθ​(at​∣st​)​

关键点:

  • 分母是采样数据时的旧策略

  • 数据必须来自π_old

  • 如果策略差太多,clip 会限制更新

👉 这是受限的 on-policy 更新,而不是 off-policy 的任意重放。


3️⃣ PPO 和 off-policy 方法的本质区别

算法类型是否可用 replay buffer代表算法
PPOOn-policy❌ 不可长期复用PPO, A2C, TRPO
DQNOff-policyDQN
SACOff-policySAC
TD3Off-policyTD3

常见误解澄清 ⚠️

❌ “PPO 用 importance sampling,所以是 off-policy?”

不对。

  • PPO 的 importance sampling只是限制新旧策略的差异

  • 并不允许使用任意旧数据

  • 数据仍然来自最近一次策略

👉 这是on-policy with correction,不是 off-policy


一句话记忆法 🧠

  • 策略梯度 + 当前策略采样 = on-policy

  • Q-learning + replay buffer = off-policy

PPO 属于前者。


如果你愿意,我也可以:

  • 理论角度对比 PPO vs SAC

  • 量化交易 / 连续控制角度讲为什么 PPO 常被用

  • 结合代码(如 Stable-Baselines / CleanRL)解释 on-policy 的具体实现

直接告诉我你更关心哪一块 👍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1014718.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python大数据项目推荐】Spark+Django共享单车数据分析可视化系统实现 毕业设计 选题推荐 毕设选题 数据分析 机器学习

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡如果你遇到具体的…

vue基于Spring Boot框架的在线投稿系统的设计与开发_fu09r447

目录具体实现截图项目介绍论文大纲核心代码部分展示项目运行指导结论源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作具体实现截图 本系统(程序源码数据库调试部署讲解)同时还支持java、ThinkPHP、Node.js、Spring B…

某安全so库深度解析

分析对象: sub_1B924 及其完整调用链(so文件见附件) 分析目标: 还原代码逻辑、提取核心对抗算法、复现 Shellcode、制定防御策略 分析深度: 指令级/内核级 技术标签: Anti-Frida, Watchdog, Shellcode I…

压缩文件夹下下所有文件成压缩包tar.gz--随笔016

你需要将指定文件夹下的 ** 所有文件(包含子文件夹及其中文件)** 打包并压缩为tar.gz格式,我会提供具体的终端命令、参数解释和注意事项,适用于 Linux/macOS 系统(Windows 可使用 Git Bash、WSL 或 7-Zip 执行&#xf…

影刀RPA神操作!TikTok直播转化分析效率提升800%,告别手工统计![特殊字符]

影刀RPA神操作!TikTok直播转化分析效率提升800%,告别手工统计!🚀每次直播后还在手动导出数据、整理Excel到凌晨?别傻了!今天我用影刀RPA打造直播数据智能分析机器人,3分钟搞定全流程&#xff0c…

05-矩阵理论复习第五章 向量与矩阵范数

本文内容为研究生矩阵理论复习第五章 向量与矩阵范数笔记记录,包含了向量的1范数,2范数,无穷范数,以及矩阵的1范数,2范数,无穷范数,与F范数等知识内容,还介绍了谱半径相关PDF文档可前…

Emacs折腾日记(三十三)——org实现gtd任务管理系统

在日常的工作生活中有各种各样的琐事,如果不及时记录下来很可能后面就忘了。或者在日常软件开发中有很多想法想要实现但是时间一长自己就忘了。这种情况下我们需要一个系统来记录收集想法并且后续需要追踪甚至回顾。我…

【Python大数据分析选题】基于Hadoop+Spark的股市行情可视化平台 毕业设计 选题推荐 毕设选题 数据分析 机器学习

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡如果你遇到具体的…

【开题答辩全过程】以 基于协同过滤算法的经济型酒店推荐系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

CF1015F Bracket Substring - crazy-

前缀函数,dp 题意 给定括号序列 \(s\),和正整数 \(n\),求出有多少个长度为 \(2n\) 的合法括号序列包含子串 \(s\)。 \(1 \le n \le 100\),\(s\)(\(1 \le |s| \le 200\),答案对 \(10^9+7\) 取模。 题解 套路的将左…

华为开源自研AI框架昇思MindSpore实战:手把手带你用GAN生成手写数字

如果你对MindSpore感兴趣,可以关注昇思MindSpore社区 1. 写在前面 生成式对抗网络(GAN)自2014年由Ian Goodfellow提出以来,一直是深度学习领域最引人注目的技术之一。它就像是两个AI模型在进行一场“猫鼠游戏”:一…

SpringBoot 缓存深入

JSR107在我们了解SpringBoot缓存深入的时候,我们首先需要了解JSR107。JSR:是Java Specification Requset 的缩写,Java规范请求;其是Java提供的一个接口规范,类似于jdbc规范,但是没有具体的实现,…

TikTok商品视频发布太耗时?影刀RPA一键智能发布,效率飙升12倍![特殊字符]

TikTok商品视频发布太耗时?影刀RPA一键智能发布,效率飙升12倍!🚀作为影刀RPA的资深布道者,我深知电商运营在视频发布上的"重复劳动之痛"。今天,就带你用RPA技术打造短视频发布"智能流水线&q…

服务架构相关知识及演进

1. 基本概念应用(Application)/ 系统(system) 完成一整套服务的一个程序或一组相互配合的程序群模块(Module)/ 组件(Component) 应用程序复杂时,会将其划分不同的部分&am…

使用 Python 语言 从 0 到 1 搭建完整 Web UI自动化测试学习系列 33--基础知识 8--切换窗口句柄

测试学习记录,仅供参考! 如何切换窗口句柄 在浏览器中,每打开一个新标签页或者窗口,均是有唯一标识符的; 打开新标签页时在新的标签页中继续操作是 web 自动化很常见的一种方式,需要切换窗口句柄才能继续…

7-3 NCHUD-数字电路模拟程序

第一次作业 1.题目 数字电路是一种处理离散信号的电子电路。与处理连续变化信号(如声音、温度)的模拟电路不同,数字电路只识别和运算两种基本状态:高电平(通常表示为“1”) 和 低电平(通常表示为“0”)。这正好…

C语言图论:最小生成树算法

本文献给: 已掌握图论基础,希望理解如何在带权连通图中找到最小生成树的C语言学习者。本文将系统讲解两种经典的最小生成树算法。 你将学到: 最小生成树问题的定义与核心概念Prim算法:从顶点出发,逐步扩张生成树Kruska…