强化学习笔记(5)——PPO

PPO视频课程来源
首先理解采样期望的转换
请添加图片描述

变量x在p(x)分布下,函数f(x)的期望 等于f(x)乘以对应出现概率p(x)的累加
经过转换后变成
x在q(x)分布下,f(x)*p(x)/q(x) 的期望。

起因是:求最大化回报的期望,所以对ceta求梯度

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

具体举例:上述公式计算的流程?如何求一条轨迹的梯度?
我理解就算是概率相乘在这里插入图片描述> 一回合的回报乘以该回合梯度除以该轨迹(s,a,r,s,a…)出现概率
如何求一条轨迹的梯度?
在这里插入图片描述

然后PPO 推倒,对数 概率连乘,等于概率累加

在这里插入图片描述

但这样有问题:用一整个回合的回报来计算梯度,会导致“未来的动作”影响过去的状态,且 优势情况下,惩罚不明显
于是改成:
在这里插入图片描述
在这里插入图片描述
将优势函数 转换成值函数表示,然后写出多步优势函数即推导出GAE在这里插入图片描述
其实就是用走了不同步的Q(s,a)-V(s) ,然后加权
在这里插入图片描述
加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比 在这里插入图片描述
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率

在这里插入图片描述
为了防止:过去参数ceta’ 和 ceta 差距不要太大,有两种衡量方式;
1:KL散度 :这貌似又叫TRPO
2:clip截断防止差的太大

在这里插入图片描述

伪代码
在这里插入图片描述
用old策略网络做动作和环境交互,然后梯度更新,每过K个epochs将old参数复制给new

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/68950.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何处理 Typecho Joe 主题被抄袭或盗版的问题

在开源社区中,版权保护是一个非常重要的话题。如果你发现自己的主题(如 Joe 主题)被其他主题(如子比主题)抄袭或盗版,你可以采取以下措施来维护自己的权益。 一、确认侵权行为 在采取任何行动之前&#xf…

chatGPT写的网页版贪吃蛇小游戏

chatGPT写的网页版贪吃蛇小游戏 前言网页版贪吃蛇小游戏 前言 之前无聊,让ChatGPT写了一段基于html语言的贪吃蛇小游戏代码 网页版贪吃蛇小游戏 将以下内容复制到记事本,重命名为xxx.html即可打开浏览器游玩 这里是一个使用HTML、CSS和JavaScript编写…

Linux第105步_基于SiI9022A芯片的RGB转HDMI实验

SiI9022A是一款HDMI传输芯片,可以将“音视频接口”转换为HDMI或者DVI格式,是一个视频转换芯片。本实验基于linux的驱动程序设计。 SiI9022A支持输入视频格式有:xvYCC、BTA-T1004、ITU-R.656,内置DE发生器,支持SYNC格式…

人机交互系统实验三 多通道用户界面

实验目的和要求 1)了解常见的多通道用户界面 2)查找资料,熟悉一种多通道用户界面并写出综述 实验环境 Windows10 实验内容与过程 (一) 实验内容: 要求上网查找资料,熟悉一种多通道用户界面并写出综述,可以是眼动跟踪、手势识别、 三维…

SQL进阶实战技巧:某芯片工厂设备任务排产调度分析 | 间隙分析技术应用

目录 0 技术定义与核心原理 1 场景描述 2 数据准备 3 间隙分析法 步骤1:原始时间线可视化

ANSYS Workbench打开cdb文件

背景: 前面一篇文章已经说过ANSYS Mechanical APDL打开cdb文件-CSDN博客,经典ANSYS界面可以打开HyperMesh中生成的cdb文件,如果是workbench,那么该如何操作? 方法: 首先打开ANSYS的workbench软件&#xf…

Java多线程——对象的组合

设计线程安全的类 找出构成对象状态的所有变量找出约束状态变量的不变性条件建立对象状态的并发访问管理策略 实例封闭 当一个对象被封装到另一个对象中,能够访问被封装对象的所有代码路径都是已知的。 通过封闭和加锁,可以确保以线程安全的方式使用…

在K8S中,如何把某个worker节点设置为不可调度?

在Kubernetes中,如果你想要把一个worker节点设置为不可调度,意味着你不想让Kubernetes调度器在这个节点上调度新的Pod。这通常用于维护或升级节点,或者当节点遇到硬件故障或性能问题时,要将某个worker节点设置为不可调度。 方法1…

计算图 Compute Graph 和自动求导 Autograd | PyTorch 深度学习实战

前一篇文章,Tensor 基本操作5 device 管理,使用 GPU 设备 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started PyTorch 计算图和 Autograd 微积分之于机器学习Computational Graphs 计算图Autograd…

探秘Linux IO虚拟化:virtio的奇幻之旅

在当今数字化时代,虚拟化技术早已成为推动计算机领域发展的重要力量。想象一下,一台物理主机上能同时运行多个相互隔离的虚拟机,每个虚拟机都仿佛拥有自己独立的硬件资源,这一切是如何实现的呢?今天,就让我…

Mac本地部署DeekSeek-R1下载太慢怎么办?

Ubuntu 24 本地安装DeekSeek-R1 在命令行先安装ollama curl -fsSL https://ollama.com/install.sh | sh 下载太慢,使用讯雷,mac版下载链接 https://ollama.com/download/Ollama-darwin.zip 进入网站 deepseek-r1:8b,看内存大小4G就8B模型 …

Spring 面试题【每日20道】【其二】

1、Spring MVC 具体的工作原理? 中等 Spring MVC 是 Spring 框架的一部分,专门用于构建基于Java的Web应用程序。它采用模型-视图-控制器(MVC)架构模式,有助于分离应用程序的不同方面,如输入逻辑、业务逻辑…

基于UKF-IMM无迹卡尔曼滤波与交互式多模型的轨迹跟踪算法matlab仿真,对比EKF-IMM和UKF

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于UKF-IMM无迹卡尔曼滤波与交互式多模型的轨迹跟踪算法matlab仿真,对比EKF-IMM和UKF。 2.测试软件版本以及运行结果展示 MATLAB2022A版本运行 3.核心程序 .…

用FormLinker实现自动调整数据格式,批量导入微软表单

每天早上打开Excel时,你是否也经历过这样的噩梦? 熬夜调整好的问卷格式,导入微软表单后全乱套 客户发来的PDF反馈表,手动录入3小时才完成10% 200道题库要转为在线测试,复制粘贴到手指抽筋 微软官方数据显示&#xf…

opencv图像处理框架

一.课程简介与环境配置 二.图像基本操作 (1)计算机眼中的视觉 1)计算机眼中图像是由一块块组成,每一块又由很多很多个像素点组成,一个像素点的值是在0到255之间,值越大就越亮。 2)RGB表示彩色图像的三个颜色通道(红绿蓝),一张…

【自学笔记】JavaWeb的重点知识点-持续更新

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 JavaWeb知识点一、基础概念二、项目结构三、Tomcat服务器四、数据库连接(JDBC)五、前端技术六、高级技术 总结 以下是JavaWeb知识点的MD格式…

前端架构师的职责之我见

我觉得前端架构师的职责有下面几点: 从全局的角度来看待技术需求和实施技术应用。通过架构设计和模式使用及基础设施建设来赋能开发工作。通过影响和示范来提升团队成员用技术手段解决问题的意识和能力。 下面具体解释一下: 从全局的角度来看待技术需…

PWN--格式化字符串

简介 ‌格式化字符串‌是指在编程过程中,通过特殊的占位符将相关对应的信息整合或提取的规则字符串。格式化字符串包括格式化输入和格式化输出,其本质是程序员调用相关格式化字符串的操作协议规定。错误的或不当的信息配置可能导致程序运行失效或产生未…

基于脉冲响应不变法的IIR滤波器设计与MATLAB实现

一、设计原理 脉冲响应不变法是一种将模拟滤波器转换为数字滤波器的经典方法。其核心思想是通过对模拟滤波器的冲激响应进行等间隔采样来获得数字滤波器的单位脉冲响应。 设计步骤: 确定数字滤波器性能指标 将数字指标转换为等效的模拟滤波器指标 设计对应的模拟…

马克思主义哲学知识梳理(考公版)

马克思主义哲学是照亮我们认识世界、改造世界的明灯,考公人学好它,笔试面试都能 “开挂”。下面就一起来梳理这些重要内容。 一、哲学 哲学就像是一门 “智慧的学问”,它是对世界基本和普遍的问题研究的学科,探索着宇宙、人生、…