初识PPO

news/2025/11/8 18:47:38/文章来源:https://www.cnblogs.com/rifo/p/19202879
for batch_prompt in prompt_dataset:batch_response = active_model.generate(batch_prompt)batch_data = concat(batch_prompt, batch_response)batch_scores = reward_model(batch_data)batch_all_probs, batch_probs, batch_all_values = active_model.forward_pass(batch_data)ref_all_probs, ref_probs, ref_all_values = ref_model.forward_pass(batch_data)kls = compute_KL(batch_all_probs, ref_all_probs)rewards = compute_rewards(batch_scores, kls)advantages = compute_advantages(batch_all_values, rewards)returns = advantages + batch_all_valuesfor i in range(epoch):active_all_probs, active_probs, active_all_values = active_model.forward_pass(batch_data)loss_state_value = torch.mean((returns - active_all_values) ** 2)ratio = active_probs / batch_probsloss_ppo = torch.mean(-advantages * ratio)loss = loss_ppo + value_loss_rate * loss_state_valueloss.backward()optimizer.step()optimizer.zero_grad()

上面的代码是PPO训练的整体代码,参考教学视频:

https://www.bilibili.com/video/BV1rixye7ET6?spm_id_from=333.788.videopod.sections&vd_source=da862fa7a218e81897b55d7e24fe26ee

https://www.bilibili.com/video/BV1iz421h7gb?spm_id_from=333.788.videopod.sections&vd_source=da862fa7a218e81897b55d7e24fe26ee

https://www.bilibili.com/video/BV1enQLYKEA5/?spm_id_from=333.1387.homepage.video_card.click&vd_source=da862fa7a218e81897b55d7e24fe26ee


四个模型

基准模型(ref_model) 训练模型(activate model) 奖励模型(reward model) 状态价值模型(state_value model)

其中训练模型和状态价值模型只有输出头不同,在代码里体现为:active_model 同时包含策略头(policy head)和状态价值头(value head)

image-20251028151952344


scores估算

batch_response = active_model.generate(batch_prompt)  #采样一次
batch_data = concat(batch_prompt, batch_response) #拼接prompt+result
batch_scores = reward_model(batch_data) #PPO的奖励模型,只输出seq_len的最后一个位置的score,其他位置为0
batch_all_probs, batch_probs, batch_all_values = active_model.forward_pass(batch_data)
ref_all_probs, ref_probs, ref_all_values = ref_model.forward_pass(batch_data)
kls = compute_KL(batch_all_probs, ref_all_probs)
rewards = compute_rewards(batch_scores, kls)  #eg. batch_scores+(-0.2)*kls

计算基准模型和训练模型的KL散度,并利用KL散度和scores计算rewards

score计算,即GRPO(Group Relative Policy Optimization)的主要创新,相比PPO不只采样一次,而是使用active_model采样多次,得到result与多个scores序列,然后对其进行标准化。

image-20251028151908583


GAE 广义优势估计:中和偏差与方差计算优势函数

image-20251028151926780

通过advantages和values相加计算values head labels即returns,让state_value model拟合这个returns值


一个batch训练阶段

对一个batch数据进行epoch次的更新,loss分别是loss_ppo和loss_state_value,更新active model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/959909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[ vmware 连接宿主机代理 ]

# 本文只讲原理,只是技术研究 # 1. Tun 开启 -> 本质开启一张虚拟网卡; 允许局域网连接 # 2. 虚拟机默认走 Nat -> VMnet8 # 3. Tun的网卡开启网络共享,共享给 VMnet8

【Android】六大设计原则 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年合肥甲醛检测公司哪家好?专业机构排名与选择指南

摘要 随着人们对室内空气质量的重视程度不断提高,甲醛检测行业在2025年迎来了快速发展期。本文基于市场调研和用户反馈,为您精选五家优质甲醛检测机构,并提供详细对比分析。文末附有专业选择指南和参考表单,助您找…

现今除甲醛机构选哪家?深度分析

摘要 随着室内空气污染问题日益受到关注,除甲醛行业在2025年迎来了快速发展。消费者对靠谱、专业除甲醛服务的需求激增,本文基于权威数据和用户反馈,整理了目前国内除甲醛机构排名前十的榜单,并为读者提供选择指南…

Unity2D 图片支持拖拽和以鼠标中心缩放

引言: 作为一个Unity初学者,遇到了需要实现以鼠标为中心缩放的功能且需要支持拖拽,秉着复用主义的原则,在网上查找了不少博客,要么免费但不能直接拿来使用,要么需要VIP充值获取项目代码,此外,原理且讲解甚少。…

轻松可视化信息的利器——JSON Crack

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

详细介绍:C++微基础备战蓝桥杯string篇10.5

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

[ jupyter conda 环境]

在激活的环境中,可以通过以下命令安装所需的库(包括 NumPy、Pandas、JupyterLab),以及配置自动补全功能,步骤如下: 1. 安装核心库(NumPy、Pandas、JupyterLab) 在激活 myenv 环境后,直接用 conda install 安装…

深入解析:仿mudou——Connection模块(连接管理)

深入解析:仿mudou——Connection模块(连接管理)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

Linux中查看个人磁盘容量

001、 lfs quota -u s20223040682 /public/home/s20223040682

以太坊私有链搭建与智能合约部署指南 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【学弟向】图的存储与遍历,最短路,连通性 tarjan,树状数组

树状数组 单点修改,前缀查询。 int lbd(int x) {return (x&(-x));} void gai(int x,int c) {for(int i=x;i<=n;i+=lbd(i)) a[i]+=c;} int cha(int x) {int da=0;for(int i=x;i;i-=lbd(i)) da+=a[i];return da;…

2025年11月中国伸缩门制造企业技术实力排行榜TOP5

摘要 随着智慧城市建设的深入推进,2025年中国伸缩门行业迎来技术升级浪潮。智能防夹技术、物联网集成系统和节能驱动技术成为行业新标准,市场需求同比增长23.6%。本文基于企业研发投入、专利数量、客户案例等权威数据…

完整教程:Redis-Zest

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

(数学)好玩但没啥用的解题方法(1)

\[a\geq 0,b\geq 0,a+b=1,求\sqrt{a}+\sqrt{b}的最大与最小值 \]设 \(x=\sqrt{a},y=\sqrt{b}\) ,则\(a+b=1<=>x^2+y^2=1\),是一个单位圆,而 \(\sqrt{a}+\sqrt{b}=x+y\) 。 容易注意到 \(x+y\) 为 \((0,0)\…

2025年11月中国伸缩门厂家综合实力排行榜TOP5

摘要 随着智慧城市建设的深入推进,伸缩门行业在2025年迎来技术升级与市场扩容的双重机遇。本文基于产品性能、技术创新、服务网络及客户案例等维度,对国内主流伸缩门厂家进行综合评估,为政府采购、企业采购提供权威…

我目前所理解的“生成式认知主体”

# 我目前所理解的“生成式认知主体”>前言:[写作能力提升的结构化路径](https://chat.deepseek.com/share/zq67x3d1xpamytl5qp)>在我有打算写关于这个主题的内容前实际上经过了很长时间的 整理思想、理清方向、…

P10627 中暑

题目大意: 有 \(n\) 个盒子,每个盒子有个容量 \(a_{i}\),接下来有 \(m\) 次投球操作。 每次给定一个 \(x\),表示你可以将当前这个球放到第 \(x\) 或者第 \(x + 1\) 个盒子里(前提是他没满),如果两个盒子都满了,…

C语言“变量”与Python“Name”:跨语言核心概念及内存模型辨析

C语言“变量”与Python“Name”:跨语言核心概念及内存模型辨析 摘要:本文针对C语言转Python学习者的认知障碍问题,系统剖析C语言“变量即容器”与Python“名字即指针”的内存模型本质差异。通过理论溯源、源码分析、…

*题解:P14364 [CSP-S 2025] 员工招聘 / employ

原题链接 参考文献 我这篇写的烂,建议看参考文献。 解析 设有 \(x\) 个人未被录用。显然,\(x\) 单调不减,当 \(x\) 变为 \(x + 1\) 时, \(c_i = x + 1\) 的所有人就必定无法被录用了,如果在此时才统计已经面试了的…