PPO过时了?GRPO/DAPO/GSPO/SAPO四大算法全面对比,揭秘最新强化学习技术趋势!

本文面向已了解强化学习中策略梯度(policy gradient)、优势函数(advantage)、重要性采样(importance sampling)等概念的读者,重点对大模型强化学习主流算法做一条线的梳理与比较。

强化学习(RL,Reinforcement Learning)已成为大模型后训练必不可少的环节。

本篇将介绍 PPO,GRPO,DAPO,GSPO,SAPO 等大模型主流强化学习算法。

在此之前,我先简短回答几个问题,让大家对强化学习在大模型训练中有更直观、全面的认识:

  • 一般情况下,强化学习训练前为何要先进行监督微调(SFT,Supervised Finetuning)?
  • 为什么强化学习训练在大模型领域是重要的?

首先,大模型在前期会使用大量文本进行自监督(self-supervised)预训练(文字接龙),这个阶段决定了模型能力的上限,模型在过程掌握大量知识,但缺乏指令遵循能力。

此时,直接进行 RL 训练会导致大部分采样样本没有奖励信号,训练效率低下,为提高训练效率,SFT 训练能快速提升模型指令遵循的能力,提高 RL 阶段的训练效率。SFT 相当于 RL 训练前的 warm start。

这时大家会好奇,既然 SFT 能提升指令遵循能力,为什么不直接使用 SFT 就完事了,非要加入 RL训练呢?

这是因为 SFT 训练大模型容易导致过拟合,以数学推理任务为例,SFT 会直接强迫模型输出分布与标准解题过程一致,这可能导致模型仅学会了 “模仿” 解题过程的输出风格,但没有学会真正的数学解题能力。

另一方面,SFT 训练并非渐进式的,以数学推理任务为例,训练初期,若训练样本中包含难度较高的数学问答样本,模型因推理能力有限,会倾向去 “背题(memorize)” 而非 “理解题目”,这类样本产生的梯度会严重损害模型泛化能力;

反观 RL 训练,使用渐进学习策略,训练样本通过模型采样生成,这能保证训练样本 (prompt + response) 与模型分布间差距不大,模型能理解当前能力所及的题目,而不是去 “背题”。

具象一点说,SFT 更像是老师给学生“灌输”知识,学生能在短时间内学会一套解题套路,但模型尚未将这些知识完全内化成能力。

RL 则更像是学生在老师布置的题库上不断做题、订正和反思:解题方法是模型自己采样出来的,分布始终贴着模型当前能力,从而在“做题—反馈—调整”的循环中,逐步把知识沉淀为真正的能力。

下面我将按照技术发展脉络,依序介绍大模型主流强化学习方法。从最早的 PPO 出发,依次经过 GRPO、DAPO、GSPO,再到最新的 SAPO,每一个方法都在前一代技术的基础上改进与演化。

一、PPO

旧策略采样 + clip 约束的新策略更新

PPO 是经典的强化学习算法,通过旧策略采样轨迹来估计新策略的梯度,这种方法必须保证新、旧策略分布差距不大,否则,估计新策略的梯度会失准,会使用 hard-clipping 技巧,避免新、旧策略分布差距过大。

PPO 公式如下:

PPO 训练流程如下:

  1. 采样轨迹(Rollout):通过模型生成当前批次 prompt 的 response;

  2. 奖励计算(Reward):对生成的 response 进行 sequence-level reward 计算(可通过 Reward model 预测或基于规则的方式计算奖励);

  3. 计算 Value:Value Model 估计每个 response token 的价值(Value),即截止到当前 response token,未来生成完整个 response 的期望奖励回报估计;

  4. 计算 token-level advantage:通过 GAE(Generalized Advantage Estimation,算法如下)分配 advantage 给每个 token,形成 token-level 的监督信号;

  1. Value Model 梯度更新;

  2. 策略梯度更新。

二、GRPO

丢掉 Value Model,通过采样同一 prompt 下的样本组来估计 advantage。

PPO 与 GRPO 的对比,GRPO 舍弃了 Value Model,通过采样来估计 empirical-based advantage,降低资源开销。

PPO 存在以下几点缺点:

需同时训练 Value Model,造成额外计算与资源开销;

Advantage 估计依赖 Value Model,导致训练稳定性受到影响:PPO 的 token-level advantage 估计来自 Value Model 的预测值,因此,Value Model 的训练品质会直接影响 advantage 的准确性。

一旦 Value Model 的估计不稳定,就会使得策略模型训练变得高度不稳定。

GRPO 保留了 KL divergence 项,避免模型因 reward hacking 导致模型崩塌。

三、DAPO

在 GRPO 的框架上,通过不对称 clip、动态采样、token-level loss 等技巧缓解训练效率和稳定性问题。

DAPO 是字节跳动提出针对 GRPO 的一系列改进方法,分为以下几个方面:

  1. Clip Higher:GRPO 存在 Entropy Collapse 问题,即训练早期模型输出分布的 Entropy 快速下降,这会抑制模型探索能力(exploration),导致 empirical-based advantage 计算为 0,降低训练效率。

Entropy Collapse 源于 GRPO 的 clip 设计:

  1. Dynamic Sampling:GRPO 存在训练效率低的问题,主要原因是模型看到太简单(全对)或太难(全错)的样本,以至于采样出来的轨迹 advantage 全为 0,没有策略梯度,因此,训练过程会滤除全对或全错的样本。

3. Token-Level Policy Gradient Loss:GRPO 训练会将 sequence-level advantage 平均分配给每个 response token。

这导致长推理序列中,每个 response token 被分配到的 advantage 相当少,策略梯度强度非常弱。

因此,论文提出Token-Level Policy Gradient Loss,让同个 mini-batch 内,每个 response token 的 advantage 权重相同

4. Overlong Reward Shaping:传统方法会将过长的 response 截断,这些被截断的样本也会参与到奖励计算,造成 reward noise,导致训练不稳定。

通过超长过滤策略(Overlong Filtering),对被截断的样本进行 loss 屏蔽,提高训练稳定性。

另外,为避免模型生成过长的 response,会在原有奖励基础上,加入 length-aware penalty(公式如下),惩罚长度过长的样本:

Qwen2.5-32B 模型微调后在 AIME 测试集上准确率,以及在 RL 训练过程中【采用/未采用】Clip-Higher 策略时,模型生成概率的 entropy 变化。

Qwen2.5-32B 模型微调后在 AIME 测试集上准确率,以及其生成概率的 entropy 变化,对比【采用/未采用】Overlong Reward Shaping 策略的情况。

【采用/未采用】Dynamic Sampling 策略的对比。

四、GSPO

把 importance ratio 提升到 sequence 级别,在 MoE 模型上能明显提升稳定性

GSPO 是阿里巴巴提出针对 GRPO 训练不稳定且效率低的改善方法,GSPO 将 token 级别的 advantage 与 importance ratio 改为 sequence 级别。

GSPO 中,sequence-level important ratio 定义为:

目标函数为:

下面简短说明 GSPO 为什么比 GRPO 更有优势:

  1. 梯度更稳定:GRPO 与 GSPO 的策略梯度公式如下,可以明显看到,GRPO 的策略梯度方向受到了 importance ratio 的扭曲,这会影响策略梯度更新的稳定性与效率。

反观 GSPO 每个 token 的策略梯度权重相等,importance ratio 仅决定策略梯度的强弱,不决定方向。

2. MOE 训练更稳定:MoE 模型训练难度大,每次策略梯度更新都可能改变激活的专家,从而导致同个序列的 token-level importance ratio 出现剧烈震荡,阻碍模型有效收敛。

论文以微调 Qwen3-30B-A3B-Base 为例,每次策略梯度更新平均会激活约 10% 的新专家。

GSPO 通过约束 sequence-level importance ratio,在 MoE 训练会更具优势,因为后训练阶段,MoE 的每个专家都具备一定的语言建模能力。

这保证了即使 token-level importance ratio 波动剧烈,整体的 sequence-level importance ratio 仍能保持相对稳定,因此 GSPO 更有利于MoE 模型训练的效率与稳定性。

由 Qwen3-30B-A3B-Base 冷启动微调所得模型的训练曲线。 GSPO 的训练效率明显高于 GRPO。

五、SAPO

用 soft gate 代替硬 clip,在 GSPO 与 GRPO 之间连续平滑过渡,兼顾稳定性与效率。

SAPO 对 GSPO 做了进一步优化,GSPO 使用 sequence-level hard-clipping 机制。

这导致部分序列因 sequence-level importance ratio 过大,而被 clip 掉,以致整条序列的策略梯度为 0,影响训练效率。

SAPO 将 hard-clipping 改为 soft gate 函数 f*_*i,t(x),避免了策略梯度为 0 的问题。

SAPO 目标函数为:

SAPO 的策略梯度为:

advantage>0 情况下的比较。左图展示目标函数随 importance ratio 的变化曲线;右图展示对应的梯度权重随 importance ratio 变化的曲线。

总结来说,SAPO 有两个主要创新点:

因此,SAPO 同时具有 sequence-level 与 token-level 特性。

在 (A1)–(A2) 条件满足时,其目标函数与 GSPO 相近;而在条件不满足时,其行为退化为 GRPO

同时,SAPO 通过 soft gate 在on-policy 与 off-policy 策略间进行连续化的权重调整,以避免硬式切换造成的非平滑策略梯度,从而增强整个优化过程的稳定性。

对 Qwen3-30BA3B-Base 模型进行不同 RL 方法下的训练与验证表现。 SAPO 的学习过程始终稳定,最终性能也更高;相比之下,GSPO 与 GRPO-R2 都在训练早期出现崩塌现象。

六、总结

PPO,GRPO,DAPO,GSPO,SAPO 可以视作一条面向大模型强化学习微调的算法演进链:

  • PPO 作为经典强化学习算法,在旧策略采样、clip 约束小步更新的框架下,让大模型可以稳定做策略梯度;
  • GRPO 通过同一 prompt 下的样本组来估计 empirical advantage,省去了 Value Model 的训练开销;
  • DAPO 在 GRPO 的基础上加入不对称 clip、动态采样、token-level policy loss 与长度奖励等技术,显著提升长推理序列的训练效率与稳定性;
  • GSPO 将 importance ratio 与 advantage 提升到 sequence 级别,缓解 MoE 等大模型训练中 token-level importance ratio 剧烈波动带来的不稳定;
  • 在此之上,SAPO 以 soft gate 取代 hard-clipping,并通过正负 advantage 不同温度,在 sequence-level 与 token-level、on-policy 与 off-policy 之间实现自适应折中,兼顾了训练稳定性与效率。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。


智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200%,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

​​

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119126.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

楼宇设备运维标准规范:以标准化体系提升物业运维能力

设备运维标准的核心框架楼宇设备运维是物业运营的核心支撑,其标准化体系直接决定了物业对设施的管控精度与服务输出质量。设备运维标准体系需覆盖全生命周期管理要求,包括设备分类编码、日常巡检流程、故障处置规范、维护记录管理等核心模块。分类编码是…

全网最全专科生AI论文网站TOP9:开题报告文献综述必备

全网最全专科生AI论文网站TOP9:开题报告文献综述必备 2026年专科生AI论文写作工具测评:为何值得一看? 随着人工智能技术的不断发展,越来越多的专科生开始借助AI工具提升论文写作效率。然而,面对市场上琳琅满目的平台&a…

强脑科技的核心硬件模组为何选择蓝思量产?

📌 目录🔧 98%良品率碾压同行!蓝思科技拿下强脑科技核心订单:十年磨一剑的精密制造“变态级”秘籍一、碾压级优势:98%良品率背后,是“灰尘都要登记身份证”的严苛标准(一)十年合作沉…

Claude Code之父Boris提出的 9 条 Claude Code 实战技巧

Boris 的 9 条 Claude Code 实战技巧:原来高手的配置这么“朴素” Boris Cherny 在 Anthropic 内部有个绰号:Claude Code 之父。他最近在 X 上很活跃,于是很多人问 Boris:你自己到底怎么用 Claude Code?他刚在 X 上分…

懒人福音!2025年Agent工具大盘点,小白程序员也能秒变AI大神!

有没有发现2025这一年,身边越来越多人在聊“Agent”?去年也被业内称为“Agent元年”。 那么Agent到底是什么呢?Agent能干嘛呢? 什么是Agent? 把它想象成你的“全能数字化员工”。你可以给它一个复杂的目标(例如:“帮我规划一下…

震惊!AI已悄悄内化为你的编程伙伴,小白开发者必知的5大生存法则

主要内容 LLM的渗透已进入“内化期”。市场关注点正从单纯的流量规模转向量化的价值创造(推理深度、职场渗透率、生态协同)。厂商竞争的关键点将在于如何通过提升“逻辑深度”来优化“信息质量”,并在职场及全球化增量市场中实现差异化价值捕…

CSDN资源等级如何提升?综合贡献分如何提高?

长话短说,只有三种方式可以提升综合贡献分。方式一:完成成长任务完成此处的成长任务,通过审核即可增加综合贡献分,这个每天不限量,完成多少都可以,但是每个任务只能完成一次。方式二:完成热点任…

楼宇运维线路管理标准:保障ICT设施与服务稳定性的核心支撑

线路管理标准的底层逻辑楼宇ICT设施的稳定运行,依赖于线路系统的规范管理;而线路管理的有效性,必须以明确、可执行的标准为支撑。线路是ICT系统的物理载体,其状态直接影响数据传输的可靠性与服务连续性。楼宇中的线路覆盖电力、网…

电子器件烧毁的底层逻辑与避坑指南

电子器件的 “烧毁”,是电路设计与实际应用中最常见的故障之一。从小小的 LDO 稳压芯片到驱动电机的电调,看似不同的器件,烧毁的核心逻辑却高度相通 —— 本质都是器件的实际工作参数突破了自身的物理与热极限,且缺乏有效的保护机…

卷不动了?2025年AI编程工具大盘点:DeepSeek-Coder V3夺冠,代码生成效率提升300%,小白秒变大神!

年度大模型(Foundation Models):专精 1.1 年度写作大模型 入围: GPT-4o Ultra、文心一言5.0、通义千问3.5、Claude 3.5 Sonnet、DeepSeek-R1-Write获奖者: GPT-4o Ultra获奖理由: 依托2025年ACL顶会EssayJudge多粒度写作测评与Lak 2025自动化写作评估&…

2026上海留学中介实力大比拼,十大靠谱机构引领留学新程 - 留学机构评审官

2026上海留学中介实力大比拼,十大靠谱机构引领留学新程一、上海学子如何甄别留学中介?关键痛点与清晰路径2026年伊始,计划出国深造的上海学子与家庭普遍面临几大核心关切:如何在信息过载的环境中高效筛选出真正专业…

【必学】AI智能体是什么?5大平台使用教程+实战案例,建议收藏

本文详细介绍了AI智能体的概念、功能及主流平台。AI智能体能自主理解、规划和执行复杂任务,区别于仅回答问题的普通AI助手。文章列举了其在生活、工作和专业领域的应用,并介绍了字节跳动Coze、Kimi的OK Computer、纳米AI和智谱清言等平台。智能体通过理解…

Cache写机制Write-through与Write-back

本文分享自天翼云开发者社区《Cache写机制Write-through与Write-back》,作者:LeonHao cache写机制中的write through 和 write back https://en.wikipedia.org/wiki/Cache#Writing_Policies Write-through- Write is…

从人工智障到真香!LLM三重觉醒:Tool+Plan+Memory让大模型开窍,小白程序员也能秒变大神

引言:困在琥珀中的智慧 想象一位学者,他读过人类历史上几乎所有的书籍,精通数学、物理、文学、哲学,能用一百种语言交流,对任何问题都能给出深刻的见解。 但他被困在一间没有门窗的房间里。 他不知道今天是几月几号…

DeepSeek R1引爆开源狂潮!国产大模型“十强混战“,小白程序员如何上车?

导 读 2025 年,DeepSeek R1 引爆全民开源热潮,国产 LLM 从“一家独大”跃入“十强混战”。智谱、MiniMax 冲刺 IPO,Qwen3、Kimi K2、GLM-4.5 轮番刷新性能榜,开源与闭源差距史上最小。多模态、端侧、Agent 成 2026 新赛点&#x…

开源的包管理和环境管理工具conda详解、应用场景及案例分析

Conda核心功能与应用指南 Conda是一款跨平台的包管理和环境管理工具,主要解决软件包依赖和环境隔离两大问题。其核心功能包括:1)支持Python/R/C++等多语言包管理,自动处理依赖;2)创建独立运行环境,避免版本冲突…

年底 Claude 官方直连 Key 缺货?官转 poloai.top 成开发者首选方案 - poloapi-ai大模型

临近年底,AI 编程工具的使用需求迎来爆发式增长,不少开发者却陷入了同一个困境 ——Claude 官方直连 API Key “一 key 难求”。打开 Anthropic 官方控制台,常见 “配额已售罄”“新密钥申请需排队 1-2 周” 的提示…

2025衬氟球阀厂家权威推荐榜单:焊接球阀/不锈钢球阀/电动球阀/V型球阀/螺纹球阀/保温球阀及气动球阀源头厂家精选。 - 品牌推荐官

在现代化工、制药、冶金、电力及环保等高腐蚀性流体控制的关键领域,衬氟球阀作为守护管道安全与工艺稳定的“特种兵”,其重要性不言而喻。凭借在阀体内壁及关键部件衬覆聚四氟乙烯(PTFE)、聚全氟乙丙烯(FEP/F46)…

收藏!AI大模型人才缺口超千万,6岗抢1人,00后硕士50万起薪揭秘

一位上海交大毕业的00后硕士,用亲身经历诠释了AI风口下的职业红利:“24岁毕业入职腾讯做AI算法工程师,起步年薪就有50万;按照行业晋升路径,30岁晋升到P7职级时,年薪破百万基本稳了。” 他并非个例&#xff…

在线式油液污染度检测仪哪个公司实力强?企业口碑好?2025推荐榜单 - 品牌推荐大师

全球便携式油液污染检测仪市场在2024年达到约14.8亿美元,预计到2026年将增长至18.2亿美元,年复合增长率维持在8.5%左右。在线式油液污染度检测仪作为便携式油液污染检测仪的重要组成部分,其市场规模也将随着整体市场…