LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST,这些研究团队正在攻克的是RL领域的一个老大难:怎么控制好熵,同时避免模型退化成毫无用处的确定性输出。
三篇新论文给出了不同角度的解法:CE-GPPO、EPO和AsyPPO。虽然切入点各有不同,但合在一起就能发现它们正在重塑大规模推理模型的训练方法论。下面详细说说这三个工作到底做了什么。
标准PPO在熵控制上的失效
先说policy entropy这个概念。熵衡量模型输出的随机性或者说多样性程度——高熵对应探索不同解法,低熵则是锁定单一策略。经典PPO算法的做法很简单:importance sampling ratio超出(1−ε, 1+ε)范围就直接clip掉。
这样的话问题出在哪?PPO的clipping会把低概率token的梯度信息扔掉,而这些token在推理任务里恰恰很关键。比如让模型做AIME 2025的题目,或者让它完成一个30轮的科学实验,那些探索性的、概率不高的路径往往藏着突破口。标准PPO的策略感觉这个路径"太冒险了,clip掉算了",结果就是:
熵坍缩:模型太快变成确定性的,卡在平庸策略上出不来;熵爆炸:模型乱探索,根本收敛不了
具体例子就是在ScienceWorld这种多步骤、稀疏reward的环境里跑一下原版PPO就知道了,entropy会剧烈震荡,模型啥也学不到。
CE-GPPO:有界梯度恢复机制
快手提出的CE-GPPO(Controlling Entropy via Gradient-Preserving Policy Optimization)核心思路是用有界的方式把被clip掉的梯度拿回来。
Token的四类划分
CE-GPPO按概率和advantage把token分成四类:
- **PAHP (Positive Advantage, High Probability)**:模型喜欢的、该强化的token
- **NALP (Negative Advantage, Low Probability)**:差的探索token,要抑制
- **PALP (Positive Advantage, Low Probability)**:好的探索token,这是论文说的金子
- **NAHP (Negative Advantage, High Probability)**:高概率但该减少的token
标准PPO直接clip掉PALP和NALP,这样梯度信号全丢了,而CE-GPPO用系数α₁和α₂把它们重新引入:
stop-gradient操作允许独立调节α₁(exploitation强度)和α₂(exploration强度)。设α₁=0、α₂=1就退化成DAPO的clip-higher trick,但CE-GPPO的框架灵活得多。
https://avoid.overfit.cn/post/f7fe0bdff36c4c7a906c9ee678df11a4