DPO(直接偏好优化)
核心原理
DPO是一种针对大型语言模型的对齐技术,用于根据人类偏好调整模型权重。它与人类反馈强化学习(RLHF)的不同之处在于,它不需要拟合奖励模型,而是使用更简单的二元数据偏好进行训练。
关键特点
- 无奖励模型:直接利用人类标注的偏好数据,绕过了复杂的奖励模型训练
- 训练数据格式:三元组(prompt,chosen(好的结果),rejected(差的结果))
- 损失函数:基于Bradley-Terry模型,将偏好比较转化为概率优化问题
- 参考模型:使用冻结的参考模型防止策略偏离预期
优势
- 计算上比RLHF更轻、更快
- 不需要训练复杂的奖励模型
- 特别适合主观偏好或风格调整的任务
PPO(近端策略优化)
核心原理
PPO是一种基于Actor-Critic框架的强化学习算法,通过限制策略更新幅度保证训练稳定性。
关键特点
- 裁剪机制:限制新旧策略的差异,防止更新过大导致训练崩溃
- KL散度惩罚:约束新策略与参考模型的偏离程度
- 价值网络:需要额外训练一个价值模型(Critic)来估计状态价值
- GAE:使用泛化优势估计来计算优势函数
优势
- 训练稳定性好
- 在高维动作空间中表现优秀
- 已成为深度强化学习中效果最优的算法之一
GRPO(群体相对策略优化)
核心原理
GRPO是一种强化学习算法,专门用于增强大型语言模型中的推理能力。它通过评估彼此相关的响应组来优化模型。
关键特点
- 无价值模型:取消了PPO中复杂的价值函数
- 相对评估:通过对每个提示采样一组回答,进行组内比较
- 群体动力学:使用群体响应归一化奖励来计算优势值
- 高效训练:大幅降低计算和内存开销
优势
- 计算成本显著降低
- 适合需要复杂问题解决和长链思维的推理任务
- 在DeepSeek等大模型中得到应用
对比分析
| 维度 | PPO | DPO | GRPO |
|---|---|---|---|
| 核心原理 | 在线交互的"试错学习" | 离线的"对比学习" | 高效的"组内竞争" |
| 数据形式 | 在线交互序列数据 | 静态成对偏好数据 | 多候选生成提示集 |
| 奖励信号 | 依赖独立奖励模型 | 直接使用二元偏好 | 组内相对比较 |
| 计算复杂度 | 高 | 低 | 中等 |
| 训练稳定性 | 高 | 中等 | 中等 |
| 典型应用 | 游戏AI、机器人控制 | 大模型对齐、风格调整 | 大模型推理能力提升 |
- DPO:强调训练稳定性,但计算成本较高;适合需要根据人类偏好调整模型输出风格的场景,如对话系统、内容生成等
- PPO:追求效率,绕过了复杂的奖励模型;适合需要稳定训练和高性能的强化学习任务,如游戏AI、机器人控制等
- GRPO:在PPO基础上优化,通过群体相对比较降低计算开销;适合大模型推理能力提升,特别是需要复杂问题解决的任务