目录
- 1 简介
- 1.1 强化学习(RL)简介
- 1.2 基于人类反馈的强化学习 (RLHF) 简介
- 1.2.1 四个重要角色
- 1.2.2 三个步骤
- 2 强化算法
- 2.1 PPO(Proximal Policy Optimization)
- 2.1.1 核心思想
- 2.1.2 算法步骤
- 2.1.3 优点
- 2.1.4 缺点
- 2.1.5 应用场景
- 2.2 GRPO(Group Relative Policy Optimization)
- 2.2.1 核心思想
- 2.2.2 算法步骤
- 2.2.3 优点
- 2.2.4 缺点
- 2.2.5 应用场景
- 2.2.6 对比其他算法
- 2.3 Long CoT(Long Chain-of-Thought for Decision-Making)
- 2.3.1 核心思想
- 2.3.2 算法步骤
- 2.3.3 优点
- 2.3.4 缺点
- 2.3.5 应用场景
1 简介
1.1 强化学习(RL)简介
强化学习(Reinforcement Learning, RL)是一种智能体在与环境互动过程中,通过试错和奖励机制学习如何达成目标的算法。在这个过程中,智能体会不断探索环境,采取行动,并根据环境反馈的奖励或惩罚调整自己的行为策略,最终学习到最优策略。因此,反复实验(trial and error) 和 延迟奖励(delayed reward) 是强化学习最重要的两个特征。
强化学习已在多个领域得到应用,例如游戏(例如围棋AlphaGo)、机器人(例如波士顿动力机器狗)、金融(例如量化交易策略)和大模型(例如语言大模型训练范式RLHF)等。
如下图所示,强化学习的基本要素包括:
- 智能体 (Agent):指 LLM/Stable Diffusion 等大模型。
- 环境 (Environment):指用户使用和反馈。
- 状态 (State):环境中所有可能状态的集合。
- 动作 (Action):智能体所有可能动作的集合。
- 奖励 (Reward):智能体在环境的某一状态下所获得的奖励。
强化学习基本概念:
智能体的目标是找到一个策略,根据当前观测到的环境状态和奖励反馈,选择最大化预期奖励的最佳动作。
1.2 基于人类反馈的强化学习 (RLHF) 简介
基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback,RLHF) 是一种新颖的人工智能训练方法,它结合了强化学习和人类反馈,通过融入用户智慧和经验,引导智能体学习和进化。该技术已在 GPT-4、Gemini、Claude 等自然语言大模型中得到广泛应用,并取得了显著成效。
如下图所示,自然语言大模型RLHF训练过程包含四个重要角色和三个步骤。
1.2.1 四个重要角色
- Actor Model(演员模型):待训练的语言模型。
- Critic Model(评论家模型):预测语言模型输出的奖励。
- Reward Model(奖励模型):计算语言模型在当前状态下的奖励。
- Reference Model(参考模型):为Actor Model参数更新提供“约束”,防止其过度偏离。
其中,Actor/Critic Model在RLHF阶段是需要训练(参数更新),而Reward/Reference Model是参数冻结的。
其他角色:
- Pretrained Model (预训练模型):是指大量文本数据上进行训练的语言模型。预训练模型已经学习了语言的基本知识,例如词法、句法和语义等。
- SFT Model (监督微调模型):使用人类标注高质量数据对Pretrained Model的监督训练得到,在RLHF阶段用于初始化Actor模型和Reference模型。
- Reward Model 奖励网络:使用人类标注候选文本排序数据集对Pretrained Model的监督训练得到,能够提供LLM输出文本的‘好坏’奖励信号。在RLHF阶段用于初始化Reward模型和Critic模型。
1.2.2 三个步骤
- SFT(大模型监督微调)阶段:使用人工标注数据集对预训练模型进行监督微调,得到SFT Model(监督微调模型)。
- RW(奖励模型训练)阶段:使用SFT模型生成多个回答,人工标注回答的‘好坏’得到排序标注数据集,对预训练模型进行训练,得到Reward Model(奖励模型)。
- RLHF阶段:Actor模型生成文本,利用Critic/Reward/Reference Model(图中黄色框区域)共同组成了一个“reward-loss”计算体系,产生奖励信号,对Actor和Critic Model进行更新,直到 Actor 模型达到理想状态。
下图为OpenAI发布的GPT-3.5的RLHF的过程。
2 强化算法
下面介绍一些常用的RL算法:PPO、GRPO和PRIME。DeepSeek使用的是GRPO算法。
2.1 PPO(Proximal Policy Optimization)
2.1.1 核心思想
PPO是一种基于策略梯度(Policy Gradient)的强化学习算法,旨在通过限制策略更新的幅度来保证训练稳定性,避免传统策略梯度方法中因更新过大导致的性能崩溃。
2.1.2 算法步骤
- 目标函数设计
- 优势估计
- 更新策略
通过多轮小批量梯度上升优化目标函数,避免单步更新过大。
2.1.3 优点
- 训练稳定,无需复杂的信任区域计算(如TRPO)。
- 样本利用率高,适用于连续和离散动作空间。
2.1.4 缺点
- 超参数(如剪切阈值( \epsilon ))对性能敏感。
- 对优势函数估计的准确性依赖较高。
2.1.5 应用场景
游戏AI(如Dota 2、星际争霸II)、机器人控制、自然语言生成。
2.2 GRPO(Group Relative Policy Optimization)
GRPO(Group Relative Policy Optimization) 是一种基于群体相对性能的策略优化方法,旨在通过比较不同策略组(Group)的表现来指导策略更新,提升训练的稳定性和多样性。该方法通常用于多任务学习或多智能体强化学习场景,通过组间相对评估避免局部最优。
论文:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
2.2.1 核心思想
- 群体分组(Grouping):将策略划分为多个组(例如不同策略参数初始化或不同任务分配),每个组独立与环境交互。
- 相对性能评估:根据组的相对表现(如平均回报)动态调整策略更新方向。
- 策略更新约束:通过组间比较,抑制低性能组的更新幅度,促进高性能组的探索。
2.2.2 算法步骤
伪代码如下:
2.2.3 优点
- 避免局部最优:组间竞争促进策略多样性,减少早熟收敛。
- 适应多任务:天然支持多任务学习,各组可专注于不同子任务。
- 资源分配高效:动态调整组间权重,集中资源训练高性能策略。
2.2.4 缺点
- 计算开销大:维护多个策略组增加内存和计算成本。
- 超参数敏感:组数 ( K ) 和温度 ( \tau ) 需精细调节。
- 组间干扰:低效组可能拖累整体训练速度。
2.2.5 应用场景
- 多任务强化学习:每组处理不同任务(如机器人抓取不同物体)。
- 多智能体协同:各组代表不同智能体策略,通过相对评估优化协作。
- 超参数搜索:将不同超参数配置视为组,快速筛选最优组合。
2.2.6 对比其他算法
算法 | 核心机制 | 适用场景 | 与GRPO的区别 |
---|---|---|---|
PPO | 剪切策略更新幅度 | 单任务通用场景 | GRPO通过组间比较提升多样性 |
MAPPO | 多智能体策略优化 | 协作型多智能体 | GRPO强调组间竞争而非协作 |
ES | 进化策略全局搜索 | 高维参数空间优化 | GRPO基于梯度更新而非进化 |
总结:
GRPO 通过分组策略的相对性能评估和动态资源分配,平衡探索与利用,适用于需要多样性和多任务协同的场景。尽管计算成本较高,但其在复杂任务中的全局搜索能力显著优于传统单组策略优化方法。
2.3 Long CoT(Long Chain-of-Thought for Decision-Making)
2.3.1 核心思想
Long CoT将自然语言处理中的“思维链”(Chain-of-Thought)扩展为多步推理机制,用于强化学习中的长期规划,通过显式建模推理路径提升决策质量。
2.3.2 算法步骤
2.3.3 优点
- 显式建模长期依赖,避免短视决策。
- 提升复杂任务中的规划能力(如战略游戏、机器人导航)。
2.3.4 缺点
- 推理链生成增加计算开销。
- 需要设计高效的推理路径生成机制。
2.3.5 应用场景
需要多步规划的复杂任务(如围棋、自动驾驶)。