verl热身阶段解析：critic

verl热身阶段解析：critic_warmup作用说明

1. 背景介绍

在大型语言模型（LLMs）的后训练过程中，强化学习（Reinforcement Learning, RL）已成为提升模型行为对齐能力的重要手段。verl是由字节跳动火山引擎团队开源的一个高效、灵活且可用于生产环境的强化学习训练框架，专为 LLMs 的后训练设计，并作为 HybridFlow 论文的开源实现。

verl支持多种 RL 算法，包括 PPO 及其变体 GRPO（Generalized Reward-based Policy Optimization）。与标准 PPO 不同，GRPO 省略了 Critic 模型和 Reward Model，直接通过规则函数计算 token-level 的奖励值，并将其作为 Advantage 计算的基础。这种简化结构显著降低了系统复杂性和资源开销，但也带来了新的训练动态控制需求。

其中，critic_warmup参数虽然在 GRPO 中看似“无用”（因未使用 Critic 模型），但在整体训练流程中仍扮演着关键角色——它实际上被用作策略更新的延迟控制机制，即决定 Actor 模型何时开始参与梯度更新。

2. critic_warmup 的核心作用解析

2.1 参数定义与配置位置

critic_warmup是verl框架中trainer配置项的一部分，通常位于 YAML 配置文件如ppo_trainer.yaml中：

trainer: critic_warmup: 0 test_freq: 10 save_freq: 5

该参数表示在前N个训练步骤（global steps）内，不更新 Actor 模型，即使其他组件（如 Reference Policy 或 Reward 函数）已经就绪。

2.2 实际行为逻辑分析

尽管名为 “critic warmup”，但其真实用途并不仅限于 Critic 模型预热。查看ray_trainer.py中的训练主循环代码可发现其实际作用：

if self.config.trainer.critic_warmup <= self.global_steps: with _timer('update_actor', timing_raw): actor_output = self.actor_rollout_wg.update_actor(batch) ...

上述条件判断表明：只有当当前 global step 大于等于critic_warmup时，才会执行 Actor 模型的更新。

这意味着： - 若critic_warmup = 0：Actor 模型从第一步就开始更新。 - 若critic_warmup = 5：前 5 步仅进行 rollout、log_prob 计算、reward 生成等操作，但不反向传播更新 Actor。

核心结论：critic_warmup在verl中实质是一个Actor 更新延迟开关（delayed policy update gate），而非真正用于 Critic 预热。

2.3 为何需要延迟 Actor 更新？

即使在 GRPO 这类无 Critic 架构中，设置非零的critic_warmup仍有重要意义，主要体现在以下三个方面：

（1）稳定初始分布采样

在训练初期，Actor 模型可能尚未收敛或存在输出不稳定问题。若立即更新策略，容易导致生成样本质量差、Reward 分布剧烈波动，进而引发梯度爆炸或 Collapse。

通过设置critic_warmup > 0，可以让系统先运行若干步纯推理（rollout + log_prob + reward），收集一批高质量、多样化的经验数据，形成更稳健的初始优势估计分布。

（2）同步 Reference Policy 初始化

Reference Policy（Ref Policy）通常用于 KL 正则项计算，防止策略偏离过大。在某些配置下，Ref Policy 需要在训练初期加载原始模型权重或进行独立初始化。

延迟 Actor 更新可以确保 Ref Policy 完成加载并与 Actor 建立一致的起始点，避免早期 KL 惩罚失真。

（3）支持多阶段训练调度

在复杂的训练 pipeline 中，常采用分阶段策略： - 第 0~K 步：固定 Actor，仅优化辅助模块（如 Value Head、Reward Head） - 第 K+1 步起：解冻 Actor，进入完整 RL 微调

此时critic_warmup = K成为一种简洁的调度信号，无需额外编写状态机逻辑。

3. 与其他 batch size 参数的协同关系

critic_warmup虽然本身不直接影响 batch 处理逻辑，但它与data.train_batch_size、ppo_mini_batch_size等参数共同决定了每一步的计算负载和内存占用。

以典型配置为例：

data: train_batch_size: 60 actor_rollout_ref: actor: ppo_mini_batch_size: 60 ppo_micro_batch_size_per_gpu: 8 rollout: n: 12 tensor_model_parallel_size: 2 trainer: critic_warmup: 0 n_gpus_per_node: 6 nnodes: 1

在此配置下： - 每步处理 60 个 prompt； - 每个 prompt 生成 12 个 response（rollout.n=12），共产生 720 条序列； - 所有 rollout 结果用于计算 old_log_prob 和 ref_log_prob； - 若critic_warmup > 0，则这些数据仅用于统计指标和 Advantage 计算，不会触发 Actor 更新； - 内存压力集中在显存中缓存这 720 条序列及其 log_prob，因此适当增加critic_warmup可帮助观察内存峰值是否可控。