RLᵛ_ Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

RLᵛ: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

在人工智能领域，大语言模型（LLM）的推理能力提升一直是研究热点。今天要解读的论文提出了一种全新的强化学习框架RLᵛ，通过融合推理与验证能力，为大模型的测试效率和泛化性能带来了突破性进展。这一成果不仅解决了传统强化学习方法的关键缺陷，更展现了统一化训练在提升模型综合能力上的巨大潜力。

论文标题

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

来源
arXiv:2505.04842 [cs.LG] + https://arxiv.org/abs/2505.04842

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「亚里随笔」即刻免费解锁

研究背景

在大语言模型（LLM）推理能力的强化学习（RL）优化中，主流方法（如 GRPO、VinePPO）为降低训练成本，普遍舍弃传统价值函数，转而依赖经验估计回报。这一 “去价值化” 策略虽提升了训练阶段的计算效率和内存利用率，却导致测试阶段丧失关键的内置验证能力—— 传统价值函数本可作为 “结果验证器” 评估推理链正确性，支撑并行采样（如 Best-of-N 投票）等计算扩展策略。这一策略虽然提升了训练效率，却导致模型在测试阶段缺乏内置的验证机制，难以利用并行采样等计算扩展策略优化推理结果。

研究问题

1. 测试阶段计算效率低下：缺少价值函数或验证器，无法通过并行采样（如Best-of-N投票）有效提升推理准确性。

2. 独立验证器的高成本：部署单独的验证模型会增加数据标注、计算资源和内存占用的负担。

3. 泛化能力受限：传统方法在跨难度（Easy-to-Hard）或跨领域（Out-of-Domain）任务中表现不足，难以应对复杂推理需求。

主要贡献

1. 统一化训练框架RLᵛ
首次提出在单一LLM中同时训练推理器（Reasoner）和生成式验证器（Generative Verifier），利用强化学习过程中产生的（问题-解-奖励）数据，通过联合优化RL目标与验证目标（如预测“是否正确”的下一个标记），实现“一次训练，双重能力”。与传统方法相比，无需额外模型或数据开销，验证能力提升的同时推理性能保持稳定。

2. 测试阶段计算效率的革命性提升

并行采样效率：在MATH500数据集上，使用加权投票策略时，RLᵛ相比基线方法（如GRPO）的计算效率提升8-32倍，准确率提高超20%。
动态序列长度优化：通过设定验证置信度阈值，模型可自动为难题分配更长的推理序列，在AIME’24数据集上实现计算预算内的准确率最大化。

3. 跨场景泛化能力突破

难度泛化：在MATH²（更复杂数学问题）上，RLᵛ的成功率比基线方法高10%以上。
领域泛化：在GPQA物理问题（跨领域任务）中，准确率提升超10%，证明其验证机制具有通用性。

4. 长推理模型的互补性增强
与长思维链模型（如R1-Distill-Qwen-1.5B）结合时，RLᵛ在并行+序列计算联合扩展场景下，性能比基线方法高1.2-1.6倍，验证了其与现有技术的兼容性。

方法论精要

1. 核心框架：RLᵛ的统一训练机制

训练阶段：
LLM同时作为策略网络（生成推理链）和验证器（预测解的正确性）。利用RL生成的解及其正确性标签（由奖励函数提供），通过监督微调（SFT）训练验证器，目标为最大化预测“是/否”标签的似然性。

统一目标函数：

$\mathcal{J}_{\text{Unified}}(\theta) = \mathcal{J}_{\text{RL}}(\theta; x) + \lambda \mathcal{J}_{\text{Verify}}(\theta; x)$

其中， $\mathcal{J}_{\text{RL}}$ 为强化学习目标， $\mathcal{J}_{\text{Verify}}$ 为验证目标， $\lambda$ 平衡两者权重。

测试阶段：
LLM生成N个候选解，同时作为验证器为每个解评分（“是”的概率），通过加权投票或Best-of-N策略选择最终答案。例如，加权投票将同一答案的验证分数累加，选择最高分答案，显著优于无验证的多数投票基线。

2. 关键参数设计原理

验证目标的形式：
将验证视为“下一个标记预测”任务，输入为（问题x，解y，提示“该解是否正确？回答是或否”），输出为“是/否”标记，避免引入额外分类头或回归层，降低结构复杂度。
超参数平衡：
$\lambda$ 的取值影响推理与验证能力的权衡。实验表明，Leave-one-out PPOᵛ在 $\lambda=1$ 时达到最佳平衡，推理准确率（Pass@1）与验证准确率（对正误解的区分能力）均保持高位，而GRPOᵛ因优化特性导致两者存在显著取舍。

3. 创新性技术组合

数据复用：
直接利用RL训练中产生的解数据（无需额外标注），通过“生成-验证”闭环实现数据高效利用，避免独立验证器所需的大规模标注成本。
轻量级验证：
验证过程与推理共享同一模型参数，无额外内存占用，推理时仅需一次前向传播即可同时获得解和验证分数，相比独立验证器节省约50%计算资源。

实验验证：数据集与基线选择

数据集：
- 数学推理：MATH（训练）、MATH500、MATH²（难度泛化）、AIME’24（长序列推理）。
- 跨领域：GPQA Physics（物理问题，测试领域泛化）。
基线方法：
主流“无价值函数”RL方法，如GRPO、Leave-one-out PPO、VinePPO，对比时使用LLM-as-a-Judge（即直接提示基模型作为验证器）或独立验证器作为基线验证方案。

实验洞察

1. 性能优势：准确率与效率双提升

并行采样效果：
在MATH500上，当使用64个并行样本时，RLᵛ（GRPOᵛ）的加权投票准确率达79.0%，远超基线GRPO的55.6%，且计算效率提升32倍（即达到相同准确率所需计算量仅为基线的1/32）。
长序列推理：
在AIME’24数据集上，RLᵛ（GRPOᵛ）结合4096 token序列长度时，成功率比基线GRPO高15%，显示其在处理复杂推理时的优势。

2. 效率突破：计算资源的智能分配

动态序列长度优化：
通过设定验证置信度阈值（如加权投票分数≥0.6），模型可自动为难题延长推理序列。例如，在AIME’24中，平均序列长度从1024 token增加到4096 token时，准确率从30%提升至40%，证明其按需分配计算资源的能力。
模型规模扩展性：
当模型从1.5B扩展至7B时，RLᵛ的验证准确率在MATH500上从76%提升至82%，加权投票准确率提升约5%，表明其性能随模型规模增长而持续优化。

3. 消融研究：核心模块的必要性验证

统一训练 vs. 独立验证器：
对比使用独立验证器（基于相同RL数据训练）和RLᵛ的统一验证器，两者验证准确率接近（约80% vs. 78%），但RLᵛ无需额外模型参数，内存占用减少50%以上。
验证目标的形式：
对比二进制交叉熵（BCE）分类头、回归头和生成式验证（下一个标记预测），生成式验证在推理准确率（Pass@1）和验证准确率上均最优，表明利用LLM生成能力的有效性。