RLᵛ: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
在人工智能领域,大语言模型(LLM)的推理能力提升一直是研究热点。今天要解读的论文提出了一种全新的强化学习框架RLᵛ,通过融合推理与验证能力,为大模型的测试效率和泛化性能带来了突破性进展。这一成果不仅解决了传统强化学习方法的关键缺陷,更展现了统一化训练在提升模型综合能力上的巨大潜力。
论文标题
Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers
来源
arXiv:2505.04842 [cs.LG] + https://arxiv.org/abs/2505.04842
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁
研究背景
在大语言模型(LLM)推理能力的强化学习(RL)优化中,主流方法(如 GRPO、VinePPO)为降低训练成本,普遍舍弃传统价值函数,转而依赖经验估计回报。这一 “去价值化” 策略虽提升了训练阶段的计算效率和内存利用率,却导致测试阶段丧失关键的内置验证能力—— 传统价值函数本可作为 “结果验证器” 评估推理链正确性,支撑并行采样(如 Best-of-N 投票)等计算扩展策略。这一策略虽然提升了训练效率,却导致模型在测试阶段缺乏内置的验证机制,难以利用并行采样等计算扩展策略优化推理结果。
研究问题
1. 测试阶段计算效率低下:缺少价值函数或验证器,无法通过并行采样(如Best-of-N投票)有效提升推理准确性。
2. 独立验证器的高成本:部署单独的验证模型会增加数据标注、计算资源和内存占用的负担。
3. 泛化能力受限:传统方法在跨难度(Easy-to-Hard)或跨领域(Out-of-Domain)任务中表现不足,难以应对复杂推理需求。
主要贡献
1. 统一化训练框架RLᵛ
首次提出在单一LLM中同时训练推理器(Reasoner)和生成式验证器(Generative Verifier),利用强化学习过程中产生的(问题-解-奖励)数据,通过联合优化RL目标与验证目标(如预测“是否正确”的下一个标记),实现“一次训练,双重能力”。与传统方法相比,无需额外模型或数据开销,验证能力提升的同时推理性能保持稳定。
2. 测试阶段计算效率的革命性提升
- 并行采样效率:在MATH500数据集上,使用加权投票策略时,RLᵛ相比基线方法(如GRPO)的计算效率提升8-32倍,准确率提高超20%。
- 动态序列长度优化:通过设定验证置信度阈值,模型可自动为难题分配更长的推理序列,在AIME’24数据集上实现计算预算内的准确率最大化。
3. 跨场景泛化能力突破
- 难度泛化:在MATH²(更复杂数学问题)上,RLᵛ的成功率比基线方法高10%以上。
- 领域泛化:在GPQA物理问题(跨领域任务)中,准确率提升超10%,证明其验证机制具有通用性。
4. 长推理模型的互补性增强
与长思维链模型(如R1-Distill-Qwen-1.5B)结合时,RLᵛ在并行+序列计算联合扩展场景下,性能比基线方法高1.2-1.6倍,验证了其与现有技术的兼容性。
方法论精要
1. 核心框架:RLᵛ的统一训练机制
- 训练阶段:
LLM同时作为策略网络(生成推理链)和验证器(预测解的正确性)。利用RL生成的解及其正确性标签(由奖励函数提供),通过监督微调(SFT)训练验证器,目标为最大化预测“是/否”标签的似然性。
统一目标函数:
J Unified ( θ ) = J RL ( θ ; x ) + λ J Verify ( θ ; x ) \mathcal{J}_{\text{Unified}}(\theta) = \mathcal{J}_{\text{RL}}(\theta; x) + \lambda \mathcal{J}_{\text{Verify}}(\theta; x) JUnified(θ)=JRL(θ;x)+λJVerify(θ;x)
其中, J RL \mathcal{J}_{\text{RL}} JRL为强化学习目标, J Verify \mathcal{J}_{\text{Verify}} JVerify为验证目标, λ \lambda λ平衡两者权重。
- 测试阶段:
LLM生成N个候选解,同时作为验证器为每个解评分(“是”的概率),通过加权投票或Best-of-N策略选择最终答案。例如,加权投票将同一答案的验证分数累加,选择最高分答案,显著优于无验证的多数投票基线。
2. 关键参数设计原理
- 验证目标的形式:
将验证视为“下一个标记预测”任务,输入为(问题x,解y,提示“该解是否正确?回答是或否”),输出为“是/否”标记,避免引入额外分类头或回归层,降低结构复杂度。 - 超参数平衡:
λ \lambda λ的取值影响推理与验证能力的权衡。实验表明,Leave-one-out PPOᵛ在 λ = 1 \lambda=1 λ=1时达到最佳平衡,推理准确率(Pass@1)与验证准确率(对正误解的区分能力)均保持高位,而GRPOᵛ因优化特性导致两者存在显著取舍。
3. 创新性技术组合
- 数据复用:
直接利用RL训练中产生的解数据(无需额外标注),通过“生成-验证”闭环实现数据高效利用,避免独立验证器所需的大规模标注成本。 - 轻量级验证:
验证过程与推理共享同一模型参数,无额外内存占用,推理时仅需一次前向传播即可同时获得解和验证分数,相比独立验证器节省约50%计算资源。
- 实验验证:数据集与基线选择
- 数据集:
- 数学推理:MATH(训练)、MATH500、MATH²(难度泛化)、AIME’24(长序列推理)。
- 跨领域:GPQA Physics(物理问题,测试领域泛化)。
- 基线方法:
主流“无价值函数”RL方法,如GRPO、Leave-one-out PPO、VinePPO,对比时使用LLM-as-a-Judge(即直接提示基模型作为验证器)或独立验证器作为基线验证方案。
实验洞察
1. 性能优势:准确率与效率双提升
- 并行采样效果:
在MATH500上,当使用64个并行样本时,RLᵛ(GRPOᵛ)的加权投票准确率达79.0%,远超基线GRPO的55.6%,且计算效率提升32倍(即达到相同准确率所需计算量仅为基线的1/32)。 - 长序列推理:
在AIME’24数据集上,RLᵛ(GRPOᵛ)结合4096 token序列长度时,成功率比基线GRPO高15%,显示其在处理复杂推理时的优势。
2. 效率突破:计算资源的智能分配
- 动态序列长度优化:
通过设定验证置信度阈值(如加权投票分数≥0.6),模型可自动为难题延长推理序列。例如,在AIME’24中,平均序列长度从1024 token增加到4096 token时,准确率从30%提升至40%,证明其按需分配计算资源的能力。 - 模型规模扩展性:
当模型从1.5B扩展至7B时,RLᵛ的验证准确率在MATH500上从76%提升至82%,加权投票准确率提升约5%,表明其性能随模型规模增长而持续优化。
3. 消融研究:核心模块的必要性验证
- 统一训练 vs. 独立验证器:
对比使用独立验证器(基于相同RL数据训练)和RLᵛ的统一验证器,两者验证准确率接近(约80% vs. 78%),但RLᵛ无需额外模型参数,内存占用减少50%以上。 - 验证目标的形式:
对比二进制交叉熵(BCE)分类头、回归头和生成式验证(下一个标记预测),生成式验证在推理准确率(Pass@1)和验证准确率上均最优,表明利用LLM生成能力的有效性。
总结与展望
RLᵛ通过将推理与验证统一到单一LLM中,巧妙解决了传统强化学习方法在测试阶段的效率瓶颈,同时以近乎零成本增强了模型的泛化能力。其核心价值在于数据与计算资源的高效复用,为未来大模型的轻量化部署和复杂推理任务提供了新方向。
值得关注的是,论文提出的动态计算分配机制(如基于置信度的序列长度调整)为长上下文模型(如32K token模型)的优化提供了思路——通过验证器实时评估推理进度,可避免无效的长序列生成,进一步提升计算效率。
未来研究方向可能包括:
- 扩展验证器以生成思维链解释(而非简单“是/否”判断),增强可解释性;
- 探索RLᵛ在代码生成、科学推理等更广泛领域的应用;
- 与更先进的并行采样策略(如蒙特卡洛树搜索)结合,进一步提升复杂任务的推理能力。