RLᵛ_ Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

RLᵛ: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

在人工智能领域,大语言模型(LLM)的推理能力提升一直是研究热点。今天要解读的论文提出了一种全新的强化学习框架RLᵛ,通过融合推理与验证能力,为大模型的测试效率和泛化性能带来了突破性进展。这一成果不仅解决了传统强化学习方法的关键缺陷,更展现了统一化训练在提升模型综合能力上的巨大潜力。

论文标题

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

来源
arXiv:2505.04842 [cs.LG] + https://arxiv.org/abs/2505.04842

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

研究背景

在大语言模型(LLM)推理能力的强化学习(RL)优化中,主流方法(如 GRPO、VinePPO)为降低训练成本,普遍舍弃传统价值函数,转而依赖经验估计回报。这一 “去价值化” 策略虽提升了训练阶段的计算效率和内存利用率,却导致测试阶段丧失关键的内置验证能力—— 传统价值函数本可作为 “结果验证器” 评估推理链正确性,支撑并行采样(如 Best-of-N 投票)等计算扩展策略。这一策略虽然提升了训练效率,却导致模型在测试阶段缺乏内置的验证机制,难以利用并行采样等计算扩展策略优化推理结果。

研究问题

1. 测试阶段计算效率低下:缺少价值函数或验证器,无法通过并行采样(如Best-of-N投票)有效提升推理准确性。

2. 独立验证器的高成本:部署单独的验证模型会增加数据标注、计算资源和内存占用的负担。

3. 泛化能力受限:传统方法在跨难度(Easy-to-Hard)或跨领域(Out-of-Domain)任务中表现不足,难以应对复杂推理需求。

主要贡献

1. 统一化训练框架RLᵛ
首次提出在单一LLM中同时训练推理器(Reasoner)和生成式验证器(Generative Verifier),利用强化学习过程中产生的(问题-解-奖励)数据,通过联合优化RL目标与验证目标(如预测“是否正确”的下一个标记),实现“一次训练,双重能力”。与传统方法相比,无需额外模型或数据开销,验证能力提升的同时推理性能保持稳定。

2. 测试阶段计算效率的革命性提升

  • 并行采样效率:在MATH500数据集上,使用加权投票策略时,RLᵛ相比基线方法(如GRPO)的计算效率提升8-32倍,准确率提高超20%。
  • 动态序列长度优化:通过设定验证置信度阈值,模型可自动为难题分配更长的推理序列,在AIME’24数据集上实现计算预算内的准确率最大化。

3. 跨场景泛化能力突破

  • 难度泛化:在MATH²(更复杂数学问题)上,RLᵛ的成功率比基线方法高10%以上。
  • 领域泛化:在GPQA物理问题(跨领域任务)中,准确率提升超10%,证明其验证机制具有通用性。

4. 长推理模型的互补性增强
与长思维链模型(如R1-Distill-Qwen-1.5B)结合时,RLᵛ在并行+序列计算联合扩展场景下,性能比基线方法高1.2-1.6倍,验证了其与现有技术的兼容性。

方法论精要

1. 核心框架:RLᵛ的统一训练机制

  • 训练阶段
    LLM同时作为策略网络(生成推理链)和验证器(预测解的正确性)。利用RL生成的解及其正确性标签(由奖励函数提供),通过监督微调(SFT)训练验证器,目标为最大化预测“是/否”标签的似然性。

统一目标函数

J Unified ( θ ) = J RL ( θ ; x ) + λ J Verify ( θ ; x ) \mathcal{J}_{\text{Unified}}(\theta) = \mathcal{J}_{\text{RL}}(\theta; x) + \lambda \mathcal{J}_{\text{Verify}}(\theta; x) JUnified(θ)=JRL(θ;x)+λJVerify(θ;x)

其中, J RL \mathcal{J}_{\text{RL}} JRL为强化学习目标, J Verify \mathcal{J}_{\text{Verify}} JVerify为验证目标, λ \lambda λ平衡两者权重。

  • 测试阶段
    LLM生成N个候选解,同时作为验证器为每个解评分(“是”的概率),通过加权投票Best-of-N策略选择最终答案。例如,加权投票将同一答案的验证分数累加,选择最高分答案,显著优于无验证的多数投票基线。

2. 关键参数设计原理

  • 验证目标的形式
    将验证视为“下一个标记预测”任务,输入为(问题x,解y,提示“该解是否正确?回答是或否”),输出为“是/否”标记,避免引入额外分类头或回归层,降低结构复杂度。
  • 超参数平衡
    λ \lambda λ的取值影响推理与验证能力的权衡。实验表明,Leave-one-out PPOᵛ在 λ = 1 \lambda=1 λ=1时达到最佳平衡,推理准确率(Pass@1)与验证准确率(对正误解的区分能力)均保持高位,而GRPOᵛ因优化特性导致两者存在显著取舍。

3. 创新性技术组合

  • 数据复用
    直接利用RL训练中产生的解数据(无需额外标注),通过“生成-验证”闭环实现数据高效利用,避免独立验证器所需的大规模标注成本。
  • 轻量级验证
    验证过程与推理共享同一模型参数,无额外内存占用,推理时仅需一次前向传播即可同时获得解和验证分数,相比独立验证器节省约50%计算资源。
  1. 实验验证:数据集与基线选择
  • 数据集
    • 数学推理:MATH(训练)、MATH500、MATH²(难度泛化)、AIME’24(长序列推理)。
    • 跨领域:GPQA Physics(物理问题,测试领域泛化)。
  • 基线方法
    主流“无价值函数”RL方法,如GRPO、Leave-one-out PPO、VinePPO,对比时使用LLM-as-a-Judge(即直接提示基模型作为验证器)或独立验证器作为基线验证方案。

实验洞察

1. 性能优势:准确率与效率双提升

  • 并行采样效果
    在MATH500上,当使用64个并行样本时,RLᵛ(GRPOᵛ)的加权投票准确率达79.0%,远超基线GRPO的55.6%,且计算效率提升32倍(即达到相同准确率所需计算量仅为基线的1/32)。
  • 长序列推理
    在AIME’24数据集上,RLᵛ(GRPOᵛ)结合4096 token序列长度时,成功率比基线GRPO高15%,显示其在处理复杂推理时的优势。

2. 效率突破:计算资源的智能分配

  • 动态序列长度优化
    通过设定验证置信度阈值(如加权投票分数≥0.6),模型可自动为难题延长推理序列。例如,在AIME’24中,平均序列长度从1024 token增加到4096 token时,准确率从30%提升至40%,证明其按需分配计算资源的能力。
  • 模型规模扩展性
    当模型从1.5B扩展至7B时,RLᵛ的验证准确率在MATH500上从76%提升至82%,加权投票准确率提升约5%,表明其性能随模型规模增长而持续优化。

3. 消融研究:核心模块的必要性验证

  • 统一训练 vs. 独立验证器
    对比使用独立验证器(基于相同RL数据训练)和RLᵛ的统一验证器,两者验证准确率接近(约80% vs. 78%),但RLᵛ无需额外模型参数,内存占用减少50%以上。
  • 验证目标的形式
    对比二进制交叉熵(BCE)分类头、回归头和生成式验证(下一个标记预测),生成式验证在推理准确率(Pass@1)和验证准确率上均最优,表明利用LLM生成能力的有效性。

总结与展望

RLᵛ通过将推理与验证统一到单一LLM中,巧妙解决了传统强化学习方法在测试阶段的效率瓶颈,同时以近乎零成本增强了模型的泛化能力。其核心价值在于数据与计算资源的高效复用,为未来大模型的轻量化部署和复杂推理任务提供了新方向。

值得关注的是,论文提出的动态计算分配机制(如基于置信度的序列长度调整)为长上下文模型(如32K token模型)的优化提供了思路——通过验证器实时评估推理进度,可避免无效的长序列生成,进一步提升计算效率。

未来研究方向可能包括:

  1. 扩展验证器以生成思维链解释(而非简单“是/否”判断),增强可解释性;
  2. 探索RLᵛ在代码生成、科学推理等更广泛领域的应用;
  3. 与更先进的并行采样策略(如蒙特卡洛树搜索)结合,进一步提升复杂任务的推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VS中将控制台项目编程改为WINDOWS桌面程序

有时候因为误操作,建立了控制台项目,但是实际上想建立桌面程序。那么应该如何改过来呢? 一共要修改两个地方,修改步骤如下: 第一处修改地点: 将C/C下面的预处理器选项中,将原本的_CONSOLE修改…

API Gateway REST API 集成 S3 服务自定义 404 页面

需求分析 使用 API Gateway REST API 可以直接使用 S3 作为后端集成对外提供可以访问的 API. 而当访问的 URL 中存在无效的桶, 或者不存在的对象时, API Gateway 默认回向客户端返回 200 状态码. 而实际上这并不是正确的响应, 本文将介绍如何自定义返回 404 错误页面. 基本功…

【达梦数据库】过程、函数、包头和包体详解零基础

目录 背景参考链接解释包头包体 背景 最近遇到关于包头和包体的问题,学习并记录 参考链接 参考链接: oracle的过程、函数、包头和包体详解零基础 解释 包头主要用于定义接口,包体主要用以实现包体中声明的存储过程、函数等。 包头 包体

C++字符串处理:`std::string`和`std::string_view`的区别与使用

在 C中,std::string和std::string_view都用于处理字符串,但它们的用途和性能特点有很大不同。本教程将通过代码示例和流程图,帮助你快速掌握它们的使用方法。 1.什么是std::string和std::string_view? 1.1std::string std::str…

Pod 节点数量

动态调整 在 Kubernetes 中,如果为量化交易系统的 Pod 设置了可伸缩(HPA / VPA / 自定义控制器),并且默认副本数是 5,那么节点数量(副本数)是否变化,主要取决于以下几个因素。 ✅ …

基于OpenCV中的图像拼接方法详解

文章目录 引言一、图像拼接的基本流程二、代码实现详解1. 准备工作2. 特征检测与描述detectAndDescribe 函数详解(1)函数功能(2)代码解析(3)为什么需要这个函数?(4)输出数…

Java-List集合类全面解析

Java-List集合类全面解析 前言一、List接口概述与核心特性1.1 List在集合框架中的位置1.2 List的核心特性1.3 常见实现类对比 二、ArrayList源码剖析与应用场景2.1 内部结构与初始化2.2 动态扩容机制2.3 性能特点与最佳实践 三、LinkedList 源码剖析与应用场景3.1 内部结构与节…

Flink 并行度的设置

在 Apache Flink 中,并行度(Parallelism) 是控制任务并发执行的核心参数之一。Flink 提供了 多个层级设置并行度的方式,优先级从高到低如下: 🧩 一、Flink 并行度的四个设置层级 层级描述设置方式Operator…

OpenCV 笔记(39):频域中的拉普拉斯算子

1. 拉普拉斯算子 在该系列的第八篇文章中,我们曾经介绍过在二维空间拉普拉斯算子的定义为: 这是对函数 的二阶偏导数之和。 2. 拉普拉斯算子的傅里叶变换及其推导 在该系列的第三十二篇文章中,我们曾给介绍过下面的公式 二维连续傅里叶变换&…

入职软件开发与实施工程师了后........

时隔几个月没有创作的我又回来了,这几个月很忙,我一直在找工作,在自考(顺便还处理了一下分手的事),到处奔波,心力交瘁。可能我骨子里比较傲吧。我不愿意着急谋生,做我不愿意做的普通…

多卡跑ollama run deepseek-r1

# 设置环境变量并启动模型 export CUDA_VISIBLE_DEVICES0,1,2,3 export OLLAMA_SCHED_SPREAD1 # 启用多卡负载均衡 ollama run deepseek-r1:32b 若 deepseek-r1:32b 的显存需求未超过单卡容量(如单卡 24GB),Ollama 不会自动启用多卡 在run…

09、底层注解-@Import导入组件

09、底层注解-Import导入组件 Import是Spring框架中的一个注解,用于将组件导入到Spring的应用上下文中。以下是Import注解的详细介绍: #### 基本用法 - **导入配置类** java Configuration public class MainConfig { // 配置内容 } Configuration Impo…

题解:P12207 [蓝桥杯 2023 国 Python B] 划分

链接 题目描述 给定 40 个数,请将其任意划分成两组,每组至少一个元素。每组的权值为组内所有元素的和。划分的权值为两组权值的乘积。请问对于以下 40 个数,划分的权值最大为多少。 5160 9191 6410 4657 7492 1531 8854 1253 4520 9231126…

配置ssh服务-ubuntu到Windows拷贝文件方法

背景: 在工作中,需要频繁从ubuntu到Windows拷贝文件,但有时间总是无法拷出,每次重启虚拟机又比较麻烦并且效率较低。可以使用scp服务进行拷贝,不仅稳定而且高效,现将配置过程进行梳理,以供大家参…

线程池模式与C#中用法

一、线程池模式解析 1. 核心概念 线程池是一种 管理线程生命周期的技术,主要解决以下问题: 减少线程创建/销毁开销:复用已存在的线程 控制并发度:避免无限制创建线程导致资源耗尽 任务队列:有序处理异步请求 2. …

设置IDEA打开新项目使用JDK17

由于最近在学习Spring-AI&#xff0c;所以JDK8已经不适用了&#xff0c;但是每次创建新项目都还是JDK8&#xff0c;每次调来调去很麻烦 把Projects和SDKs都调整为JDK17即可 同时&#xff0c;Maven也要做些更改&#xff0c;主要是添加build标签 <build><plugins>&…

初识MySQL · 索引

目录 前言&#xff1a; 重温磁盘 认识索引 为什么这么做&#xff0c;怎么做 重谈page 聚簇索引VS非聚簇索引 回表查询 索引分类 前言&#xff1a; 前文我们主要是介绍了MySQL的一些基本操作&#xff0c;增删查改一类的操作都介绍了&#xff0c;并且因为大多数情况下&am…

MySQL——7、复合查询和表的内外连接

复合查询和表的内外连接 1、基本查询回顾2、多表查询3、自连接4、子查询4.1、单行子查询4.2、多行子查询4.3、多列子查询4.4、在from子句中使用子查询4.5、合并查询 5、表的内连和外连5.1、内连接5.2、外连接5.2.1、左外连接5.2.2、右外连接 1、基本查询回顾 1.1、查询工资高于…

MYSQL故障排查和环境优化

一、MySQL故障排查 1. 单实例常见故障 &#xff08;1&#xff09;连接失败类问题 ERROR 2002 (HY000): Cant connect to MySQL server 原因&#xff1a;MySQL未启动或端口被防火墙拦截。 解决&#xff1a;启动MySQL服务&#xff08;systemctl start mysqld&#xff09;或开放…

7GB显存如何部署bf16精度的DeepSeek-R1 70B大模型?

构建RAG混合开发---PythonAIJavaEEVue.js前端的实践-CSDN博客 服务容错治理框架resilience4j&sentinel基础应用---微服务的限流/熔断/降级解决方案-CSDN博客 conda管理python环境-CSDN博客 快速搭建对象存储服务 - Minio&#xff0c;并解决临时地址暴露ip、短链接请求改…