大模型奖励建模新突破!Inference-Time Scaling for Generalist Reward Modeling

传统的RM在通用领域面临准确性和灵活性挑战,而DeepSeek-GRM通过动态生成principle和critic,结合并行采样与meta RM引导的投票机制,实现了更高质量的奖励信号生成。论文通过Self-Principled Critique Tuning (SPCT)方法,显著提升了奖励模型(RM)的推理时扩展能力,且推理时扩展性能优于单纯增大模型规模。未来,这一技术有望成为强化学习与语言模型对齐的关键工具。点击阅读,探索通用奖励建模的前沿突破!

论文标题

Inference-Time Scaling for Generalist Reward Modeling

来源

arXiv:2504.02495v2 [cs.CL] 5 Apr 2025
https://arxiv.org/abs/2504.02495

文章核心

研究背景

大语言模型(LLM)发展迅速,强化学习(RL)作为其训练方法被广泛应用,奖励建模(RM)是RL中为LLM生成准确奖励信号的关键部分。然而,当前高质量奖励信号主要依赖特定环境或手工规则获取,在通用领域获取高质量奖励信号面临挑战。

研究问题

  1. 通用奖励建模需要对不同输入类型具有灵活性,现有方法难以满足这一要求,如成对RM难以处理单响应输入,标量RM难以生成多样奖励信号。
  2. 有效推理时可扩展性要求RM能随推理计算增加生成更高质量奖励信号并学习可扩展行为,但现有学习方法很少关注推理时可扩展性及相关行为与RM推理时可扩展性有效性的联系,导致性能提升有限。
  3. 在通用领域,奖励生成标准复杂多样,缺乏明确参考或事实,使得奖励建模更具挑战性。

主要贡献

  1. 提出新的学习方法:提出Self-Principled Critique Tuning(SPCT)方法,用于点向生成式奖励建模(GRM),使GRM能自适应生成原则和评论,显著提升奖励质量和推理时可扩展性,由此得到DeepSeek-GRM模型;引入元RM,进一步提高DeepSeek-GRM的推理时缩放性能。
  2. 实验验证优势:通过实验证明,SPCT在多个综合RM基准测试中,显著提升了GRM的质量和推理时可扩展性,优于现有方法和多个强大的公共模型。
  3. 探索新的发现:将SPCT训练方案应用于更大规模的LLM,发现推理时缩放性能优于训练时模型尺寸缩放。

方法论精要

  1. 核心算法/框架:采用点向Pointwise奖励建模(GRM),并提出Self-Principled Critique Tuning(SPCT)方法。SPCT由**拒绝微调(Rejective Fine-Tuning,RFT)基于规则的在线强化学习(RL)**两部分组成。在拒绝微调阶段,使用预训练的GRM对不同数量的response和prompt进行轨迹采样,构建数据并筛选,让GRM适应生成正确格式的principle和critic。基于规则的在线RL阶段,利用GRPO(Generalized Reinforce Policy Optimization)原设置和基于规则的结果奖励对GRM进一步微调,鼓励GRM区分最佳响应,以实现有效的推理时缩放。
  2. 关键参数设计原理:在基于规则的在线RL中,使用标准GRPO设置,通过网格搜索确定超参数β = 0.08为最稳定配置,此时能避免GRM在基准测试的某些子集上出现偏差。设置组大小G = 4,平衡效率和性能。在数据构建方面,训练集包含1250K RFT数据(1070K通用指令数据和186K拒绝采样数据)和237K RL数据。对于拒绝采样,使用DeepSeek-v2.5 - 0906生成轨迹,采样时间 N R F T N_{RFT} NRFT设为3;在Hinted采样时,添加偏好强度作为提示,并移除对DeepSeek-V2-Lite-Chat来说过于简单的样本。
  3. 创新性技术组合
    • principle生成转变:将principle生成从理解环节转移到生成环节,使GRM能根据输入prompt和response自适应生成principle,进而生成critic,且通过对GRM的后训练可提升principle和critic的质量与粒度。
    • 并行采样与投票:通过并行采样扩展计算使用,对生成的多组principle和critic进行投票得到最终奖励。由于每次采样的奖励通常在小离散范围内(如1 - 10),投票过程扩大了奖励空间,使GRM能生成更多principle,提高最终奖励的质量和粒度。为避免位置偏差和增加多样性,采样前会对响应进行shuffle。
    • meta-RM指导投票:训练元RM指导投票过程。meta-RM是pointwise scalar RM,通过二元交叉熵损失训练,用于识别DeepSeek-GRM生成的principle和critic的正确性。其训练数据集包含RFT阶段的非Hinted采样轨迹和DeepSeek-GRM的采样轨迹,以提供正负奖励并减轻训练和推理策略间的差距。指导投票时,meta-RM为k次采样奖励输出meta-reward,最终结果由meta-reward排名前 k m e t a ≤ k k_{meta}≤k kmetak的奖励投票得出,从而过滤低质量样本。
  4. 实验验证方式:在多个不同领域的RM基准测试中评估模型性能,包括Reward Bench、PPE、RMB、ReaLMistake等。选用多个基线方法进行对比,如LLM-as-a-Judge、DeepSeek-BTRM-27B、CLoud-Gemma-2-27B、DeepSeek-PairRM-27B等,并基于Gemma-2-27B重新实现这些基线方法,保证训练数据和设置与DeepSeek-GRM兼容。在实验设置中,使用标准评估指标,如在Reward Bench、PPE和RMB中选取最佳响应的准确率,ReaLMistake中的ROC-AUC。对于多响应预测奖励的平局情况,通过shuffle和arg max操作确定最佳响应。

实验洞察

  1. 性能优势:在RM基准测试中,DeepSeek-GRM-27B总体性能优于基线方法,与强大的公共RM(如Nemotron-4-340B-Reward和GPT-4o)相比也具有竞争力。通过推理时缩放,DeepSeek-GRM-27B性能进一步提升,如在Voting@32设置下,总体得分达到71.0,MetaRM指导投票时可达72.8。在不同基准测试的具体指标上,如Reward Bench的准确率、PPE的正确性、RMB的各项指标等,DeepSeek-GRM-27B均有出色表现。
  2. 效率突破:采用并行采样进行推理时缩放,在合理采样次数(如8次)下,奖励生成延迟不会显著增加。与训练时缩放模型尺寸相比,DeepSeek-GRM-27B的推理时缩放更有效,例如直接投票32次的DeepSeek-GRM-27B性能与671B MoE模型相当,MetaRM指导投票8次时效果最佳。
  3. 消融研究:通过对SPCT不同组件的消融实验发现,principle生成对DeepSeek-GRM-27B的贪婪解码和推理时缩放性能都至关重要;非提示采样似乎比提示采样更重要;即使没有拒绝采样的冷启动,经过在线RL后,通用指令调整的GRM仍有显著性能提升,表明在线训练对GRM很重要。

本文由AI辅助完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78531.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器视觉的胶带模切应用

在电子制造领域,胶带模切工艺如同产品的“隐形裁缝”,从手机屏幕OCA光学胶到动力电池绝缘胶带,每一刀精准的切割都关乎产品性能与可靠性。传统人工对位方式难以应对微米级加工精度的严苛要求,而MasterAlign机器视觉系统的引入&…

Vue2+ElementUI实现无限级菜单

使用Vue2和ElementUI实现无限级菜单,通常菜单数据以树形结构存储,每个菜单包含多个子菜单 ,子菜单又可以继续包含更深层次的子菜单项。所以,需要使用递归形式,完成子项菜单的渲染。 这里,结合Element UI界面的el-menu和el-submenu组件来构建菜单结构,有子菜单时使用el-s…

如何使用WebRTC

WebRTC比较容易使用,只需要很少的步骤,有些消息在浏览器和服务器之间流动,有些则直接在两个浏览器之间流动, 1、建立WebRTC会话 a:建立WebRTC连接需要加入以下几个步骤: 获取本地媒体:getUse…

数据分析管理软件 Minitab 22.2.2 中文版安装包 免费下载

Minitab22.2.2 安装包下载链接: https://pan.baidu.com/s/1cWuDbvcWhYrub01C6QR81Q?pwd6666 提取码: 6666 Minitab软件是现代质量管理统计软件,全球六西格玛实施的共同语言。Minitab 已经在全球120多个国家,5000多所高校被广泛使用。

从新手到高手:小程序开发进阶技巧分享

小程序开发从入门到精通需要经历技术积累、架构优化和工程化实践等多个阶段。以下是结合真实项目经验的进阶路线与核心技术要点,涵盖性能优化、架构设计、跨平台开发等关键领域: 一、性能调优实战技巧 1. 首屏渲染加速方案 // 预请求关键数据&#xff…

Vue3后代组件多祖先通讯设计方案

在 Vue3 中,当需要设计一个被多个祖先组件使用的后代组件的通讯方式时,可以采用以下方案(根据场景优先级排序): 方案一:依赖注入(Provide/Inject) 响应式上下文 推荐场景&#xff…

《代码之美:静态分析工具与 CI 集成详解》

《代码之美:静态分析工具与 CI 集成详解》 引言 在现代软件开发的快节奏环境中,代码质量和效率始终是开发者关注的核心。无论您是初学者,还是经验丰富的资深开发者,一个强大的工具链都能让您如虎添翼。而 Python 的静态代码分析工具,如 pylint、flake8 和 mypy,正是提升…

kafka安装、spark安装

kafka简介 Kafka就是一个分布式的用于消息存储的消息队列。 kafka角色 Kafka中存储的消息,被消费后不会被删除,可以被重复消费,消息会保留多长,由kafka自己去配置。默认7天删除。背后的管理工作由zookeeper来管理。 kafka安装 …

Jmeter数据库url开关设置+常用Beanshell

1、数据库url开关设置 (79 90) jdbc:mysql://test.lemonban.com:3306/future?allowMultiQueries-true&characterEncodingUTF-8 多条查询开关:allowMultiQueriestrue 字符集配置:characterEncodingUTF-8 2、用BeanShell提取Map中的方…

媒体关注:联易融聚焦AI+业务,重塑供应链金融生态

近日,供应链金融科技龙头企业联易融科技集团(以下简称“联易融”)发布的公告显示,截至2024年末,公司现金储备达51亿元,同比上一年增加2亿元。公司称,公司经营性现金流保持健康,现金储…

求解,如何控制三相无刷电机?欢迎到访评论

问题:通过一个集成的TF2104芯片控制H桥上桥臂和下桥臂,如何控制?还是说得需要PWM_UH和PWM_UL分开控制?

AIGC在游戏开发中的革命:自动化生成3A级游戏内容

一、智能游戏开发架构 1.1 传统开发痛点与AIGC创新 开发环节 传统痛点 AIGC解决方案 角色原画设计 美术资源产能瓶颈 文生图3D模型自动生成 场景搭建 重复劳动占比高 程序化生成风格迁移 NPC行为设计 模式化严重 强化学习驱动智能行为 任务系统 剧情线性缺乏变化 动态剧情生成系…

定位与解决线上 OOM 问题:原因分析与快速排查指南

OutOfMemoryError (OOM) 是 Java 应用在生产环境中常见的严重问题,可能导致服务不可用、响应延迟或直接崩溃。线上 OOM 的定位和解决需要快速准确,以最小化业务影响。本文将深入分析 OOM 的常见原因,介绍定位 OOM 的系统化方法,并…

Rust 数据类型

Rust 数据类型 Rust 是一种系统编程语言,它旨在提供高性能和内存安全,同时保持并发编程的简洁性。在 Rust 中,数据类型是构成变量和表达式的基石。理解 Rust 中的数据类型对于编写高效、可靠的 Rust 代码至关重要。 引言 Rust 的数据类型分为两大类:基本数据类型和复合数…

Eigen线性代数求解器(分解类)

1. 核心分解类概览 Eigen 提供多种矩阵分解方法,适用于不同矩阵类型(稠密/稀疏、正定/非正定等): 分解类适用矩阵类型分解形式典型应用场景PartialPivLU方阵(可逆)APLUAPLU通用线性方程组求解FullPivLU任…

QQMusic项目功能总结

QQMusic项目功能总结 一、核心功能分类 (一)界面交互功能 功能模块实现方式使用类(自定义/Qt库)核心类说明窗口布局Head区(图标、搜索框、控制按钮) Body区(左侧功能栏右侧页面区&#xff09…

2025第十六届蓝桥杯大赛(软件赛)网络安全赛 Writeup

2025第十六届蓝桥杯大赛(软件赛)网络安全赛 Writeup 2025第十六届蓝桥杯大赛(软件赛)网络安全赛 Writeup情报收集黑客密室逃脱 数据分析ezEvtxflowzip 密码破解EnigmaECBTraineasy_AES 逆向分析ShadowPhases 漏洞挖掘分析RuneBrea…

CSS Position 属性完全指南

CSS 中的 position 属性是布局的基础,它决定了元素在页面中的定位方式。理解各种定位值的行为和适用场景对于构建灵活、响应式的布局至关重要。 position 属性的五个主要值 1. static(默认值) 元素遵循正常的文档流不受 top, right, botto…

Java集成Redisson实现分布式锁(实战)

一、Redisson是什么 Redisson 是一个基于 Redis 实现的 Java 驻内存数据网格(In-Memory Data Grid)。它不仅提供了一系列分布式和可扩展的 Java 数据结构,还对 Redis 进行了封装,让开发者可以更便捷地使用 Redis。 二、Redisson…

linux的例行性工作(at)

使用场景: 生活中,我们有太多场景需要使用到闹钟,比如早上 7 点起床,下午 4 点开会,晚上 8 购物,等等 在 Linux 系统里,我们同样也有类似的需求。比如我们想在凌晨 1 点将文件上传服务器&#…