大模型奖励建模新突破！Inference-Time Scaling for Generalist Reward Modeling

传统的RM在通用领域面临准确性和灵活性挑战，而DeepSeek-GRM通过动态生成principle和critic，结合并行采样与meta RM引导的投票机制，实现了更高质量的奖励信号生成。论文通过Self-Principled Critique Tuning (SPCT)方法，显著提升了奖励模型（RM）的推理时扩展能力，且推理时扩展性能优于单纯增大模型规模。未来，这一技术有望成为强化学习与语言模型对齐的关键工具。点击阅读，探索通用奖励建模的前沿突破！

论文标题

Inference-Time Scaling for Generalist Reward Modeling

来源

arXiv:2504.02495v2 [cs.CL] 5 Apr 2025
https://arxiv.org/abs/2504.02495

文章核心

研究背景

大语言模型（LLM）发展迅速，强化学习（RL）作为其训练方法被广泛应用，奖励建模（RM）是RL中为LLM生成准确奖励信号的关键部分。然而，当前高质量奖励信号主要依赖特定环境或手工规则获取，在通用领域获取高质量奖励信号面临挑战。

研究问题

通用奖励建模需要对不同输入类型具有灵活性，现有方法难以满足这一要求，如成对RM难以处理单响应输入，标量RM难以生成多样奖励信号。
有效推理时可扩展性要求RM能随推理计算增加生成更高质量奖励信号并学习可扩展行为，但现有学习方法很少关注推理时可扩展性及相关行为与RM推理时可扩展性有效性的联系，导致性能提升有限。
在通用领域，奖励生成标准复杂多样，缺乏明确参考或事实，使得奖励建模更具挑战性。

主要贡献

提出新的学习方法：提出Self-Principled Critique Tuning（SPCT）方法，用于点向生成式奖励建模（GRM），使GRM能自适应生成原则和评论，显著提升奖励质量和推理时可扩展性，由此得到DeepSeek-GRM模型；引入元RM，进一步提高DeepSeek-GRM的推理时缩放性能。
实验验证优势：通过实验证明，SPCT在多个综合RM基准测试中，显著提升了GRM的质量和推理时可扩展性，优于现有方法和多个强大的公共模型。
探索新的发现：将SPCT训练方案应用于更大规模的LLM，发现推理时缩放性能优于训练时模型尺寸缩放。

方法论精要

核心算法/框架：采用点向Pointwise奖励建模（GRM），并提出Self-Principled Critique Tuning（SPCT）方法。SPCT由**拒绝微调（Rejective Fine-Tuning，RFT）和基于规则的在线强化学习（RL）**两部分组成。在拒绝微调阶段，使用预训练的GRM对不同数量的response和prompt进行轨迹采样，构建数据并筛选，让GRM适应生成正确格式的principle和critic。基于规则的在线RL阶段，利用GRPO（Generalized Reinforce Policy Optimization）原设置和基于规则的结果奖励对GRM进一步微调，鼓励GRM区分最佳响应，以实现有效的推理时缩放。
关键参数设计原理：在基于规则的在线RL中，使用标准GRPO设置，通过网格搜索确定超参数β = 0.08为最稳定配置，此时能避免GRM在基准测试的某些子集上出现偏差。设置组大小G = 4，平衡效率和性能。在数据构建方面，训练集包含1250K RFT数据（1070K通用指令数据和186K拒绝采样数据）和237K RL数据。对于拒绝采样，使用DeepSeek-v2.5 - 0906生成轨迹，采样时间 $N_{RFT}$ 设为3；在Hinted采样时，添加偏好强度作为提示，并移除对DeepSeek-V2-Lite-Chat来说过于简单的样本。
创新性技术组合
- principle生成转变：将principle生成从理解环节转移到生成环节，使GRM能根据输入prompt和response自适应生成principle，进而生成critic，且通过对GRM的后训练可提升principle和critic的质量与粒度。
- 并行采样与投票：通过并行采样扩展计算使用，对生成的多组principle和critic进行投票得到最终奖励。由于每次采样的奖励通常在小离散范围内（如1 - 10），投票过程扩大了奖励空间，使GRM能生成更多principle，提高最终奖励的质量和粒度。为避免位置偏差和增加多样性，采样前会对响应进行shuffle。
- meta-RM指导投票：训练元RM指导投票过程。meta-RM是pointwise scalar RM，通过二元交叉熵损失训练，用于识别DeepSeek-GRM生成的principle和critic的正确性。其训练数据集包含RFT阶段的非Hinted采样轨迹和DeepSeek-GRM的采样轨迹，以提供正负奖励并减轻训练和推理策略间的差距。指导投票时，meta-RM为k次采样奖励输出meta-reward，最终结果由meta-reward排名前 $k_{meta}≤k$ 的奖励投票得出，从而过滤低质量样本。
实验验证方式：在多个不同领域的RM基准测试中评估模型性能，包括Reward Bench、PPE、RMB、ReaLMistake等。选用多个基线方法进行对比，如LLM-as-a-Judge、DeepSeek-BTRM-27B、CLoud-Gemma-2-27B、DeepSeek-PairRM-27B等，并基于Gemma-2-27B重新实现这些基线方法，保证训练数据和设置与DeepSeek-GRM兼容。在实验设置中，使用标准评估指标，如在Reward Bench、PPE和RMB中选取最佳响应的准确率，ReaLMistake中的ROC-AUC。对于多响应预测奖励的平局情况，通过shuffle和arg max操作确定最佳响应。

实验洞察

性能优势：在RM基准测试中，DeepSeek-GRM-27B总体性能优于基线方法，与强大的公共RM（如Nemotron-4-340B-Reward和GPT-4o）相比也具有竞争力。通过推理时缩放，DeepSeek-GRM-27B性能进一步提升，如在Voting@32设置下，总体得分达到71.0，MetaRM指导投票时可达72.8。在不同基准测试的具体指标上，如Reward Bench的准确率、PPE的正确性、RMB的各项指标等，DeepSeek-GRM-27B均有出色表现。
效率突破：采用并行采样进行推理时缩放，在合理采样次数（如8次）下，奖励生成延迟不会显著增加。与训练时缩放模型尺寸相比，DeepSeek-GRM-27B的推理时缩放更有效，例如直接投票32次的DeepSeek-GRM-27B性能与671B MoE模型相当，MetaRM指导投票8次时效果最佳。
消融研究：通过对SPCT不同组件的消融实验发现，principle生成对DeepSeek-GRM-27B的贪婪解码和推理时缩放性能都至关重要；非提示采样似乎比提示采样更重要；即使没有拒绝采样的冷启动，经过在线RL后，通用指令调整的GRM仍有显著性能提升，表明在线训练对GRM很重要。

本文由AI辅助完成。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/78531.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！