详细介绍:【AI论文】R2R:通过小型与大型模型之间的令牌路由高效导航发散推理路径

news/2025/10/5 16:51:15/文章来源:https://www.cnblogs.com/yxysuanfa/p/19126715

摘要:大型语言模型(LLMs)以巨大的推理开销为代价,实现了令人印象深刻的推理能力,这带来了巨大的部署挑战。 尽管蒸馏的小语言模型(SLM)显著提高了效率,但由于它们无法遵循LLM的推理路径,因此性能受到影响。 幸运的是,我们发现只有一小部分标记真正在LLM和SLM之间发散推理路径。 大多数生成的代币要么完全相同,要么表现出中性的差异,例如缩写或表达上的微小变化。 基于这一见解,我们引入了罗马之路(R2R),这是一种神经令牌路由手段,有选择地仅针对这些关键的、路径发散的令牌使用LLM,同时将大多数令牌生成留给SLM。 大家还开发了一个自动数据生成管道,该管道可以识别不同的标记并生成标记级路由标签来训练轻量级路由器。 我们应用R2R将DeepSeek家族的R1-1.5B和R1-32B模型结合起来,并在具有挑战性的数学、编码和问答基准上进行评估。 R2R的平均激活参数大小为5.6B,其准确率是R1-7B的1.6倍,甚至超过了R1-14B模型。 与R1-32B相比,它在性能相当的情况下实现了2.8倍的时钟加速,在测试时间缩放效率方面达到了帕累托前沿。 我们的代码能够在Github。Huggingface链接:Paper page,论文链接:2505.21600

研究背景和目的

研究背景

近年来,大型语言模型(LLMs)在各种任务中展现出了强大的能力,特别是在繁琐的推理任务上。然而,这些强大的能力是以巨大的推理开销为代价的,这给模型的部署带来了显著的挑战。为了应对这一挑战,研究者们开始探索如何通过蒸馏技术创建小语言模型(SLMs),这些SLMs参数较少,生成效率更高,能够模拟LLMs的推理行为。然而,尽管SLMs在效率上有了显著提升,但它们在推理路径上往往与LLMs存在分歧,导致性能下降。例如,在AIME基准测试中,R1-1.5B SLM与R1-32B LLM相比,在45%的问题上提供了不同的最终答案,准确率下降了4.8倍。

:就是进一步的研究发现,SLMs和LLMs在生成令牌时,大多数情况下预测是相同的,性能差距主要源于累积误差:在部分响应出现关键差异后,它们的推理路径开始逐渐偏离。这表明,只有一小部分令牌真正导致了推理路径的分歧。因此,一个自然的研究问题SLMs是否能够通过仅替换发散的令牌来跟随LLMs的推理路径? 如果能够解决该问题,大家就可以在大多数生成步骤中利用SLMs的高效性,同时保留LLMs高质量推理的优势,从而在测试时间缩放效率上搭建更好的性能-效率权衡。

研究目的

本研究旨在开发一种名为罗马之路(R2R)的神经令牌路由途径,利用选择性地在SLMs生成过程中使用LLMs来纠正那些关键、路径发散的令牌,从而在保持高质量推理的同时提高生成效率。具体来说,我们的研究目的包括:

  1. 设计一种自动数据生成管道:用于识别发散令牌,并生成令牌级路由标签,以训练轻量级路由器。
  2. 开发一种神经令牌路由器:在SLMs生成过程中,根据路由器的预测,选择性地将发散令牌路由到LLMs进行纠正。
  3. 在具有挑战性的数学、编码和QA基准上评估R2R的性能:验证其在提高生成效率的同时,能否保持或提升推理质量。

研究方法

1. 数据收集与预处理

为了训练神经令牌路由器,我们需要大量的路由标签素材。这些数据包括LLMs和SLMs在相同上下文中生成的令牌序列,以及每个令牌是否应该被路由到LLMs的标签。我们通过以下步骤生成这些数据:

2. 神经令牌路由器设计

我们设计了一个轻量级的五层前馈网络(FFN)作为神经令牌路由器。该路由器接受SLMs的输出日志、令牌嵌入和最后层的隐藏状态作为输入,输出一个二元分类概率,指示当前令牌是否偏离了LLMs的推理路径。路由器的训练目标是最小化交叉熵损失,通过反向传播算法更新路由器的参数。

3. 推理过程中的路由策略

在推理过程中,大家采用了一种即时路由策略。对于每个生成的令牌,SLMs先进行预测,然后路由器根据SLMs的输出预测该令牌是否应该被路由到LLMs。如果路由器的预测概率超过预设的阈值,则使用LLMs来纠正该令牌;否则,使用SLMs的预测。

研究结果

1. 性能提升

我们在AIME、GPQA-Diamond和LiveCodeBench等具有挑战性的基准上评估了R2R的性能。实验结果表明,R2R在平均激活参数大小为5.6B的情况下,准确率比R1-7B高出1.6倍,甚至超过了R1-14B模型。与R1-32B相比,R2R在性能相当的情况下搭建了2.8倍的时钟加速,显著推进了测试时间缩放效率的帕累托前沿。

2. 路由效率

通过分析路由器的行为,我们发现R2R在回复阶段路由到LLMs的令牌明显减少,这符合直觉,由于经过内部思考后,回复本身更加直接,要求较低。此外,R2R在每个思考过程的开始和结束时更依赖于LLMs,这反映了初始令牌设定思考方向,而结束令牌决定是否结束思考、分支到替代方案或继续深入推理的直觉。

3. 消融研究

我们通过消融研究验证了R2R设计的有效性。实验结果表明,将路由目标更改为所有不同的令牌都会导致准确性显著下降(1.4倍),这证实了仅将发散令牌路由到LLMs对于在减少成本的同时保持高准确性至关重要。此外,去除SLMs日志或令牌嵌入等输入特征也会导致路由准确性大幅下降,进一步强调了这些特征在路由器中的重要性。

研究局限

尽管R2R在提高生成效率的同时保持了高质量的推理,但本研究仍存在一些局限性:

  1. 采样策略限制:当前的路由策略假设了贪心采样。探索替代采样策略可能会进一步提高R2R的通用性。
  2. 系统级优化需求:为了充分实现R2R的理论成本效益,需进行更多的专用系统级优化。
  3. 数据集多样性:尽管我们在多个基准上评估了R2R的性能,但这些基准主要涵盖了数学、编码和QA任务。未来研究可以探索R2R在其他类型任务上的表现。

未来研究方向

通过基于本研究的结果和局限性,未来的研究能够关注以下几个方向:

  1. 探索替代采样策略通过:除了贪心采样外,还能够探索其他采样策略(如束搜索、top-k采样等)对R2R性能的影响。
  2. 系统级优化:开发更高效的系统级达成,以充分利用R2R的潜力。例如,可以通过优化KV缓存更新、减少LLMs和SLMs之间的通信开销等方式来提高推理速度。
  3. 扩展到其他任务类型:将R2R应用于更多类型的任务(如自然语言生成、对话体系等),以验证其通用性和有效性。
  4. 结合其他模型压缩技术:探索将R2R与其他模型压缩技术(如量化、剪枝等)相结合,以进一步提高模型的效率和性能。
  5. 可解释性研究:研究R2R的路由决策背后的原因,提高其可解释性,从而帮助用户更好地理解和信任模型。

总之,本研究通过引入R2R方法,为在保持高质量推理的同时提高大型语言模型的生成效率提供了一种新的思路。未来的研究可以进一步探索R2R的潜力,并推动其在更多实际应用中的部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TDengine 运维——巡检应用(安装前预配置)

TDengine 运维——巡检应用(安装前预配置)2025-10-05 16:47 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: bl…

网站防止镜像郑州发布最新通知

ASO行业资讯1数据周报12月8日起,用户在任何 Apple 平台下载 App 之前,App Store 都会先帮助其了解该 App 的隐私保护做法。在每款 App 的产品页面上,用户能了解到该 App 可能收集的某些数据类型,以及该数据是否会关联到他们或对其…

网站中的打赏怎么做的网站开发中网页上传和网站发布

有一种常见的说法是外观完全决定了吸引力,错,如果你希望人们被你吸引,如果你想做一个优秀的、成功的、万众瞩目的女性,那么你必须做很多努力,才能成为一个有魅力的人。1做自己不要复制像杰西卡兰格或安德里亚汤普森这样…

优化网站性能网站建设项目表

流程:1.DrissionPageSelenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库; 2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群; 3.hive建库建表导入.csv动漫…

郑州网站设计汉狮匈牙利网站后缀

From: http://blog.csdn.net/guogeer/article/details/7407508 [html] view plaincopy下列选项控制编译器警告信息: --all-warnings 此开关缺少可用文档 --extra-warnings 此开关缺少可用文档 -W 不建议使用此开关…

2025.10.5 2024CCPC郑州

施工中…… vp 5/13 (B C F L M) 简要题解 L 找规律,模拟即可 B 按题意BFS即可 F 发现如果第三天不被影响,那么后面都将重复前两天。 如果第三天被影响,那么说明单天的任务无法在一天内做完,后面都将被影响。 模拟…

20250531MATLAB三维绘图 - 教程

20250531MATLAB三维绘图 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&quo…

概率期望dp 复习笔记

## 题目分析 注意到 $a_i\in[1,3]$,故设 $f_{i,j,k}$ 表示现在碗里只有 $1$ 个的有 $i$ 碗,只有 $2$ 个的有 $j$ 碗,只有 $3$ 个的有 $k$ 碗。我们发现从 $f_{x,y,z}$ 推到 $f_{0,0,0}$ 是复杂的。不妨将整个过程反…

2016网站谷歌权重网站怎么做淘宝客

基本类型转换 1、自动类型转换2、强制类型转换 1、自动类型转换 定义:当Java程序在进行赋值或者运算时,精度小的类型会自动转换成精度大的数据类型,这个就是自动类型转换。(自动小转大) 背多芬: 这里要明…

南京网站开发个人旅游系统网站开发的背景

B站教学视频链接:2.3.4前馈全连接层-part2_哔哩哔哩_bilibili

【计网】第六章(网络层)习题测试 - 实践

【计网】第六章(网络层)习题测试 - 实践2025-10-05 16:31 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: bloc…

04-springIOC03-通过配置类实现IOC

04-springIOC03-通过配置类实现IOC$(".postTitle2").removeClass("postTitle2").addClass("singleposttitle");Spring IOC基于Java配置类详解 一、IOC容器核心概念 1.1 什么是IOC(控制…

网站建设公司厦门wordpress上长缺少临时文件夹

目录 3. 使用 Microsoft 证书颁发机构创建 VMCA 证书模板3.1 打开 Certificate Template Console3.2 复制模板修改 Compatibility 选项卡修改 General 选项卡修改 Extensions 选项卡确认新模板 4. 将新模板添加到证书模板4.1 打开 Certificate Console4.2 创建证书模板 关联博文…

完整教程:爬虫--以爬取小说为例

完整教程:爬虫--以爬取小说为例pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&qu…

2025.10

不能再摆了吧Todolist:118e 的形式化理解方法,做一下 abc426,感觉有点难度,abc425f 的 poly 做法,149d 的 universal 做法,有交合并的复杂度证明,1554e 更快的做法。 [ARC121E] Directed Tree 考虑容斥转化为 \…

PCIe扫盲——物理层逻辑部分基础(一)

首先,回顾一下,之前看了很多遍的PCIe的Layer结构图:PCIe中的物理层主要完成编解码(8b/10b for Gen1&Gen2,128b/130b for Gen3 and later)、扰码与解扰码、串并转换、差分发送与接收、链路训练等功能。其中链…

旅游 便宜 网站建设做信息采集的网站

随着移动互联网的飞速发展,手机群控技术在市场推广、自动化测试、应用管理等领域的应用越来越广泛,手机群控软件作为一种能够同时控制多台手机设备的工具,其开发过程中,源代码的编写显得尤为重要。 1、设备连接与识别模块 设备连…

个人链接怎么制作湛江seo

网络通讯: 就是要把特定意义的数据通过物理介质传送给对方。把电信号变成有意义的数据: 以字节为单位分组,标识好每一组电信号的信息特征,按照分组的顺序来依次发送。 以太网规定:一组电信号为一个数据包&#xff0c…

做100个网站网站开发与硬件合同

在 Java中,有许多数字处理的类,比如Integer 类。但是Integer 类有一定的局限性,下面我们就来看看比 Integer 类更厉害的一个,BigInteger类。BigInteger类型的数字范围较 Integer 类型的数字范围要大得多。我们都知道 Integer 是 I…

网站建设方案 filetype doc百度快照推广有效果吗

目录 🍅点击这里查看所有博文 随着自己工作的进行,接触到的技术栈也越来越多。给我一个很直观的感受就是,某一项技术/经验在刚开始接触的时候都记得很清楚。往往过了几个月都会忘记的差不多了,只有经常会用到的东西才有可能真正记…