小红书搜索团队提出新解码策略,降低大模型推理成本

如何让大语言模型(LLMs)“智能涌现”?关键技术之一是思维链(Chain of Thought,CoT),它通过引导大模型,一步一步模拟人类思考过程,可有效增强大模型的逻辑推理能力。

而自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略。SC 通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。尽管在各种多步推理任务中带来了显著的性能提升,但它是一种高成本的方法,需要进行预设大小的多次采样。

在 ICLR 2024 上,小红书搜索算法团队提出一种简单且可扩展的采样过程 —— 即早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低 SC 的成本。在此基础上,团队进一步推导出一种 ESC 控制方案,以动态选择不同任务和模型的性能-成本平衡。

随后,小红书和北理工的研究者们选择了三种主流推理任务(数学,常识和符号推理),并利用不同规模的语言模型进行实验。实验结果显示,ESC 在六个基准测试中显著降低了平均采样次数,包括 MATH(-33.8%),GSM8K(-80.1%),StrategyQA(-76.8%),CommonsenseQA(-78.5%),Coin Flip(-84.2%)和 Last Letters(-67.4%),同时几乎保持原有性能。

这说明了 ESC 的有效性和创新性,它能够在保证推理性能的同时显著减少采样次数,从而降低计算成本。这一点对于大语言模型非常重要,因为这些模型的推理过程通常需要大量的计算资源。

在这里插入图片描述

在思维链(CoT)提示的帮助下,大语言模型(LLMs)展现出强大的推理能力。基于此,由于复杂推理任务通常允许有多条推理路径指向正确答案,先前的研究者引入了一种称为自洽性(Self-Consistency,SC)的解码策略,以进一步提高推理性能。

与传统只生成单一路径(greedy search)的标准思维链提示相比,SC 方法会根据预设的样本规模采样多条推理路径,并通过投票机制确定最终答案。尽管这种方法有效,但它会产生与采样数量成正比的显著开销。以 GPT-4 为例,若采样量为 40,在 MATH 数据集测试一次,成本需要高达 2000 美元,这迫切需要一种降低 SC 成本的改进方法。

在 SC 中,生成多个样本的过程可以被视为近似 LLM 预测的真实答案分布。通过选择出现频率最高的结果作为最终答案,可以减少单一采样策略带来的随机性。然而,考虑到 SC 只需要最置信的答案,并不要求整个答案分布完美匹配。因此,我们认为没有必要直接为每个输入生成与预设采样大小对齐的所有推理路径。相反,生成过程可以被序列化为较小的部分,每个部分被命名为一个采样窗口。考虑到小窗口和大量的采样输出都源自同一预测答案分布,采样窗口可以被视为一个探针,仅通过少量的采样数就可以揭示真实分布的一些信息。

图 1 : GPT-4 在 MATH 数据集采样窗口内的平均熵得分

对于答案分布,一个猜想是正确答案的候选分布通常较为集中,而错误答案则相对分散。我们使用熵作为答案分布形状的表示。上图分别展示了窗口内正确和错误投票答案分布的平均熵值,结果表明,具有较高概率的正确答案通常伴随着较低的熵值,因此熵值可以作为一个指标来确定是否继续采样。

基于此,我们提出了早停自洽性方法(Early-Stopping Self-Consistency,ESC) ,即在低熵窗口截断采样过程。为了尽可能地保持性能,我们设置最严格的阈值:熵等于零,即窗口内生成的所有样本都有相同的答案。发生这种情况时停止采样,既能减少采样消耗,同时将性能影响降至最低。

早停止(Early-Stopping)是一种被广泛用于训练模型时的技术,以防止过拟合现象发生。在本文中,我们引入早停止策略,应用于减少多次采样过程的成本。与原始的 SC 相同,ESC 是完全无监督且与模型无关,无需任何人工注释或额外训练。我们推导出了在 SC 中有或无早停止方法的结果不一致概率的理论上限,结果表明 ESC 有极大的概率保持性能。此外,我们还提出一个 ESC 动态控制方案:通过选择窗口大小和最大采样次数,动态地为不同任务和模型找到最佳的性能-成本平衡点,以满足实际需求。

在这里插入图片描述在这里插入图片描述

如图展示 ESC 与原始 SC 的完整过程对比。我们将大采样量(在本例中等于 20)分成几个连续的小窗口(在本例中为 5),当一个窗口内的答案都相同时停止采样,即预测答案分布的熵值为零。

2.1 自洽性方法分析

自洽性方法的核心思想在于,对于一个复杂问题,通常允许有多种推理思路,这些思路最终都能导向相同的正确答案。基于此,在采样量为 L L L 下的投票过程可以表述为:

在这里插入图片描述
其中 f L ( i ) f^L(i) fL(i) 表示在 L L L 个采样实例中,模型的预测结果为 i i i 的频率。根据大数定律,当 L L L 趋近于无限时,采样结果的分布将逼近模型预测的真实分布结果 P ( i ) P(i) P(i)。进一步地,我们可以得出:

在这里插入图片描述

通过上述公式,我们可以看到,多次采样的过程能减轻单次采样引入的噪声,从而提升性能。我们的目标是确保选择那个具有最高概率的预测结果,作为最终答案。从这个角度分析,答案分布熵与性能表现成正相关关系,也就是说,当答案分布的熵较低时,我们只需要较少的采样次数 L 就能够显著减少采样噪声的影响。

2.2 早停自洽性方法

依据 2.1 的分析,我们设计了一种多路采样的动态截断策略,实现以更少成本获得与原始采样量相当的性能表现。具体而言,我们以滑动生成窗口代替一次性生成所有样本,并利用窗口内的分布熵或相似度作为截断条件进行早停操作。

当窗口内的所有预测结果一致时,答案分布的熵为 0,这表明该样本的投票结果与理论上采样次数无限多时的结果高度一致。因此,一旦出现这种情况,我们便停止进一步采样。

如果在采样过程中没有遇到满足条件的观察窗口,将迭代以获得多个观察窗口,直到达到预设的采样大小 L L L。算法流程如算法 1 所示:

在这里插入图片描述

为了评估引入早停止机制对结果一致性的影响,我们进行 Z Z Z 检验,以计算在 SC 中采用或不采用早停止方案的结果不一致概率的理论上限。结果表明,当窗口大小为 8 时,ESC 与 SC 结果不一致的概率小于 0.002。这验证了 ESC 在保持性能的同时,能够有效减少采样次数。

2.3 动态控制方案

为适应不同的预算与性能需求,我们研究了 ESC 的动态控制方案来调整截断策略,推导适合的窗口大小与最大采样数(窗口大小 w w w,最大采样数量 L L L)。

我们提出一种用于动态截断的控制模式:将基于第一个观察窗口(将其窗口大小表示为 w 0 w_0 w0),可以推导不同窗口大小( w w w)和最大采样量( L L L)设置下的推理性能和采样成本的期望:

采样数 L L L 的期望为:

在这里插入图片描述

截断结果与原始结果不一致的上界为:

在这里插入图片描述

最后,考虑到采样预算和性能要求,根据各自的预期值选择适当的( w w w L L L)值来执行 ESC。算法流程如算法 2 所示:

在这里插入图片描述

在这里插入图片描述

我们对提出的 ESC,在三类推理任务的六个基准数据集上进行评估 :

  • 算术推理:数据集使用 MATH 和 GSM8K

  • 常识推理:数据集使用 CommonsenseQA 和 StrategyQA

  • 符号推理:数据集使用 Last Letter Concatenation 和 Coin Flip

ESC 在三种不同规模的语言模型上进行评估:GPT-4、GPT-3.5-Turbo 和 LLaMA-2 7b。所有实验都在 few-shot 设置下进行,无需训练或微调语言模型。对于 MATH 数据集,采样温度 T T T 为 0.5,而其他数据集则设为 0.7。

3.1 ESC 的实验结果

我们比较基线是 greedy search 的思维链提示(CoT)和 SC。

MATH 数据集的采样大小 L L L 为 64,其他数据集为 40,ESC 使用相同的值作为最大样本量。

相应地,MATH 数据集的窗口大小 w w w 为 8,其他数据集为 5。我们报告的结果是基于 10 次运行的平均值,由于空间有限,省略了方差数据。 L L L 是 ESC 平均采样数量, L L L-SC 表示采样大小为 L L L 的 SC 的准确性。

在这里插入图片描述

表 1 : 六个推理任务上的测试结果

在这里插入图片描述

表 2 : MATH 数据集上不同最大采样大小 L 的推理准确性(%)

在这里插入图片描述

图 3 : GSM8K 数据集上不同模型下观测窗大小 w w w 的鲁棒性分析

根据以上结果,可以得出以下三点结论:

ESC 在几乎不影响性能的情况下显著降低了成本

SC 显著优于 CoT,证实投票过程对推理的有效性。对于 ESC,L 远小于相应的最大采样大小,而性能几乎保持不变。我们还用 L 作为采样大小来测试 SC,其准确度大幅下降。总体而言,ESC 可以显著降低成本,同时几乎不会影响性能。在相同的采样成本下,ESC 可以获得更高的精度。

ESC是一个对于最大采样量和窗口大小鲁棒的解码过程

表 2 和图 3 分别显示了不同最大采样大小和窗口大小下的性能表现。可以看到,ESC 对于最大采样量和窗口大小鲁棒。随着采样大小的增加,SC 的性能不断提高。在此基础上,ESC 可以显著节省成本,同时保持性能。

成本节省与性能表现呈正相关

如表 1 和表 2 所示,一个明显的现象是成本节约与性能呈正相关。这是因为更佳的性能通常不需要更大的采样量。然而,ESC 不需要任何模型能力和任务难度的先验知识。

3.2 动态控制方案的实验结果

为了验证 ESC 动态控制方案的有效性,我们在 GSM8K 数据集上分别对比真实与预测的采样量,以及性能变化百分比。

选用 L1 正则以及皮尔逊相关系数来反应相关性,结果如下表 3 所示。结果表明,我们基于动态控制方案获得的预测,对于平衡采样成本和投票性能是高度可靠的。

在这里插入图片描述

表 3 : 动态控制方案实验结果

3.3 ESC在开放域的实验结果

原始的 SC 仅适用于具有固定答案的问题,而 Jain 等人提出 UCS,通过文本相似性匹配取代投票,将 SC 扩展到开放式生成任务。

我们在 MBPP 数据集上,针对不同采样大小(窗口大小为 5 )进行了 ESC 实验。实验结果显示,ESC 同样适用于开放式任务。

在这里插入图片描述

表 4 : ESC在开放域的实验结果

3.4 ESC的鲁棒性研究

我们进行一系列额外的实验,以进一步测试 ESC 的鲁棒性,包括对采样参数和提示的稳健性测试:

在图 4 上半部分中,我们展示了随着解码采样温度的升高,ESC 对采样量的节省是鲁棒的。

图 4 左下部分表明,ESC 对 t o p − p top-p topp 采样的 p p p 值是鲁棒的。

图 4 右下部分表明,ESC 可以推广到 zero-shot 方式。

表 5 显示不同示例(demonstrations)组的 ESC 和 SC 的准确性,可以看到,ESC 对各种示例都是稳健的。

在这里插入图片描述

图 4 : ESC关于采样温度 T T T p p p 值的鲁棒性分析,以及 zero-shot 结果

在这里插入图片描述

表 5 : 不同示例组的实验结果

在这里插入图片描述

本项工作引入了一个简单而有效的采样过程,称为早停自洽性(ESC)。通过在高置信度窗口停止解码过程,ESC 在不牺牲性能的情况下大大降低了 SC 的成本。我们进一步推导出 ESC 的控制方案,以动态选择不同任务和模型的性能-成本平衡,不需要额外的模型能力和任务难度的先验知识。

实验结果显示,ESC 在六个主流的基准测试中显著减少了自洽性推理的实际样本数量,同时达到了类似的性能,这对于大模型推理非常重要,可以显著节省大模型推理成本。我们还展示了 ESC 的控制方案可以准确预测各种任务和模型的性能-成本权衡,可以更好的满足实际的预算与性能需求。分析实验结果表明,考虑到不同的解码设置和示例,甚至在开放式生成任务上,ESC 都可以鲁棒地大幅节省成本。

论文地址:https://arxiv.org/abs/2401.10480

在这里插入图片描述

  • 李易为

    现博士就读于北京理工大学,小红书社区搜索组实习生,在 ICLR、AAAI、ACL、EMNLP、NAACL、NeurIPS、KBS 等机器学习、自然语言处理领域顶级会议/期刊上发表数篇论文,主要研究方向为大语言模型推理与蒸馏、开放域对话生成等。

  • 袁沛文现博士就读于北京理工大学,小红书社区搜索组实习生,在 NeurIPS、ICLR、AAAI 、EACL 等发表多篇一作论文。主要研究方向为大语言模型推理与评测、信息检索。

  • 冯少雄

    负责小红书社区搜索向量召回。博士毕业于北京理工大学,在 ICLR、AAAI、ACL、EMNLP、NAACL、EACL、KBS 等机器学习/自然语言处理领域顶级会议/期刊上发表数篇论文。主要研究方向为大语言模型测评推理蒸馏、生成式检索、开放域对话生成等。

  • 道玄

    小红书交易搜索团队负责人。博士毕业于浙江大学,在 NeurIPS、ICML 等机器学习领域顶级会议上发表数篇一作论文,长期作为多个顶级会议/期刊审稿人。主要业务覆盖内容搜索、电商搜索、直播搜索等。

  • 曾书

    小红书社区搜索语义理解与召回方向负责人。硕士毕业于清华大学电子系,在互联网领域从事自然语言处理、推荐、搜索等相关方向的算法工作。

图片

小红书社区搜索算法工 程师(全职 / 实习)

岗位职责:

1、对小红书搜索效果进行优化,包括搜索算法和策略的调研、设计、开发、评估等环节,提升用户体验;

2、发现并解决搜索场景中在查询分析、意图识别、向量召回、排序模型、去重等方向的问题;

3、解决小红书搜索实际问题,更好地满足用户的搜索需求;

4、跟进业内搜索相关模型和算法的前沿进展,并在实际业务中进行合理应用。

任职资格:

1、本科及以上学历,计算机相关专业背景;

2、有搜索、推荐、广告、图像识别等相关背景优先;

3、熟悉机器学习、NLP、数据挖掘、知识工程的经典算法,并能在业务中灵活解决实际问题;

4、在国际顶级会议(KDD、SIGIR、WSDM、ICLR、NeurIPS、ICML、ACL、EMNLP 等)以第一作者发表过高水平论文者、知名数据挖掘比赛(例如 KDD Cup 等)中取得领先名次者优先;

5、积极向上,踏实勤奋,自我驱动,善于沟通,解决问题优先。

欢迎感兴趣的同学发送简历至 REDtech@xiaohongshu.com,并抄送至 luyun2@xiaohongshu.com、fengshaoxiong@xiaohongshu.com。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/822386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis7 源码调试 服务端处理客户端./redis-cli连接 指令执行过程

redis7 源码调试 服务端处理客户端./redis-cli连接 指令执行过程 ##redis-cli客户端发起 ./redis-cli 客户端连接 指令 ##redis网络请求 1、AE_READABLE事件 2、客户端fd 3、创建文件事件 4、添加客户端cfd读写事件 5、处理读事件AE_READABLE 6、回调函数处理连接请求 rea…

【Phytium】飞腾D2000 UEFI/EDK2 适配 RTC(IIC SD3077)

文章目录 0. env1. 软件2. 硬件 10. 需求1. 硬件2. 软件 20. DatasheetCPURTC 30. 调试步骤1. 硬件环境搭建2. UEFI 开发环境搭建3. 修改步骤1. UEFI 中使能RTC驱动、配置RTC信息等1.1 使能RTC驱动1.2 修改RTC对应的IIC配置信息1.3 解决驱动冲突1.4 验证波形 2. 修改对应RTC驱动…

【二分查找】Leetcode 74. 搜索二维矩阵【中等】

搜索二维矩阵 给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则&#xff0c…

LeetCode 1.两数之和(HashMap.containsKey()、.get、.put操作)

给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。 你可以按任意顺序返回…

深入掌握k8s核心概念--Pod(二)

详解Pod的配置管理与调度特性等剖析 Kubernetes 中 Pod 的配置管理(ConfigMap)、调度策略、回滚与扩缩容详解一、Pod 配置管理:ConfigMap创建 ConfigMap 示例使用 ConfigMap 的 Pod 示例 二、玩转 Pod 调度:Kubernetes 高级调度策…

1 GBDT:梯度提升决策树

1 前言 前面简单梳理的基本的决策树算法,那么如何更好的使用这个基础算法模型去优化我们的结果是本节要探索的主要内容。 梯度提升决策树(Gradient Boosting Decision Trees)是一种集成学习方法,通常用于解决回归和分类问题。它通…

DC/DC电源模块直流升压变换器电压控制输出5V12V24V转0-50V80V110V150V180V200V250V300V500V800V1000V

特点 效率高达 75%以上1*2英寸标准封装单电压输出可直接焊在PCB 上工作温度: -40℃~75℃阻燃封装,满足UL94-V0 要求温度特性好电压控制输出,输出电压随控制电压线性变化 应用 GRB 系列模块电源是一种DC-DC升压变换器。该模块电源的输入电压分为:4.5~9V、…

【ElasticSearch】安装

1.官网寻找合适版本下载 这里我选择的是8.11.1 2.解压并启动 然后在浏览器输入http://localhost:9200/,判断是否启动成功 如下所示,则表示启动成功 安装过程中遇到过几个bug,记录在这篇文章中 【ElasticSearch】安装(bug篇&am…

六、OpenFeign服务接口调用

一、提问 已经有loadbalancer为什么还要学习OpenFeign? 两个都有道理的话,日常用那个? 二、是什么 OpenFeign是什么 官网翻译 Feign是一个声明性web服务客户端。它使编写web服务客户端变得更容易。使用Feign创建一个接口并对其进行注释。它具有可…

一键生成绘画作品,国内提供的7款AI绘画软件推荐

随着人工智能的迅猛发展,给我们的工作和兴趣带来了极大的便利。尤其是在绘画领域,随着越来越多的AI绘画工具的问世,我们能够以惊人的速度创作出精美的插图和照片。因此,本文将为大家介绍7款备受推崇的AI绘画软件~ 1.爱制作AI 爱制…

连连看游戏页面网站源码,直接使用

可以上传自己喜欢的图片 游戏页面 通关页面 源码免费下载地址抄笔记 (chaobiji.cn)

Java面试题:2024面试全攻略+BTA内部密卷 视频教程+springboot

基础篇 1、 Java语言有哪些特点 1、简单易学、有丰富的类库 2、面向对象(Java最重要的特性,让程序耦合度更低,内聚性更高) 阿里内部资料 基本类型 大小(字节) 默认值 封装类 6、Java自动装箱与拆箱 装箱就是…

ChatGPT 可以预测未来吗?

推荐 4月13日的一篇有趣的 paper,特来分享。 👉 当前的大型语言模型(LLMs)具有强大的数据合成和推理能力,但它们在直接预测尚未发生事件的准确性上常常受到限制。传统的预测方法依赖于直接询问模型关于未来的问题。 …

算法思想总结:链表

一、链表的常见技巧总结 二、两数相加 . - 力扣(LeetCode) class Solution { public:ListNode* addTwoNumbers(ListNode* l1, ListNode* l2) {//利用t来存进位信息int t0;ListNode*newheadnew ListNode(0);//创建一个哨兵节点,方便尾插List…

现在新开两融账户融资利率最低可以多少?5%~4.5%

两融是融资和融券的简称,是一种信用交易的方式,可以让投资者在股票市场上放大收益,也放大风险。融资是指投资者向证券公司借入资金,用于买入股票或其他证券,期待价格上涨后卖出,赚取差价,并在约…

记录Python链接mysql数据的增删改查方法

一、添加方法 db pymysql.connect(hostlocalhost,userroot,password123456,dbpython) cursor db.cursor() sql """insert into EMPLOYEEVALUES(3,张,天爱,35,F,8000) """ try:cursor.execute(sql)db.commit() #提交后,数据才会变 …

顺序表(快速上手数据结构)

在介绍ArrayList之前, 我们需要先了解List. List是一个接口,它继承于Collection接口(Collection又继承于最顶层的接口Iterable). 从数据结构的角度来看,List就是一个线性表(Linear List),即n个具有相同类型元素的有限序列, 在该序列上可以执行增删查改等操作. 注意: List是一…

自动化测试之httprunner框架hook函数实操

本篇介绍httprunner中hook函数的使用,以及通过编程能力实现建设自动化测试更全面的场景覆盖 前置: 互联网时代让我们更快的学习到什么是Httprunner 正文: 经过上文了解到这个框架怎么使用之后,我们开始来探讨一下我们为什么要用…

【教程】一个比较良心的C++代码混淆器

这是一个比较良心的C代码混淆器,用于信息竞赛训练和保护代码免受抄袭。本文将介绍这个混淆器的使用方法、混淆效果和已知的一些bug。同时,我们也会给出一些示例来演示混淆器的具体操作。 引言 在信息竞赛训练和实际开发中,保护代码的安全性和…

汇编程序设计

文章目录 第一章8086的存储器组织寻址方式立即数寻址方式寄存器寻址方式存储器寻址方式直接寻址方式寄存器间接寻址寄存器相对寻址方式寄存器基址变址寻址相对基址变址寻址相对方式的补充 数据寻址方式的组合 第一章 8086的存储器组织 存储单元的地址 “段基地址:段…