【程序员必看】RAG技术天花板被打破!AutoRefine让大模型学会“思考式检索“,代码开源,小白也能上手!

背景

大语言模型的推理能力受限于训练数据的质量和覆盖范围,检索增强生成(RAG)技术应运而生:让模型在回答时调用外部知识库,弥补相关知识缺口。但现有RAG方法存在两个关键问题:

  1. 噪音干扰:检索到的文档往往包含大量无关信息,模型直接基于原始文档推理,容易被带偏。比如多跳QA任务中,模型需要多次检索才能找到答案,若第一次检索到噪音文档,后续推理会一错再错。
  2. 训练指导不足:传统训练只关注最终答案的正确性,缺乏对中间检索过程的奖励,模型难以学会有效检索和利用信息。比如模型可能生成模糊的检索 query,导致拿到的文档和问题无关,但只要最终答案对了,依然能获得奖励,这种“治标不治本”的方式限制了模型的长期性能。

这些问题让检索增强推理在复杂任务中效果大打折扣,尤其是多跳推理。模型需要像人类一样一步一步地检索信息,但现有方法缺乏引导,容易在中途迷失。为了解决这个问题,中国科学技术大学、新加坡国立大学等机构的团队提出了AutoRefine,通过在推理中加入“知识精炼”步骤,让模型学会过滤噪音、高效利用检索信息,在复杂QA任务中准确率比最强基线高了6.9%。

热力评分:87分

AutoRefine 提出了一种新的 search-and-refine-during-think推理范式,在连续检索过程中显式引入知识精炼步骤,并通过结合结果导向奖励(答案正确性)与检索特定奖励(精炼质量),利用 GRPO 进行后训练优化。实验结果显示,AutoRefine 在 7 个 QA 数据集上平均准确率提升 6.9%,在多跳场景中相对提升高达 21%–26.7%,显著优于 Search-R1、ReSearch 等主流基线,验证了显式精炼与双奖励机制在复杂推理任务中的关键作用。
从工程与落地角度看,AutoRefine 通过精炼步骤将推理上下文长度从 600 tokens 压缩至约 100–200 tokens,实现 3–6 倍的上下文缩减,具备明确的推理成本降低潜力;同时,该方法基于 RL 后训练,不依赖昂贵的高质量搜索轨迹标注,减少了 SFT 阶段的数据构建成本。整体而言,AutoRefine 在创新性、方法完整性和实用价值之间取得了较好平衡,并且相关代码已开源。

方法亮点

AutoRefine的核心是search-and-refine-during-think范式:在模型的思考和检索过程中加入知识精炼步骤,并设计针对性的奖励机制,让模型学会“边检索、边消化、边推理”。

1. 结构化轨迹生成:边检索边精炼

AutoRefine让模型在推理时生成包含四个步骤的轨迹:<think><search><refine><answer>,每个步骤各司其职:

  • <think>:规划下一步检索方向。比如回答“贝克汉姆最后效力球队的主场”时,模型会先想“我需要先查他最后效力的球队”。
  • <search>:生成检索 query,从外部知识库获取相关文档。
  • <refine>:关键步骤!模型从检索到的文档中提炼关键信息,过滤噪音。比如从“贝克汉姆职业生涯”文档中,只保留“最后效力巴黎圣日耳曼”这一核心信息。
  • <answer>:基于精炼后的信息给出最终答案。

为了让模型学会这套流程,团队设计了专门的提示模板,明确每个步骤的任务。这种结构化的推理方式,就像给模型配备了信息过滤器,让它在每一步检索后都能“消化”有用信息,避免被噪音带偏。

2. 双奖励机制:既看结果,也看过程

传统训练只奖励最终答案的正确性,AutoRefine则加入了检索特定奖励,同时关注结果和过程:

  • 结果奖励:用F1分数衡量最终答案的正确性,和传统方法一致。
  • 检索特定奖励:评估<refine>步骤的质量——如果提炼的信息包含答案的关键内容(比如“巴黎圣日耳曼的主场是王子公园球场”),就给予奖励。

整体奖励计算很巧妙:如果答案正确,直接获得结果奖励;如果答案错了,但提炼出了关键信息(比如知道了球队名称但主场记错),给予0.1的部分奖励;如果两者都没有,奖励为0。这种设计既鼓励模型追求正确答案,又引导它在中间步骤中学会有效精炼信息。

AutoRefine 的训练流程

3. GRPO优化:让模型学会“自主进化”

AutoRefine用Group Relative Policy Optimization(GRPO)算法训练模型。具体来说:

  • • 模型生成多个推理轨迹(不同的检索 query 和精炼内容);
  • • 根据双奖励机制计算每个轨迹的优势(好坏程度);
  • • 调整模型参数,让好的轨迹出现的概率更高,同时用KL散度正则化避免模型走极端。

训练时还会屏蔽检索到的原始文档的损失,因为文档是外部知识库提供的,不是模型生成的,这样模型只会专注于优化自己的推理和精炼能力。

实验结果

团队在7个QA基准数据集(3个单跳、4个多跳)上测试了AutoRefine,结果相当惊艳:

1. 整体性能:平均准确率提升6.9%

在各类问答基准上,AutoRefine 与基于 Qwen2.5-3B 的基线方法的准确率对比

AutoRefine在所有数据集上都超过了最强基线(如Search-R1、ReSearch),平均准确率高了6.9%。尤其是多跳任务,提升更明显:

  • • 在2Wiki上,准确率比基线高8.3%(相对提升21%);
  • • 在Musique上,准确率提升4.5%(相对提升26.7%)。

这说明AutoRefine在处理复杂推理任务时,能有效避免噪音干扰,一步步找到正确答案。

2. 搜索行为:更聪明,更高效

分析模型的搜索行为发现:

  • 自适应搜索频率:单跳任务平均搜索1.2次,多跳任务平均搜索2.5次——模型学会了根据任务复杂度调整检索次数。

  • AutoRefine 每次 rollout 平均发起的搜索调用次数

  • 更高的搜索质量:在多跳任务中,AutoRefine的搜索成功率超过50%,比基线高10-15%,这说明模型生成的query更精准,能直接命中关键文档。

  • 检索增强推理方法的搜索成功率对比

3. 精炼步骤:压缩噪音,保留关键

精炼步骤能把检索到的文档长度压缩到原来的1/4(从600+ tokens降到100+ tokens),同时保留关键信息。比如检索到的文档可能有贝克汉姆的转会历史、荣誉等内容,但精炼后只留下“最后效力巴黎圣日耳曼”这一核心信息,错误率和原始文档相当。

知识精炼能在保留检索文档中关键信息的同时,缩短上下文长度

4. 稳定性:不怕更多噪音

当检索深度从1增加到7(即每次返回更多文档,噪音也更多)时,AutoRefine依然能保持稳定提升。比如检索深度为5时,准确率提升最多(9%),说明它的精炼步骤能有效过滤多文档带来的噪音。

在不同检索深度下的下游准确率对比

5. 消融实验:关键组件缺一不可

去掉检索奖励后,模型平均准确率下降2.9%;同时去掉检索奖励和精炼步骤,准确率下降9.3%。这说明精炼步骤和双奖励机制是AutoRefine表现出色的核心。

AutoRefine 关键组件的消融实验

结论与展望

AutoRefine通过“search-and-refine-during-think”范式和双奖励机制,有效解决了检索增强推理中的噪音干扰和训练指导不足问题,大幅提升了模型在复杂QA任务中的表现。它的核心创新是让模型学会“边检索边消化”信息,而不是直接地用原始文档推理。

尽管 AutoRefine 显著提升了检索增强推理中的信息利用效率,但其方法仍存在一定局限。一方面,在语义模糊或涉及多维专业视角的问题中,多方向检索容易引入大量弱相关文档,增加精炼阶段的噪声过滤难度,影响推理稳定性。另一方面,知识精炼完全由模型自身完成,其效果高度依赖基座模型能力,对于能力较弱的模型,该方法难以突破固有的理解与抽象上限。

总体来看,AutoRefine 并非单纯提升检索或推理能力,而是首次将“信息精炼”作为显式的、可优化的中间环节引入检索增强推理框架,并通过奖励机制对其进行直接约束。这一设计为 RAG 从“检索驱动”迈向“信息利用驱动”提供了清晰路径,也为后续在更复杂推理任务中引入结构化中间过程奠定了方法基础。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

黑客、骇客、白客、红客终极指南:四大角色工作全揭秘,收藏这篇就够了!

黑客 起源 “黑客”一词是英文Hacker的音译。这个词早在莎士比亚时代就已存在了&#xff0c;但是人们第一次真正理解它时&#xff0c;却是在计算机问世之后。根据《牛津英语词典》解释&#xff0c;“hack”一词最早的意思是劈砍&#xff0c;而这个词意很容易使人联想到计算机…

JavaScript作用域全解析:前端新人不再被变量“捉迷藏”搞晕(附实战

JavaScript作用域全解析&#xff1a;前端新人不再被变量“捉迷藏”搞晕&#xff08;附实战 JavaScript作用域全解析&#xff1a;前端新人不再被变量“捉迷藏”搞晕&#xff08;附实战技巧&#xff09;引言&#xff1a;变量到底藏哪儿了&#xff1f;JavaScript作用域初印象&…

吐血推荐8个AI论文平台,助你轻松搞定本科毕业论文!

吐血推荐8个AI论文平台&#xff0c;助你轻松搞定本科毕业论文&#xff01; AI 工具助力论文写作&#xff0c;轻松应对学术挑战 对于正在撰写本科毕业论文的同学们来说&#xff0c;时间紧、任务重是常态。从选题到开题&#xff0c;再到撰写初稿和反复修改&#xff0c;每一个环节…

震惊!14B小模型吊打72B大模型,MiA-RAG让AI从“盲人摸象“到“全局视野“

引言&#xff1a;RAG的困境 在2025年&#xff0c;RAG&#xff08;检索增强生成&#xff09;已经成为大模型应用的标配技术。 从视频理解到文档问答&#xff0c;从知识库检索到Agent系统&#xff0c;RAG无处不在。 但当我们把RAG用在真正复杂的长文本场景时&#xff0c;会发现…

网络安全从入门到进阶:快速掌握核心技术与防御体系

1 TCP/IP 模型基础 OSI参考模型 OSI(Open System Interconnect Reference Model)&#xff0c;开放式系统互联参考模型&#xff0c;它是由 国际标准化组织 ISO 提出的一个网络系统互连模型。 OSI 模型的设计目的是成为一个所有销售商都能实现的开放网络模型&#xff0c;来克服…

深度学习毕设项目推荐-基于python深度学习的手势识别数字

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

光伏逆变器并网Matlab/Simulink仿真模型探索

光伏逆变器并网matlab/simiulink仿真模型 有参考lun文和模型说明 利用MATLAB搭建光伏并网模型验证逆变控制策略的可行性。 对仿真结果进行优化&#xff0c;LCL 滤波器消除逆变时引起的谐波分量&#xff0c;使谐波畸变率THD低于5%。 实现控制响应既快速高效&#xff0c;又可以提…

6.面向对象初级

类与对象的概述1.类的定义&#xff1a;类是抽象的概念的&#xff0c;代表一类事物&#xff08;比如人类&#xff0c;猫类&#xff09;&#xff0c;本质是一种数据类型&#xff0c;类将这一类对象所共有的属性和行为进行定义&#xff08;比如猫都有名字&#xff0c;颜色&#xf…

Burp Suite插件 | AI连接本地工具、数据库或远程 Agent,辅助安全测试

工具介绍 BurpAgent 将大语言模型 (LLM) 和 MCP (Model Context Protocol) 引入 Burp Suite&#xff0c;使其能够连接本地工具、数据库或远程 Agent&#xff0c;辅助安全测试。工具功能 1. 流量分析 利用 GPT-4/DeepSeek 等模型对 HTTP 请求/响应进行分析。支持自定义 Prompt 模…

万字长文,全面解析“黑、骇、白、红”客:他们的技术与使命

黑客 起源 “黑客”一词是英文Hacker的音译。这个词早在莎士比亚时代就已存在了&#xff0c;但是人们第一次真正理解它时&#xff0c;却是在计算机问世之后。根据《牛津英语词典》解释&#xff0c;“hack”一词最早的意思是劈砍&#xff0c;而这个词意很容易使人联想到计算机…

强烈安利专科生必用TOP10 AI论文平台

强烈安利专科生必用TOP10 AI论文平台 专科生论文写作的“好帮手”怎么选&#xff1f; 随着AI技术在教育领域的不断渗透&#xff0c;越来越多的专科生开始借助AI工具提升论文写作效率。然而面对市场上五花八门的平台&#xff0c;如何选择真正适合自己的成了难题。为此&#xff0…

在同一局域网下,使用ssh命令进行文件传输

文章目录目标步骤目标 操作本电脑&#xff0c;将另外一台电脑上面的文件通过ssh远程传输到本电脑上。 步骤 1.首先需要知道本设备和另一台设备的ip地址和用户名称。 比如本电脑的用户名&#xff1a;home&#xff1b;ip&#xff1a;192.168.1.1 另外一台电脑的用户名&#xf…

yolo11_yolov8_opencv 使用yolo11和yolov8分别训练混凝土裂缝检测数据集 建立基于深度学习YOLOV8_11框架混凝土缺陷检测系统

深度学习框架混凝土裂缝检测系统&#xff0c;yolo11/yolov8/opencv使用yolo11和yolov8分别训练&#xff0c;数据集图片7998张(其中训练集5998 75%,验证集1500 19%,测试集500 6%),已经训练好了&#xff0c;也可以自己重新训练&#xff0c;使用opencv&#xff0c;thinter构建的gu…

如何在边缘设备中实现多语言支持?

在边缘设备中实现多语言支持&#xff08;Multilingual Support&#xff09;&#xff0c;尤其是在工业场景&#xff08;如 MES 智能维保、人机交互、工单生成等&#xff09;中&#xff0c;需要兼顾资源受限性&#xff08;内存、算力&#xff09;、低延迟响应和语言覆盖广度。以下…

网络安全技术全景解读:从基础概念到前沿趋势

1 TCP/IP 模型基础 OSI参考模型 OSI(Open System Interconnect Reference Model)&#xff0c;开放式系统互联参考模型&#xff0c;它是由 国际标准化组织 ISO 提出的一个网络系统互连模型。 OSI 模型的设计目的是成为一个所有销售商都能实现的开放网络模型&#xff0c;来克服…

北约2025网络安全课程:剖析恐怖主义的数字战术与防御策略

课程背景与核心使命 我很荣幸地宣布&#xff0c;我已被正式邀请作为讲师&#xff0c;在由位于土耳其安卡拉的“反恐防御卓越中心”主办的北约认证课程——“恐怖主义对网络空间的总体利用”驻训课程中发表演讲。 该课程定于2025年11月24日至28日举行&#xff0c;吸引了众多致力…

卷积神经网络深度探索:VGG网络深度学习与应用

使用块的网络&#xff08;VGG&#xff09; 学习目标 通过本课程的学习&#xff0c;学员将理解VGG网络如何使用可复用的卷积块构造&#xff0c;掌握通过调整每个块中卷积层数量和输出通道数量来定义不同VGG模型的方法&#xff0c;并认识到深层且窄的卷积在效果上优于浅层且宽的…

吐血推荐8个一键生成论文工具,研究生轻松搞定学术写作!

吐血推荐8个一键生成论文工具&#xff0c;研究生轻松搞定学术写作&#xff01; AI 工具正在改变学术写作的规则 在研究生阶段&#xff0c;论文写作往往成为一项既耗时又费力的任务。从选题到开题&#xff0c;从大纲搭建到初稿撰写&#xff0c;再到反复修改和降重&#xff0c;每…

KingbaseES数据库备份与恢复深度解析:原理、策略与实践

第一章 数据库备份与恢复核心理论 1.1 备份与恢复的本质意义 数据库作为信息系统的核心载体&#xff0c;其数据完整性与可用性直接决定业务连续性。在计算机系统运行过程中&#xff0c;不可避免会遭遇各类故障&#xff0c;包括事务内部故障&#xff08;如死锁、数据校验错误&am…