RAG系统实战指南:Enhanced vs Agentic全方位对比,附代码实现+收藏价值,助你选对AI决策方案

本文对比了两种RAG系统:Enhanced RAG(模块化流水线)和Agentic RAG(AI自主决策)。研究发现,在窄域任务中Agentic表现更优,开放域任务中Enhanced更稳定;查询改写环节Agentic胜出;文档精选Enhanced的重排序更有效;但Agentic成本高出3-4倍。结论是应根据场景、预算和需求选择合适架构,或采用混合方案取两者之长。


研究背景

想象一下,你问ChatGPT一个问题,它不仅要从自己的"大脑"里找答案,还要翻遍外部知识库,然后再给你回复。这就是RAG(检索增强生成)系统做的事情。但问题来了:是让系统按照固定流程一步步走,还是让AI自己当"项目经理",自主决定每一步该干什么?

这篇论文就是要回答这个问题。研究团队把RAG系统分成了两大阵营:

  • Enhanced RAG(增强型RAG):就像一条精心设计的流水线,有专门的"查询改写工"、"文档排序工"等模块,各司其职
  • Agentic RAG(智能体RAG):让大语言模型当总指挥,它自己决定要不要检索、要不要改写查询,完全自主控制

目前业界对这两种方案各有追捧,但到底哪个更好用?在什么场景下该选哪个?成本和性能怎么平衡?这些问题都没有明确答案。于是研究团队决定做一次"华山论剑"式的全面对比。

他们的核心贡献有两点:第一,从四个关键维度评估了两种系统的实际表现;第二,详细分析了成本和计算时间的差异,给实际应用提供了非常实用的参考。

相关工作:RAG技术的演进脉络

RAG这个概念最早由Lewis等人在2020年提出,最初的设计非常简单:收到查询→检索相关文档→把文档和查询一起喂给模型→生成答案。但这种"裸RAG"(论文里叫Naïve RAG)问题多多:有时候明明不需要检索也要检索一遍,浪费资源;有时候检索到的文档质量不高,都是些不相关的内容;用户问题和知识库文档的表述方式差异太大,匹配效果差。

于是Enhanced RAG应运而生,研究者们开始往这条流水线上加各种"增强模块":

  • 查询改写模块(比如HyDE技术,把问题改写成假想的答案段落,再去匹配)
  • 语义路由模块(判断这个问题到底需不需要检索)
  • 重排序模块(把检索到的文档按相关性重新排序)

与此同时,随着GPT-4这类模型的推理能力暴涨,Agentic RAG开始冒头。这种方案的核心思想是:既然模型都这么聪明了,为什么不让它自己决定工作流程?于是各种Agent框架像雨后春笋般出现:LangGraph、LlamaIndex、CrewAI等等。

但有意思的是,尽管这两条技术路线都很火,学术界竟然还没有人做过系统性的对比实验。Neha和Bhati在2025年提出了一些理论上的区分,但没有真刀真枪地测试。这篇论文就是要填补这个空白。

核心方法:四大维度的"拳拳到肉"对比

研究团队选了四个关键维度来PK这两种系统,每个维度都对应Naïve RAG的一个痛点:

1. 用户意图处理:该不该检索的判断力

问题情境:用户问"今天天气怎么样",系统不应该去知识库里翻文档;但问"公司Q3销售报告的关键数据是什么",就必须检索。这个判断能力很重要。

Enhanced的做法:用semantic-router框架,提前准备一堆"有效问题"和"无效问题"的例子,新问题来了就跟这些例子比相似度,判断属于哪一类。

Agentic的做法:让GPT-4o自己决定,它可以选择"调用RAG工具"或者"直接回答"。

测试方法:在FIQA(金融问答)、FEVER(事实验证)、CQADupStack(论坛问答)三个数据集上各准备500个有效查询和500个无效查询,看谁判断得准。

2. 查询改写:让问题和文档"说同一种语言"

问题情境:用户问"自由职业的税务影响是什么?“,知识库里的文档可能写的是"自由职业者需要缴纳以下税种……”,表述方式不一样,直接匹配效果差。

Enhanced的做法:强制执行HyDE改写——把问题改写成一段假想的答案,比如"自由职业需要缴纳特定税种……",然后用这段文本去匹配知识库。

Agentic的做法:提示词里告诉Agent可以改写查询,但Agent自己决定要不要改、怎么改。

评估指标:用NDCG@10(归一化折损累积增益)来衡量检索质量,这是信息检索领域的黄金标准。

其中:

是第个文档的相关性标签。

3. 文档列表优化:检索完还能再精选

问题情境:第一次检索可能拿到20个文档,但其中有些不太相关,需要进一步筛选。

Enhanced的做法:用基于ELECTRA的重排序模型,把20个文档重新排序,选出最相关的10个。

Agentic的做法:Agent可以多次调用检索工具,每次都能调整查询策略,自己迭代优化。

4. 底层模型影响:换个"大脑"性能差多少

实验设计:用Qwen3系列的四个模型(0.6B、4B、8B、32B参数)分别测试,看模型大小对两种系统的影响是否一致。

评估方式:用Selene-70B作为"AI裁判",评价生成答案的质量。这个模型在LLM-as-a-Judge竞技场排名很高,而且在金融问答任务上跟人类评价高度一致。

实验效果:谁更强?要看具体场景

用户意图处理:Enhanced在复杂场景更稳

结果很有意思:在FIQA(金融)和CQADupStack(英语语法)这种领域边界清晰的场景,Agentic RAG表现更好,F1分数分别达到98.8和99.8。但在FEVER(事实验证)这种开放域任务上,Agentic的召回率只有49.3%,比Enhanced低了35个百分点!

原因很明确:当任务边界模糊时,Agent经常"过度热情",本不该检索的也去检索了。而Enhanced的基于示例的路由系统,在这种情况下反而更稳定。

查询改写:Agent的灵活性胜出

在所有数据集上,Agentic RAG的检索质量平均高出Enhanced RAG 2.8个NDCG@10点。特别是在NQ(自然问题)数据集上,Agentic达到51.7,比Enhanced的43.9高了近8个点。

这说明什么?Agent能根据具体问题灵活决定改写策略,而Enhanced是"一刀切"的强制改写,有时候反而画蛇添足。

文档优化:Enhanced的重排序完胜

这个结果出人意料:Enhanced RAG通过重排序模块,在FIQA上从45.0提升到51.0(提升6个点),在CQADupStack上从46.0提升到48.0。

但Agentic RAG呢?即使允许它多次调用检索工具,性能反而比基线还差(FIQA降到43.4,CQADupStack降到44.4)。看来Agent虽然能自主决策,但在"精挑细选文档"这件事上,还是不如专门训练的重排序模型靠谱。

模型大小影响:两者表现趋同

无论Enhanced还是Agentic,随着底层模型从0.6B增大到32B,性能都稳步提升,而且提升曲线几乎一致。这说明模型能力的影响是跨系统的,选哪种架构和选多大的模型可以独立考虑。

成本分析:Agentic的"奢侈税"不容忽视

这部分数据可能是最让实际应用者关注的:

Token消耗对比(FIQA数据集)

  • Agentic比Enhanced多消耗2.7倍的输入token
  • 输出token多1.7倍
  • 整体耗时增加1.5倍

在CQADupStack数据集上差距更大

  • 输入token多3.9倍
  • 输出token多2.0倍

换算成真金白银:如果你用OpenAI的API,Agentic RAG的成本可能是Enhanced的3-4倍。对于大规模应用,这不是小数目。

为什么会这样?因为Agentic需要不断"思考"——每一步都要推理要不要调用工具、怎么调用,这些中间步骤都要消耗token。而Enhanced是固定流程,该干啥干啥,不用额外"思考"。

从分布图可以看出,Agentic的token消耗和耗时都有明显的"长尾"现象——有些查询特别费劲,Agent要反复调用工具好几次。

论文总结:没有银弹,只有权衡

这篇论文最大的价值在于:打破了"新技术一定更好"的神话

主要发现可以总结为

  1. 窄领域任务选Agentic,开放域任务选Enhanced:在金融、语法这种边界清晰的场景,Agent的理解力能发挥优势;但在FEVER这种"什么都能问"的场景,基于规则的路由反而更可靠。
  2. 查询改写环节Agentic占优:灵活的改写策略确实能提升检索质量,平均提升2.8个NDCG点,这个优势是实打实的。
  3. 文档精选必须上重排序:Agent多次检索的策略没有Enhanced的专用重排序模型好用,这可能是Agentic架构的最大短板。论文建议:为什么不在Agentic里也加个重排序工具?
  4. 成本差异不可忽视:3-4倍的成本增加对很多应用来说是难以承受的。除非你对性能有极致要求,否则优化好的Enhanced RAG可能更实惠。
  5. 模型大小影响两者一致:这意味着你可以先选架构,再根据预算选模型,两个决策相对独立。

实用建议

如果你是企业开发者,在小规模、预算有限的场景下,Enhanced RAG可能是更明智的选择——性能够用,成本可控。

如果你追求极致的用户体验,或者应用场景特别复杂多变,那Agentic RAG的灵活性值得你为之付费。

但最理想的方案可能是"混合架构":用Enhanced的重排序模块 + Agentic的灵活决策,取两者之长。研究团队也坦言,他们的Agentic实现只用了一个工具(RAG),如果给Agent配置更丰富的工具箱,结果可能完全不同。

这场对决没有绝对的赢家,但给了我们一个清晰的参考系:选RAG系统,要看场景、看预算、看需求,盲目追新不如理性权衡

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1189856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【图像隐写】基于matlab GUI DCT彩色图像数字水印嵌入+攻击+提取(含PSNR、NCC、MSSIM)【含Matlab源码 15005期】

💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞&#x1f49…

苏州、上海地区外贸B2B营销服务商哪家好?2026年海外新媒体运营推广公司宝藏清单,涵盖Facebook、LinkedIn、TikTok、INS、Google等多平台 - 品牌2025

在全球跨境电商B2B市场持续扩张的浪潮下,长三角地区作为中国外贸核心阵地,苏州、上海凭借完善的产业配套与优越的地理优势,成为外贸企业集聚高地。商务部研究院预测,中国跨境电商B2B交易额已稳步向高增长区间迈进,…

强烈推荐收藏!开源多模态AI Agent:解放双手,让电脑自动操作

UI-TARS是一个开源多模态AI Agent框架,能"看懂"屏幕并自动操作电脑,提供桌面版和命令行工具。它可应用于电商运营、客服自动化、内容创作等多个场景,支持自定义动作序列和系统集成,帮助用户解放重复性工作,提…

数码管、点阵屏、OLED和LCD屏

1、分段式显示器件——数码管原理:共阴极,让a,b,g,c,d输出高电平,数码管上面可以显示出一个32、分段式显示器件——段码屏理解上来说就是定制图案的数码管,你可以定制一些你下个要显示的图案,然后在驱动哪某些段点亮从而显示目标图…

【图像隐写】基于matlab GUI DWT+DCT图像水印隐藏提取(含PSNR、NCC、IF)【含Matlab源码 15006期】

💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞&#x1f49…

大模型落地必看!国企构建全栈能力的实战经验,建议收藏

文章介绍了国企北电数智如何打造"1个AI底座2大产业平台"的全栈能力模式,推动大模型产业落地。针对算力、数据、人才等落地挑战,该模式通过整合AI工厂与可信数据服务,构建医疗、金融、工业等垂直领域解决方案,并采用&quo…

郑州英语雅思培训辅导机构推荐,2026年权威出国雅思课程中心学校口碑排行榜 - 老周说教育

基于《2025河南省出国语培行业发展白皮书》数据,郑州雅思考试人数年均增长18%,已跃居中部六省首位,但70%考生仍面临“提分效率低、课程不匹配、师资不稳定”的核心痛点。在雅思培训选课过程中,如何筛选出靠谱、优质…

[Ceph 14.2.22] 使用Ceph原生命令部署单机集群

1. 前言 上表中是 Ceph 官方文档给出的 Ceph 14 系列的系统和内核推荐,其中在centos 7、ubuntu 14.04、ubuntu 16.04、ubuntu 18.04上都做了完整的测试。本文将介绍如何在ubuntu 18.04中使用 ceph 原生命令部署一个完整的 ceph 集群,ceph 版本为14.2.22。…

【Lumerical】 FDTD 仿真目录

【Lumerical】 FDTD 仿真目录 目录 Author: JiJi \textrm{Author: JiJi} Author: JiJi Created Time: 2026.01.20 \textrm{Created Time: 2026.01.20} Created Time: 2026.01.20

突破控件边界:WPF 手写图表解决鸟情监测场景痛点 - 源之缘

本文围绕鸟类生态监测可视化需求,分享了基于 WPF 自研鸟情图表的实践思路。面对高度分层时序图、方向雷达图、多日对比分析等专业需求,作者凭借多年 WPF 开发经验,放弃了灵活度不足的第三方控件,选择从零构建专属图…

RAG技术深度剖析:让大模型拥有‘实时知识‘的检索增强生成指南

RAG(检索增强生成)结合信息检索与文本生成,解决大模型知识局限、信息过时、幻觉问题及可解释性差等挑战。通过构建知识库、检索相关信息和模型生成三个步骤,将外部知识动态注入LLM,提高回答准确性和可靠性。文章详细介…

大模型和机器学习

一、引言:大模型的火爆与认知的混乱2022年,ChatGPT的横空出世让大模型技术从学术圈走向了大众视野。短短三年时间,大模型已经渗透到内容创作、代码编写、智能客服、企业知识库等多个领域。据《2025年全球大模型产业报告》显示,全球…

推荐几家海外展会营销推广平台,上海、苏州地区优质海外展会推广公司深度推荐 - 品牌2025

随着全球供应链重塑与跨境往来的持续便利,中国企业“走出去”参展办展的意愿愈发强烈,不少企业将半数预算投入海外展会,以此巩固传统市场、开拓新兴领域。中国贸促会数据显示,2023年中国贸促会审批执行的出国参展项…

【实战项目】 基于LabVIEW的大气数据处理实验管理系统设计

运行效果:https://lunwen.yeel.cn/view.php?id=5898 基于LabVIEW的大气数据处理实验管理系统设计摘要:本文针对大气数据处理领域,探讨了利用LabVIEW软件进行大气数据采集、处理和分析的实验管理系统设计。通过对La…

双非二本科生的福音:大模型RAG+Agent技术学习指南,不看学历看实力

大模型应用开发领域处于快速发展阶段,RAG和Agent技术需求旺盛。尽管双非二本科生在学历上不占优势,但行业更看重实际技术能力。企业招聘侧重Python编程、数据库、提示词优化等实操技能。该领域薪资前景诱人,平均月薪可达4.2万元,年…

查看linux服务器中某文件夹占用空间大小

du -sh /data1/zjc/RIFT_code/datasets/ 比如我想要查看:“/data1/zjc/RIFT_code/datasets/”这个的文件夹大小: 结果为5G:

34. C++ 11新特性(1)

1. 对象初始化方法2. auto & decltype & 返回类型后置 & 模板别名

采购降本的秘密武器!天下工厂带你跳过中间商,直接和厂长谈价

采购成本降低的秘密武器!天下工厂带领你跳过中间商,直接和厂长谈价格。做采购工作的朋友们,是不是都曾经有过这样让人崩溃的时刻?在1688上翻来覆去地比较价格,聊了很长时间之后才发现对接的是经销商,报价里面加了好几层的利润&am…

【实战项目】 基于P2P的分布式存储及其相关技术研究

运行效果:https://lunwen.yeel.cn/view.php?id=5899 基于P2P的分布式存储及其相关技术研究摘要:本文针对当前P2P网络在分布式存储领域的应用进行了深入研究。首先,介绍了P2P网络的基本原理和分布式存储的背景知识,…

北航与AgiBot突破:机器人实现动作空间内智能思考

这项由北京航空航天大学与AgiBot联合开展的研究发表于2025年1月的arXiv预印本平台,论文编号为arXiv:2601.11404v1。有兴趣深入了解的读者可以通过该编号查询完整论文。把机器人比作一个学做菜的新手厨师,过去的机器人学习方式就像是先读菜谱、看食材照片…