【AI内卷】还在为RAG评估头疼?四大神器助你弯道超车,小白也能轻松玩转大模型!

本文详解RAG评估四大框架:Self-RAG通过反思Token控制检索和评估;Corrective RAG使用评估器判断文档质量并触发不同动作;RAGAs提供无参考文本的三维度评估;MultiCONIR针对多条件信息检索的评估基准。这些技术帮助开发者精准定位RAG问题,提升大模型回答质量,是AI开发必备技能。


嗨,大家好,近期Move37将通过多篇文章连载方式,详细讲解RAG的发展过程和技术演变,并讲解这个过程中的经典论文。文章的主要内容包括:

  1. RAG的起源
  2. 传统RAG的痛点
  3. 优化Query
  4. 优化检索
  5. 使用推理优化
  6. 使用评估优化
  7. RAG框架和实践
  8. 高级RAG
  9. RAG综述
  10. 总结

本篇是系列文章的第四篇,主要介绍通过RAG中和评估相关的经典论文文章。

06

使用评估优化RAG

6.1 Self RAG

《Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection》作者是华盛顿大学的两位女性学者Akari Asai(https://akariasai.github.io/)和Ellen Wu(http://ellenmellon.github.io/),文章发表于ICLR 2024。作者提出了Self-RAG的RAG框架,核心思想是训练一个LM,让它不仅能生成文本,还能生成特殊的“反思 Token(Reflection Tokens)”,用于控制检索的行为和判断最后结果的质量。Reflection Tokens共分为四类:

  1. Retrieve:值包括Yes(需要检索)、No(不检索)、Continue(继续检索),用于决定模型是直接生成结果,还是去语料库中检索文档。
  2. IsREL:判断检索到的文档与Query问题是否具有关联性,值包括Relevant(相关), Irrelevant(无关);
  3. IsSUP:判断检索到的文档能否足够支撑最终答案,值包括Fully supported(完全支持)、 Partially supported(部分支持)、No support(无支持);
  4. IsUSE:判断最终答案是否准确回答用户提出的问题,值为1-5分。

作者对以上4个参数,生成批判模型和生成模型:

  1. 批判模型:首先通过GPT-4蒸馏训练了基于Llama-2-7B小模型,能够准确的生成这类Tokens。
  2. 生成模型:使用批判模型对用户查询插入反思Tokens,然后训练主模型同时生成回答内容和反思Tokens,从而在推理时候,主模型能够判断何时开展检索并判断最后生成答案的准确性。

论文《Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection》地址:

https://arxiv.org/abs/2310.11511

6.2 Corrective RAG

《Corrective Retrieval Augmented Generation》作者是中国科技大学闫世奇(http://home.ustc.edu.cn/~yansiki/)和UCLA顾家辰(https://jasonforjoy.github.io/),文章投稿到ICLR2025。文章主要解决传统RAG系统严重依赖检索器返回文档的问题,即如果检索器返回了无关或错误的文档,模型往往会盲目地采纳这些信息,从而导致严重的幻觉或误导性生成。

作者引入了一个轻量级的评估器来判断检索文档的质量,同时计算一个置信度分数。基于这个分数,系统会触发三种不同的动作:1. 如果评估结果为“正确(Correct)”,则直接使用该文档;2. 如果为“错误(Incorrect)”,系统会丢弃该文档并利用Web Search来寻找新的外部知识;3. 如果为“模糊(Ambiguous)”,系统则会将检索到的文档与网络搜索的结果相结合,以补充上下文。

此外,CRAG 还设计了一种分解-重组”(Decompose-then-Recompose)算法,用于精细化处理检索到的文档。该算法不再将整个文档作为输入,而是有选择地提取关键信息并过滤掉无关内容,从而优化信息的利用率(类似于Least-to-Most文章)。

文章代码地址:https://github.com/HuskyInSalt/CRAG

论文《Corrective Retrieval Augmented Generation》地址:

https://arxiv.org/abs/2401.15884

6.3 RAGAs

《RAGAs: Automated Evaluation of Retrieval Augmented Generation》作者是Ragas 的创始人Shahul Es(https://shahules786.github.io/),文章发表在EACL 2024。这是一篇关于RAG自动化评估的重要论文。作者提出了RAGAs框架,旨在解决RAG系统评估难、依赖人工标注昂贵的问题。传统RAG效果评估存在的问题:

  1. 传统指标失效:传统的评估指标(如准确率、EM匹配)通常需要人工标注的标准答案(Reference/Ground Truth),但这在实际应用中很难获取
  2. 维度单一:仅仅评估最终生成的答案是不够的。RAG 的错误可能源于检索模块没找到相关信息,或者生成模块找到了信息但没回答对(产生了幻觉),需要对这两个部分分别进行评估。

作者提出了一个无参考文本(Reference-Free)的评估框架,这意味着不需要提供人工撰写的标准答案,只需要提供(Question, Retrieved Context, Generated Answer)三元组,即可进行评估。RAGAs 利用 LLM(如 GPT-3.5/GPT-4)作为评审(LLM-as-a-Judge),从三个核心维度对RAG进行评估:

  1. Faithfulness (忠实度):忠实度是指生成的答案中的主张能够在多大程度上从上下文中推导出来。作者使用的方法是将答案先拆成多个句子,对每个句子对比上下文对该句子的支持程度。
  2. Answer Relevance (答案相关性):用于衡量生成的答案在多大程度上实际回答了该问题。该指标通过评估生成的答案与原始问题的相关程度来进行打分。如果一个答案缺乏完整性或包含了冗余细节,那么该答案与原始问题的相关性就会降低。具体方法是通过LLM,对答案生成若干个问题的向量表示,然后用LLM判断这些生成问题与原始问题之间的向量相似度的平均值。
  3. Context Relevance (上下文相关性):用于衡量检索到的上下文在多大程度上包含了回答问题所需的信息。理想情况下,检索到的上下文应该仅包含解决该问题所必需的信息。根据这一原则,作者使用LLM提取上下文中对回答问题至关重要的句子,然后对每个句子对回答问题的重要性。

通过RAGAs,不仅能够在用户没有标准问题和答案的情况下,识别RAG的回答准确率,还能够清楚识别准确率的问题是发生在检索器还是LLM生成器上。本论文对应的开源库RAGAs(https://github.com/vibrantlabsai/ragas)已经成为RAG开发生态中非常流行的评估工具。

论文《RAGAs: Automated Evaluation of Retrieval Augmented Generation》地址:

https://arxiv.org/abs/2309.15217

6.4MultiCONIR

论文《MultiConIR: Towards multi-condition Information Retrieval》由上海交通大学、宁波东方理工大学、香港理工大学和美团的研究人员共同发表,主要研究针对现有IR系统主要处理单一意图的缺陷,提出了一个新的评估基准MULTICONIR,用于评估模型和条件之间的关系

作者通过构建一个跨越5个领域(书籍、电影、人物、医疗病例、法律文档)的测试集,对IR开展三个核心内容的评估:

  1. 复杂性评估(Complexity Robustness):随着查询条件数量从k=1到10的增加,模型性能是否还能保持稳定;
  2. 相关性单调性 (Relevance Monotonicity):模型能否正确排序满足更多条件的文档,即满足n个条件的文档得分应高于满足n-1个条件的文档。
  3. 格式不变性 (Format Invariance):模型在面对结构化指令(如List形式)和自然语言描述(Free-form形式)时,表现是否一致。

作者在 15 个模型(包括稀疏检索、密集检索、重排序模型和 LLM)上进行了测试,主要发现如下:

  1. 多条件的困境:几乎所有模型随着查询条件数量的增加,性能都出现显著下降,Rerankers的崩溃最为严重,例如 bge-reranker-v2-m3在单条件查询表现极好,但在多条件查询下性能急剧下滑。
  2. 检索器 vs. 重排序:密集检索器表现出比重排序器更强的鲁棒性,GritLM在检索器中表现最稳健。Rerankers虽然在简单任务上精度高,但对长文本和复杂指令极其敏感,容易出现“灾难性遗忘”或注意力分散。
  3. 格式敏感性:Rerankers对查询格式(指令式 vs 描述式)极其敏感,Flip Rate(排序翻转率)高达 30% 以上,而密集检索器相对稳定(约 10%)。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1191466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IL-6/IL-6R信号通路与细胞因子风暴:病理机制与靶向干预

一、细胞因子风暴:免疫平衡失调的病理核心 细胞因子风暴是一种严重的全身性免疫失调综合征。其本质在于,当病原体感染等强烈刺激发生时,机体免疫系统被过度激活,导致促炎与抗炎反应之间的精细平衡被破坏。这种失调引发免疫细胞异…

手机市场“斩杀线”将至,重新登顶的华为慌不慌?

文|刘俊宏编|王一粟回归两年多后,华为终于重新夺回了国内手机市场的“王座”。1月14日,IDC发布了手机市场最新的销量统计。数据显示,2025年全年,华为在中国智能手机市场的出货量份额达到16.4%,位…

诗歌天地:我该用多大的比例尺,来绘制自己这一生的地图?

11. 【进化之镜 无目的的宏伟设计】没有蓝图,只有试错。生命用亿万年的死亡作为学费,才学会如何更好地生存。这过程盲目、残酷,且效率低下,却最终雕刻出了羚羊的跳跃、鹰隼的视觉与人类追问“为什么”的大脑皮层。12. 【相对之镜…

告别“调参侠“!大模型六步理论框架,小白也能成为AI大神

大语言模型(Large Language Models, LLMs)的迅速崛起引发了人工智能领域的深远范式转移,并在工程层面取得了巨大成功,对现代社会产生着日益增长的影响。然而,当前领域仍存在一个关键悖论:尽管 LLMs 在经验上…

如何查看并合理设置西门子S7-1200/1500 CPU的通信负载率?

一、前言在使用西门子PLC的时候,我们经常忽略一个重要的参数"通信负载"(也是“通信负荷”)。在PLC与HMI连接 ,PLC与PLC进行 S7 通信等,博途(TIA Portal)软件监控、第三方软件通信等都需要占用PLC通信负…

告别外包噩梦!大模型多智能体系统实战:从零到上线只需一个月,小白也能秒变AI大神

当传统外包商花费数月仍无法交付可用方案时,基于LLM(Large Language Model,大语言模型)的MAS(Multi-Agent System,多Agent系统)架构却能在一个月内完成从原型到试点的全流程。 这不是理论推演,而是来自电信安全、国家遗产资产管理…

为什么年前是布局独立站的黄金时间?

最近很多工厂客户都在为年后的业务做建站准备,年前这段时间,厂里忙着赶最后一批货、清账、备年货,但有些事,现在悄悄做,比年后挤破头更划算——比如,把独立站的基础搭起来。年前建站时间节点是一个大优势&a…

Redis 数据类型验证报告

目录Redis 数据类型验证报告一、环境信息1.1 分片集群环境 (redis-2ffca4ed)1.2 哨兵环境 (redis-147885f8)二、数据类型验证结果2.1 分片集群验证 (redis-2ffca4ed)验证详情2.2 哨兵环境验证 (redis-147885f8)验证详情三、查看Key命令验证3.1 DBSIZE命令 - 查看key总数3.2 KEY…

LoadRunner性能测试系统学习教程:工具介绍(上)

在使用LoadRunner进行性能测试时,需要先了解LoadRunner的工作原理、工作过程和内部结构,这样可以对其有一个整体的了解和概要的认识。 主要包括以下内容: LoadRunner简介 LoadRunner工作原理 LoadRunner工作过程 LoadRunner内部结构 LoadRunner性能测试步骤…

AXI DMA在Zynq实时信号处理系统中的部署案例

AXI DMA在Zynq平台构建实时信号处理系统的实战解析你有没有遇到过这样的场景:FPGA逻辑已经跑出100 MSPS的ADC数据流,滤波和FFT也都在PL端高效完成,结果一到ARM端做后续分析就卡顿、丢帧、CPU飙到90%以上?这并不是算法不够强&#…

PCIe高速信号布线:PCB Layout项目应用解析

PCIe高速信号布线实战:从理论到落地的PCB设计全解析最近在调试一块服务器主板时,遇到了一个典型的PCIe Gen4误码问题——眼图几乎闭合,BER(误码率)远超容限。经过三天排查,最终发现根源竟然是差分对跨了电源…

麒麟操作系统 ARM vs x86 架构深度对比分析报告

目录麒麟操作系统 ARM vs x86 架构深度对比分析报告执行摘要关键发现一、CPU微架构深度对比1.1 基本信息x86_64 Intel Xeon E5-2696 v4aarch64 HiSilicon Kunpeng-9201.2 缓存结构对比1.3 指令集特性对比x86_64 指令集aarch64 指令集1.4 指令集架构差异分析CISC vs RISC向量计算…

Multisim14.2安装教程图解:一步步完成环境初始化

Multisim 14.2 安装实战指南:从零搭建稳定仿真环境 你是不是也曾在电脑上兴冲冲地打开 Multisim 安装包,结果弹出一堆错误提示——“许可证未找到”、“数据库初始化失败”、“应用程序无法启动”?明明步骤都照着教程来了,怎么就是…

Proteus中步进电机驱动电路与51单片机协同设计解析

51单片机ULN2003驱动步进电机:从Proteus仿真到实战的完整闭环你有没有过这样的经历?为了调通一个步进电机,焊了一块板子,结果一上电,电机抖了几下就停了。查电源、换驱动、重烧程序……折腾半天才发现是相序接反了。这…

AI 短剧平台的 “保命符”:高防 IP 如何抵御流量攻击与业务中断风险

AI短剧行业的爆发式增长,使其成为网络攻击的新目标。这类平台多依赖实时播放、付费转化变现,一旦遭遇攻击导致业务中断,每小时损失可达数万元。2025年快手1222攻击事件警示,黑灰产已能用AI驱动1.7万个账号发起规模化攻击&#xff…

如何将conda环境,包含该环境的python包进行复制和迁移

本教程主要是应用在一个conda环境下,已经通过pip安装了一些python库 由于pip安装的时候,python库被安装在了用户目录之下,尽管当初选择的是conda环境 所以,如果单纯的对conda环境进行打包操作的话,已经下载的pyth…

【2026年精选毕业设计:校园二手教材循环平台(含论文+源码+PPT+开题报告+任务书+答辩讲解)】

2026年精选毕业设计:校园二手教材循环平台(含论文源码PPT开题报告任务书答辩讲解)✅ 全套资源免费提供:毕业论文(WordPDF)、前后端源码、答辩PPT、开题报告、任务书、数据库脚本、部署文档、演示视频 &…

安达发|给保健品生产上“最强大脑”:高级排产软件玩转复杂生产

在保健品行业面临监管趋严、消费需求多元化与市场竞争白热化的三重压力下,生产效率与合规性已成为企业生存发展的生命线。传统的生产计划模式依赖人工经验,在面对复杂的原料批次管理、频繁的配方调整、严格的质量追溯要求时,往往力不从心&…

博客园cli开发

cli由博客园已开发,使用起来的感觉怪怪的,现已完成部分重构,open api的主要功能是管理自己的内容,一部分api不能使用,导致实现某些逻辑困难。期待博客园api的完善。作者: 咕咚!出处:https://www.cnblogs.com/l…

ProfiNet转DeviceNet工业网关提升工业产线PLC与从站设备通讯响应速度

一、改造背景 某大型乘用车零部件制造商的发动机缸体加工流水线已运行 8 年,随着新型加工设备和检测系统的引入,原分散式继电器控制模式弊端凸显。负责气缸驱动的 SMC VQ1000-DN 电磁阀采用传统硬接线连接,接线复杂…