RAGAS大模型评估框架

news/2025/9/26 17:28:59/文章来源:https://www.cnblogs.com/pass-ion/p/19113902

一、AGAs评估

RAGAs (Retrieval-Augmented Generation Assessment) 是一个框架,可以帮助快速评估RAG系统的性能,为了评估 RAG 系统,RAGAs 需要以下信息:

question:用户输入的问题。
answer:从 RAG 系统生成的答案(由LLM给出)。
contexts:根据用户的问题从外部知识源检索的上下文即与问题相关的文档。
ground_truths: 人类提供的基于问题的真实(正确)答案。 这是唯一的需要人类提供的信息。

二、评估指标

RAGAS提供了10种核心计算指标,包括检索质量/生成质量/事实一致性

检索质量相关指标

1. context_precision(上下文精确性)

  • 底层逻辑:衡量检索到的上下文是否均为回答问题所必需(过滤冗余信息)。
  • 计算方式:
    1. 大模型将每条上下文与问题、答案对比,判断其是否「必要」(即移除后会降低答案质量)。
    2. 计算公式:必要上下文数量 / 总检索上下文数量
  • 大模型作用:负责判断单条上下文的「必要性」,需理解上下文对回答的贡献度。

2. context_recall(上下文召回率)

  • 底层逻辑:评估检索到的上下文是否包含回答问题所需的全部关键信息。
  • 计算方式:
    1. 大模型从真实答案(ground truth)中提取「关键信息点」(如核心事实、实体、逻辑关系)。
    2. 检查这些信息点是否出现在检索到的上下文中。
    3. 计算公式:被检索到的关键信息点数量 / 所有必要关键信息点数量
  • 大模型作用:提取关键信息点并匹配上下文,需具备信息抽取和逻辑比对能力。

3. context_relevancy(上下文相关性)

  • 底层逻辑:衡量检索到的上下文与问题的语义关联度。
  • 计算方式:
    1. 对每条上下文,通过语义模型(如 Sentence-BERT)计算与问题的向量相似度(余弦相似度)。
    2. 取所有上下文相似度的平均值。
  • 大模型作用:主要依赖轻量语义模型(非大模型),但部分实现会用大模型辅助判断「主题匹配度」。

4. context_entity_recall(上下文实体召回率)

  • 底层逻辑:评估检索到的上下文中包含的关键实体是否完整。
  • 计算方式:
    1. 大模型从真实答案中提取「核心实体」(如人名、术语、事件名)。
    2. 统计这些实体在检索上下文中的出现比例。
    3. 计算公式:检索到的关键实体数量 / 所有必要关键实体数量
  • 大模型作用:负责实体识别和匹配,需理解实体在上下文中的语义等价性(如同义词、缩写)。

 

生成质量相关指标

5. answer_relevancy(答案相关性)

  • 底层逻辑:衡量答案与问题的关联程度(避免答非所问)。
  • 计算方式:
    1. 大模型直接判断答案是否「直接回应问题核心」,是否包含无关信息。
    2. 辅助计算答案与问题的语义向量相似度(如用 Sentence-BERT)。
    3. 综合两者给出 0~1 分数。
  • 大模型作用:主导逻辑判断,需理解问题意图与答案的匹配度。

6. answer_similarity(答案相似度)

  • 底层逻辑:评估生成答案与真实答案的语义相似性。
  • 计算方式:
    1. 将答案与真实答案转换为语义向量(如用 Sentence-BERT)。
    2. 计算向量间的余弦相似度(范围 0~1)。
  • 大模型作用:依赖轻量语义模型,大模型仅在复杂场景(如长文本)辅助优化相似度计算。

7. answer_correctness(答案正确性)

  • 底层逻辑:评估答案与真实答案的事实匹配程度(支持部分正确)。
  • 计算方式:
    1. 大模型将答案与真实答案拆解为「事实性陈述」。
    2. 逐一比对陈述的一致性(完全匹配、部分匹配、不匹配)。
    3. 按匹配比例加权计算得分(完全匹配权重最高)。
  • 大模型作用:负责陈述拆解和匹配判断,需理解事实的部分等价性(如同义句)。

 

事实一致性相关指标

8. faithfulness(忠实性)

  • 底层逻辑:评估答案是否完全基于检索到的上下文(无编造信息)。
  • 计算方式:
    1. 大模型将答案拆解为多个「事实性陈述」。
    2. 逐一验证每个陈述是否能从上下文中找到明确依据。
    3. 计算公式:有依据的陈述数量 / 总陈述数量
  • 大模型作用:核心依赖大模型的逻辑推理能力,需判断陈述与上下文的因果关系。

9. hallucination_score(幻觉评分)

  • 底层逻辑:量化答案中「编造信息」的比例(与 faithfulness 互补)。
  • 计算方式:
    1. 大模型识别答案中所有「未在上下文中出现的事实性陈述」(即幻觉)。
    2. 计算公式:幻觉陈述数量 / 总陈述数量
  • 大模型作用:需精确区分「上下文存在的信息」与「模型编造的信息」,对语义理解要求极高。

 

综合指标

10. ragas_score(RAGAS 综合得分)

  • 底层逻辑:综合上述指标,反映 RAG 系统的整体性能。
  • 计算方式:
    1. 对所选指标(如 context_precision、faithfulness、answer_relevancy 等)进行标准化(0~1 范围)。
    2. 按预设权重(可自定义)加权求和,得到最终综合分(0~1)。
  • 大模型作用:不直接参与计算,但其对各子指标的评分结果直接影响综合分。

总结

  • 强依赖大模型的指标:context_precision、context_recall、faithfulness、hallucination_score、answer_correctness、answer_relevancy(逻辑判断部分),核心依赖大模型的语义理解和逻辑推理能力。
  • 轻依赖大模型的指标:context_relevancy、answer_similarity,主要通过语义向量相似度计算,大模型仅起辅助作用。
  • 综合指标:ragas_score 基于其他指标的加权结果,无独立计算逻辑。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/918600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

服务器密码错误被锁定如何解决?

当服务器因为密码错误多次输入而被锁定时,通常是由于安全策略(如 SSH 登录失败次数限制、防火墙规则或安全工具)触发的。这种情况可能导致无法远程登录服务器,但可以通过以下方法解决问题。以下是详细的排查和解决…

盐亭做网站网站站点建设

C语言允许宏带有参数。在宏定义中的参数称为“形式参数”,在宏调用中的参数称为“实际参数”,这点和函数有些类似。 对带参数的宏,在展开过程中不仅要进行字符串替换,还要用实参去替换形参。 带参宏定义的一般形式为&#xff1a…

音乐门户网站模板如何搭建网站

理解什么是关键字? Java赋予了某些单词特殊意义,就不能自己在代码中起同名一样的,否则提示错误 【在Java中关键字都是小写的,并不是所有的小写字母都是关键字,一般在IDEA中显示高亮橘黄色】 理解什么是保留字&#xf…

水翼式搅拌机推荐品牌/推荐厂家/优质供应商/哪家强?

水翼式搅拌机品牌推荐:南京兰江泵业——专业可靠的水处理设备专家 在污水处理和水体净化领域,水翼式搅拌机作为关键设备,其性能直接影响着整个系统的运行效率和效果。面对市场上众多品牌,如何选择一款质量可靠、性…

AutoMQ Ververica:打造云原生实时数据流最佳实践! - 教程

AutoMQ Ververica:打造云原生实时数据流最佳实践! - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Conso…

Java外功基础(1)——Spring Web MVC - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

100W QPS:亿级用户的社交关系如何设计?

当系统涌入亿级用户,100W QPS(每秒百万级请求) 是什么概念? 朋友圈里,大 V 发条动态,几百万粉丝同时收到推送; 直播间里,几十万人同时刷礼物、发弹幕; 电商大促,瞬间几千万下单请求直冲数据库。 没有合格的性…

php创建一个网站境外公司在国内建网站

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1卷积神经网络(CNN)在时间序列中的应用 4.2 长短时记忆网络(LSTM)处理序列依赖关系 4.3 注意力机制(Attention) 4…

建立网站要什么条件和多少钱wordpress主题零基础

java集合提取最小的日期我们都广泛使用了Collection类,例如List,Map及其派生版本。 每次使用它们时,我们都必须遍历它们以找到某个元素或更新这些元素,或者找到匹配某个条件的不同元素。 考虑如下所示的人员列表: Lis…

网上有做衣服的网站有哪些一键网站制作

Description 背景: 和久必分,分久必和。。。 题目描述: 中国历史上上分分和和次数非常多。。通读中国历史的WJMZBMR表示毫无压力。 同时经常搞OI的他把这个变成了一个数学模型。 假设中国的国土总和是不变的。 每个国家都可以用他的国土面积代…

做网站在哪里申请wordpress default

掌握 GoLang Fiber 中的路由和中间件艺术,以进行高效的 Web 开发 在网络开发领域中,创建一个有效地路由和管理各种任务的 Web 应用程序至关重要。路由决定了如何处理传入的请求,而中间件在执行任务,如身份验证、日志记录和请求解…

坤驰科技携数据采集解决方案,亮相中国光纤传感大会

2025年9月20日至22日,第十三届中国光纤传感大会在武汉光谷希尔顿酒店召开。大会吸引了来自国内外高校、科研院所及相关行业企业的千余名专家学者齐聚江城,共同探讨光纤传感技术的最新发展与未来趋势。 本届大会不仅汇…

新手入门需要掌握多少种大模型才行

新手入门,不在于“掌握多种”大模型,而在于“掌握一类”大模型的用法,并理解其背后的原理。 你不需要像背单词一样去学习几十种模型,关键在于建立正确的认知和方法论。下图清晰地展示了你的学习路径与目标:接下来…

docker容器怎么查看最后一些行日志

docker容器如果日志太多使用命令查看日志会一直刷很久才到尾部 docker logs -f 容器ID可以使用以下命令直接查看最后一些行日志 docker logs -f --tail 2000 b459e5d7a4eb

MAC idea 环境变量设置失效

前言 使用MAC idea2025.2 tomcat8 设置环境变量,启动失效问题解决 分析 网上说是zsh和bash命令问题,但是尝试多次覆盖文件,启动读取依然没用 MAC下~/.bash_profile无效 ~/.bash_profile配置无问题,为何每次打开新…

Docker 配置问题

Docker 配置问题UniMRCP Docker 容器启动异常分析报告 1️⃣ 问题描述 在 Windows + WSL2 环境下启动 UniMRCP Docker 容器时,出现以下问题:容器内 /opt/unimrcp/conf 配置目录内容不是宿主机挂载目录,而是默认配置…

admin登录网站设计海报的软件

思维(1):商人:没人干过这种事,没有先例可循,万一砸了怎么办?温州人:没人干过怕什么?这样才没人跟你抢市场嘛,头道汤味道最好,先人一步的生意最赚钱…

建设企业银行网站杰恩设计网站是谁做的

Android中判断当前网络是否可用应用场景:实现判断当前网络是否可用当前有可用网络,如下图:当前没有可用网络,如下图:实现步骤:1、获取ConnectivityManager对象Context context activity.getApplicationCon…

【东北七大高校联合举办】第十一届机械制造技术与工程材料国际学术会议(ICMTEM 2025)

第十一届机械制造技术与工程材料国际学术会议(ICMTEM 2025) 2025 11th International Conference on Manufacturing Technology and Engineering Materials 在这里看会议官网详情 大会时间:2025年11月28-30日 大会地…