“破防了!“RAG系统不只是向量嵌入!小白程序员必看:为什么相似≠相关?一文搞懂大模型开发中的相关性陷阱

最近,我在阅读一些关于 RAG系统的资料时,发现了一个有趣的现象:RAG 的相关性问题远比我们想象的要复杂。无论是从数据检索的角度,还是从大模型对相关性的理解来看,RAG 的表现都充满了挑战和机遇。

今天,我想和大家分享一下我的思考,希望能给大家带来一些启发,如有不对的地方欢迎讨论交流。

1. RAG 与相关性:不仅仅是向量嵌入

当我们谈论 RAG 时,很多人会立刻想到向量嵌入相似性度量。确实,向量嵌入在 RAG 中扮演了重要角色,但相关性并不仅仅依赖于这些技术。事实上,很多时候,传统的数据库查询和文本搜索已经足够解决问题向量嵌入虽然强大,但并不是万能的。

举个例子,假设你在开发一个基于 LLM 的医疗保健应用程序。你可能会发现,与“使用 LLM 构建医疗保健软件”相关的信息在向量空间中可能包括“用于诊断疾病的 AI”和“用于视频游戏开发的 AI”。虽然这些信息在向量空间中看起来“相似”,但它们实际上缺乏关键的联系。这就是为什么我们需要重新思考相关性的定义。

其实,我们早就开始用数据库和文本搜索了,而且用了好几十年,效果一直不错。大多数时候,用传统的方式查询数据反而更简单直接。向量嵌入当然也有它的用处,但说实话,很多时候你并不需要那么复杂的技术——你想要的数据其实并不难找。

那问题来了:如果数据真的很难找呢?这时候是不是就该用vectorDB了?答案是:是,也不是。因为这时候你真正面对的,其实是相关性的问题。

2. 相关性:超越表面相似性

相关性不仅仅是表面上的相似性。它涉及到更深层次的上下文理解,“对人类有用的信息对 LLM 也有帮助”。因此,我们需要构建一个能够理解上下文、提供真正有用信息的系统,而不是仅仅依赖于向量相似性。

研究发现,添加不相关文档有时甚至能提高 RAG 系统的准确性。这听起来有点反直觉,但背后的逻辑是:不相关文档可能通过某种方式“激活”模型的推理能力,从而帮助它更好地理解问题。然而,这并不意味着我们可以随意添加不相关文档。区分相关和非相关信息仍然是 RAG 系统的核心挑战。

3. 数据量 vs. 效果:RAG 系统的双刃剑

QAnything提到的实验让我对 RAG 系统的数据量问题有了新的认识。数据越多,效果越好吗?这个问题看似简单,但答案却并不那么直接。升学百科问答的实验中,研究者发现,随着数据量的增加,RAG 系统的表现并非线性提升。第一批数据加入后,问答正确率为 42.6%,随着第二批数据的加入,正确率提升到了 60.2%。然而,当第三批数据加入后,正确率却急剧下降了 8 个百分点。这表明,海量数据并不总是带来更好的效果,反而可能导致检索退化问题。

3.1 检索退化:相似 ≠ 相关

在实验中,一个典型的例子是“大连医科大学怎么样?”这个问题。在加入第三批数据之前,系统能够正确回答,但在加入第三批数据后,系统却错误地返回了与“大连理工大学”相关的信息。这是因为第三批数据中包含了与“大连理工大学”相关的句子,这些句子在向量空间中与“大连医科大学”非常相似,但实际上并不相关。

语义检索的核心矛盾在于:相似性 ≠ 相关性。RAG 系统需要在有限的 LLM 输入 token 内,选择最相关的片段。如果检索到的片段虽然相似但不相关,就会导致回答错误。因此,如何优化检索机制,确保最相关的片段被选中,是 RAG 系统设计中的关键挑战

4. 如何定义和衡量相关性?

那么,如何定义相关性?这是一个复杂的问题。《How Easily do Irrelevant Inputs Skew the Responses of Large Language Models?》中提到了一些有趣的实验,研究者通过构建不同类型的信息(如无关信息部分相关的无关信息相关但误导性的无关信息)来测试大模型对相关性的敏感性。

例如,无关信息可能与问题主题无关,但由于高相似性得分而被检索到。而部分相关的无关信息则包含与问题主题部分重叠的信息,但不提供问题的答案。这些实验表明,大模型对相关性的理解与传统的检索系统并不完全一致。我们需要更精细的方法来衡量和优化相关性。这篇论文有以下实验结论:

  • 大模型更容易被语义高度相关但不相关的信息误导。
  • 随着无关信息数量的增加,大模型识别真正相关信息的能力会降低。
  • 大模型对无关信息的鲁棒性会随着问题格式的变化而变化。例如,自由格式的问题(如开放式问答)通常比多选 QA 格式更鲁棒。**在多选 QA 格式中,模型可能会因为选项的干扰而选择不相关的答案。**这说明,问题的设计方式也会影响模型对相关性的判断。

基于以上挑战,我们可以从以下几个方面优化相关性的衡量:

4.3.1 结合多维度评分

传统的向量相似性评分(如余弦相似度)虽然有用,但不足以完全衡量相关性。我们可以结合以下多维度评分:

  • 语义相似性评分:基于向量嵌入的相似性。
  • 上下文匹配评分:基于信息是否能够回答问题的核心。
  • 任务目标评分:基于信息是否有助于完成特定任务。

4.3.2 引入人类反馈

人类反馈是衡量相关性的重要依据。通过让人类评估模型返回的结果,我们可以更好地理解哪些信息是真正相关的。例如,可以设计以下评估指标:

  • 有用性评分:结果是否有助于完成任务?
  • 准确性评分:结果是否准确回答了问题?
  • 相关性评分:结果是否与问题真正相关?

4.3.3 优化提示工程

实验结论提到,CoT(Chain-of-Thought)提示指令增强提示对提高模型辨别能力的效果有限,甚至可能产生副作用。因此,我们需要更精细地设计提示,帮助模型更好地理解任务和上下文。例如:

  • 明确任务目标:在提示中明确告诉模型需要完成的任务。
  • 过滤无关信息:在提示中加入“忽略无关信息”的指令,但需要结合其他优化手段。

4.3.4 动态调整检索策略

RAG 系统的检索策略需要根据任务和数据进行动态调整。例如:

  • 分层检索:先进行粗粒度检索,再进行细粒度筛选。
  • 多轮检索:通过多轮交互逐步缩小检索范围,提高相关性。

5. RAG 的短暂性:优势还是劣势?

RAG 的另一个关键特性是它的短暂性。RAG 的结果是临时的,每次请求后都会消失。这听起来可能有点烦人,但实际上,短暂性为实时应用程序提供了重要的优势。它允许我们将数据隔离到特定的对话中,从而更容易防止数据泄露。

当然,短暂性也带来了一些挑战。我们需要不断地将数据重新注入上下文中,这对系统的设计和性能提出了更高的要求。但总的来说,短暂性是 RAG 系统的一个独特优势,尤其是在需要高度安全性和隐私保护的场景中。

6. 数据侧的优化:不仅仅是“越多越好”

Qnything实验提醒我们,数据侧的优化并不是简单的“越多越好”。虽然增加数据量可以扩展知识覆盖范围,但同时也可能引入噪声,导致检索退化。因此,数据去重、脏数据处理、以及数据与问题的精确匹配,都是优化 RAG 系统时需要考虑的重要因素。

6.1 数据质量 vs. 数据数量

在 RAG 系统中,数据质量比数据数量更重要。高质量的数据能够显著提升系统的表现,而低质量或冗余的数据则可能导致系统性能下降。因此,在增加数据量之前,我们需要确保数据的相关性和准确性

6.2 快速迭代与稳定性

如果数据越多效果越好,那么我们可以通过快速迭代来优化系统。然而,实验结果表明,数据量的增加并不总是带来效果的提升。因此,我们需要在迭代过程中持续监控系统的表现,确保每次数据更新都能带来正向的改进。

7. RAG未来的方向

我们正处于 AI 和 LLM 开发的早期阶段,就像早期的 Web 应用程序一样,我们现在建立的标准将决定未来 AI 应用程序的开发方式。因此,我们需要以更周到的视角来对待 RAG 等工具,而不仅仅是将其视为一种“一刀切”的解决方案。

通过关注相关性短暂性的细微差别,我们可以创建出能够提供更好、更精确结果的系统,现在是建立RAG最佳实践的机会

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164805.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

降重平台普遍采用AI驱动的智能改写工具,免费试用功能帮助用户获得更优文本效果

排名 工具名称 降重效率 特色功能 适用场景 免费额度 1 aibiye ⭐⭐⭐⭐⭐ AIGC查重降重双功能 学术论文深度优化 首次免费检测 2 aicheck ⭐⭐⭐⭐ 多维度重复率分析 日常作业/论文初稿 每日3000字免费 3 笔启AI ⭐⭐⭐⭐ 长文记忆多语种支持 硕博论文/…

2026最吃香的技能!大模型+Agent实战教程,小白也能快速上手,薪资暴涨36%+

过去两年,大模型技术从“聊天”玩具一路狂飙成为产业级生产力。尤其 2025 年,被业内称为 Agent(智能体)爆发元年——大模型不再只会回答问题,而是能真正理解任务、拆解步骤、调用工具、交付结果。 一、为什么 2025 年…

2026年网络安全渗透测试行业全景分析:机遇、挑战与未来趋势,从零基础入门到精通,收藏这一篇就够了!

2026年网络安全渗透测试行业全景分析:机遇、挑战与未来趋势 随着数字化转型的深入和网络威胁的日益复杂化,网络安全渗透测试行业在2026年迎来了前所未有的发展机遇与挑战。本文基于最新行业数据、招聘趋势与技术演进,全面剖析当前渗透测试行…

震惊!NVIDIA新算法让AI模型不再“偏科“,小白程序员也能轻松掌握的多目标强化学习黑科技!

研究背景:让AI既准又快,多目标优化的难题 想象一下,你在训练一个AI模型,既希望它回答准确,又希望它的回复简洁高效,还要格式规范。这就像让一个学生同时在数学、语文、体育上都拿高分——听起来很美好,但实际操作中,模型往往会"偏科":可能为了追求准确率,生成了冗长…

主流降重平台利用AI技术进行智能改写,开放免费试用,确保内容优化效果更出色

排名 工具名称 降重效率 特色功能 适用场景 免费额度 1 aibiye ⭐⭐⭐⭐⭐ AIGC查重降重双功能 学术论文深度优化 首次免费检测 2 aicheck ⭐⭐⭐⭐ 多维度重复率分析 日常作业/论文初稿 每日3000字免费 3 笔启AI ⭐⭐⭐⭐ 长文记忆多语种支持 硕博论文/…

代码已开源!GroupRank两阶段训练法,大模型重排序性能直冲SOTA,程序员必看!

GroupRank 提出了一种全新的“分组重排”(Groupwise Reranking)范式,巧妙地融合了 Pointwise 方法的灵活性与 Listwise 方法的全局比较能力,并通过创新的两阶段训练(SFT 强化学习)和高质量数据合成流水线&…

十大降重服务商均集成AI智能改写技术,免费试用确保用户享受高效文本优化

排名 工具名称 降重效率 特色功能 适用场景 免费额度 1 aibiye ⭐⭐⭐⭐⭐ AIGC查重降重双功能 学术论文深度优化 首次免费检测 2 aicheck ⭐⭐⭐⭐ 多维度重复率分析 日常作业/论文初稿 每日3000字免费 3 笔启AI ⭐⭐⭐⭐ 长文记忆多语种支持 硕博论文/…

超全的攻防渗透信息收集方法、工具!从零基础入门到精通,收藏这一篇就够了!

超全的攻防渗透信息收集方法、工具! 信息收集的意义 信息收集对于渗透测试前期来说是非常重要的。正所谓,知己知彼百战不殆,信息收集是渗透测试成功的保障,只有我们掌握了目标网站或目标主机足够多的信息之后,才能更好…

程序员必备!大模型智能体交接技术:LangGraph框架实战,小白也能秒会的AI协作秘籍!

一、基于 LangGraph 理解 LLM 智能体如何相互转移控制权 大语言模型(LLM)的推理能力结合记忆、规划和工具使用功能后,形成了所谓的智能体(Agent),这大幅扩展了 LLM 能够完成的任务范围。 然而,…

PERT 图(Program Evaluation and Review Technique)是一种项目管理工具,用于规划、调度和控制复杂项目的任务流程

PERT 图(Program Evaluation and Review Technique)是一种项目管理工具,用于规划、调度和控制复杂项目的任务流程。其核心概念与应用如下:松弛时间(Slack Time):指在不影响整个项目完成时间的前…

免费AI论文神器实操指南:6款工具一键生成初稿,AIGC率低至5%

作为一名研究生,你是否曾在论文写作时遇到这些痛点? 对着空白文档发呆3小时,连大纲都列不出来?导师批注密密麻麻,却不知道从哪改起?查重报告红一片,降重改到怀疑人生?问卷数据处理、…

YOLOv8 融合多尺度扩张注意力机制(MSDA):实现长距离特征捕获性能提升40%的实战指南

文章目录 【毕设级项目】YOLOv8+多尺度扩张注意力(MSDA):长距离特征捕获能力提升40%的实战教程 一、项目核心:什么是MSDA注意力? 二、环境准备:5分钟配置依赖 三、步骤1:编写MSDA注意力模块(dilateformer.py) 四、步骤2:注册MSDA模块(修改tasks.py) 五、步骤3:编写…

H-S FPN优化版YOLOv8 Neck模块(轻量化高精度特征融合方案)

文章目录 研发实战:基于H-S FPN的YOLOv8 Neck模块优化(超轻量高精度特征融合方案) 一、技术背景与方案价值 二、环境搭建与依赖配置 2.1 虚拟环境创建 2.2 数据集准备 三、H-S FPN模块的代码实现 3.1 分层特征选择(H-S)核心组件 3.2 H-S FPN的Neck结构实现 3.3 替换YOLOv8…

【程序员必看】Function Calling+RL+Agent,让大模型从“嘴炮王者“变“实干家“!小白也能肝出超级智能体!

核心概念总览:Agent | Function Calling | RL 核心理念 Agent Function Calling RL 让AI从"会说话"变成"会办事、会学习"的完整体系。 1.1 以前的 AI:只能"聊天" 以前的大模型(比如早期的 ChatGPT&…

COCOMO II 模型和 Putnam 模型是软件项目估算中广泛使用的定量方法,用于预测软件开发的工作量、成本与进度

COCOMO II 模型和 Putnam 模型是软件项目估算中广泛使用的定量方法,用于预测软件开发的工作量、成本与进度。 (1)COCOMO II 模型的阶段划分 COCOMO II 是构造性成本模型(Constructive Cost Model)的改进版本&#xff0…

重新定义测试边界:N5181A信号发生器,何以成为射频领域的性能标杆?

156/2558/3328产品概述:在无线通信、航空航天、国防科研等尖端领域,每一次技术突破的背后,都离不开高精度、高性能测试设备的强力支撑。信号的纯净度、稳定性和调制精度,直接决定着研发的成败与产品的性能天花板。在众多测试仪器中…

基于Slim-Neck的YOLOv8轻量化特征融合方案(超轻量+高精度双突破)

文章目录 研发实战:基于Slim-Neck的YOLOv8轻量化特征融合方案(超轻量+高精度双突破) 一、技术背景与方案价值 二、环境搭建与依赖配置 2.1 虚拟环境创建 2.2 数据集准备 三、Slim-Neck核心模块实现 3.1 分组稀疏卷积(GSCConv) 3.2 轻量化特征融合(BiFPN) 3.3 Slim-Neck整…

十家知名降重平台通过AI智能改写技术优化文本,提供免费试用,显著提升文本质量

排名 工具名称 降重效率 特色功能 适用场景 免费额度 1 aibiye ⭐⭐⭐⭐⭐ AIGC查重降重双功能 学术论文深度优化 首次免费检测 2 aicheck ⭐⭐⭐⭐ 多维度重复率分析 日常作业/论文初稿 每日3000字免费 3 笔启AI ⭐⭐⭐⭐ 长文记忆多语种支持 硕博论文/…

YOLOv8+BiFPN双向特征金字塔:多尺度目标检测精度提升28%的实战教程

文章目录 【研发级项目】YOLOv8+BiFPN双向特征金字塔:多尺度目标检测精度提升28%的实战教程 一、项目核心:什么是BiFPN? 二、环境准备:5分钟配置依赖 三、步骤1:编写BiFPN模块(bifpn.py) 四、步骤2:注册BiFPN模块(修改tasks.py) 五、步骤3:编写YOLOv8+BiFPN的配置文…

*固定交付日期型**:最终交付日期已明确,开发团队必须在既定截止日期前完成所有工作

一、进度安排的两种方式 固定交付日期型:最终交付日期已明确,开发团队必须在既定截止日期前完成所有工作。此类项目通常由外部客户或市场窗口决定时间点,进度安排需倒排工期,强调严格的时间控制与资源调配。弹性交付日期型&#x…