十分钟读懂RAG - 智慧园区

news/2026/1/23 20:05:51/文章来源:https://www.cnblogs.com/IT-Evan/p/19494327

大语言模型虽强,却面临幻觉、知识截止和上下文限制三大痛点。RAG技术应运而生,让AI能够'带书考试',通过分片、索引、召回和生成四步精准解决问题。本文将深入解析RAG的工作原理、应用场景与局限,助你掌握这套AI工程体系的核心逻辑。

2025年,大语言模型已经深刻改变了人类与AI的交互方式。它们知识渊博、能编写代码、举一反三,展现出令人惊叹的能力。然而,就像所有强大的工具一样,大模型也有其固有的局限性。

 

三大核心痛点

幻觉问题——不会也要编

当大模型遇到不确定的问题时,它不会诚实地说”我不知道”,而是倾向于”自信地编造”答案。这就像一个考生为了不留空白,宁愿编造答案也不愿承认不会。这种幻觉现象在生产环境中可能导致严重后果。

知识截止——只知旧事不知新

大模型的知识库是在训练时固化的。如果模型是2023年训练完成的,那么它对2024年发生的事件一无所知。

另外,企业的核心知识往往存储在内部系统中:客户资料、产品文档、业务流程等。这些数据既不能也不应该用于训练公开模型,但企业又迫切需要让AI理解和处理这些信息。

上下文长度限制——模型最大处理token上限

大模型是一个概率模型,通过将用户输入的问题-转化为token-向量化-函数处理向量-计算出下一个词的概率-最后一个接一个的输出被算法选中的词。

而至于为什么会有上下文限制,主要卡点在计算:

CPU计算:在大模型计算的过程中,会应用到多维的函数处理,以12288个Token为例,在函数处理过程中,会经历多次12288*12288维的向量处理,然后将处理结果进行降维,再继续进行向量处理…这个过程会有相当多;但系统每增加100个Token量级,CPU处理的量级都是指数级提升;

以注意力机制为例:在计算中,输入的每个Toeken(为了便于理解,假设一个词就是一个Token)都会与其他所有的字进行关联度分析,例如:Wizard Harry on the grassland。第二句话是:Prince Harry on the grassland。起初在切分Token向量化时,两个Harry的向量是一致的,但是,在做了上下文Token关联后,两个Harry的向量发生了偏移,第一个Harry,代表的是吧哈利波特,第二个Harry代表的是英国王室的哈利王子。而在处理Harry这个Token时,是需要将Harry与前后所有的Token做关联度的计算,即计算1*5次。

 

解决方案

面对这些挑战,业界发展出了三种主要解决方案:

今天将深入探讨RAG技术——这个让AI能够”带书考试”的解决方案。

 

完整工作流程:让AI”开卷考试”

想象你在参加考试,但可以携带参考书。你不需要死记硬背所有知识点,只需要知道去哪里查找答案,然后用自己的话整理输出。

RAG就是让AI也能这样”开卷考试”。

RAG系统分为两个阶段运作:

 

分片

将一个或多个文档,切分为小片段,有很多分片策略,例如:

这些方式都是基础的分片方式,实际使用可以一个或多个综合使用。

另外可以根据业务场景,增加特有的分片方式,例如商品信息,按照字段进行切片,可以切分出材质、产地、品牌等信息。

切分质量 = 检索准确性 = 回答质量

 

索引

索引又分为两步,向量化和存储。

向量化

将文本片段转换为数字向量;首先,需要理解什么是向量,在数学概念中,向量是指一个有大小,有方向的量。

以RGB为例,RGB是依靠三原色来描述一个颜色

  • 鲜红色:[255, 0, 0]
  • 纯蓝色:[0, 0, 255]
  • 紫色:[128, 0, 128]

关键洞察:向量数值接近 → 颜色相近 → 空间位置相近

引入更多维度,例如利用向量来描述狗:

通过比较向量:

柴犬A vs 柴犬B:[8,7,4,8] ≈ [8,6,5,7] → 数值接近 → 很相似

柴犬A vs 哈士奇:[8,7,4,8] ≠ [2,3,7,9] → 数值差距大 → 不相似

而在真实的大模型中,维度会更高,例如GPT-3.5就是12288维,也就是一个Token会在12288维去做一个取值。

存储

将切片的文本和向量存储到数据库中。但是在存储过程中,单个的文本切片和向量存储可能还不够。

切分后,可能就是保留2段切片,“入职满一年可享受5天年假,满三年10天”和“入职即可享受5天年假,满三年10天。”

这个时候当用户问,刚入职1个月,有几天年假。用户是哪个部门的?适用于哪条规则,是回答5天,还是没有年假呢?

因此,除了文本和向量外,还会增加元数据,即记录信息的来源和出处。

常见元数据类型

  • 来源信息:文件名、URL、作者
  • 结构信息:章节、标题、页码
  • 时间信息:创建时间、更新时间
  • 业务信息:部门、产品、版本

 

召回

在数据库中找到与用户提问相关的文档片段。召回策略很多,这里讲几个最常用的策略。

向量检索

将用户问题向量化–>计算问题向量与所有的相似度–>找到相似度最高的N个片段

向量计算相似度的方法,例如余弦相似度(计算向量之间夹角的余弦值)、欧式距离(计算两个向量的直线距离)、点积(综合考虑方向和长度,值越大相似度越高)

图召回

把文档中的实体和关系抽取出来,构建成图结构,也就是构建知识图谱。向量检索能够快速找到语义相近的信息,但是对于多层级逻辑,向量检索是无法一次完成的。

例如:在文档中,分别存了:张三的领导是李四,同事是小明,李四的领导是王总;另一个文档存了:李四的社会关系,大学同学是王五和赵六。

问:张三的领导和谁的大学同学?

在向量检索中,是检索不到的,或者检索错误。

但是,构建知识图谱,将组织架构和社会关系做关联,将角色、关系做关联,就能得到下面这个简单的知识图谱:

通过这个图谱的遍历,就能得出:

  1. 定位”张三”
  2. 沿”领导”边 → 李四
  3. 沿”同学”边 → 王五、赵六

再举个例子:文档有一句:**说明参见注释1。而注释1在附录。这个时候,你知道要怎么做知识图谱了吗?

推荐使用场景

 

排列

对召回结果进行精细化排序

前面的召回可以理解为是初步找到相关的片段,但是质量不高,因此需要更加精准的将已经筛选出来的片段,再次进行精细排序,并找到最符合要求的几个片段。

为什么没有一开始就用精细排序呢?因为原始的数据量大,精细排序成本高、速度慢,因此采取先将数据筛选一波,再来做精细化处理。

 

生成

将精选的片段和用户问题一起发给大语言模型

大模型是文本进、文本出,不具备动手能力的。因此,需要将最终排列的内容与用户的原始问题,一起打包发给大模型,让大模型去处理文本信息,最终生成答案展示给用户。

 

应用场景:RAG能用在哪?

共同特点:知识密集·信息分散·需要精准检索

 

RAG的局限

RAG可以解决很多的问题,但是也有很多局限性。

首先,RAG的路程较长,每一步的失误或者误差,都会流向下一步,并逐步被放大,导致最后结果的错误;

另外,在处理上,过于的机械化,例如分块,会使得信息永久的被拆分成碎片,语义上无法理解1000和1K是一个东西,不能理解利润=收入-成本。

还有就是RAG的及时性和安全性,因为所有的知识要被完整的存储到一个地方,需要人及时地去维护最新信息的更新已经不被黑客攻击。

因此,在“外挂信息”上,有了新的解决方案——Agentic Search

Agentic Search存在的原因:上下文窗口的提升,原理是,不再需要对文档做切分,直接对完整的上下文,基于智能体的推理和智能导航,找到最优的信息。

 

总结

RAG不是”调模型”那么简单,而是一套完整的产品工程体系。作为产品人或技术人员,理解RAG的核心原理、掌握优化技巧、选择合适的技术方案,才能构建真正有价值的AI应用。

当你学会了RAG,结果发现有了新的技术革命,也不要恐慌,问问自己:

  1. 它解决的核心问题是什么?
  2. 为什么会有这个问题?
  3. 如果没有这个问题约束,会怎样?

想清楚这些,就能发现怎么更好地利用技术解决自己的问题了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1206365.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[GenAI] Launch Multiple Cursor Composer AI Agents to Work in Parallel

AI coding assistants (like Cursors Composer) are powerful, but running a single instance can become a bottleneck, especially for larger tasks or when experimenting with different approaches. This lesso…

多核异构MPU在多轴实时运动控制中的系统架构与实现解析

随着制程与架构的演进,多核处理器早已不再局限于消费级SoC。当前嵌入式MPU同样呈现出多核化、异构化、实时与非实时并存的发展趋势。在工业自动化、机器人、伺服驱动等场景中,既需要Linux生态与复杂通信协议,又必须满足亚毫秒级实时控制要求,单一类型CPU已难以兼顾。 多核…

从零构建嵌入式轻量级命令行调试工具

在理想状态下,嵌入式开发依赖 JTAG/SWD 调试器完成断点、变量查看和单步执行。但在真实工程环境中,这种“理想状态”往往并不存在: 现场环境不可调试:设备已封装、上电运行,调试口无法再连接 系统必须在线运行:不能因调试而重启、重新烧录 远程部署不可控:设备在机房、野…

【前端开发】Vue项目多客户配置自动化方案【二】

背景在开发面向多学校的Vue项目时,每个学校都需要独立的配置(名称、Logo、背景图、API地址等)。传统的多环境配置方案会产生大量脚本命令,维护成本较高。为此,设计了一套更简洁的单一入口方案,通过交互式选…

WD5030K实测解析:一款撑起宽压大电流场景的国产DC-DC芯片,7-30V宽压输入、12A

在硬件设计领域,宽压大电流DC-DC芯片的选型始终是个难题。既要应对复杂工况下的电压波动,又要平衡效率、体积与成本,还要规避供应链断货风险——尤其是便携式储能、工业分布式电源这类场景,电源芯片的性能直接决定项目成败。近期在…

【高斯泼溅】还在龟速建模?三步实现训练极速优化

“照片变模型”的魔法,3DGS已经做得足够惊艳——随便拿手机绕物体拍一圈,一段时间后就能拖着一个720任意看的逼真模型旋转。 但!魔法背后有个小尴尬:训练时间。别人刷两集短剧,它还在GPU里“吭哧吭哧”地增加点&#x…

技术前沿!提示工程架构师提升AI提示质量的创新思路

技术前沿!提示工程架构师提升AI提示质量的6大创新思路——从「Prompt工匠」到「AI协作设计师」的蜕变 一、引言:你还是“Prompt调参侠”吗? 凌晨2点,你盯着电脑屏幕上的AI输出,第17次修改Prompt—— “帮我写一篇面向…

通过采集器监测环境的温湿度如果这个采集器连上网络接入云平台会发生什么呢?

​ 温湿度的精准监控对于保障样本质量和安全具有至关重要的作用。传统的温湿度采集器虽然能够记录环境数据,但往往受限于数据传输和实时监控的能力,难以满足快速响应和远程管理的需求。随着物联网技术的发展,将温湿度采集器连接到网络并…

物联网模组柔性FPC天线方案选型与应用指南解析

柔性FPC(Flexible Printed Circuit)天线模块凭借其轻薄、柔性、可弯折等特性,广泛应用于智能手机、可穿戴设备、汽车电子、物联网设备等领域,成为现代高性能无线通信设备的关键组件之一。本文将围绕柔性FPC天线模块的选型指南与应…

Zookeeper集群部署实战:高可用配置与性能调优

Zookeeper集群部署实战:高可用配置与性能调优 关键词:Zookeeper集群、高可用、ZAB协议、性能调优、分布式协调 摘要:本文以“Zookeeper集群部署”为核心,从基础概念到实战操作,逐步解析如何搭建高可用Zookeeper集群&am…

【预编码】基于matlab BDMA下行传输的集群块对角数字预编码【含Matlab源码 15008期】含报告

💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞&#x1f49…

【通信】基于matlab遗传算法多用户MISO系统速率分拆【含Matlab源码 15012期】

💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞&#x1f49…

64通道+166μs采样!触觉智能RK3506+OneOS低成本实时ADC采集

本文基于触觉智能RK3506核心板/开发板,介绍RK3506OneOS低成本实时ADC采集方案。可以通过触觉智能各大视频平台了解实测数据: https://www.bilibili.com/video/BV1ZjCJBsEwF/?spm_id_from333.1387 电网ADC采集 随着智能电网建设的加速推进&#xff0c…

触觉智能RV1126B核心板配置USB复合设备(上)

本文基于触觉智能RV1126B核心板&开发板,为大家介绍配置USB复合设备配置实现,本章节将介绍RNDIS和UAC两种USB复合设备。为了回馈大家对触觉智能的支持,关注触觉智能CSND公众号可获此开发板折扣。:、RNDISRNDIS全称为Remote Net…

重塑智算存储范式:绿算技术NVMe-oF芯片解决方案全景剖析

在人工智能计算进入“系统竞赛”的今天,我们面临一个核心矛盾:GPU算力以每年翻倍的速度增长,而存储访问的速度与效率却成为制约整体系统性能的致命瓶颈。特别是在大模型推理场景中,KV Cache对显存的巨大占用与高并发、低延迟访问需…

零基础搞懂大模型微调:入门必备知识点

一、什么是大模型微调? 简单来说,大模型微调就是在已经训练好的预训练大模型基础上,用针对特定任务的少量数据,对模型参数做小幅度、针对性更新的过程。 如果把预训练比作让模型完成了从小学到大学的“通识教育”,掌…

书目

清王旭高著,九畹整理. 王旭高医学全书,莫求书斋,2025.

【通信】DPCM编码及2DPSK调制数字频带通信系统仿真【含Matlab源码 15019期】

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…

Visual Paradigm AI 数据库建模工具全面指南

Visual Paradigm AI 数据库建模工具全面指南 Visual Paradigm 的 DB Modeler AI 是一款革命性的浏览器端工具,旨在通过生成式 AI 简化数据库设计过程。它被称为“数据架构的 GPS”,能够将自然语言描述直接转化为生产级别的规范化数据库架构。 一、 为…

【光学】水波在多个垂直薄板下的透射系数【含Matlab源码 15013期】

💥💥💥💥💥💥💥💥💞💞💞💞💞💞💞💞💞Matlab武动乾坤博客之家💞…