企业级RAG架构设计:从FAISS索引到HyDE优化的全链路拆解,金融/医疗领域RAG落地案例与避坑指南(附架构图)

本文较长,纯干货,建议点赞收藏,以免遗失。更多AI大模型应用开发学习内容,尽在聚客AI学院。

一. RAG技术概述

1.1 什么是RAG?

RAG(Retrieval-Augmented Generation,检索增强生成) 是一种将信息检索文本生成相结合的技术,通过实时从外部知识库中检索相关文档,增强大语言模型(LLM)的生成准确性和事实性。其核心价值在于解决LLM的三大痛点:

  • 知识固化:预训练数据无法实时更新

  • 幻觉问题:生成内容缺乏事实依据

  • 领域局限:难以直接处理专业领域问题

典型应用场景

  • 智能客服(如阿里小蜜日均处理千万级问答)

  • 法律/医疗领域专业问答

  • 企业知识库增强(如微软将RAG集成到Copilot)

  • image.png

二. RAG如何增强大模型能力

2.1 核心增强机制

  • 动态知识注入:每次生成前检索最新资料(如股票实时数据)

  • 证据可追溯:生成结果附带参考文档片段

  • 长文本处理:通过检索压缩超长上下文(如处理100页PDF)

案例对比

image.png

2.2 技术优势

  • 低成本:无需微调即可适配新领域

  • 可解释性:检索结果提供生成依据

  • 安全性:通过知识库过滤敏感内容

三. RAG核心原理与全流程解析

3.1 技术架构图

用户提问 → 向量化 → 检索 → 文档排序 → 上下文构建 → LLM生成 → 输出

8566c104d1738c8ae6060630367be147_c9731ebe46e93406974ad522e4056d65.png

3.2 分阶段详解

阶段1:数据预处理与索引

代码示例:构建向量数据库(使用FAISS)

from sentence_transformers import SentenceTransformer  
import faiss  
import numpy as np  
# 加载嵌入模型  
encoder = SentenceTransformer('all-MiniLM-L6-v2')  
# 假设documents是加载的文本列表  
documents = ["大模型原理...", "RAG技术优点..."]  
embeddings = encoder.encode(documents)  
# 创建FAISS索引  
dim = embeddings.shape[1]  
index = faiss.IndexFlatL2(dim)  
index.add(embeddings)  
# 保存索引  
faiss.write_index(index, "rag_index.faiss")
阶段2:实时检索与重排序

代码示例:检索Top-K文档

def retrieve(query: str, k=5):  query_embedding = encoder.encode([query])  distances, indices = index.search(query_embedding, k)  return [documents[i] for i in indices[0]]  
# 示例  
results = retrieve("如何提高RAG的准确性?")  
print("相关文档:", results[:2])
阶段3:上下文构建与生成

代码示例:调用LLM生成

from transformers import pipeline  
generator = pipeline("text-generation", model="gpt2")  
def rag_generate(query):  contexts = retrieve(query)  prompt = f"基于以下信息回答问题:\n{contexts}\n\n问题:{query}\n答案:"  return generator(prompt, max_length=500)[0]['generated_text']  
# 执行  
answer = rag_generate("RAG有哪些优化方法?")  
print(answer)

3.3 高级优化策略

  • 检索增强

    • HyDE:先用LLM生成假设答案,再检索相关文档

    • Rerank:用交叉编码器(cross-encoder)对初筛结果重排序

  • 生成控制

    • 引用标注:在生成文本中标记参考来源

    • 置信度过滤:丢弃低质量检索结果

代码示例:HyDE优化实现

def hyde_retrieve(query):  # 生成假设答案  hypo_answer = generator(f"假设答案:{query}", max_length=100)[0]['generated_text']  # 基于假设答案检索  return retrieve(hypo_answer)

:本文代码需安装以下依赖:

pip install sentence-transformers faiss-cpu transformers

更多AI大模型应用开发学习内容,尽在聚客AI学院。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/78747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot Validation实战详解:从入门到自定义规则

目录 一、Spring Boot Validation简介 1.1 什么是spring-boot-starter-validation? 1.2 核心优势 二、快速集成与配置 2.1 添加依赖 2.2 基础配置 三、核心注解详解 3.1 常用校验注解 3.2 嵌套对象校验 四、实战开发步骤 4.1 DTO类定义校验规则 4.2 Cont…

理清缓存穿透、缓存击穿、缓存雪崩、缓存不一致的本质与解决方案

在构建高性能系统中,缓存(如Redis) 是不可或缺的关键组件,它大幅减轻了数据库压力、加快了响应速度。然而,在高并发环境下,缓存也可能带来一系列棘手的问题,如:缓存穿透、缓存击穿、…

PyTorch_构建线性回归

使用 PyTorch 的 API 来手动构建一个线性回归的假设函数,数据加载器,损失函数,优化方法,绘制训练过程中的损失变化。 数据构建 import torch from sklearn.datasets import make_regression import matplotlib.pyplot as plt i…

005-nlohmann/json 基础方法-C++开源库108杰

《二、基础方法》:节点访问、值获取、显式 vs 隐式、异常处理、迭代器、类型检测、异常处理……一节课搞定C处理JSON数据85%的需求…… JSON 字段的简单类型包括:number、boolean、string 和 null(即空值);复杂类型则有…

HarmonyOS 5.0 分布式数据协同与跨设备同步​​

大家好,我是 V 哥。 使用 Mate 70有一段时间了,系统的丝滑使用起来那是爽得不要不要的,随着越来越多的应用适配,目前使用起来已经和4.3的兼容版本功能差异无碍了,还有些纯血鸿蒙独特的能力很是好用,比如&am…

Linux云计算训练营笔记day02(Linux、计算机网络、进制)

Linux 是一个操作系统 Linux版本 RedHat Rocky Linux CentOS7 Linux Ubuntu Linux Debian Linux Deepin Linux 登录用户 管理员 root a 普通用户 nsd a 打开终端 放大: ctrl shift 缩小: ctrl - 命令行提示符 [rootlocalhost ~]# ~ 家目录 /root 当前登录的用户…

macOS 安装了Docker Desktop版终端docker 命令没办法使用

macOS 安装了Docker Desktop版终端docker 命令没办法使用 1、检查Docker Desktop能否正常运行。 确保Docker Desktop能正常运行。 2、检查环境变量是否添加 1、添加环境变量 如果环境变量中没有包含Docker的路径,你可以手动添加。首先,找到Docker的…

Gradio全解20——Streaming:流式传输的多媒体应用(5)——基于WebRTC的摄像头实时目标检测

Gradio全解20——Streaming:流式传输的多媒体应用(5)——基于WebRTC的摄像头实时目标检测 本篇摘要20. Streaming:流式传输的多媒体应用20.5 基于WebRTC的摄像头实时目标检测20.5.1 环境配置及说明1. WebRTC2. TURN服务器 20.5.2 …

OSCP - Proving Grounds - NoName

主要知识点 linux命令注入SUID find提权 具体步骤 从nmap开始搜集信息,只开放了一个80端口 Nmap scan report for 192.168.171.15 Host is up (0.40s latency). Not shown: 65534 closed tcp ports (reset) PORT STATE SERVICE VERSION 80/tcp open http …

c++_csp-j算法 (6)_高精度算法(加减乘除)

高精度算法 C++高精度算法是指在C++编程语言中实现高精度计算的算法。在C++中,通常整数的范围是有限的,超出这个范围的整数计算会导致溢出。高精度算法的出现,使得C++程序能够处理超出常规整数范围的大整数计算,包括高精度加法、减法、乘法、除法等运算。 在C++中实现高精…

从OpenMP中的不兼容,窥探AI应用开发中的并行编程

在AI相关的项目开发中,偶然遇到下面这个问题: OMP: Error #15: Initializing libomp.dylib, but found libiomp5.dylib already initialized. OMP: Hint This means that multiple copies of the OpenMP runtime have been linked into the progr am. That is dangerous, sin…

vue2+element实现Table表格嵌套输入框、选择器、日期选择器、表单弹出窗组件的行内编辑功能

vue2element实现Table表格嵌套输入框、选择器、日期选择器、表单弹出窗组件的行内编辑功能 文章目录 vue2element实现Table表格嵌套输入框、选择器、日期选择器、表单弹出窗组件的行内编辑功能前言一、准备工作二、行内编辑1.嵌入Input文本输入框1.1遇到问题1.文本框内容修改失…

c#OdbcDataReader的数据读取

先有如下c#示例代码: string strconnect "DSNcustom;UIDsa;PWD123456;" OdbcConnection odbc new OdbcConnection(strconnect); odbc.Open(); if (odbc.State ! System.Data.ConnectionState.Open) { return; } string strSql "select ID from my…

【HTML5】老式放映机原理-实现图片无缝滚动

老式放映机原理-实现图片无缝滚动 实现思路: 页面设计部分——先将视口div设置为相对定位,再视口div里面嵌套一个类似“胶卷”的div,把该div设置为绝对定位,此时“胶卷"会挂靠在视口上面,再将“胶卷”的left属性设置为负值…

LeetCode 1781. 所有子字符串美丽值之和 题解

示例 输入:s "aabcb" 输出:5 解释:美丽值不为零的字符串包括 ["aab","aabc","aabcb","abcb","bcb"] ,每一个字符串的美丽值都为 1这题光用文字解说还是无法达到讲…

2025ACTF Web部分题解

文章目录 ACTF uploadnot so web 1not so web 2 ACTF upload 前面登录随便输入可以进入文件上传页面, 随便上传一张图片, 发现路由存在file_path参数, 尝试路径穿越读取文件 发现可以成功读取 读取源码 /upload?file_path../app.pyimport uuid import os import hashlib im…

双目标清单——AI与思维模型【96】

一、定义 双目标清单思维模型是一种将决策或任务分解为两个主要目标,并分别列出相关要素和行动步骤的思维方式。这两个目标通常具有相互关联又有所侧重的特点,通过明确并列出与每个目标相关的具体事项,有助于更清晰地分析问题、制定计划和分…

深度学习系统学习系列【6】之深度学习技巧

文章目录 数据集准备数据集扩展数据预处理1. 0均值(Zero Centralization)代码实现 2. 归一化(Normalization)代码实现 3. 主成分分析(Principal Component Analysis, PCA)实现步骤代码实现 4. 白化&#xf…

rfsoc petalinux适配调试记录

1。安装虚拟机 2.设置共享文件夹 https://xinzhi.wenda.so.com/a/1668239544201149先设置文件夹路径 vmware 12 下安装 ubuntu 16.04 后,按往常的惯例安装 vmware-tools,安装时提示建议使用 open-vm-tools,于是放弃 vmware-tools 的安装&am…

# YOLOv1:开启实时目标检测的新时代

YOLOv1:开启实时目标检测的新时代 在计算机视觉领域,目标检测一直是研究的热点和难点问题。它不仅需要准确地识别出图像中的物体,还需要确定这些物体的位置。YOLO(You Only Look Once)系列算法以其高效的实时目标检测…