RAG核心特性:ETL - 指南

news/2025/10/3 19:59:24/文章来源:https://www.cnblogs.com/slgkaifa/p/19124927

RAG核心特性:ETL - 指南

本文为个人学习笔记整理,仅供交流参考,非专业教学资料,内容请自行甄别。

文章目录

  • 概述
  • 一、DocumentReader
  • 二、DocumentTransformer
    • 2.1、splitText
    • 2.2、元数据增强器
      • 2.2.1、KeywordMetadataEnricher
      • 2.2.2、SummaryMetadataEnricher
  • 三、DocumentWriter
  • 四、ETL优化
    • 4.1、文档切片优化
    • 4.2、元信息标注


概述

  ETL是RAG知识库的核心特性之一,包含了抽取转换加载三部分,其主要作用是对用户提供的知识库文档,进行处理,是存入向量数据库的前置操作。
  文档在在Spring AI中的体现是document对象。不仅是文本,还包含其他类型的数据,以及元信息。ETL管道有三个主要组成部分:

  • DocumentReader实现Supplier<List>,用于文档抽取。
  • DocumentTransformer实现Function<List, List>,用于文档转换。
  • DocumentWriter实现Consumer<List>,用于文档加载。

在这里插入图片描述

一、DocumentReader

DocumentReader是Spring AI提供的一个接口,它有一些默认的实现,解析不同类型的文档,如MarkdownDocumentReader,解析md格式的文档,JsonReader,解析json格式的文档。
在这里插入图片描述
  它们的不同点在于各自重写了get方法,解析自己类型的文档,其中多是利用第三方的库进行解析:
在这里插入图片描述
  如果需要自定义解析器,则自己实现DocumentReader接口,重写其中的get方法即可。

二、DocumentTransformer

DocumentTransformer接口,用于对文档进行转换。文档转换的含义是,将一个完整的文档,按照一定的规则进行拆分,成为便于检索的知识碎片。
在这里插入图片描述

2.1、splitText

DocumentTransformer接口也有默认的实现,例如文本分片TextSplitter是一个抽象类,真正定义的文本分片的规则,在于子类对splitText方法的实现。
在这里插入图片描述
在这里插入图片描述
  其中一个很经典的实现是TokenTextSplitter,根据token计数将文本分割成块,TokenTextSplitter提供两种构造函数选项:

@Component
class MyTokenTextSplitter {
public List<Document> splitDocuments(List<Document> documents) {TokenTextSplitter splitter = new TokenTextSplitter();return splitter.apply(documents);}public List<Document> splitCustomized(List<Document> documents) {TokenTextSplitter splitter = new TokenTextSplitter(1000, 400, 10, 5000, true);return splitter.apply(documents);}}

  当然这种根据token长度切分的方式,过于简单粗暴,断句缺乏准确性,对后续的查询精确度有影响。实际开发中是不推荐使用的。

2.2、元数据增强器

  无论是哪一种元数据增强器,底层都是再次调用大模型去实现的。

2.2.1、KeywordMetadataEnricher

  还有一种转换的形式是利用元数据增强器,官方提供了两种:KeywordMetadataEnricher(关键词元数据增强器),SummaryMetadataEnricher(摘要元数据增强器)。前者是利用AI模型,从文档内容中提取关键词并添加它们作为元数据,类似于打标签:

/**
* 关键词元数据增强器
*/
@Component
public class MyKeywordEnricher {
private final ChatModel chatModel;
MyKeywordEnricher(ChatModel chatModel) {
this.chatModel = chatModel;
}
List<Document> enrichDocuments(List<Document> documents) {//使用默认模板并提取指定数量的关键词。KeywordMetadataEnricher keywordMetadataEnricher = new KeywordMetadataEnricher(chatModel, 5);return keywordMetadataEnricher.apply(documents);}}

  它的使用时机是在加载文档后,存入向量数据库前:

@Bean
public VectorStore vectorStore(EmbeddingModel dashScopeEmbeddingModel){
SimpleVectorStore simpleVectorStore = SimpleVectorStore.builder(dashScopeEmbeddingModel)
.build();
//加载文档
List<Document> document = documentLoader.getDocument();// 关键词元数据增强器List<Document> documents = myKeywordEnricher.enrichDocuments(document);//存入向量数据库simpleVectorStore.doAdd(documents);return simpleVectorStore;}

  生成的关键字会添加到文档的元数据中:
在这里插入图片描述

2.2.2、SummaryMetadataEnricher

  是一种总结的形式,摘要可以结合上下文,减少了单篇文档的局限性,在构造SummaryMetadataEnricher时,可以指定三个枚举:

  • section_summary当前文件摘要。
  • prev_section_summary上一份文件摘要。
  • next_section_summary下一份文件摘要。
/**
* 摘要元数据增强器
*/
@Component
public class MySummaryEnricher {
private final ChatModel chatModel;
MySummaryEnricher(ChatModel chatModel) {
this.chatModel = chatModel;
}
List<Document> enrichDocuments(List<Document> documents) {//summaryTypes列出SummaryType枚举值表示要生成的摘要(PREVIOUS、CURRENT、NEXT)。SummaryMetadataEnricher summaryMetadataEnricher = new SummaryMetadataEnricher(chatModel,List.of(SummaryMetadataEnricher.SummaryType.PREVIOUS, SummaryMetadataEnricher.SummaryType.CURRENT, SummaryMetadataEnricher.SummaryType.NEXT));return summaryMetadataEnricher.apply(documents);}}
@Bean
public VectorStore vectorStore(EmbeddingModel dashScopeEmbeddingModel){
SimpleVectorStore simpleVectorStore = SimpleVectorStore.builder(dashScopeEmbeddingModel)
.build();
//加载文档
List<Document> document = documentLoader.getDocument();// 摘要元数据增强器List<Document> documents = mySummaryEnricher.enrichDocuments(document);//存入向量数据库simpleVectorStore.doAdd(documents);return simpleVectorStore;}

在这里插入图片描述
  该种增强,实测调用时间较长。最后还有一个内容格式化工具,官方文档只是一笔带过。

三、DocumentWriter

DocumentWriter则是提供了将上述处理后的文档,写入的规范。
在这里插入图片描述
  其官方实现有VectorStore(写入向量数据库),FileDocumentWriter(直接写入文件)

四、ETL优化

  AI回答能力的上限,取决于提供的知识库文档的质量。所以ETL是RAG 调优最核心的环节。文档的优化策略:

4.1、文档切片优化

  文档切片,是在DocumentTransformer这一步完成的工作,切片太短会导致语义缺失,切片过长引入无关信息,所以选择合适的切片策略非常重要,根据不同类型的文档,有不同的切分策略:

  • 文档类型:专业类的文献,增加长度有利于保存完整的上下文信息。
  • 社交类的帖子,缩短长度能更准确保存语义。

  最佳的文档切片策略: **不要用固定长度的分词器。 使用AI分块 + 人工二次校验。**在使用云服务时,就可以指定智能切分的策略,使用此策略,大模型会根据文档内容的语义相关性,自适应地进行段落的拆分,而不是固定长度的拆分,在将文档导入知识库之前,需要再次人工核对编辑。
在这里插入代码片在这里插入图片描述

4.2、元信息标注

  为文档添加元信息,形成标签,便于后续向量数据库搜索。可以手动添加元信息,在创建Document实例时手动指定:

documents.add(new Document(
"案例编号:LR-2023-001\n" +
"项目概述:180平米大平层现代简约风格客厅改造\n" +
"设计要点:\n" +
"1. 采用5.2米挑高的落地窗,最大化自然采光\n" +
"2. 主色调:云雾白(哑光,NCS S0500-N)配合莫兰迪灰\n" +
"3. 家具选择:意大利B&B品牌真皮沙发,北欧白橡木茶几\n" +
"空间效果:通透大气,适合商务接待和家庭日常起居",
Map.of(
"type", "interior",    // 文档类型
"year", "2025",        // 年份
"month", "05",         // 月份
"style", "modern",      // 装修风格
)));

  也可以利用documentReader解析时指定规则,进行添加,例如从文件名中切割:

// 提取文档倒数第 3 和第 2 个字作为标签
String status = fileName.substring(fileName.length() - 6, fileName.length() - 4);
MarkdownDocumentReaderConfig config = MarkdownDocumentReaderConfig.builder()
.withHorizontalRuleCreateDocument(true)
.withIncludeCodeBlock(false)
.withIncludeBlockquote(false)
.withAdditionalMetadata("filename", fileName)
.withAdditionalMetadata("status", status)
.build();

  还可以使用Spring AI 提供的keyword元信息增强器,这一点在2.2、元数据增强器中提及到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国庆集训做题10.1 - 10.3

国庆集训做题 CSP-S模拟25 t1 : 爱丽丝的数位划分 题意简述 : 将序列A划分为k个不相交连续非空子序列,求最大的总优美度。 优美度指子序列中十进制表示数字不同的个数,一个方案的优美度是所有子序列优美度的和 首先…

免费申请网站空间网站转化率分析工具

Java线程6种状态和工作原理详解&#xff0c;Java创建线程的4种方式 目录 一、Java线程的六种状态 二、Java线程是如何工作的&#xff1f; 三、BLOCKED 和 WAITING 的区别 四、start() 和 run() 源码分析 五、Java创建线程的所有方式和代码详解 1. 继承Thread类 2. 实现…

政务公开网站建设情况从哪里下载wordpress

以前安装这个软件的时候&#xff0c; 是在windows和mac上&#xff0c;都是图形化的安装方式&#xff0c;但是ubuntu不太一样&#xff0c;需要增加源&#xff0c;然后执行命令。安装的系统版本是2004。 参考链接1&#xff0c;主要命令包含下面几个部分&#xff1a; 第一步&…

XCSY暑期集训模拟赛2T3善良

XCSY暑期集训模拟赛2T3善良暴力(50pts) 对于每个询问,遍历\([l,r]\),统计其中k的数量,时间复杂度为\(O(nm)\)。 for(int i=1;i<=n;i++) cin>>a[i]; while(m--){cin>>l>>r>>k;int ans=0;…

玳瑁的嵌入式日记---0928(ARM--UART) - 指南

玳瑁的嵌入式日记---0928(ARM--UART) - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &q…

网站开发需要那些技能电子商务平台中搜索词拆解时

产生原因:因为项目最近设计到了一个Quartz相关的模块&#xff0c;前端需要传递时间参数到后台, 然后后台设置一个新的定时任务, 所以后台需要一个可以实现Date与cron之间的相互转换(因为Quartz需要的Cron格式的数据)&#xff0c;所以就借助java的SimpleDateFormat的格式化,然后…

解决Visual Studio中无法使用scanf和C++万能头的问题

解决Visual Studio中无法使用scanf和C++万能头的问题Visual Studio中无法使用scanf和C++万能头? 来吧,跟我一起操作! 1.在桌面上创建万能头文件, 并命名为stdc++.h: 记得把文件后缀名给打开哟! 2.用记事本打开std…

太仓专业网站建设我想创个网站

目录 项目背景 项目技术栈 项目介绍 项目亮点 项目启动 1.创建SSM&#xff08;省略&#xff09; 2.配置项目信息 3.将前端页面加入到项目中 4.初始化数据库 5.创建标准分层的目录 6.创建和编写项目中的公共代码以及常用配置 7.创建和编写业务的Entity、Mapper、…

网页站点不安全静海网站开发

虚拟机是软件 对于第一次听说虚拟机&#xff08;Virtual Machine&#xff0c;VM&#xff09;的人来说&#xff0c;可能以为还要再花钱买一台计算机&#xff0c;这恐怕是他们最担心的。所谓虚拟机&#xff0c;就是在你的计算机上再虚拟出另一台计算机来。这台虚拟出来的计算机&…

技术培训学校机构做360手机网站优化

1.1. Socket简介 套接字&#xff08;socket&#xff09;是一种通信机制&#xff0c;凭借这种机制&#xff0c; 客户端<->服务器 模型的通信方式既可以在本地设备上进行&#xff0c;也可以跨网络进行。 Socket英文原意是“孔”或者“插座”的意思&#xff0c;在网络编程…

北京正规制作网站公司网页无法访问qq可以登陆

默认情况下&#xff0c;所有的新邮箱数据都是启用Exchange搜索&#xff0c;仅当多个邮箱迁移到该Exchange Server时&#xff0c;才禁用搜索索引。 获取数据库的Exchange搜索索引 使用Get-MailboxDatabase 来获取数据库的搜索索引 Get-MailboxDatabase | Select-Object Name,…

做爰全过程免费网站的视频教程网站资讯创作

本文将介绍以下内容&#xff1a; • 面向对象基本概念 • 类和结构体简介 • 引用类型和值类型区别 1. 引言 提起class和struct&#xff0c;我们首先的感觉是语法几乎相同&#xff0c;待遇却翻天复地。历史将接力棒由面向过程编程传到面向对象编程&#xff0c;class和stru…

学校网站管理与建设办法怎样建立自己购物网站

主流开发语言 Java 简介&#xff1a;Java 是一种广泛使用的面向对象的编程语言&#xff0c;由Sun Microsystems公司于1995年发布&#xff0c;后由Oracle公司接手。Java具有“一次编写&#xff0c;到处运行”的特性&#xff0c;它的跨平台能力得益于Java虚拟机&#xff08;JVM&a…

东莞网站设计公司排名企业网站建设感想

在 Oracle 数据库中&#xff0c;你可以使用 ALTER TABLE 语句来添加字段&#xff0c;并使用 COMMENT ON COLUMN 语句来添加字段注释。以下是一个示例&#xff1a; 假设你有一个名为 employees 的表&#xff0c;你想要添加一个名为 email 的字段&#xff0c;并为其添加注释。 …

最新企业网站开发和设计软件个人域名可以做公司网站么

简介&#xff1a; 淘宝搜索推荐、视频搜索的背后使用了什么样的检索技术&#xff1f;非结构化数据检索&#xff0c;向量检索&#xff0c;以及多模态检索&#xff0c;它们到底解决了什么问题&#xff1f;今天由阿里巴巴达摩院的科学家从业务问题出发&#xff0c;抽丝剥茧&#x…

前端如何优雅地生成唯一标识?——一份跨环境 UUID 设备函数的封装与实战

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

广州网站建设外包公司网站建设情况自查报告

1、syntax"proto3":表明使用的是proto3格式&#xff0c;如果不指定则为proto22、package test:定义包名为test&#xff0c;生成类时&#xff0c;会产生一个目录为test3、message Person:消息主体内容&#xff0c;里面为各个字段的定义二、生成对应的PHP类定义好Perso…

解码红黑树

红黑树全面解析:从设计逻辑到代码落地 红黑树是自平衡二叉搜索树(Self-Balanced BST) 的经典实现,核心解决了普通 BST 失衡、AVL 树过度平衡的问题。它通过 “颜色约束” 实现 “大致平衡”,兼顾查找性能与插入 /…

苹果首款折叠屏iPhone全爆料汇总:明年9月发布、1.3万元起步

苹果首款折叠屏iPhone全爆料汇总:明年9月发布、1.3万元起步Posted on 2025-10-03 19:30 lzhdim 阅读(0) 评论(0) 收藏 举报从多方权威爆料基本可以确定,苹果将会在明年9月发布首款可折叠iPhone,与iPhone 18 Pr…

英文笔记

column 列 float 浮动 margin 边距 font 字体 border 边框 radius 圆角 background 背景 color 颜色 padding 填充