2025/5/18

继续研究一下大佬的RAG项目。开始我的碎碎念。

RAG可以分成两部分:一个是问答,一个是数据处理。

问答是人提问,然后查数据库,把查的东西用大模型组织成人话,回答人的提问。

数据处理是把当下知识库里的东西(不管是什么类型的数据),全弄成计算机话(代码能明白的格式)存到数据库,然后方便人提问的时候(也就是问答)给出可以回答的知识。

如果想让项目跑起来,必须把ES服务启动起来,该项目是用ES存的数据。

项目启动时,会先运行LoadStartup(在Springboot应用启动时),初始化向量存储(具体初始化向量存储用vectorstorage的initCollection()方法,指定名称和维度,向量维度是1024为了适配智谱AI)。总之就是自动初始化一个向量数据库的集合(Collection),用于存储后续的向量数据(如文本嵌入向量)。

我们看到LoadStartup类有一个注解@Component

所以@Service、@Repository等等这些注解,本质上都是@Component。只是根据层次有不同叫法。

这个collection是森马样子?回头再写吧。


首先,就是输入的问题。我们要存的知识不一定是什么类型,可能使txt,可能是word,甚至是pdf。那我们就需要把输入的东西先变成文本。

项目运行起来之前,点击运行下载好的es的bin文件夹下elasticsearch.bat,启动服务。

此时可以再终端看到可交互的shell命令行。这个应该是通过spring shell工具包实现的,项目的pom.xml文件里可以看到已经配置了shell的起步依赖。怎么用这个shell包呢?可以通过自己编写java类,自己做命令。前面说过把RAG分成两部分:问答,数据处理。使用add命令完成数据处理部分的工作,使用chat命令完成问答部分的工作。新建command文件夹来存放这两个类:add命令类,chat命令类。

通过 @ShellMethod 注解将 Java 方法暴露为 Shell 命令。

@ShellMethod(value = "add local txt data")  // 声明这是一个Shell命令,描述为"add local txt data"
public String add(String doc) {            // 定义命令方法,接收一个字符串参数doc(文件路径或文本内容)log.info("start add doc.");            // 打印日志:开始处理文档// 1. 文本分块(Chunking)List<ChunkResult> chunkResults = txtChunk.chunk(doc);  // 调用分块工具,将文档拆分为多个文本块// 2. 向量化(Embedding)List<EmbeddingResult> embeddingResults = zhipuAI.embedding(chunkResults);  // 使用智谱AI(或其他模型)将文本块转为向量// 3. 向量存储String collection = vectorStorage.getCollectionName();  // 获取向量数据库的集合名(类似表名)vectorStorage.store(collection, embeddingResults);     // 将向量存储到数据库中log.info("finished");                  // 打印日志:处理完成return "finished docId:{}" + doc;      // 返回处理结果(格式有误,应为String.format)
}

数据处理的三步:文本分块、向量化、向量存储。最后返回结果。

这几步全调用方法,现在看是一个黑盒,知道输入输出和功能就行,后面再具体看黑盒里面的代码。

doc参数是文件内容还是文件路径搞不懂?试着输出了doc,发现是文件名。但是,根据文件名就能找着??

发现有一个默认路径/data,然后再默认路径/data下找doc文件名。找一下哪里设置的默认路径。

/data在chunk这里。

所以这个意思是,add 文件名。add这个方法就收到了参数doc文件名。然后进行文本分块(数据处理的具体代码放在/compoents文件夹),调用了chunk方法,然后根据默认路径+文件名+.txt,就得到一条完整的路径(相对路径)。

读取文件流classpathresource(path)

来回流转的数据,封装在对象中,而这些对象的代码都放在/domain文件夹里。

明天再写。


继续这个chunk。

然后为什么要chunk?小块文本比长文本更高效,节省计算资源。按照256个字符分割字符串。

AtomicInteger 是 Java 中一个线程安全的原子整数类,属于 java.util.concurrent.atomic 包。它的核心作用是提供原子操作(不可中断的单一操作),确保在多线程环境下对整数的操作(如递增、递减、赋值等)不会出现竞态条件(Race Condition)。

很明显,把每个chunk后的小块文本封装成一个chunkresult对象,然后返回这些对象构成的集合。

然后调用智谱AI的embedding方法。可以看到传进去的参数是chunkresult对象的集合,返回的是embeddingresult的集合。具体看embedding方法里的代码:观察集合是否为空,空的话返回空集合;非空返回embedding后的集合(这里就有一个embedding方法了)。我们具体看这个embedding方法,上一个embedding返回的是集合,这个里面embedding方法返回的单个向量化后的结果。方法的重载,参数不同。说不明白,具体看代码就懂了。

    /*** 批量* @param chunkResults 批量文本* @return 向量*/public List<EmbeddingResult> embedding(List<ChunkResult> chunkResults){log.info("start embedding,size:{}",CollectionUtil.size(chunkResults));if (CollectionUtil.isEmpty(chunkResults)){return new ArrayList<>();}List<EmbeddingResult> embeddingResults=new ArrayList<>();for (ChunkResult chunkResult:chunkResults){embeddingResults.add(this.embedding(chunkResult));}return embeddingResults;}public EmbeddingResult embedding(ChunkResult chunkResult){String apiKey= this.getApiKey();//log.info("zp-key:{}",apiKey);OkHttpClient.Builder builder = new OkHttpClient.Builder().connectTimeout(20000, TimeUnit.MILLISECONDS).readTimeout(20000, TimeUnit.MILLISECONDS).writeTimeout(20000, TimeUnit.MILLISECONDS).addInterceptor(new ZhipuHeaderInterceptor(apiKey));OkHttpClient okHttpClient = builder.build();EmbeddingResult embedRequest=new EmbeddingResult();embedRequest.setPrompt(chunkResult.getContent());embedRequest.setRequestId(Objects.toString(chunkResult.getChunkId()));// 智谱embeddingRequest request = new Request.Builder().url("https://open.bigmodel.cn/api/paas/v3/model-api/text_embedding/invoke").post(RequestBody.create(MediaType.parse(ContentType.JSON.getValue()), GSON.toJson(embedRequest))).build();try {Response response= okHttpClient.newCall(request).execute();String result=response.body().string();ZhipuResult zhipuResult= GSON.fromJson(result, ZhipuResult.class);EmbeddingResult ret= zhipuResult.getData();ret.setPrompt(embedRequest.getPrompt());ret.setRequestId(embedRequest.getRequestId());return  ret;} catch (IOException e) {throw new RuntimeException(e);}}

前面embedding方法只是封装成集合,就不看了。后面的embedding才是真正的向量化,重头戏。(但是人家的API咱直接用就行,embedding具体回头再看吧)

直接用的智谱的API,我们直接给参就好了。

先获取密钥。//咱们写好的getapikey方法,而它里面是调用了LLmProperties里面的东西。(回头再看吧,反正肯定这个注解指定有点东西//绑定前缀“llm”开头的配置,然后再yaml配置文件里定义属性)👇

使用 OkHttpClient.Builder 构建一个 HTTP 客户端,配置了连接、读取和写入的超时时间(均为 20 秒)。

添加了一个自定义拦截器 ZhipuHeaderInterceptor,用于在请求头中添加 API 密钥等认证信息。


  • 创建一个 EmbeddingResult 对象作为请求体。

  • 设置 prompt 为输入文本块的内容(chunkResult.getContent())。

  • 设置 requestId 为文本块的 ID(chunkResult.getChunkId()),转换为字符串。

EmbeddingResult embedRequest=new EmbeddingResult();
embedRequest.setPrompt(chunkResult.getContent());
embedRequest.setRequestId(Objects.toString(chunkResult.getChunkId()));


我们在这里用到了一个拦截器。回头再仔细看。

Lombok 注解:简化代码。比如@AllArgsConstructor注解,就是默认全参构造。

具体见:Lombok-CSDN博客

向量化返回的结果👇是地址。。。

数组变成字符串打印出来👇变成这样的向量了。

理论上每个数组大小为1024,事实上也是。具体向量怎么算的,回头看。

接下来把这些向量存起来。存在哪?怎么存?可以看到这回用到了vectorStorage,调用了它的store,参数是collectionName(下面讲//可以get得到)和embedding后的向量。(最开始我们说该项目是用ES存的)

可以看到initCollection方法的两个参数,一个是名字(固定前缀+时间),另一个是维度。传进去这俩参数,会返回一个布尔值(T or F)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81472.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 Vue 中插入 B 站视频

前言 在 Vue 项目中&#xff0c;有时我们需要嵌入 B 站视频来丰富页面内容&#xff0c;为用户提供更直观的信息展示。本文将详细介绍在 Vue 中插入 B 站视频的多种方法。 使用<iframe>标签直接嵌入,<iframe>标签是一种简单直接的方式&#xff0c;可将 B 站视频嵌…

OpenCv高阶(八)——摄像头调用、摄像头OCR

文章目录 前言一、摄像头调用通用方法1、导入必要的库2、创建摄像头接口 二、摄像头OCR1.引入库2、定义函数&#xff08;1&#xff09;定义显示opencv显示函数&#xff08;2&#xff09;保持宽高比的缩放函数&#xff08;3&#xff09;坐标点排序函数&#xff08;4&#xff09;…

特斯拉虚拟电厂:能源互联网时代的分布式革命

在双碳目标与能源转型的双重驱动下&#xff0c;特斯拉虚拟电厂&#xff08;Virtual Power Plant, VPP&#xff09;通过数字孪生技术与能源系统的深度融合&#xff0c;重构了传统电力系统的运行范式。本文从系统架构、工程实践、技术挑战三个维度&#xff0c;深度解析这一颠覆性…

【漫话机器学习系列】258.拐点(Inflection Point)

拐点&#xff08;Inflection Point&#xff09;详解&#xff1a;定义、原理与应用 在数学分析与数据建模中&#xff0c;“拐点&#xff08;Inflection Point&#xff09;”是一个非常重要的概念。今天这篇文章&#xff0c;我们将结合图示&#xff0c;深入理解拐点的定义、数学…

语音识别——声纹识别

通过将说话人的声音与数据库中的记录声音进行比对&#xff0c;判断说话人是否为数据库白名单中的同一人&#xff0c;从而完成语音验证。目前&#xff0c;3D-Speaker 声纹验证的效果较为出色。 3D-Speaker 是一个开源工具包&#xff0c;可用于单模态和多模态的说话人验证、说话…

DeepSeek 赋能军事:重塑现代战争形态的科技密码

目录 一、引言&#xff1a;AI 浪潮下的军事变革与 DeepSeek 崛起二、DeepSeek 技术原理与特性剖析2.1 核心技术架构2.2 独特优势 三、DeepSeek 在军事侦察中的应用3.1 海量数据快速处理3.2 精准目标识别追踪3.3 预测潜在威胁 四、DeepSeek 在军事指挥决策中的应用4.1 战场态势实…

uWSGI是什么?

uWSGI 是一个功能强大的应用服务器&#xff0c;专为部署高性能 Web 应用设计&#xff0c;尤其适合 Python 生态系统。以下是对其核心介绍及适用场景的总结&#xff1a; uWSGI 是什么&#xff1f; uWSGI 是一个实现了 WSGI&#xff08;Web Server Gateway Interface&#xff09…

Digi XBee XR 系列介绍

Digi 延续了 20 多年来亚 GHz 射频模块的传统&#xff0c;推出了 Digi XBee XR 系列远距离模块&#xff0c;包括 Digi XBee XR 900 - 已通过多个地区的预先认证 - 以及 Digi XBee XR 868 - 已通过欧洲地区应用的预先认证。 这些先进的射频模块专为远距离抗干扰无线通信而设计。…

RabbitMq C++客户端的使用

介绍 RabbitMQ 是一个开源的消息代理和队列服务器&#xff0c;用于在分布式系统之间传递消息。它实现了高级消息队列协议(AMQP)&#xff0c;同时也支持其他协议如 STOMP、MQTT 等。 核心概念 Producer(生产者): 发送消息的应用程序 Consumer(消费者): 接收消息的应用程序 Q…

HTML 中的 input 标签详解

HTML 中的 input 标签详解 一、基础概念 1. 定义与作用 HTML 中的 <input> 标签是表单元素的核心组件&#xff0c;用于创建各种用户输入字段。作为一个空标签&#xff08;没有闭合标签&#xff09;&#xff0c;它通过 type 属性来决定呈现何种输入控件&#xff0c;是实…

基于Piecewise Jerk Speed Optimizer的速度规划算法(附ROS C++/Python仿真)

目录 1 时空解耦运动规划2 PJSO速度规划原理2.1 优化变量2.2 代价函数2.3 约束条件2.4 二次规划形式 3 算法仿真3.1 ROS C仿真3.2 Python仿真 1 时空解耦运动规划 在自主移动系统的运动规划体系中&#xff0c;时空解耦的递进式架构因其高效性与工程可实现性被广泛采用。这一架…

2025云上人工智能安全发展研究

随着人工智能&#xff08;AI&#xff09;技术与云计算的深度融合&#xff0c;云上AI应用场景不断扩展&#xff0c;但安全挑战也日益复杂。结合2025年的技术演进与行业实践&#xff0c;云上AI安全发展呈现以下关键趋势与应对策略&#xff1a; 一、云上AI安全的主要挑战 数据泄露…

MCU裸机程序如何移植到RTOS?

目录 1、裸机编程 2、实时操作系统 3、移植裸机程序到RTOS的步骤 步骤1&#xff1a;分析裸机代码 步骤2&#xff1a;选择并设置RTOS环境 步骤3&#xff1a;设计任务架构 步骤4&#xff1a;实现任务间通信 步骤5&#xff1a;处理硬件交互 步骤6&#xff1a;测试和调试 …

LangPDF: Empowering Your PDFs with Intelligent Language Processing

LangPDF: Empowering Your PDFs with Intelligent Language Processing Unlock Global Communication: AI-Powered PDF Translation and Beyond In an interconnected world, seamless multilingual document management is not just an advantage—it’s a necessity. LangP…

什么是dom?作用是什么

DOM 的定义 DOM&#xff08;Document Object Model&#xff0c;文档对象模型&#xff09;是 HTML 和 XML 文档的编程接口。它将文档解析为一个由节点和对象组成的树状结构&#xff0c;允许开发者通过编程方式动态访问和操作文档的内容、结构和样式。 DOM 的作用 DOM 的主要作…

当AI自我纠错:一个简单的“Wait“提示如何让模型思考更深、推理更强

原论文&#xff1a;s1: Simple test-time scaling 作者&#xff1a;Niklas Muennighoff, Zitong Yang, Weijia Shi等&#xff08;斯坦福大学、华盛顿大学、Allen AI研究所、Contextual AI&#xff09; 论文链接&#xff1a;arXiv:2501.19393 代码仓库&#xff1a;GitHub - simp…

MYSQL之基本查询(CURD)

表的增删改查 表的增加 语法: INSERT [INTO] table_name [(column [, column] ...)] VALUES (value_list) [, (value_list)] ... value_list: value, [, value] ...全列插入和指定列插入 //创建一张学生表 CREATE TABLE students (id INT UNSIGNED PRIMARY KEY AUTO_INCREM…

STM32简易计算机设计

运用 A0上拉按钮和 A1 A2下拉按钮设计按键功能 加上独特的算法检测设计&#xff0c;先计算&#xff08;&#xff09;内在计算乘除在计算加减的值在计算乘除优先级最后计算加减优先级 #include "stm32f10x.h" #include <stdio.h> #include <stdlib.h>…

sparkSQL读入csv文件写入mysql

思路 示例 &#xff08;年龄>18改成>20) mysql的字符集问题 把user改成person “让字符集认识中文”

计算机视觉与深度学习 | Python 实现SO-CNN-BiLSTM多输入单输出回归预测(完整源码和源码详解)

SO-CNN-BiLSTM **一、代码实现****1. 环境准备****2. 数据生成(示例数据)****3. 数据预处理****4. 模型构建****5. 模型训练****6. 预测与评估****二、代码详解****1. 数据生成****2. 数据预处理****3. 模型架构****4. 训练配置****5. 结果可视化****三、关键参数说明****四、…