【重构小程序】基于Tika和Langchain4J进行文件解析和文本切片(二)

        为了将大语言模型植入到小程序中,来支持用户的问答。那我们首先需要做的是什么呢,不是引入大语言模型,而且为大语言模型搭建一个私有化知识库,但是这是这节呢,我们先不搭建私有化知识库,在这之前,我们还需要做一个前置工作,那就是数据准备。

        小版本的语言模型本身的能力不像大参数量的模型那样,有用强大的知识库和泛化能力。我们需要为其提供一个外部的知识库,为模型提供额外的知识储备,进而利用模型的推理能力回答用户的问题。搭建知识库之前,我们就需要将数据,存储到知识库中。那么首先,我们就需要解析文件得到元数据。

一、文本解析

为了解析到元数据,我们采用一个开源的工具,Apache Tika进行文件内容解析,这是一个由java开发的内容分析工具包。

<dependency><groupId>org.apache.tika</groupId><artifactId>tika-core</artifactId><version>3.0.0</version>
</dependency>
<dependency><groupId>org.apache.tika</groupId><artifactId>tika-parsers-standard-package</artifactId><version>3.0.0</version>
</dependency>

 我们先创建一个工具类TikaUtil,编写一个函数用来解析我们传入的文件内容。

 二、文本切片

 有了向量数据库后,我们就需要把数据存入向量数据库中了,在这之前呢,我们需要写完成一个文件解析的功能,因为,要解释到元数据,才进行接下来的步骤,我们这里选择Apache Tika进行文件内容解析,这是一个由java开发的内容分析工具包。

<dependency><groupId>org.apache.tika</groupId><artifactId>tika-core</artifactId><version>3.0.0</version>
</dependency>
<dependency><groupId>org.apache.tika</groupId><artifactId>tika-parsers-standard-package</artifactId><version>3.0.0</version>
</dependency>

 我们先创建一个工具类TikaUtil,编写一个函数用来解析我们传入的文件内容。

    public String extractText(MultipartFile file) {try {// 创建解析器--在不确定文档类型时候可以选择使用AutoDetectParser可以自动检测一个最合适的解析器Parser parser = new AutoDetectParser();// 用于捕获文档提取的文本内容。-1 参数表示使用无限缓冲区,解析到的内容通过此hander获取BodyContentHandler bodyContentHandler = new BodyContentHandler(-1);// 元数据对象,它在解析器中传递元数据属性---可以获取文档属性Metadata metadata = new Metadata();// 带有上下文相关信息的ParseContext实例,用于自定义解析过程。ParseContext parseContext = new ParseContext();parser.parse(file.getInputStream(), bodyContentHandler, metadata, parseContext);// 获取文本return bodyContentHandler.toString();} catch (Exception e) {e.printStackTrace();return null;}}

我们使用该工具即可获得文件的元数据。但是在问答的时候,我们不能将整个文件全部输入到大模型中,一方面是模型本身是拥有上上下文窗口大小限制,另一方面是大量的信息可能影响模型的推理时间和准确率。为了解决这种情况,我们需要将文本分块,把内容切割成一个一个的文本块,将每个块作为一个知识单元,再将其转换为向量表示存入向量数据库,这样大模型在检索的时候只需要将相关的文本块添加到上下文中,既能保证回答的准确性,也解决了上下文过长的问题。

对于分块的方法,在Langchain框架中,有多种分块策略:

  1. 固定大小分块:按固定字符数或单词数分割文本,简单直接,但可能破坏句子或段落的完整性。

  2. 按句子分块:使用自然语言处理工具(如NLTK、spaCy)按句子边界分割文本,适合处理句子级别的任务。

  3. 按段落分块:按段落分割文本,适合处理段落级别的任务,段落通常由换行符分隔。

  4. 重叠分块:在固定大小分块的基础上,允许块之间有重叠部分,避免信息丢失。

  5. 递归分块:递归地将文本分割成更小的部分,直到满足特定条件,适合处理复杂文本结构。

  6. 语义分块:根据语义或主题分割文本,通常需要自然语言处理技术识别语义边界。

在java社区,Langchain4J  旨在为 Java 开发者提供类似于 LangChain(基于 Python)的功能。LangChain4J 的目标是将 LangChain 的核心概念和功能移植到 Java 生态系统中,使 Java 开发者能够更方便地构建基于大语言模型(LLMs)的应用程序。Langchain4J

Langchain4J也为我们提供了多种文本分块方法:

  • DocumentByParagraphSplitter
  • DocumentByLineSplitter
  • DocumentBySentenceSplitter
  • DocumentByWordSplitter
  • DocumentByCharacterSplitter
  • DocumentByRegexSplitter
  • Recursive: DocumentSplitters.recursive(...)

在这之前,我们先新建一个TikaVo类,用作传输文档解析分片后的结果。

@Accessors(chain = true)
@Data
public class TikaVo implements Serializable {private List<String> text;private List<String> metadata;
}

这里,我们采用递归分割的方式,将输入的文本分割成块。

    private TikaVo splitParagraphs(String content) {DocumentSplitter splitter = DocumentSplitters.recursive(TARGET_LENGTH, LENGTH_TOLERANCE, new OpenAiTokenizer());List<TextSegment> split = splitter.split(Document.document(content));return new TikaVo().setText(split.stream().map(TextSegment::text).toList()).setMetadata(split.stream().map(textSegment -> JSON.toJSONString(textSegment.metadata())).toList());}

到这里,文件处理算是完成了,这里,我们可以写一个接口来测试一下效果,我这里就不展示了。感兴趣的小伙伴,也可以试试其他的切片方法。

后面,我们将介绍,如何将处理好的文本,存储到数据库中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python|exm6-1try-except结构|raise关键字|异常类型

目录 一、try-expect 1. 多个try-expect结构的使用 1.1 捕捉特定异常 1.2 捕捉全部异常 1.3 所有异常合并处理 2. try-except-else-finally 结构 二、raise 关键字 一、try-expect try-expect 结构是 Python 中用于异常处理的关键机制。它允许你捕获并处理代码中可能发生…

小蓝的括号串1(栈,蓝桥云课)

问题描述 小蓝有一个长度为 nn 的括号串&#xff0c;括号串仅由字符 ( 、 ) 构成&#xff0c;请你帮他判断一下该括号串是否合法&#xff0c;合法请输出 Yes &#xff0c;反之输出 No 。 合法括号序列&#xff1a; 空串是合法括号序列。 若 ss 是合法括号序列&#xff0c;则 (…

Centos7配置本地yum源

Centos7配置本地yum源 1、基于iso镜像的centos源 1.1 准备iso <span style"color:#000000"><span style"background-color:#ffffff"><code class"language-bash"><span style"color:#008000"># 首先看自己使用…

VNA操作使用学习-14 再测晶振特性

再测一下4Mhz晶振&#xff0c;看看特性曲线&#xff0c;熟悉一下vna使用。 s11模式&#xff0c;找遍了各种format都无法显示&#xff0c;只有这一种&#xff08;s11&#xff0c;Resistance&#xff09;稍微显示出一个谐振&#xff0c;但是只有一个点。 s21模式 这是201p&#…

Tr0ll2靶机详解

一、主机发现 arp-scan -l靶机ip&#xff1a;192.168.55.164 二、端口扫描、漏洞扫描、目录枚举、指纹识别 2.1端口扫描 nmap --min-rate 10000 -p- 192.168.55.164发现21端口的ftp服务开启 以UDP协议进行扫描 使用参数-sU进行UDP扫描 nmap -sU --min-rate 10000 -p- 19…

基于开源模型的微调训练及瘦身打造随身扫描仪方案__用AI把手机变成文字识别小能手

基于开源模型的微调训练及瘦身打造随身扫描仪方案__用AI把手机变成文字识别小能手 一、准备工作&#xff1a;组装你的"数码工具箱" 1. 安装基础工具&#xff08;Python环境&#xff09; 操作步骤&#xff1a; 访问Python官网下载安装包安装时务必勾选Add Python to…

GitHub 超火的开源终端工具——Warp

Warp 作为近年来 GitHub 上备受瞩目的开源终端工具&#xff0c;以其智能化、高性能和协作能力重新定义了命令行操作体验。以下从多个维度深入解析其核心特性、技术架构、用户评价及生态影响力&#xff1a; 一、背景与核心团队 Warp 由前 GitHub CTO Jason Warner 和 Google 前…

使用C#创建安装Windows服务程序

在实际工作中&#xff0c;如果我们需要开发一个运行在后台&#xff0c;无需用户交互&#xff0c;不需要界面的应用程序&#xff0c;我们可以通过Windows服务来实现。 本文主要介绍如何基于C#创建一个Windows服务&#xff0c;来实现西门子PLC的定时读取保存。 一、Windows服务…

docker、docker-compose常用命令

初学者使用的docker、docker-compose常用命令&#xff0c;日常练习&#xff0c;环境简单搭建。 一、docker 1.1、安装docker 1.1.1、yum安装 #安装docker的数据存储驱动包 yum install -y yum-utils device-mapper-persistent-data lvm2 #设置新的安装源、下载配置文件到…

阿里的MNN源码如何编译成so文件,供Android调用

在Ubtuntu下面的编译&#xff0c;先整理编译环境 1、安装环境依赖 # 安装必要工具 sudo apt update sudo apt install -y cmake ninja-build git wget # 安装Android NDK&#xff08;建议使用r21版本或更高&#xff09; wget https://dl.google.com/android/repository/a…

吴恩达机器学习笔记复盘(六)梯度下降算法

简介 梯度下降&#xff08;Gradient Descent&#xff09;是一种常用的优化算法&#xff0c;广泛应用于机器学习、深度学习等领域&#xff0c;在这里是用于求J&#xff08;w,b&#xff09;局部最小值。 我自己觉得这样说有点过于抽象。换个直观点的说法就是&#xff0c;一个人…

使用JAVA-进行维吉尼亚密码的解密与加密

维吉尼亚密码 来源于百度百科 维吉尼亚密码_百度百科 具体代码 import java.util.*;public class WJMYmm {//常量 26public static final int N 26;//密码public static void main(String[] args) {//字母String ZM"abcdefghijklmnopqrstuvwxyz";char[] zm ZM.…

Java DelayQueue 延迟队列

Java DelayQueue 延迟队列 1. DelayQueue 概述 DelayQueue 是 Java 并发包&#xff08;java.util.concurrent&#xff09;中的一个 无界 阻塞队列&#xff0c;用于存储实现了 Delayed 接口的元素。队列中的元素只有在达到指定的延迟时间后才能被获取。 2. DelayQueue 的底层…

LeetCode 解题思路 22(Hot 100)

解题思路&#xff1a; 递归思路&#xff1a; 传入当前节点的最小值和最大值&#xff0c;递归判断左右子树。结束条件&#xff1a; 当前节点为空或不满足二叉搜索树。 Java代码&#xff1a; class Solution {public boolean isValidBST(TreeNode root) {return isValidBST(ro…

乐享数科:政策助推假日经济,2月普惠金融-景气指数稳中有升

数据显示&#xff0c;2025年2月普惠金融-景气指数达48.99点&#xff0c;较1月上升0.03点。 企业运行持续向好&#xff0c;企业信心预期和经营活力回升。“假日经济”与“政策效应”相互叠加&#xff0c;市场供求格局有所改善&#xff0c;景气水平稳步恢复。 普惠金融-景气指数…

leetcode日记(108)验证回文串

看上去很简单&#xff0c;其实很麻烦。 一开始写的递归&#xff0c;但是内存超限……搜了下发现原因是每次递归调用都会创建一个新的字符串副本&#xff0c;这在处理长字符串时会占用大量内存。 class Solution { public:bool isPalindrome(string s) {if(s.size()0||s.size(…

用css绘制收银键盘

最近需求说需要自己弄个收银键盘&#xff0c;于是乎直接上手搓 主要基于Vue3写的&#xff0c;主要是CSS <template><view class"container"><view class"info"><image class"img" src"" mode"">&l…

智能车间管理系统(源码+文档+讲解+演示)

引言 在现代制造业中&#xff0c;智能车间管理系统正成为推动工业4.0和智能制造的关键力量。它通过整合先进的信息技术和自动化技术&#xff0c;优化生产流程&#xff0c;提高生产效率&#xff0c;降低成本&#xff0c;并确保产品质量。 系统概述 智能车间管理系统采用前后端…

Model Context Protocol - Prompts

1. 概述 Model Context Protocol (MCP) 提供了一种标准化的方式&#xff0c;使服务器能够向客户端暴露提示模板&#xff08;prompts&#xff09;。Prompts 是服务器提供的结构化消息和指令&#xff0c;用于与语言模型进行交互。客户端可以发现可用的提示、获取其内容&#xff…

办公自动化:使用 Python 生成 Word 文件:自动生成数据库文档 Word 文件

简简单单 Online zuozuo :本心、输入输出、结果 文章目录 办公自动化:使用 Python 生成 Word 文件:自动生成数据库文档 Word 文件前言一、环境准备二、编写代码三、编写 Word 模版文件接收数据四、运行代码,生成文件,大功告成五、说明办公自动化:使用 Python 生成 Word 文…