Github上文本切分相关的优秀项目

news/2025/10/17 5:55:45/文章来源:https://www.cnblogs.com/end/p/19146893

Github上有几个不错的文本切分相关的优秀项目,涵盖了不同技术方向和应用场景:

  1. AntSK-FileChunk

    • 特点:基于语义理解的智能文本切片工具,支持PDF、Word、纯文本等多种格式,通过语义分析和向量计算确保切片的语义完整性和连贯性。
    • GitHub地址https://github.com/xuzeyu91/antsk-filechunk
  2. LangExtract

    • 特点:谷歌开源的文本处理库,支持长文档智能分块、并行处理和多轮提取,结合LLM实现结构化信息提取,适用于医疗、法律、科研等领域的文本处理。
    • GitHub地址https://github.com/google/langextract
  3. Chonkie

    • 特点:为RAG任务设计的轻量级文本分块库,采用Tiktoken和预计算缓存技术,性能高效,适用于大规模文本处理。
    • GitHub地址https://github.com/chonkie-inc/chonkie 
  4. Late Chunking

    • 特点:基于长上下文Embedding模型的后置分块策略,通过全局信息编码和平均池化保留上下文连贯性,适用于长文档处理。
    • GitHub地址https://github.com/jina-ai/late-chunking
  5. LangChain Text Splitters

    • 特点:LangChain框架中的文本切分工具,包括RecursiveCharacterTextSplitter等,支持基于规则、NLP库(如NLTK、Spacy)的切分,适用于结构化和非结构化文本。
    • GitHub地址https://github.com/hwch/langchain

这些项目在语义切分、性能优化、多格式支持等方面各有优势,可根据具体需求选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/938600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信机器人开发

微信机器人开发、微信二次开发文档、微信个人发消息api "WTAPI"是一个基于微信开放平台的二次封装API服务,旨在简化开发者与微信对接的流程。提供了丰富的功能API,包括好友管理、消息管理、群管理、朋友圈…

原型链污染学习

目录示例题目题目1题目2思路如何找到修改的变量?(题目1思路&步骤)题目2思路题目2做题步骤 前两天在打几场新生赛练手的时候,遇到了两三道关于python原型链污染的基础题,发现这方面知识点还是匮乏,所以以这两道题目…

重新认识 Golang 中的 json 编解码

欢迎访问我的个人小站 莹的网络日志 ,不定时更新文章和技术博客~json 是我的老朋友,上份工作开发 web 应用时就作为前后端数据交流的协议,现在也是用 json 数据持久化到数据库。虽然面熟得很但还远远达不到知根知底…

(二)CUDA在Windows系统上的编译运行方法

前言 本文记录cuda库在windows系统上的编译运行的3种方式,主要包括命令行编译、VisualStudio2017编译、VSCode上编译等。 ​一、windows环境下CUDA环境配置 1.下载MinGW以使用GCC编译器 下载MinGW链接:https://githu…

关于价值原语与AI元人文构想的对话全记录——DeepSeek研究

关于价值原语与AI元人文构想的对话全记录——DeepSeek研究 基于这份详尽的对话记录,我们可以进行一次深入的、系统性的研究,超越表面的技术讨论,探寻其背后的哲学意义、现实可行性及未来路径。 这份对话展现了一场思…

251017

251017为了满足别人给我的不可能完成的任务,我编了一个又一个的故事,虽然这些故事从来没有真实的发生过,但一定是别人想发生的,我来像母亲一样哄骗他们,大家一起在白天做梦,真真假假假假真真,反正明天不是阴天就…

关于价值原语与AI元人文构想的对话全记录

关于价值原语与AI元人文构想的对话全记录 第一阶段:价值原语的哲学解析 用户:帮我分析,价值原语,如尊严,可以如何继续拆分 助手:从伦理学、哲学和价值理论角度对“尊严”进行结构化拆分:自主性 - 个人决策控制能…

升鲜宝生鲜配送供应链管理系统,辅助开发工具,《多语言自动翻译与导出工具(WinForms版)》开发文档 及 阿里云机器翻译,数据库Mysql .net 全部源代码

多语言自动翻译与导出工具(WinForms版)开发文档 一、系统简介 本工具是一款用于自动翻译多语言字段并导出国际化数据的桌面应用,支持从 MySQL 数据库读取中文内容,调用阿里云机器翻译 API 自动生成 繁体中文 (zh-T…

植物大战僵尸全系列下载 PVZ植物大战僵尸全集版分享下载 原版民间修改版含安卓手机+电脑+ios各平台

PVZ植物大战僵尸全集版分享下载 原版民间修改版含安卓手机+电脑+ios各平台 《植物大战僵尸》凭借其经典的玩法,催生了大量官方版本和极具创意的民间改版。以下我将为你…

Pytorch66页实验题

import torch import torch.nn as nn import torch.optim as optim import torchvision import torchvision.transforms as transforms import matplotlib.pyplot as plt import numpy as npprint("林丽坤参与了 …

记一次激活Jetbrains全家桶流程

最初是在网上第三方找到的Crack文件,该文件的原作者与原网址不得而知,按照网上的二手教程进行操作,结果Pycharm激活完成了,IDEA却没有。今天突发奇想,想到激活文件sniarbtej-2024.2.8.jar应该是个极少见、极有特色…

uni-app x开发商城系统,商品列表

一、概述 上一篇已经实现了Icon 图标显示,接下来,展示商品列表数据,效果如下:二、布局页面 可以看到,显示为2列,每一列有2条数据。 这里依然使用flex布局,在开发的时候,我们可以在页面中,先把数据固定好,可以…

PySimpleGUI 中有没有类似VB的timer组件

在PySimpleGUI中,没有直接等同于VB的Timer组件,但可通过以下两种方式实现类似功能,且PySimpleGUI 5.0+版本提供了更优化的定时器管理方案: 一、通过window.read(timeout)模拟定时器原理:利用window.read(timeout)…

【填坑】电脑用户名有中文字符,如何与github建立SSH连接

前情提要 因为我之前很作死的在电脑本地用户名中设置了中文字符,导致始终无法与github建立ssh连接 如今通过hexo在github上建立了一个博客,为了更新方便,如今是必须要姐姐这个ssh连接github的历史遗留问题了。 好在…

向量空间与子空间

映射 对于集合 \(X,Y\),定义映射 \[F:X \to Y \]表示 \[\forall x\in X, F(x)\in Y \]若 \(\forall x_1\neq x_2\),\(F(x_1)\neq F(x_2)\),称 \(F\) 为单射。 若 \(\forall y\in Y\),\(\exists F(x)=y\),称 \(F\)…

西工大开源 Easy Turn:全双工轮次转换检测模型;百度 MuseSteamer 引入开放世界生成能力丨日报

开发者朋友们大家好:这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态…

10/16

今天体测了,肺活量5700,引体向上也有分,明天一定好好学习

MrakDown学习

MrakDown学习$(".postTitle2").removeClass("postTitle2").addClass("singleposttitle");MarkDown 标题 +空格+名字 字体 (粗体)Hello World (斜体)Hello World (斜体加粗)Hello World …

2025.10.16总结

对uml九种图的总结 1. 用例图核心描述:从用户(参与者)角度描述系统的功能需求。它定义了系统的边界,说明了“谁”在系统“内部”能“做什么”。 核心元素: 参与者:系统外部的、与系统交互的人、组织或其他系统。…

日常生活中的AI应用记录-2

2025-10-16 百度首页改版,加入了AI搜索功能,可以直接跳转到AI搜索页面. 稀土掘金首页-首要位置添加了-AICoding 栏目- infoq中-添加了多个AI相关的栏目- 51-CTO-中已经将人工智能板块,放在了网站的的首页位置, …