Github上有几个不错的文本切分相关的优秀项目,涵盖了不同技术方向和应用场景:
-
AntSK-FileChunk
- 特点:基于语义理解的智能文本切片工具,支持PDF、Word、纯文本等多种格式,通过语义分析和向量计算确保切片的语义完整性和连贯性。
- GitHub地址:https://github.com/xuzeyu91/antsk-filechunk
-
LangExtract
- 特点:谷歌开源的文本处理库,支持长文档智能分块、并行处理和多轮提取,结合LLM实现结构化信息提取,适用于医疗、法律、科研等领域的文本处理。
- GitHub地址:https://github.com/google/langextract
-
Chonkie
- 特点:为RAG任务设计的轻量级文本分块库,采用Tiktoken和预计算缓存技术,性能高效,适用于大规模文本处理。
- GitHub地址:https://github.com/chonkie-inc/chonkie
-
Late Chunking
- 特点:基于长上下文Embedding模型的后置分块策略,通过全局信息编码和平均池化保留上下文连贯性,适用于长文档处理。
- GitHub地址:https://github.com/jina-ai/late-chunking
-
LangChain Text Splitters
- 特点:LangChain框架中的文本切分工具,包括RecursiveCharacterTextSplitter等,支持基于规则、NLP库(如NLTK、Spacy)的切分,适用于结构化和非结构化文本。
- GitHub地址:https://github.com/hwch/langchain
这些项目在语义切分、性能优化、多格式支持等方面各有优势,可根据具体需求选择。