RAG分块完全指南:7种核心策略详解,让你的大模型效果翻倍

本文详解RAG系统中分块(Chunking)策略这一关键环节,解析了7种主流分块方法:固定大小、语义、递归、文档、智能体、句子和段落分块。文章指出不存在"万能"策略,建议从512 tokens搭配10-15%重叠率开始,通过调试参数优化,优先考虑递归分块和句子分块。正确选择分块策略能显著提升RAG系统检索准确性和生成质量,是构建高效大模型应用的重要基础。

前排提示,文末有大模型AGI-CSDN独家资料包哦!

一、引言

为什么同样是做 RAG,有的效果拔群,有的却差强人意?分块(Chunking)策略可能是那个被你忽略的关键环节。

什么是Chunk?

AI中的分块是指将大型文档分割成称为“chunk”的较小片段。这些片段可以是段落、句子、词组或受token限制的片段,这使得模型能更轻松地仅搜索和检索所需内容。这种分块技术对于优化检索增强生成(RAG)的性能至关重要。

为什么在RAG中需要Chunk?

在RAG中,检索到正确的信息是关键,但当知识库非常庞大,可能包含数百万字或文档时,使用有效的RAG分块技术对于从这类大型数据集中高效检索相关信息,就变得至关重要了。举个例子,你有一个服务QPS达到千万级还要在30ms内返回结果,这时一定会搞一组本地缓存的集群。把你的数据按规则初始化到缓存里,就是对应的RAG的Chunk操作。

Chunk也是RAG ETL Pipeline中Transform环节的核心组件之一,可以比喻成我们切蛋糕,在切之前就已经想好要分几块了。让我看看“切蛋糕🍰”有几种手法。

二、主流RAG的分块策略详解

2.1.固定大小分块策略

  • 核心思想:根据预定义的字符数或 token 数将文本分成统一的块。
  • 工作方式:例如,固定每块 500 tokens。引入 “重叠区”(Overlap)来缓解上下文断裂问题。
  • 优点:实现简单,处理速度快,不依赖复杂模型。
  • 缺点:可能破坏语义完整性(如拆分句子或段落),对结构差异大的文档适应性差。

2.2.语义分块策略

  • 核心思想:根据文本的语义相似度而非物理结构进行分块,确保每个 Chunk 内部主题高度相关。
  • 工作方式:通常通过计算句子 Embedding 的余弦相似度,当相似度低于某个阈值时进行分割。
  • 优点:能创建逻辑上最连贯的 Chunk,对后续检索和生成质量提升显著。特别适用于处理主题跳跃较多的文档。
  • 缺点:计算成本高(需要调用 Embedding 模型),处理速度较慢。

2.3.基于递归分块策略

  • 核心思想:一种更智能的组合式策略,按优先级顺序尝试多种分隔符进行递归分割。
  • 工作方式:例如,优先按段落分割,如果段落仍过大,再按句子分割,最后才按字符数强制分割。
  • 优点:尽可能保留高级别的语义结构(段落 > 句子 > …),适应性强,能处理多种类型文档。
  • 缺点:实现稍复杂,性能开销高于纯固定大小分块。

2.4.基于文档的分块策略

  • 核心思想:利用文档本身的元数据和结构信息(如标题层级、表格、图片说明、PDF 页码等)进行智能分割。
  • 工作方式:例如,将一个一级标题下的所有内容(包括子标题和段落)作为一个大 Chunk,或者将每个表格单独作为一个 Chunk。
  • 优点:完美贴合特定类型文档(如法律合同、学术论文、报告)的逻辑结构,信息组织性强。
  • 缺点:依赖高质量的文档解析和结构识别,通用性相对较弱。

2.5.智能体分块策略

  • 核心思想:这是一种更前沿的动态策略,根据 Agent 将要执行的具体任务或目标来决定如何分块。
  • 工作方式:Agent 会先理解任务,然后自适应地从文档中提取和组织最相关的信息块。例如,任务是 “总结”,则可能提取关键论点;任务是 “回答特定问题”,则可能精准定位相关证据。
  • 优点:灵活性和针对性极高,能最大化任务效果。
  • 缺点:实现复杂,通常需要强大的规划和推理能力,目前还不普及。

2.6.基于句子的分块策略

  • 核心思想:将文本分割成完整的句子,确保每个 Chunk 都包含一个或多个完整的思想。
  • 工作方式:使用 NLP 工具(如 NLTK, SpaCy)识别句子边界,然后可以将几个连续的句子组合成一个 Chunk。
  • 优点:保证了基本的语义单元完整,避免了 “半句话” 的问题。
  • 缺点:句子长度差异仍可能导致 Chunk 大小不均;多个句子组合时,如何确定最佳组合仍需策略。

2.7.基于段落的分块策略

  • 核心思想:基于段落的分块,通过提示符截取,将整个文本划分成多个段落。这种方式同样适合结构清晰的文档。
  • 工作方式:例如,保险条款、法律、论文、AB实验报告等文档。
  • 优点:优点自然分段,语义完整。
  • 缺点:缺点自然是段落长度不一,可能超token限制。

其他

除以上7种外,还有很多大神们总结的切块方法论,如按照token、按照层级,按照excel sheet页,按照pdf页码等。都是针对特定场景。下面我结合实战中文的切块的方法论做一下总结。

三、分块策略的选择与实战优化

3.1. 没有“万能”的分块策略

现实中不存在一种“one-for-all” 的数据读取和分块方法,特别像是 PDF 和 Word 这类复杂格式的文档。比较流行的方案是实用DeepDoc(OCR、TSR、DLR),所以实际中应根据业务,制作不同的模板。那么评估Chunk的参数和指标有哪些呢? 指标就是Precision和Recall,详细看表格**:**

Chunk参数与指标,我设计了两套策略:512/10%和2500/25 (单位token)

3.2.Chunk策略的选择

我的方法论:段落分块(Paragraph Chunking),句子分块(Semantic Chunking),递归分块(Recursive Chunking),语义分块(Semantic Chunking)。

现在的RAG框架基本都是基于段落或句子来分块,也都都支持(\n。;!?)的递归分块。那从运营用户角度出发,或者第一次切的时候,如何傻瓜式操作呢?RAGFlow交出了一份方案,看一下它的分块核心算法

CSDN独家福利

最后,感谢每一个认真阅读我文章的人,礼尚往来总是要有的,下面资料虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1125671.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(加交叉验证)基于GPR的数据多变量回归预测 (多输入单输出)

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 基于高斯过程回归GPR的数据多变量回归预测 (多输入单输出)交叉验证 程序已经调试好,无需更改代码替换数据集即可运行!!!数据格式为excel! 本程序…

大模型在自动驾驶中的应用:从VLA到端到端技术全解析

文章介绍了大模型在自动驾驶领域的应用,重点解析了VLA(视觉-语言-动作)技术与端到端的关系,并阐述了两种VLA实现方案:两阶段(大模型Diffusion)和单阶段(纯大模型)。同时提…

专科生必看!8个降AI率工具,高效避坑指南

专科生必看!8个降AI率工具,高效避坑指南 AI降重工具:高效避坑的必备利器 随着人工智能技术的快速发展,越来越多的专科生在撰写论文时开始使用AI工具进行辅助。然而,AI生成的内容往往存在明显的“AI痕迹”,不…

JavaWeb相关环境安装

这篇博客我们讲一下JavaWeb相关得环境安装,用来后续完成前后端的项目部署。 1,JDK 1,下载安装包 下载安装包大家可以去官网进行下载,为了方便起见大家可以直接通过我提供的链接进行下载:JDK安装包,将下载后…

04|交付经理真正的 KPI 只有一个:可被接受的结果

在很多公司里,交付经理的 KPI 看起来非常“丰富”。 项目按期率里程碑完成率客户满意度验收通过率投诉数量 但如果你真的在一线做过交付,就会慢慢意识到一件事:这些 KPI,大多数只是“结果的影子”, 而不是交付真正被评…

小白也能学会!2024-2025年RAG系统高精度实现指南,企业级应用必备收藏

本文系统分析了企业级RAG系统面临的五大挑战,包括历史数据过时、文档分块破坏上下文、向量检索局限、图表理解瓶颈和流程缺乏灵活性。针对这些问题,文章提出了多种解决方案:选择合适的LLM和嵌入模型、建立评估体系、采用混合检索与重排序技术…

‌为什么供应商报价有13%和3%两种增值税?‌

为什么供应商报价有13%和3%两种增值税?‌ 13%税率‌:适用于‌一般纳税人‌销售‌货物、加工修理修配劳务、有形动产租赁‌等业务。例如:销售手机、电脑、机械设备、汽车配件、工业原材料等。 3%征收率‌:适用于‌小规模纳税人‌的…

参数高效微调三剑客:LoRA、MoLoRA与MoR1E的深度比较与应用指南

大模型微调的技术演进 在大型语言模型(LLM)时代,全参数微调(Full Fine-tuning)面临三大挑战: 计算资源消耗:微调百亿参数模型需昂贵GPU集群存储开销:每个下游任务需保存完整模型副本灾难性遗忘:微调可能损害模型原有…

of 的发音?弱读最常见/əv/

of 的发音取决于语境,常见有两种读法。 1️⃣ 最常见(弱读,口语 / 学术汇报里几乎都用这个) of → /əv/ 接近中文:“呃v / əv”(很轻) 例子: one of them → /wʌn əv em/ a l…

基于1D-CNN的数据多变量回归预测 (多输入单输出)

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 基于一维卷积神经网络(1D-CNN)的数据多变量回归预测 (多输入单输出) 程序已经调试好,无需更改代码替换数据集即可运行!!!数据格式为excel! 本程序…

PyQt5 解决弹窗后快捷键失效问题

import sys from PyQt5.QtWidgets import QApplication, QMainWindow, QMenuBar, QMenu, QAction, QMessageBox from PyQt5.QtCore import Qt, QEvent, QTimerclass MainWindow(QMainWindow):def __init__(self):super().__init__()self.setWindowTitle("菜单快捷键焦点保…

【必收藏】突破传统RAG瓶颈:Deep Thinking RAG架构详解与实战指南

Deep Thinking RAG是一种将RAG与Agent技术融合的新型架构,突破了传统RAG的局限性。它通过四个智能模块(规划代理、检索监督者、多阶段检索漏斗、策略代理)实现从线性链到循环图的跃迁,支持多跳推理、动态知识边界和自适应检索策略…

基于(SVM-RFE-BP)支持向量机递归特征消除特征选择算法结合BP神经网络多变量回归预测(多输入单输出)

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 基于(SVM-RFE-BP)支持向量机递归特征消除特征选择算法结合BP神经网络多变量回归预测(多输入单输出) 采用SVM-RFE支持向量机递归特征消除特征选择对原始特征进行特征选择!随后在结合BP进行回归预…

若依工作流模型管理模块 - 需求分析+设计文档+接口文档

若依工作流模型管理模块 - 需求分析设计文档接口文档 一、需求分析 1. 核心业务背景 该模块是若依(RuoYi-Vue-Plus)框架集成Activiti工作流引擎的核心模块,聚焦流程模型全生命周期管理,解决从模型创建、编辑、部署到导出、转换…

[独家原创]CPO-VMD-KPCA-CPO-LSTM单变量时序预测 (单输入单输出) matlab代码

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 [独家原创]CPO-VMD-KPCA-CPO-LSTM单变量时序预测 (单输入单输出) 基于冠豪猪算法优化变分模态分解-核主成分分析-冠豪猪算法-长短期记忆网络单变量时序预测 matlab代码 由于之前的图像分析太少,…

AI应用架构实战:上下文工程的数据预处理

AI应用架构实战:上下文工程的数据预处理——让模型“听懂”你的每一句话 关键词 上下文工程 | 数据预处理 | AI应用架构 | 对话系统 | 向量数据库 | 上下文窗口 | 语义分割 摘要 在AI应用(如对话系统、知识库问答、个性化推荐)中&#xf…

AI大模型产品经理6个月速成路线图:4大学习阶段+12个实战项目+30+学习资源,薪资涨幅超60%!

文章详解了AI大模型产品经理这一黄金岗位的培养路径,提供6个月速成路线图,分4大阶段掌握核心能力。数据显示该岗位平均月薪38K,大模型方向溢价45%,2025年缺口达72万。文章包含12个实战项目、30学习资源,同时提供避坑指…

自然语言处理(NLP)核心知识体系

自然语言处理(NLP)核心知识体系 自然语言处理(Natural Language Processing,NLP)是人工智能(AI)的重要分支,专注于实现计算机与人类自然语言之间的有效交互,让计算机能够…

[原创]基于VMD-SE-LSTM+Transformer多变量时序预测 Matlab代码

目录 1、代码简介 2、代码运行结果展示 3、代码获取 1、代码简介 [原创]基于变分模态分解结合样本熵结合长短期记忆神经网络Transformer(VMD-SE-LSTMTransformer)多变量时序预测 Matlab代码 采用VMD-SE对输出列进行分解,通过样本熵将个分量划分为高频分量和低频…

当RGB技术遇到高端视听:东芝电视在2026 CES展现对“感官真实”的极致追求

2026年1月6日至9日,全球消费电子行业的年度盛会——CES 2026国际消费电子展在美国拉斯维加斯正式启幕。作为深耕视听领域的领导品牌,东芝电视也亮相本次科技盛会,为来自全球各地的观展人士们精彩地展示了RGB显示技术、自研ZRα光色同控芯、AI…