ACL 2025 新方法 MoC,重新定义文本分块与评估

来自中国人民大学、上海IAAR研究院的团队在ACL 2025上提出的MoC(Mixtures of Text Chunking Learners)框架,不仅创新性地解决了分块质量评估难题,更实现了计算效率与分块精度的最优平衡,为RAG系统性能提升提供了全新思路。

在检索增强生成(RAG)系统中,大语言模型(LLM)的表现高度依赖检索文档的质量,而文本分块作为连接原始文本与高效检索的关键环节,却长期被忽视。传统分块方法要么机械切割文本,要么难以捕捉复杂逻辑关系,且缺乏独立的质量评估标准。来自中国人民大学、上海IAAR研究院的团队在ACL 2025上提出的MoC(Mixtures of Text Chunking Learners)框架,不仅创新性地解决了分块质量评估难题,更实现了计算效率与分块精度的最优平衡,为RAG系统性能提升提供了全新思路。

论文地址:https://aclanthology.org/2025.acl-long.258.pdf 代码地址:https://github.com/IAAR-Shanghai/Meta-Chunking/tree/main/MoC

01、研究背景:被忽视的RAG性能关键

1. RAG系统的"最短木板"

RAG通过"检索+生成"双模块协同工作,有效解决了LLM数据新鲜度不足、幻觉频发、领域知识匮乏等问题,在开放域问答等知识密集型任务中表现突出。但这一技术的效果严重依赖检索文档的相关性与完整性:

  • 若分块包含过多冗余信息,会干扰生成模型判断;
  • 若分块割裂逻辑关系,会导致关键信息缺失;
  • 传统分块策略的微小缺陷,会通过"最弱链路效应"放大,最终影响RAG系统的整体性能。

2. 现有分块方法的三大痛点

当前主流分块方法可分为两类,但均存在明显局限:

  • 规则/语义分块:基于固定长度或句子相似度的方法,无法捕捉文本深层逻辑关联,在长文本、复杂语境中易出现分块不合理问题;
  • LLM直接分块:如LumberChunker等方法虽能利用LLM的推理能力,但对指令遵循能力要求高,计算成本高昂,难以大规模应用;
  • 缺乏独立评估指标:以往分块质量只能通过下游问答准确率间接衡量,无法直接量化分块本身的合理性,导致分块优化缺乏明确方向。

3. 核心需求:高效与精准的平衡

理想的分块方法需要同时满足:

  • 能精准识别文本逻辑边界,保证分块的语义完整性;
  • 计算成本可控,适合实际部署;
  • 有明确的评估标准,支持迭代优化。

02、核心创新:两大指标+MoC框架

分块质量的独立评估指标

为解决分块质量无法直接量化的问题,论文创新性地提出边界清晰度(Boundary Clarity, BC)分块粘性(Chunk Stickiness, CS)两大指标,实现对分块质量的全面评估。

(1)边界清晰度(BC):衡量分块边界的语义分离度

边界清晰度通过困惑度(perplexity)计算,核心思想是:若两个文本块语义独立,它们的条件困惑度应与单独困惑度接近;若存在语义关联,则条件困惑度会显著降低。

计算公式:

  • ppl(q):句子序列 q 的困惑度,反映模型对 q 的理解程度;
  • ppl(q | d):给定文本块 d 时 q 的条件困惑度。

困惑度是评估语言模型(LMs)对特定文本输入预测准确性的关键指标。较低的困惑度值表明模型对文本的理解更为充分,而较高的困惑度则意味着语义解读的不确定性更高

(2)分块粘性(CS):评估分块间的语义关联性

分块粘性通过构建语义关联图并计算结构熵实现,核心目标是保证分块内部语义连贯、分块之间相对独立

计算步骤:

  1. 定义边权重:


    取值范围[0,1],越接近1表示两文本块语义关联越强;
  2. 构建语义图:设置阈值K过滤弱关联边,同时引入序列约束保证文本连贯性;
  3. 计算结构熵:


    h_i为节点度数,m为边总数。

解读:CS值越低,说明分块间语义关联越弱、独立性越强,越有利于检索时精准匹配相关信息。

MoC框架:多粒度感知的混合分块解决方案

针对现实场景中大规模文本分块粒度复杂多变的问题,提出基于粒度感知混合分块器(MoC)框架。MoC框架采用"分而治之"策略,通过三大核心组件实现高效精准分块。

框架整体流程

(1)高质量数据集构建

为训练分块模型,提出一套严谨的数据集构建流程:

  • 结构化指令:引导GPT-4o按逻辑语义结构分块,保证分块完整性和保真度;
  • 滑动窗口+块缓冲:处理长文本时,将文本分割为1024 token以内的子序列,通过块缓冲机制维持上下文连贯性;
  • 数据清洗:利用编辑距离检测并修正LLM生成的幻觉内容,提取分块首尾字符作为锚点,中间内容用特殊字符替换;
  • 粒度标签分类:将分块按长度划分为4个粒度区间(0 级 (0,120]、1 级 (120,150]、2 级 (150,180]、3 级 (180,+∞)),每个粒度对应约5000条训练数据,保证数据均衡。
(2)多粒度感知路由器

多粒度感知路由器(Multi-granularity-aware Router)是 MoC 框架的“调度中枢”,其核心作用只有一句话:根据输入文本的固有特征,在推理阶段动态地把文本分派给最适合处理该粒度区间的轻量级分块专家(meta-chunker),从而以单个小模型的计算开销,获得接近大模型的分块质量。

为什么需要多粒度感知路由器

  1. 粒度冲突:同一批长文本里,有些段落适合 100 字左右的细粒度(如法律条文),有些段落需要 300 字以上的粗粒度(如故事背景)。单一模型很难在所有粒度区间都保持高精度。
  2. 资源约束:直接调用 72 B 大模型做逐句判断成本过高;而 1.5 B 小模型若强行“一刀切”,又会因粒度不匹配而性能骤降。
  3. 稀疏激活:MoC 采用“分而治之”策略,每个专家只负责一个粒度子空间,路由器决定“激活谁”,其余专家保持休眠,从而把计算量压到单个小模型级别。

注意,不是传统意义上“固定长度多粒度”(比如 100/200/300 字一刀切),而是语义驱动的多粒度分块。每个专家(meta-chunker)仍然基于语义完整性逻辑边界来决定切分点,而不是机械地按字符数切分。

路由模块训练的主要挑战在于文本特征与分块粒度之间的隐含关系——目标是在不执行显式分块操作的情况下,推断文本的潜在粒度。

训练策略:

  • 文本长度归一化:将文本截断或拼接至1024字符,避免长度对粒度判断的干扰;
  • 分类训练:以分块粒度为标签,采用交叉熵损失函数训练小型语言模型(SLM);
  • 推理机制:通过边际采样选择概率最高的粒度类别,将文本路由至对应分块专家
(3)Meta-chunkers:规则生成式分块专家

与直接生成完整文本块不同,Meta-chunkers的核心是生成结构化分块正则表达式,大幅降低计算成本。

正则表达式格式:

其中,⊕ 表示字符串拼接操作,R = {“<omitted>”, “<ellipsis>”, “[MASK]”, “[ELLIPSIS]”, “.?”, “<...>”, “<.*>”, “<pad>”}是定义的八个特殊字符集,用于表示文本块中的省略部分。

训练数据标签是基于 GPT-4o 生成的高质量分块结果,经规则转换、清洗校验后得到的结构化分块正则表达式列表

在专家模型训练阶段,采用全参数微调策略,利用按不同分割粒度分类的数据集优化模型参数,损失函数与上述公式保持一致。该设计使Meta-chunkers既能全面理解每个块的构成,又能显著降低生成的时间成本。

(4)编辑距离恢复算法

为解决LLM生成规则可能存在的幻觉问题,通过编辑距离精准匹配原始文本:

  • 定义编辑距离:将生成的规则字符串转换为原始文本片段所需的最小插入、删除、替换操作数;
  • 动态修正:通过二维数组递归计算最小编辑距离,定位原始文本中与规则最匹配的字段,确保分块准确性。

03、实验验证

实验设置

(1)数据集与指标
  • CRUD:含单跳与双跳问题,用 BLEU-1/2/3/4 与 ROUGE-L 评估生成质量。
  • DuReader:属于 LongBench 的长文档阅读理解集合,以 F1 衡量答案准确性。
  • WebCPM:专为长文本问答设计,需检索多段事实并生成段落级回答,评估指标为 ROUGE-L。
(2)对比基准
  • 规则分块:Original(固定长度)、Llama_index(保留句子边界);
  • 动态分块:Semantic Chunking(语义相似性)、LumberChunker(LLM直接分块)、Qwen2.5-14B/72B(大模型分块)。

整体性能对比

  • Meta-chunker-1.5B(1.5B参数)在多数任务中超越Qwen2.5-14B(14B参数),仅在双跳问答中略逊于Qwen2.5-72B;
  • MoC框架性能最优,BLEU-1达0.3826,证明多粒度路由机制的有效性
  • 传统语义分块(Semantic Chunking)表现最差,验证了传统语义分块的固有局限性。

分块质量指标(BC/CS)的有效性验证

引入基于传统语义相似性的 “差异性(Dissimilarity, DS)” 指标作为传统基准:

sim (q, d) 为文本块 q 和 d 的语义相似性得分,取值范围 [0,1],0 代表完全相似,1 代表完全不同。该指标虽能直接反映分块间语义差异,但未考虑逻辑关联性。

为验证边界清晰度(BC)和分块粘性(CS)两大新型指标的有效性,实验通过与传统语义相似性衍生指标(DS)的对比,结合不同分块方法的性能表现,从相关性、方法差异根源等维度展开全面验证,核心结果如下:

  1. DS 指标与问答性能脱节
    实验数据显示,DS 指标无法有效反映分块质量对下游任务的影响:
  • 语义分块(Semantic Chunking)的 DS 得分显著高于其他方法(Model-1 下为 0.4174,Model-2 下为 0.4162),表明其分块间语义差异最大;
  • 但语义分块的问答性能却垫底(CRUD 单跳 BLEU-1=0.3382,ROUGE-L=0.4131),远低于 LLM 类分块方法;
  • 结论:仅靠语义相似性无法界定最优分块边界,DS 指标与 RAG 系统的问答性能无明显相关性,无法作为分块质量的有效评估标准

  1. 不同分块方法的 BC/CS 表现差异显著
    实验在 Qwen2.5-1.5B、Qwen2.5-7B、Qwen2.5-14B、Internlm3-8B 四种模型上验证了 BC/CS 的区分能力,核心数据如下(以 Qwen2.5-1.5B 为例):

  • 语义分块的 BC 值(0.8260)仅略高于固定长度分块(0.8210),说明其边界识别能力薄弱,难以区分逻辑关联紧密的句子;
  • 语义分块的 CS 值(CS_c=2.280)显著高于 LLM 类分块(Qwen2.5-14B 的 CS_c=2.069),表明其分块间语义关联过强,独立性不足;
  • LLM 类分块的 BC 值最高(0.8750)、CS 值最低,体现出更优的边界区分能力和分块独立性。

结论:

  • BC/CS 指标能独立、精准地评估分块质量,无需依赖下游任务结果,弥补了传统指标的空白;
  • 语义分块性能不佳的核心原因可通过 BC/CS 直接解释:边界清晰度不足导致错误分割,分块粘性过高影响检索效率;
  • LLM 分块的优势通过 BC/CS 得到量化验证:更优的边界识别能力和更低的分块粘性,是其提升 RAG 性能的关键;
  • 相比之下,传统 DS 指标无法捕捉分块的逻辑关联性,与下游性能脱节,不适合作为分块质量的评估标准。

特殊字符影响

实验测试了8种特殊字符对分块性能的影响,结果显示:

  • 所有特殊字符均能提升分块效果,其中<.*>表现最优(BLEU-1=0.3790、ROUGE-L=0.4470);
  • [MASK]字符兼顾性能与稳定性,被选为MoC框架的默认配置。

基于 [MASK] 的 MoC 框架在所有指标上实现最优(BLEU-1=0.3826、ROUGE-L=0.4510),证明多粒度感知路由与稀疏激活机制能有效适配复杂长文本的分块需求

效率对比

Meta-chunker-1.5B 单文档平均处理时间为 3.69 秒,远低于 Qwen2.5-14B(26.99 秒),仅略高于 LumberChunker(3.23 秒),兼顾精度与效率。

超参数敏感性

  • 分块粘性阈值K:K 值用于过滤语义关联图中弱关联边,K 增大(0.7→0.9)时,CS 值逐渐减小,原因是 K 越大,保留的边越少,图结构越稀疏。但无论 K 取何值,基于 LLM 的分块始终保持最低 CS 值,证明其语义转换点识别能力的稳健性

  • 解码参数:temperature和top-k设为0.1时性能最优,过高会引入随机噪声。

04、总结

MoC 框架针对 RAG 系统中文本分块这一关键瓶颈,带来了两大核心创新突破:其一,创新性提出边界清晰度(BC)和分块粘性(CS)双指标,填补了分块质量缺乏独立、直接量化标准的空白,为分块效果评估提供了客观依据;其二,设计多粒度感知混合分块架构,通过多粒度路由器动态调度轻量级分块专家,结合正则表达式生成分块规则与编辑距离恢复算法,在充分发挥 LLM 推理能力的同时,有效平衡了分块精度与计算效率。实验结果表明,MoC 在 CRUD、DuReader、WebCPM 等多个问答数据集上,性能全面超越传统规则分块、语义分块及部分 LLM 直接分块方法,为 RAG 系统整体性能提升开辟了新路径。

不过,MoC 框架的落地应用存在显著局限:多粒度感知混合分块的算法设计复杂度较高,涉及数据集构建、路由器训练、多专家协同等多个环节,对工程实现能力要求严苛;同时,其训练数据依赖特定域的高质量标注,面对新的数据域时泛化能力不足,难以快速适配多样化的实际应用场景。相比之下,AutoChunker 提出的分块方法更具实用价值,以更低的实现成本完成分块任务,且性能未出现明显衰减,更符合工业界高效落地的需求。

在分块评估思路上,MoC 与 AutoChunker 可谓殊途同归。两者均摆脱了对下游任务(如 QA 准确率)的间接依赖,转而从分块自身特性出发设计评估方案,无需人工标注层级分块点、精准 QA 对及对应证据句,简化了评估流程的同时,更能直接反映分块策略的固有合理性,为分块方法的优化提供了更直接的指导。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探寻2026年优质不锈钢中厚板现货厂家,品质之选在此,不锈钢装饰板/不锈钢六角棒,不锈钢中厚板源头厂家推荐榜单 - 品牌推荐师

当前,不锈钢中厚板作为工业制造、建筑装饰、能源化工等领域的关键材料,其市场需求持续攀升。得益于耐腐蚀、高强度、易加工等核心优势,不锈钢中厚板在复杂工况下展现出稳定性能,成为众多行业升级转型的首选材料。随…

Invicti Enterprise On-Premises v25.11.0 - 企业级应用安全

Invicti Enterprise On-Premises v25.11.0 - 企业级应用安全 Invicti Enterprise On-Premises Released November 2025 请访问原文链接&#xff1a;https://sysin.org/blog/invicti-enterprise/ 查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;sysi…

宠物洗澡打泡机方案开发,宠物洗澡电动泡泡机MCU控制方案分析

宠物洗澡打泡机主要用于将宠物沐浴液与水混合&#xff0c;通过内部电机/泵产生丰富、细腻的泡沫&#xff0c;直接涂抹在宠物身上&#xff0c;以提升清洁效率和体验。主要功能模块&#xff1a; 泡沫生成&#xff1a;控制水泵/气泵电机&#xff0c;实现水、空气、沐浴液三者的混合…

HGDB中的扫描类型

文章目录 文档用途详细信息 文档用途 介绍HGDB中的扫描类型 详细信息 1、全表扫描 全表扫描在HGDB中也称为顺序扫描&#xff08;seq scan&#xff09;&#xff0c;全表扫描就是把表的所有数据块从头到尾读一遍&#xff0c;然后筛选出符合条件的数据块。 全表扫描在explain命…

又到一年年终啦,我也浅浅总结下项目经常用到的ES7及以后版本的核心新特性,码友友们,这些你都知道吗

自ES6&#xff08;ECMAScript 2015&#xff09;带来大规模语法革新后&#xff0c;ECMAScript标准开启了每年迭代的节奏&#xff0c;从ES7&#xff08;2016&#xff09;开始&#xff0c;每个版本都聚焦于实用小特性的补充与优化&#xff0c;逐步解决开发者在日常编码中的痛点。本…

【Java开发】gRPC协议原理剖析及其在微服务架构中的应用

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

深度剖析eBPF技术原理及其在微服务网关性能优化中的实践应用

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

React Vue 如何让 Cookie 逻辑“秒变优雅”?

你是否还在为 document.cookie 的手动操作头疼&#xff1f;设置一个登录 token&#xff0c;还得手动处理编码、路径、过期时间&#xff0c;一不小心就触发跨域错误或 XSS 风险&#xff1f;更糟的是&#xff0c;每次写代码都像在玩“cookie 拼图”——要么漏了 HttpOnly&#xf…

GBase8s集合类型之关联数组简介

GBase 8s兼容oracle的PL/SQL编程语言&#xff0c;PL/SQL 语法需要显式设置环境变量SQLMODE为’ORACLE’后才能生效&#xff0c;默认情况下8s的SQLMODE为’GBASE’&#xff0c;此时不支持 PL/SQL 语法。本文将介绍GBase 8s兼容oracle模式中的关联数组类型&#xff0c;包括它们的…

GBase 8a 参数gcluster_shrink_to_rebalance使用介绍

参数功能控制shrink操作使用rebalance方式的开关。 取值 0&#xff1a;关闭 shrink to rebalance 功能&#xff1b; 取值 1&#xff1a; 打开 shrink to rebalance 功能&#xff1b; 默认取值&#xff1a;1。原理特性该参数为862-Build43后的新功能。打开该参数&#xff0c;执行…

打工人救星!用doocs md写公众号必搭cpolar,再也不用卡局域网里改稿了

文章目录1 项目 doocs/md 介绍2 安装Nodejs环境2.1 下载Nodejs安装程序2.2 安装Nodejs程序2.3 验证Nodejs是否安装2.4 设置国内淘宝镜像源3 下载本地部署doocs/md项目3.1 将项目下载至本地3.2 解压doocs/md项目3.3 安装依赖和启动doocs/md项目4 将网站穿透至公网&#xff08;cp…

帝国CMS搭建全攻略:从安装到优化

帝国CMS搭建指南系统环境准备确保服务器环境满足以下要求&#xff1a;PHP版本5.6及以上&#xff0c;MySQL数据库5.0及以上&#xff0c;推荐使用Apache或Nginx作为Web服务器。Windows系统建议使用WAMP/LAMP集成环境&#xff0c;Linux系统需提前安装PHPMySQL环境组件。下载与安装…

GBase 8c数据库磁盘故障定位技术分享

南大通用GBase 8c数据库常见的磁盘故障是磁盘空间不足、磁盘出现坏块、磁盘未挂载等。部分磁盘故障会导致文件系统损坏&#xff0c;例如磁盘未挂载&#xff0c;数据库管理自动定期执行磁盘检测时会识别故障并将实例停止&#xff0c;查看数据库状态时对应实例状态异常&#xff1…

852-017500-003-6-C220ASSEMBLY CHASSIS 14 英寸屏幕LAM

产品概述该部件为LAM Research&#xff08;泛林半导体&#xff09;生产的设备组件&#xff0c;型号为852-017500-003-6-C220&#xff0c;属于14英寸屏幕的底盘组装件&#xff08;Chassis Assembly&#xff09;。LAM Research是全球领先的半导体制造设备供应商&#xff0c;此类组…

Windows版本的Dify平台搭建

Windows版本基于Docker的Dify平台搭建 1:名词解释 1.1:Hyper-V Hyper-V 是微软提供的 **Type-1&#xff08;裸机型&#xff09;虚拟化技术**&#xff0c;可在一台物理计算机上同时运行多个相互隔离的虚拟机。每个虚拟机拥有独立的操作系统和虚拟硬件资源&#xff0c;通过虚拟…

Sanyo Denki PU0A030EMA1S00 伺服放大器

Sanyo Denki PU0A030EMA1S00 伺服放大器概述Sanyo Denki&#xff08;山洋电气&#xff09;PU0A030EMA1S00 是一款高性能伺服放大器&#xff0c;专为精密运动控制应用设计。该型号通常用于工业自动化、机器人、CNC机床等场景&#xff0c;支持与配套的伺服电机协同工作&#xff0…

便携式半实物测试平台 ETest_PT

1&#xff09;产品简介 ETest_PT是一款便携嵌入式系统测试平台&#xff0c;由软件和硬件两部分组成&#xff0c;软件采用ETest&#xff0c;硬件包括测试主机、USB接口设备&#xff08;CAN、TCP/UDP、RS232/422/485、AD/DA/DI/DO、ARINC429、1553B、1394B、FC等&#xff09;。 …

2026年Highcharts迎来系列更新| V12.5 正式发布

更新日志见官网&#xff1a;https://www.highcharts.com/changelog/ 2026年1月12日 — Highcharts团队正式发布v12.5.0版本&#xff0c;为核心产品线带来多项重要更新。 本次发布最值得关注的亮点包括树状图&#xff08;Dendrogram&#xff09;的正式支持、Highcharts Grid 2…

GBase 8c数据库运维——常见故障定位手段 分享

1.操作系统故障定位手段查询状态时&#xff0c;显示一个节点上所有实例都不正常时&#xff0c;可能是操作系统发生了故障。 可以通过如下方法确定操作系统是否存在问题&#xff1a;通过 SSH 或者其它远程登录工具登录该节点。如果连接失败&#xff0c;请尝试通过 ping 发包检查…

Flutter 又迎大坑修改?iOS 26 键盘变化可能带来大量底层改动

又是一个小问题可能带来的大改动&#xff0c;感觉官方在评估的时候&#xff0c;有点过分细节了。 这个问题来自去年底的 #179482 issue &#xff0c;Flutter 在 iOS 26 上&#xff0c;某些场景会因为出现半透明键盘&#xff0c;而页面底下本来应该被键盘遮挡的 Widget&#xf…