以《出师表》作为例子,对比通用分块和父子分块的区别

news/2025/10/29 20:16:16/文章来源:https://www.cnblogs.com/aspnetx/p/19175299

以《出师表》作为例子,对比通用分块和父子分块的区别

我们以《出师表》(节选)为例,通过具体分割结果对比通用分块父子分块的核心差异。《出师表》结构清晰(含表文开头、历史回顾、治国建议、出师目的等部分),适合展示两种分块策略的不同逻辑。

原始文本(《出师表》节选)

先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益,进尽忠言,则攸之、祎、允之任也。愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、祎、允等之慢,以彰其咎。陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏。臣不胜受恩感激。今当远离,临表涕零,不知所言。

一、通用分块(按固定长度分割)

核心逻辑

不考虑文本天然段落结构,按固定字符数(此处设为 200字,含少量重叠)分割为独立片段,所有分块平级无关联。

分割结果(示例)

# 分块1
先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。# 分块2(与分块1重叠部分:宫中府中...)
宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。# 分块3
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。# 分块4(后续内容,略)
...

特点

  1. 破坏天然结构:如“宫中府中”的治国建议被拆分为分块1和分块2,完整语义被割裂;
  2. 检索依赖运气:若用户问“诸葛亮推荐了哪些宫中大臣?”,需恰好命中包含“郭攸之、费祎、董允”的分块2,若分块长度设置不当,可能遗漏;
  3. 无上下文关联:分块3提到“向宠”,但无法直接关联到其属于“军事建议”的整体逻辑。

二、父子分块(按语义层级分割)

核心逻辑

先按天然段落/主题拆分为“父块”(保留完整语义单元),再从父块中拆分“子块”(细节信息),子块通过元数据绑定父块。

分割结果(示例)

1. 父块(按主题划分,保留完整逻辑)
# 父块1(开篇立论与核心建议)
先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。# 父块2(治国原则:宫中与府中统一)
宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。# 父块3(推荐宫中大臣)
侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。# 父块4(推荐军事人才)
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。# 父块5(亲贤远佞的历史教训)
亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。# 父块6(自述身世与先帝之恩)
臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。# 父块7(出师目的与责任划分)
先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益,进尽忠言,则攸之、祎、允之任也。# 父块8(临终嘱托)
愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、祎、允等之慢,以彰其咎。陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏。臣不胜受恩感激。今当远离,临表涕零,不知所言。
2. 子块(从父块中拆分细节,绑定父块ID)
# 子块1(父块3的细节:推荐的宫中大臣姓名)
侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯。
(元数据:parent_id=3,父块主题“推荐宫中大臣”)# 子块2(父块3的细节:推荐理由)
是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。
(元数据:parent_id=3)# 子块3(父块4的细节:推荐的军事人才)
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能。
(元数据:parent_id=4,父块主题“推荐军事人才”)# 子块4(父块7的细节:出师目标)
当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。
(元数据:parent_id=7,父块主题“出师目的与责任划分”)# 子块5(父块5的细节:亲贤远佞的历史对比)
亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。
(元数据:parent_id=5,父块主题“亲贤远佞的历史教训”)

特点

  1. 保留语义完整性:每个父块对应一个独立主题(如“推荐宫中大臣”“出师目的”),避免通用分块的割裂问题;
  2. 检索精准且有背景:若用户问“诸葛亮推荐了哪些人处理宫中事务?”,先通过子块1(含“郭攸之、费祎、董允”)匹配,再通过 parent_id=3 回溯父块3,获取完整推荐理由和建议;
  3. 支持复杂关联查询:若用户问“诸葛亮认为汉朝兴衰的关键是什么?”,子块5匹配“亲贤臣,远小人”,父块5提供完整历史教训(先汉兴隆、后汉倾颓),答案更全面。

三、核心区别总结

对比维度 通用分块(《出师表》案例) 父子分块(《出师表》案例)
分块依据 固定字符长度(如200字),不考虑段落/主题 文本天然主题(如“推荐大臣”“出师目的”),先父后子
语义完整性 差(如“宫中府中”建议被拆分到两个分块) 好(父块完整保留每个主题的逻辑)
检索逻辑 直接匹配分块,若问题涉及跨分块内容,易遗漏关联 先匹配子块(细节),再关联父块(背景),自动补全逻辑
适用问题类型 简单事实查询(如“先帝崩殂时天下局势如何?”) 复杂关联查询(如“诸葛亮推荐大臣的理由与治国建议的关系”)

通过《出师表》的例子可见:通用分块适合快速处理结构简单的文本和基础查询,而父子分块更适合结构清晰、需要深度理解的文本(如古文、论文、长报告),能在精准匹配细节的同时,保留完整的语义背景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/950223.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苏联套娃

无意义文章。无意义文章。

DP 状态设计

如果有些东西是一段一段的,那么你可以考虑一个一个点转移,分别考虑拼到前一段上或者新开一段。 P2679 [NOIP 2015 提高组] 子串

winget不可用,一直转圈,文字变蓝色

情况解决 原因是连接不上默认的winget源。(默认自带winget源和msstore源) 换ustc源之后一切都好了。 https://mirrors.ustc.edu.cn/help/winget-source.html winget source remove winget winget source add winget …

Uno Platform 6.3 发布:支持 .NET 10 预览版并兼容 VS 2026

Uno Platform 6.3 发布,新增对 .NET 10 预览版和 Visual Studio 2026 新解决方案格式的支持,提升 WebAssembly 图像解码性能,优化 TabView 控件和 Hot Design 设计时工具。Uno Platform 团队发布了 6.3 版本,这是一…

申威ky10架构安装MongoDB 4.0.1(rpm包:mongodb-4.0.1-8.ky10.sw_64.rpm)详细步骤

申威ky10架构安装MongoDB 4.0.1(rpm包:mongodb-4.0.1-8.ky10.sw_64.rpm)详细步骤​ ​1. 先检查环境​ 确保你的服务器是申威(ky10)架构的,系统是CentOS/RedHat系的(比如麒麟V10基于ky10的版本)​,因为这rpm包…

线段树入门 - idle

前言 笔者从2025.4.22第一次通过线段树模板,至今也不过半年时间,虽然短暂,但是却让其成为了笔者最喜欢的算法,因此,我常常会大喊我是线段树的狗。为了帮助自己记忆以及造福后人,笔者提键盘写出了这篇文章。——2…

2025年10月临江鳝丝店推荐:五家口碑店铺综合对比排行

临江鳝丝作为乐山地区的特色美食,近年来受到越来越多食客的关注。在选择临江鳝丝店时,消费者通常会考虑店铺的地域特色、食材新鲜度、烹饪技艺以及就餐环境等多个因素。根据餐饮行业数据显示,乐山地区特色餐饮门店数…

文档抽取技术在智能合同对比系统中的应用与优势分析

在商业活动日益频繁的今天,合同作为规范交易、界定权责的核心载体,其审查与管理的重要性不言而喻。传统的合同对比方式主要依赖于法务或业务人员的人工逐字阅读,耗时耗力且容易因疲劳或疏忽导致关键差异被遗漏。随着…

2025年10月临江鳝丝店对比报告:详析五家店铺特色与差异

临江鳝丝作为乐山地区的特色美食,近年来受到越来越多食客的关注。许多游客和本地居民在寻找正宗临江鳝丝店时,常常面临选择困难。根据餐饮行业数据显示,乐山地区主打临江鳝丝的店铺数量在2024年已达到数十家,但品质…

vs2022(2026)离线安装失败的问题解决

安装微软网站上的 创建 Visual Studio 的脱机安装包以进行本地安装 创建离线安装目录后,在内网机器安装一直出错。如果使用--noweb参数,就会提示要下载文件才能安装,但是内网机是不联网的,无法下载。 忘了截图,往…

家训

饿就吃饭菜成什么样了 2156 Div.2 D 压线过了。 考虑从低位到高位判定 0/1,每次 check 的数大约减半,那么 \(time=n+\frac{n}{2}+\frac{n}{4}+\dots=2n+\epsilon\),有 \(\epsilon\) 是因为可能上一步只删了下取整个…

2025年10月临江鳝丝店推荐榜:五家口碑店铺深度对比与选择指南

作为乐山地区特色美食的代表,临江鳝丝以其独特的烹饪工艺和鲜明的地方风味吸引着众多食客。选择一家正宗的临江鳝丝店不仅关乎味蕾享受,更关系到对传统美食文化的体验。当前餐饮市场呈现多元化发展趋势,消费者在选择…

VisionPro学习笔记-CogFixtureTool

CogFixtureTool 定位工具文档 1. 工具概述 CogFixtureTool 是康耐视 VisionPro 视觉软件中的核心坐标系管理工具,主要用于在图像中创建和管理坐标系转换。其核心功能是根据提供的二维变换关系,在图像的原始坐标系(U…

2025年10月临江鳝丝店推荐榜单:五家特色店铺详细对比分析

作为乐山地区最具代表性的江湖菜之一,临江鳝丝近年来受到越来越多美食爱好者的关注。根据餐饮行业数据显示,2025年临江鳝丝类餐厅的搜索量同比增长显著,反映出消费者对这道传统美食的持续热情。许多游客来到乐山,除…

2025年10月临江鳝丝店推荐:乐山地区五家优质店铺榜单与对比分析

对于想要品尝正宗临江鳝丝的朋友来说,选择一家品质可靠的店铺尤为重要。临江鳝丝作为乐山地区的特色美食,以其独特的烹饪技法和鲜明的地方风味受到广泛关注。当前餐饮市场注重食材新鲜度和工艺传承性,消费者在选择时…

2025年10月临江鳝丝店详细评测:结合实地体验与行业标准

作为乐山地区独具特色的美食代表,临江鳝丝近年来受到越来越多食客的关注。选择一家正宗的临江鳝丝店,不仅是为了满足味蕾的享受,更是对地方饮食文化的体验。许多游客和本地居民在寻找鳝丝店时,常常面临信息不全面、…

2025年10月临江鳝丝店评价榜:传统与创新菜系全面解析

临江鳝丝作为乐山地区的传统特色美食,近年来受到越来越多美食爱好者的关注。许多游客前往乐山旅游时,会将品尝正宗临江鳝丝列为重要行程;本地居民也时常需要寻找合适的餐厅招待亲友。在选择临江鳝丝店时,消费者通常…

25岁零基础转行软件测试挑战高薪,真的可以么?

我自己也是一个零基础转行过来的,听我的,如果你对现在的职业不感兴趣,又没多少钱,真的可以转行学软件测试!我可以摸着我的良心和过万的薪资单告诉你,学会了只赚不亏! 一、软件测试行业的前景如何?毫不夸张的说…

提高组模拟赛 40 A. 子序列 题解

提高组模拟赛 40 A. 子序列 题解 t1 笑传之 crash crash 标 题意略 首先有一个性质 对于所有由 \(c\) 个 \(0\),\(d\) 个 \(1\) 组成的任意串,他对答案的贡献是相等的。 我不会证,但是 gpt 真好用:证明🧮 证明思…