以《出师表》作为例子,对比通用分块和父子分块的区别
我们以《出师表》(节选)为例,通过具体分割结果对比通用分块和父子分块的核心差异。《出师表》结构清晰(含表文开头、历史回顾、治国建议、出师目的等部分),适合展示两种分块策略的不同逻辑。
原始文本(《出师表》节选)
先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益,进尽忠言,则攸之、祎、允之任也。愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、祎、允等之慢,以彰其咎。陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏。臣不胜受恩感激。今当远离,临表涕零,不知所言。
一、通用分块(按固定长度分割)
核心逻辑
不考虑文本天然段落结构,按固定字符数(此处设为 200字,含少量重叠)分割为独立片段,所有分块平级无关联。
分割结果(示例)
# 分块1
先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。# 分块2(与分块1重叠部分:宫中府中...)
宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。# 分块3
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。# 分块4(后续内容,略)
...
特点
- 破坏天然结构:如“宫中府中”的治国建议被拆分为分块1和分块2,完整语义被割裂;
- 检索依赖运气:若用户问“诸葛亮推荐了哪些宫中大臣?”,需恰好命中包含“郭攸之、费祎、董允”的分块2,若分块长度设置不当,可能遗漏;
- 无上下文关联:分块3提到“向宠”,但无法直接关联到其属于“军事建议”的整体逻辑。
二、父子分块(按语义层级分割)
核心逻辑
先按天然段落/主题拆分为“父块”(保留完整语义单元),再从父块中拆分“子块”(细节信息),子块通过元数据绑定父块。
分割结果(示例)
1. 父块(按主题划分,保留完整逻辑)
# 父块1(开篇立论与核心建议)
先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。然侍卫之臣不懈于内,忠志之士忘身于外者,盖追先帝之殊遇,欲报之于陛下也。诚宜开张圣听,以光先帝遗德,恢弘志士之气,不宜妄自菲薄,引喻失义,以塞忠谏之路也。# 父块2(治国原则:宫中与府中统一)
宫中府中,俱为一体,陟罚臧否,不宜异同。若有作奸犯科及为忠善者,宜付有司论其刑赏,以昭陛下平明之理,不宜偏私,使内外异法也。# 父块3(推荐宫中大臣)
侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯,是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。# 父块4(推荐军事人才)
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能,是以众议举宠为督。愚以为营中之事,悉以咨之,必能使行阵和睦,优劣得所。# 父块5(亲贤远佞的历史教训)
亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。先帝在时,每与臣论此事,未尝不叹息痛恨于桓、灵也。侍中、尚书、长史、参军,此悉贞良死节之臣,愿陛下亲之信之,则汉室之隆,可计日而待也。# 父块6(自述身世与先帝之恩)
臣本布衣,躬耕于南阳,苟全性命于乱世,不求闻达于诸侯。先帝不以臣卑鄙,猥自枉屈,三顾臣于草庐之中,咨臣以当世之事,由是感激,遂许先帝以驱驰。后值倾覆,受任于败军之际,奉命于危难之间,尔来二十有一年矣。# 父块7(出师目的与责任划分)
先帝知臣谨慎,故临崩寄臣以大事也。受命以来,夙夜忧叹,恐托付不效,以伤先帝之明,故五月渡泸,深入不毛。今南方已定,兵甲已足,当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。此臣所以报先帝而忠陛下之职分也。至于斟酌损益,进尽忠言,则攸之、祎、允之任也。# 父块8(临终嘱托)
愿陛下托臣以讨贼兴复之效,不效,则治臣之罪,以告先帝之灵。若无兴德之言,则责攸之、祎、允等之慢,以彰其咎。陛下亦宜自谋,以咨诹善道,察纳雅言,深追先帝遗诏。臣不胜受恩感激。今当远离,临表涕零,不知所言。
2. 子块(从父块中拆分细节,绑定父块ID)
# 子块1(父块3的细节:推荐的宫中大臣姓名)
侍中、侍郎郭攸之、费祎、董允等,此皆良实,志虑忠纯。
(元数据:parent_id=3,父块主题“推荐宫中大臣”)# 子块2(父块3的细节:推荐理由)
是以先帝简拔以遗陛下。愚以为宫中之事,事无大小,悉以咨之,然后施行,必能裨补阙漏,有所广益。
(元数据:parent_id=3)# 子块3(父块4的细节:推荐的军事人才)
将军向宠,性行淑均,晓畅军事,试用于昔日,先帝称之曰能。
(元数据:parent_id=4,父块主题“推荐军事人才”)# 子块4(父块7的细节:出师目标)
当奖率三军,北定中原,庶竭驽钝,攘除奸凶,兴复汉室,还于旧都。
(元数据:parent_id=7,父块主题“出师目的与责任划分”)# 子块5(父块5的细节:亲贤远佞的历史对比)
亲贤臣,远小人,此先汉所以兴隆也;亲小人,远贤臣,此后汉所以倾颓也。
(元数据:parent_id=5,父块主题“亲贤远佞的历史教训”)
特点
- 保留语义完整性:每个父块对应一个独立主题(如“推荐宫中大臣”“出师目的”),避免通用分块的割裂问题;
- 检索精准且有背景:若用户问“诸葛亮推荐了哪些人处理宫中事务?”,先通过子块1(含“郭攸之、费祎、董允”)匹配,再通过
parent_id=3回溯父块3,获取完整推荐理由和建议; - 支持复杂关联查询:若用户问“诸葛亮认为汉朝兴衰的关键是什么?”,子块5匹配“亲贤臣,远小人”,父块5提供完整历史教训(先汉兴隆、后汉倾颓),答案更全面。
三、核心区别总结
| 对比维度 | 通用分块(《出师表》案例) | 父子分块(《出师表》案例) |
|---|---|---|
| 分块依据 | 固定字符长度(如200字),不考虑段落/主题 | 文本天然主题(如“推荐大臣”“出师目的”),先父后子 |
| 语义完整性 | 差(如“宫中府中”建议被拆分到两个分块) | 好(父块完整保留每个主题的逻辑) |
| 检索逻辑 | 直接匹配分块,若问题涉及跨分块内容,易遗漏关联 | 先匹配子块(细节),再关联父块(背景),自动补全逻辑 |
| 适用问题类型 | 简单事实查询(如“先帝崩殂时天下局势如何?”) | 复杂关联查询(如“诸葛亮推荐大臣的理由与治国建议的关系”) |
通过《出师表》的例子可见:通用分块适合快速处理结构简单的文本和基础查询,而父子分块更适合结构清晰、需要深度理解的文本(如古文、论文、长报告),能在精准匹配细节的同时,保留完整的语义背景。