知识库-分段-向量-检索

news/2026/1/9 3:45:27/文章来源:https://www.cnblogs.com/wudequn/p/19331039

一、为什么大模型知识库要分段

1. 背景

大模型(如 GPT、BERT、LLaMA 等)在做向量检索时,通常需要将文本内容切分成较小的段落(chunk),再分别生成 Embedding 存入向量库。
如果不分段,直接用整篇长文生成向量,会出现:

  • 向量语义稀释:长文本包含多个主题,向量会混合不同语义,降低检索匹配精度。
  • 检索性能下降:长向量计算成本高,匹配效率低。
  • 上下文溢出:生成模型输入长度有限(token 限制),无法一次处理超长文本。

2. 分段的好处

  1. 提高语义精度

    • 每段只包含一个相对集中的主题,Embedding 更准确。
    • 检索时匹配到更精准的内容,而不是整篇泛泛相关。
  2. 提升检索速度

    • 短段落向量计算和相似度比较更快。
  3. 支持长文覆盖

    • 将长文拆成多个段落,确保全部内容都可进入向量库。
  4. 便于后续 rerank

    • 每段是独立候选,可以单独评分,灵活组合。

3. 段落长度建议

  • 常见范围:200 ~ 500 字(约 150 ~ 300 token),具体取决于业务和模型的向量效果。
  • 长度取舍:
    • 太短 → 语义信息不足,容易丢失上下文。
    • 太长 → 语义混合,向量不够精确。
  • 经验值:选取能完整表达一个知识点或段落主题的长度。

4. 段落重叠处理

为什么要重叠:

  • 防止信息断裂:如果切分点刚好把一个重要句子或上下文拆开,可能导致检索时缺失关键信息。
  • 保留上下文:重叠部分保证检索到的段落能带上前后关联的内容。

常见重叠策略:

  • 重叠比例:10% ~ 20%(比如每段 300 token,重叠 30~60 token)
  • 重叠内容:通常是段落末尾的几句 + 下一段开头的几句。

二、分段后放入向量库并设置关键词

1. 向量生成

  • 使用大模型(如 OpenAI Embedding API、BERT、SimCSE)将每段生成向量。
  • 向量存入向量数据库(如 Milvus、FAISS、Pinecone)。

2. 设置关键词

  • 为每段生成关键词标签(可人工或自动提取,如 TF-IDF、TextRank)。
  • 关键词用于 全文检索(BM25),保证精确匹配能力。

3. 这样做的原因

  • 双通道检索:既能用向量检索语义相关内容,又能用关键词检索精确匹配术语。
  • 混合检索准备:为后续 BM25 + 向量检索提供数据基础。
  • 提高召回率:有的用户问题是精确术语,有的是自然语言,两者都能覆盖。

三、混合检索 + rerank 模型的原因

1. 混合检索(Hybrid Search)

同时执行:

  • 全文检索(BM25) → 精确匹配关键词,速度快。
  • 向量检索(Embedding) → 匹配语义相似内容,覆盖同义词、改写句。

原因:

  • 两种检索互补,提高召回率。
  • 避免关键词漏召或语义漏召。
  • 适配不同类型问题(术语类 vs 自然语言类)。

2. rerank 模型

rerank(重排序模型) 是一种在 初步检索(Initial Retrieval)之后,对候选结果进行 二次排序 的技术。
它的目标是:

在已有候选结果中,基于更深层的语义理解,找出与用户查询(Query)最相关的内容,并按相关性从高到低重新排列。

换句话说:

    • 初检:快速、粗粒度检索(BM25 / 向量检索),主要保证 召回率(Recall)。
    • rerank:精细、深度语义匹配,主要提升 精确率(Precision)。

 

在混合检索(BM25 + 向量检索)中,虽然召回率高,但存在几个问题:

  1. 排序标准不一致
    • BM25 得分和向量相似度不是同一量纲,无法直接比较。
  2. 初检模型能力有限
    • BM25 只匹配词面,缺乏语义理解。
    • 向量检索是“粗匹配”,可能包含语义相关但不够精确的结果。
  3. 结果质量参差不齐
    • 前几条结果可能并非最佳答案,影响用户体验。

rerank 模型的作用就是解决这些问题,通过统一的深度语义评分机制,挑出真正相关的结果。

 

  • 作用:
    1. 统一排序标准(BM25 分数和向量相似度不可直接比较)。
    2. 深度语义理解,过滤噪音结果。
    3. 保证返回结果的精确度和相关性。
  • 原理:
    • 将 (用户问题, 候选段落) 输入到跨编码器(Cross-Encoder)或大语言模型,输出相关性分数。
    • 按分数排序,返回最优结果。

四、完整工作流程

知识库构建:
原始文档 → 分段(长度控制 + 重叠处理) → 每段生成向量(Embedding)存入向量库→ 每段提取关键词存入全文检索索引检索阶段:
用户问题↓
全文检索(BM25) → 候选集A
向量检索(Embedding) → 候选集B↓
合并候选集(去重)↓
rerank模型统一评分↓
按分数排序返回结果

五、总结

  1. 分段:保证语义集中、检索精度高、覆盖长文。
  2. 段落长度与重叠:平衡信息完整性与向量精度,防止上下文断裂。
  3. 设置关键词:支持全文检索,提升精确匹配能力。
  4. 混合检索:关键词检索与向量检索互补,提升召回率。
  5. rerank 模型:统一排序标准,提升最终结果的相关性和精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

收藏!程序员/小白入门大模型避坑指南:从方向选择到实战路线全解析

这两年,大模型彻底走出实验室的“象牙塔”,走进了程序员的技术栈、学生的学习计划,甚至转行者的职业规划里。打开技术交流群、刷到行业动态,总能看到相关的讨论,而我几乎每天都会收到这样的咨询: “我是后端…

2026年南京半包式装修公司推荐榜:欧式风格装修公司精选 - 工业推荐榜

为帮南京业主高效锁定适配自身需求的装修合作伙伴,避免选型走弯路,我们从半包施工品质(如工艺标准、材料把控)、设计风格还原度(含欧式风格细节呈现、空间美学适配)、全周期服务质量(覆盖前期设计到后期维保)及…

2026留学优选:新加坡年度最佳留学中介服务排行榜揭晓 - 留学机构评审官

2026留学优选:新加坡年度最佳留学中介服务排行榜揭晓从业九年的新加坡全案规划导师,常被学生问及:“老师,2026年申请新加坡,究竟哪家中介更靠谱?”随着新加坡公立大学申请竞争日趋激烈,一个专业、透明、高效的留…

跳出固有思维,做好绩效管理——HR书单推荐

推荐几本绩效管理方面的经典书籍供各位HR朋友参考。 这些书不仅有绩效管理的方法与理论,更重要的是能帮助你像企业CEO一样思考,站在一定的高度之上,去系统化、体系化地思考。 只有把眼界放宽才能真正做好绩效管理或…

智慧城市运维管理平台解决方案

随着城市化进程加快,道路路灯、新能源充电桩、供排水泵站等公共设施越来越多,传统“人海巡查被动报修”的运维模式早已力不从心。设施分布分散、类型复杂、故障响应滞后、数据碎片化等痛点,不仅降低城市管理效率,更直接影响市民生…

沃尔玛卡密如何回收,三种操作变现指南 - 淘淘收小程序

预付卡权益的科学处置是现代生活中的实用知识模块,沃尔玛卡作为常见的预付卡类型,因消费场景限制、持有需求变化等原因,存在不少闲置情况。数据显示,近半数闲置预付卡会因有效期届满而失去价值,掌握规范的回收方法…

2026上海留学中介哪家强?口碑榜单揭晓,选对机构不迷茫 - 留学机构评审官

2026上海留学中介哪家强?口碑榜单揭晓,选对机构不迷茫作为从事12年国际教育规划师,我经常在咨询中遇到学生和家长询问:上海留学中介中哪家机构更值得信赖?哪些机构在本地有扎实的口碑和案例?基于2026年1月5日的最…

2026最新山地车花鼓企业top5推荐榜!优质生产厂家及服务商解析/选择指南 - 全局中转站

随着骑行运动专业化与休闲骑行品质化需求的双重升级,山地车花鼓作为传动系统核心组件,其性能直接影响骑行效率、安全性与操控体验。据国际自行车联合会(UCI)最新技术报告显示,优质花鼓可提升15%的动力传输效率,而…

2025年上海做得好的全屋定制工作室怎么选择,原木风装饰设计/复古新房装修/轻奢室内设计,全屋定制工作室推荐榜 - 品牌推荐师

近年来,全屋定制行业因个性化需求激增与消费升级持续扩容,上海作为国内家装市场核心城市,竞争尤为激烈。据第三方机构统计,2024年上海全屋定制市场规模突破380亿元,但行业仍存在设计落地脱节、材料环保不达标、售…

2026年北京地毯清洗公司排行榜:健身房地毯清洗专业服务商推荐 - myqiye

地毯作为商业空间与家庭场景的常见软装,长期使用易积累灰尘、咖啡渍、果汁渍等顽固污渍,尤其健身房地毯还面临汗液、运动饮料色素沉着及细菌滋生问题。为帮用户高效锁定专业地毯清洗服务商,避免色素残留、纤维损伤等…

2026新加坡留学中介权威榜单:从服务口碑到录取率深度测评 - 留学机构评审官

2026新加坡留学中介权威榜单:从服务口碑到录取率深度测评一、2026年新加坡留学中介如何选择?这份榜单给你答案2026年1月4日,对于计划前往新加坡深造的学生而言,“如何选择一家靠谱的留学中介”是搜索频率最高的问题…

克重之力:轻量化无人机集群如何重塑山地救援黄金72小时 - 品牌2025

山地环境下的突发地质灾害,往往伴随着交通阻断、通讯中断与信息盲区,对救援响应速度与决策精度提出严峻挑战。黄金救援72小时内,态势感知的及时性与准确性直接关乎生命存续。 传统勘察手段常因地形复杂、响应迟缓而…

真空泵品牌有哪些?热门真空泵品牌推荐:真空泵性能对比与选型指南 - mypinpai

本榜单依托行业专业评测、市场占有率数据及真实用户反馈,深度筛选五家标杆真空泵企业,从性能参数、技术实力、服务体系多维度解析,为工业、科研等领域用户提供客观选型依据,助力精准匹配适配的真空设备合作伙伴。T…

2026最新BMX花鼓企业top5推荐榜!优质生产厂家及服务商解析/选择指南 - 全局中转站

引言 随着全球极限运动骑行市场的蓬勃发展,BMX等专业竞技领域对核心传动部件的性能要求持续攀升,花鼓作为影响骑行效率、安全性与操控体验的关键组件,其技术精度与耐用性成为专业骑手与高端品牌的核心考量。据国际自…

北京留学中介TOP榜揭晓:服务专业度定榜单座次 - 留学机构评审官

北京留学中介TOP榜揭晓:服务专业度定榜单座次一、北京学子如何挑选专业可靠的留学中介?撰写本文时,是2026年1月4日。对于众多北京高校的学生与家庭而言,选择留学中介时普遍存在几个核心关切:如何从众多机构中识别…

一站式国标2015+充电仿真与测试介绍

随着新能源汽车的普及和充电标准的更新,新能源汽车和充电桩的充电能力和兼容性得也在不断提升。2015年发布的国标直流充电协议-GB/T 27930-2015《电动汽车非车载传导式充电机与电池管理系统之间的通信协议》,如今已升…

Over 工具的文本排版能让图文更吸睛?

Instagram 图文排版,用 Over App 真的能让帖子更吸睛吗? 说真的,每次打开 Instagram,手指一滑,那些帖子要是第一眼没抓住我,我基本就直接划走了。估计你也是这样吧?在这个信息爆炸的瀑布流里,用户的耐心可能比…

北京留学中介榜单:口碑好机构助力学子申请海外名校 - 留学机构评审官

北京留学中介榜单:口碑好机构助力学子申请海外名校一、北京学子如何挑选留学中介?从业十二年的北京地区资深申请规划导师为您解答。近年来,随着留学申请竞争日趋激烈,许多北京的学生和家长在寻找留学中介时常常感到…

Z-Image-Edit支持视频帧编辑吗?未来可能性探讨

Z-Image-Edit 支持视频帧编辑吗?未来可能性探讨 在短视频、AI生成内容(AIGC)和智能影视制作高速发展的今天,一个自然的问题浮出水面:我们能否用像 Z-Image-Edit 这样的图像编辑大模型,来实现对视频的逐帧智…

2026河南驾校培训源头机构TOP5推荐:甄选优质生产商 - 工业设备

驾培市场需求多元,学员选择可靠机构成难题。2024年数据显示,河南驾培市场规模超50亿元,年增速25%,但投诉集中在训练不专业、隐性消费、周期冗长三大问题。小型车学员因时间冲突练车难,大型车学员受增驾限制多,摩…