RAG系统架构

以上是从原始数据到最终返回 Top-K 结果的完整流程的信息检索或 RAG（Retrieval-Augmented Generation）系统架构图。整个流程分为四个主要阶段：Extraction（提取）、Preprocessing（预处理）、Indexing（索引构建）、Retrieval（检索）。

🔍 流程详解

1.Extraction（提取）

目标：将原始数据（如 PDF、Word、网页等）转化为结构化内容。

包含模块：
- Document Layout Recognition（文档布局识别）
  → 识别文本、标题、图片、表格等在页面上的位置和结构。
- Table Structure Recognition（表格结构识别）
  → 将表格内容解析为行/列结构，便于后续处理。
- 其他未列出的提取任务（用...表示）

✅ 输出：结构化的文档内容（例如：段落、标题、表格数据等），由Document Parsing Model完成。

2.Preprocessing（预处理）

目标：对提取出的内容进行语义增强与组织，提升后续索引和检索的质量。

包含模块：
- Knowledge Graph Construction（知识图谱构建）
  → 从文本中抽取实体、关系，构建图结构（如“人物-事件-地点”）。
- Document Clustering（文档聚类）
  → 将相似内容的文档或段落分组，用于减少冗余或支持主题导航。
- Embedding Models（嵌入模型）
  → 使用语言模型（如 BERT、Sentence-BERT）生成文本向量表示，为后续索引做准备。

✅ 输出：结构化+语义增强的数据，由Document Processing Model处理。

3.Indexing（索引构建）

目标：将预处理后的数据建立高效可检索的索引。

包含模块：
- Traditional Indices（传统索引）
  → 如倒排索引（Inverted Index），支持关键词快速查找。
- Text Embedding（文本嵌入）
  → 将文本转换为稠密向量，用于语义相似度搜索。
- Sparse Embedding（稀疏嵌入）
  → 如 BM25 的向量化形式，保留关键词权重，适合短文本匹配。
- Subgraph Traversal（子图遍历）
  → 如果构建了知识图谱，则可通过图结构进行路径查询（如“谁参与了什么项目？”）。

✅ 输出：多种类型的索引结构，支持不同方式的检索。

4.Retrieval（检索）

目标：根据用户查询，从索引中召回最相关的 top-k 文档或片段。

包含模块：
- Tensor Based Fused Ranking（基于张量的融合排序）
  → 融合多个信号（如稠密向量 + 稀疏关键词 + 图结构）进行综合打分。
- Other Fused Ranking（其他融合排序方法）
  → 可能包括多模态融合、重排序模型等。
- Query Rewrite Models（查询改写模型）
  → 对原始查询进行扩展或优化（如添加同义词、补全意图），提升召回效果。

✅ 最终输出：Top K个最相关的结果。

🔄 整体流程总结

Data → [Extraction] → 结构化内容（布局、表格等） → [Preprocessing] → 语义增强（知识图谱、聚类、嵌入） → [Indexing] → 多类型索引（传统、嵌入、图结构） → [Retrieval] → 融合排序 + 查询改写 → Top K 结果

💡 核心思想

现代智能检索系统不再依赖单一方法，而是通过“多阶段、多模态、多策略”的协同工作，实现从原始数据到高质量结果的端到端处理。

它强调了以下几点：

关键点	说明
✅结构感知	提取阶段关注文档物理/逻辑结构（布局、表格），避免“纯文本切块”的问题。
✅语义增强	预处理阶段引入知识图谱、聚类、嵌入，提升上下文理解能力。
✅多索引融合	索引阶段同时支持传统关键词 + 语义向量 + 图结构，兼顾 recall 和 utilization。
✅智能检索	检索阶段使用融合排序和查询改写，提升准确率和鲁棒性。