目标:将企业文档源(Confluence、飞书文档、Notion 等)接入本地检索与聊天系统,覆盖数据同步、清洗切分、向量化、权限隔离、增量与监控。
1. 总体思路
- 同步文档 → 格式化 → 清洗切分 → 向量化入库 → 检索 + 权限过滤 → 聊天/RAG。
- 关键:增量同步、租户/权限映射、脏数据清理、回滚。
2. 数据同步
- Confluence:REST API 导出页面;支持增量(lastModified);
- Feishu Docs:OpenAPI 拉取文档/块;需租户/应用凭证;
- Notion:API 查询数据库/页面;分页与更新时间戳;
- 统一存储:原文 + 元数据(doc_id、space、owner、last_modified、permissions)。
3. 清洗与格式化
- 去除导航/目录/模板文本;
- 保留标题层级;表格转 Markdown/CSV;
- 处理图片/附件:提取 alt/描述,必要时 OCR;
- 编码统一 UTF-8,语言标记。