Youtu-GraphRAG是腾讯优图提出的垂直统一图检索增强框架,通过"图模式"统一约束图构建、索引和检索三阶段,实现构建成本节省90%+、准确率提升16%+的双重突破。其双重感知社区检测算法无需LLM调用即可生成高质量层次结构,提出的AnonyRAG评估基准解决了知识泄露问题。实验证明该框架在多跳推理任务上表现优异,支持中英双语,为GraphRAG领域带来重要进展。
Youtu-GraphRAG 论文解读:腾讯优图的垂直统一图检索增强框架
一句话总结:Youtu-GraphRAG 通过引入"图模式"(Graph Schema)作为统一约束,将图构建、图索引和图检索三个阶段垂直整合,实现了**构建成本节省 90%+和准确率提升 16%+**的双重突破,是 GraphRAG 领域的重要进展。
📖 目录
- 引言:为什么需要 GraphRAG?[1]
- 核心问题:现有方法的割裂困境[2]
- Youtu-GraphRAG 框架:垂直统一的智能体范式[3]
- 技术细节:图模式、知识树与智能体检索[4]
- 实验结果:效率与性能的帕累托突破[5]
- AnonyRAG:解决知识泄露的新评估基准[6]
- 实际应用与复现思考[7]
- 总结与未来展望[8]
- 引言:为什么需要 GraphRAG?
传统 RAG 的瓶颈
想象一下,你问一个 AI 助手:“《水浒传》中宋江和李逵的关系如何发展?他们最终的结局有什么联系?”
传统的 RAG 系统会:
- 把问题转化为向量
- 从文档库中检索最相似的几段文字
- 让 LLM 基于这些片段生成答案
问题在哪?
- 片段化检索:返回的可能是孤立的段落,缺乏人物关系的上下文
- 多跳推理困难:回答需要关联多个事实(宋江 → 李逵 → 宋江毒杀李逵 → 宋江死后李逵自杀),传统检索难以捕捉这种链式关系
- 全局视角缺失:无法回答需要跨文档综合分析的问题
GraphRAG 的解决思路
GraphRAG(Graph-based Retrieval-Augmented Generation)的核心思想是:
将碎片化的知识组织成结构化的图谱,通过图的关联性支持复杂推理
具体来说:
- 图构建:从文档中提取实体和关系,构建知识图谱
- 图索引:对图进行社区检测、摘要生成等索引操作
- 图检索:根据查询在图上进行路径遍历、子图匹配等操作
- 增强生成:将检索到的结构化知识注入 LLM 生成答案
研究背景
近年来,GraphRAG 技术发展迅速,出现了多个重要工作:
- Microsoft GraphRAG:使用 Leiden 算法进行社区检测,生成层次化摘要
- LightRAG:轻量级图谱构建,强调效率
- HippoRAG:模拟海马体记忆机制的检索架构
然而,这些方法都存在一个共同问题:图构建和图检索是割裂的。
本文要介绍的Youtu-GraphRAG,来自腾讯优图实验室、莫纳什大学和香港理工大学的研究团队,正是为了解决这一核心问题而生。
论文信息:
- 标题:Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning
- 作者:Junnan Dong, Siyu An, Yifei Yu, Qian-Wen Zhang, Linhao Luo, Xiao Huang, Yunsheng Wu, Di Yin, Xing Sun
- 机构:腾讯优图实验室、莫纳什大学、香港理工大学
- 代码开源:https://github.com/Tencent/Youtu-GraphRAG[9]
- 核心问题:现有方法的割裂困境
在深入 Youtu-GraphRAG 之前,我们需要理解它要解决的问题到底有多棘手。
Figure 1: 现有管道与Youtu-GraphRAG的对比
图 1:现有 GraphRAG 方法与 Youtu-GraphRAG 的对比。(a) 传统方法只关注图构建的优化;(b) 另一类方法只关注检索策略的改进;© Youtu-GraphRAG 通过图模式(Schema)将构建、索引、检索三个阶段垂直统一,形成认知闭环。
2.1 孤立优化的困境
生活化比喻:想象你在建一座图书馆。
- **只优化"建馆"**(图 a):你花大力气设计了精美的书架和分类系统,但没考虑读者怎么找书。结果书架虽然漂亮,但读者经常找不到需要的书。
- **只优化"找书"**(图 b):你设计了复杂的检索系统,但书架上的书是随便摆放的。再强大的检索系统也无法弥补混乱的藏书布局。
- 统一设计(图 c):你先定义"什么类型的书应该放在一起"的规则(Schema),然后让建馆和找书都遵循这套规则。这样,书的组织方式和检索方式天然匹配。
2.2 三个具体问题
问题 1:开放式提取的噪声
传统的信息提取(如 OpenIE)会从文档中提取大量三元组,但其中包含:
- 冗余信息:同一事实的多种表述
- 错误信息:LLM 幻觉产生的虚假关系
- 无用信息:对问答无关的琐碎细节
问题 2:索引与检索的脱节
现有方法通常使用通用的社区检测算法(如 Leiden),但这些算法:
- 只考虑拓扑结构,忽略语义信息
- 产生的社区对检索任务可能不是最优的
- 难以与下游的查询分解对齐
问题 3:查询分解的漂移
在处理复杂多跳问题时,LLM 需要将问题分解为子问题。但如果分解过程不受约束:
- 子问题可能偏离知识图谱的覆盖范围
- 生成的查询可能无法在图上有效检索
- 导致"解释漂移"(Interpretation Drift)
2.3 Youtu-GraphRAG 的核心洞察
论文的核心洞察是:
用同一套图模式(Graph Schema)统一约束图构建、图索引和图检索三个阶段
这就像为图书馆制定一套完整的"藏书标准":
- 构建时:只提取符合标准的书籍信息
- 索引时:按标准对书籍进行分类和聚类
- 检索时:根据标准将读者查询转化为有效的检索请求
- Youtu-GraphRAG 框架:垂直统一的智能体范式
Youtu-GraphRAG 的核心思想很朴素:用图模式作为认知锚点,统一整个流程。
Figure 2: Youtu-GraphRAG框架概览
图 2:Youtu-GraphRAG 的端到端工作流程。左侧展示了基于种子图模式(Seed Graph Schema)的约束提取过程;中间展示了四层知识树的构建,包括社区层、关键词层、实体-关系层和属性层;右侧展示了智能体检索器如何利用同一套 Schema 进行查询分解和多路由检索。
3.1 什么是图模式(Graph Schema)?
图模式是一个三元组 ,包含:
| 组件 | 含义 | 示例 |
|---|---|---|
| 实体类型集合 | {PERSON, ORGANIZATION, LOCATION, EVENT} | |
| 关系类型集合 | {WORKS_FOR, LOCATED_IN, COMPARED_TO, VISITS} | |
| 属性类型集合 | {NAME, REVENUE, HEADQUARTERS, TIME} |
生活化比喻:图模式就像一个"表格模板"。想象你要整理一个公司的员工信息:
- 实体类型 = 表格的"列名"(姓名、部门、职位)
- 关系类型 = 表格之间的"外键"(员工 → 部门、部门 → 公司)
- 属性类型 = 每列的"数据类型"(姓名是文本、薪资是数字)
3.2 三个阶段的统一
阶段 1:基于模式的约束提取
传统方法让 LLM 自由提取信息,导致噪声泛滥。Youtu-GraphRAG 则:
- 模式约束:提取智能体必须输出符合 Schema 的三元组
- 自适应扩展:遇到新领域时,智能体可以提议扩展 Schema,但需要高置信度验证
# 伪代码:基于模式的约束提取def extract_with_schema(document, schema): prompt = f""" 根据以下模式提取信息: - 实体类型: {schema.entity_types} - 关系类型: {schema.relation_types} - 属性类型: {schema.attribute_types} 文档: {document} 仅输出符合模式的三元组。 """ triples = llm.generate(prompt) # 过滤不符合模式的三元组 return filter_by_schema(triples, schema)好处:
- 大幅减少噪声三元组
- 保证图谱的一致性和可查询性
- 降低 LLM 调用成本
阶段 2:基于模式的层次索引
提取完三元组后,需要建立有效的索引结构。Youtu-GraphRAG 构建了一个四层知识树:
| 层级 | 内容 | 作用 |
|---|---|---|
| 社区层 | 高层语义聚类 | 支持全局查询和 top-down 过滤 |
| 关键词层 | 社区的关键词索引 | 快速定位相关社区 |
| 实体-关系层 | 三元组 (h, r, t) | 支持多跳推理 |
| 属性层 | 实体的属性信息 | 支持约束匹配 |
这种层次结构支持:
- 自上而下的过滤:先定位相关社区,再深入细节
- 自下而上的推理:从具体事实出发,逐步聚合答案
阶段 3:基于模式的智能体检索
最关键的创新在于,检索智能体也使用同一套 Schema来分解查询:
# 伪代码:基于模式的查询分解def decompose_query(query, schema): prompt = f""" 基于以下图模式将复杂查询分解为原子子查询: - 实体类型: {schema.entity_types} - 关系类型: {schema.relation_types} 查询: {query} 生成符合模式的子查询列表。 """ sub_queries = llm.generate(prompt) return sub_queries好处:
- 生成的子查询一定能在图上找到对应的模式
- 避免"解释漂移"——子查询始终在图谱的覆盖范围内
- 支持并行检索,提高效率
- 技术细节:图模式、知识树与智能体检索
4.1 双重感知社区检测
这是 Youtu-GraphRAG 的核心算法创新。
Figure 3: 双重感知社区检测
图 3:双重感知社区检测算法流程。(a) 首先通过三元组嵌入进行初始聚类,得到初始社区划分;(b) 结合结构相似性(邻接矩阵)和语义相似性(三元组-子图匹配)计算双重感知评分,识别社区中心;© 通过迭代的成对社区融合,形成最终的层次化社区结构。
为什么需要"双重感知"?
传统社区检测算法(如 Leiden、Louvain)只考虑图的拓扑结构:
- 只看边的连接:如果两个节点之间有很多边,就认为它们属于同一社区
- 忽略语义信息:两个实体即使描述的是完全不同的主题,只要连接紧密就会被聚在一起
生活化比喻:想象你要给一群人分组。传统方法只看"谁和谁是朋友",但忽略了"大家在讨论什么话题"。结果可能把一个讨论科技的朋友圈和一个讨论美食的朋友圈混在一起,只因为群里有几个"社交达人"同时在两边活跃。
双重感知评分函数
Youtu-GraphRAG 设计了一个融合结构和语义的评分函数:
其中:
- :结构相似性,基于 Jaccard 系数计算实体与社区的邻域重叠
- :语义相似性,计算实体的三元组嵌入与社区子图嵌入的余弦相似度
- :平衡两者的超参数
- :融合操作(论文中使用加权求和)
直觉解释:
- 回答"这个实体在结构上属于哪个社区?"
- 回答"这个实体在语义上属于哪个社区?"
- 综合两者,才能得到既结构合理又语义一致的社区划分
算法流程
- 初始化(图 3a):
- 为每个三元组生成嵌入向量
- 使用 K-means 对三元组进行初步聚类
- 双重感知评估(图 3b):
- 计算每个实体与各社区的 评分
- 识别社区中心(评分最高的实体)
- 迭代融合(图 3c):
- 成对比较相邻社区
- 如果两个社区的语义相似度超过阈值,则融合
- 重复直到收敛
关键优势:
- 生成的社区语义更一致,便于后续的关键词索引
- 层次结构自然形成,支持多粒度检索
- 不需要 LLM 调用,大幅降低成本(这是与 Microsoft GraphRAG 的关键区别)
4.2 智能体检索器
Figure 4: 查询解析策略对比
图 4:处理复杂多跳问题的三种策略对比。左侧为传统的嵌入匹配方法,只能检索碎片化事实;中间为传统智能体方法,容易陷入重复模板;右侧为 Youtu-GraphRAG 的 Agentic GraphQ 方法,利用领域 Schema 将复杂查询分解为结构化的并行子查询,大幅提升检索效率和准确性。
多路由检索策略
Youtu-GraphRAG 实现了四种并行检索路由:
| 路由 | 适用场景 | 实现方式 |
|---|---|---|
| 实体匹配 | 单跳简单查询 | 直接在实体层匹配 |
| 三元组匹配 | 多跳推理任务 | 沿关系边遍历 |
| 社区过滤 | 全局概括查询 | 自上而下的聚类过滤 |
| DFS 路径遍历 | 复杂多约束问题 | 深度优先搜索(最大深度 d=5) |
智能体会根据查询类型动态选择路由,并行执行检索。
迭代推理与反思
检索结果需要经过反思机制进行验证和修正:
def iterative_reasoning(query, schema, knowledge_tree): sub_queries = decompose_query(query, schema) for iteration in range(max_iterations): # 并行检索 results = parallel_retrieve(sub_queries, knowledge_tree) # 反思:检查结果是否充分 reflection = reflect(query, results) if reflection.is_sufficient: return aggregate_answer(results) else: # 根据反思调整子查询 sub_queries = refine_queries(sub_queries, reflection) return aggregate_answer(results)直觉解释:这就像一个侦探破案——先根据线索制定调查计划,执行调查后检查是否有遗漏,如果证据不足就调整计划继续调查。
- 实验结果:效率与性能的帕累托突破
5.1 实验设置
数据集:
- 多跳问答:HotpotQA、2WikiMultiHopQA、MuSiQue
- 图基准:GraphRAG-Bench(G-Bench)
- 匿名数据集:AnonyRAG-CHS(中文)、AnonyRAG-ENG(英文)
评估模式:
- Open Mode:允许 LLM 在检索不足时使用内部知识
- Reject Mode:检索不足时必须拒绝回答(严格评估检索质量)
基线方法:
- Naive RAG
- Microsoft GraphRAG
- LightRAG
- HippoRAG 1 & 2
- RAPTOR
- G-Retriever
5.2 帕累托前沿分析
Figure 5: 帕累托前沿
图 5:六个基准数据集上的 Token 消耗与 QA 性能权衡。横轴为构建阶段的 Token 消耗(对数刻度),纵轴为 QA 准确率。Youtu-GraphRAG(红色五角星)在所有数据集上都位于帕累托前沿的左上角区域——意味着最低成本和最高性能的最佳平衡。
关键发现:
| 对比维度 | Youtu-GraphRAG | 最佳基线(HippoRAG2) | 提升幅度 |
|---|---|---|---|
| 平均准确率 | 86.5%(HotpotQA) | 81.8% | +5.7% |
| Token 消耗 | <10K(社区检测) | ~128M (GraphRAG) | 节省 90%+ |
| 多跳推理 | 优秀 | 良好 | 显著提升 |
为什么能同时降本增效?
- 模式约束:只提取符合 Schema 的信息,减少无效处理
- 无 LLM 社区检测:使用双重感知算法而非 LLM 摘要,成本接近于零
- 并行子查询:结构化分解支持并行检索,减少串行等待
5.3 泛化能力分析
Figure 6: 泛化能力分析
图 6:六个基准数据集上的 Open Accuracy(左)和 Reject Accuracy(右)雷达图。Youtu-GraphRAG 在几乎所有维度上都达到或接近最佳,特别是在 HotpotQA 和 2Wiki 等多跳推理任务上优势明显。
核心观察:
- 多跳任务优势明显:
- HotpotQA:86.5% vs 81.8%(+5.7%)
- 2Wiki:85.5% vs 77.3%(+8.2%)
- MuSiQue:53.6% vs 48.3%(+5.3%)
- Reject Mode 表现突出:
- 在严格评估模式下,Youtu-GraphRAG 的检索质量依然保持高水平
- 证明其检索结果的高保真度,而非依赖 LLM 的参数化知识
- 跨语言能力:
- AnonyRAG-CHS(中文):86.54%
- AnonyRAG-ENG(英文):43.26%
- 同一框架无缝支持中英双语
5.4 消融研究
| 配置 | HotpotQA | 2Wiki | MuSiQue | 说明 |
|---|---|---|---|---|
| Youtu-GraphRAG (完整) | 86.5 | 85.5 | 53.6 | 基准 |
| w/o Community | 83.2 | 81.3 | 51.2 | 移除社区检测 |
| w/o Agent | 78.4 | 65.7 | 46.1 | 移除智能体推理 |
| w/o Schema | 81.7 | 79.2 | 49.8 | 移除模式约束 |
关键发现:
- 智能体推理最重要:移除后 2Wiki 下降 19.8%,证明迭代反思对多跳任务至关重要
- 模式约束不可或缺:在知识密集场景下性能明显下降
- 社区检测有效:提供了有用的层次化索引结构
- AnonyRAG:解决知识泄露的新评估基准
6.1 知识泄露问题
现有的问答数据集(如 HotpotQA)有一个严重问题:测试数据可能已经被 LLM 的预训练语料覆盖。
这意味着即使检索系统完全失效,LLM 也可能凭借"记忆"给出正确答案——这无法真实反映 GraphRAG 的检索能力。
6.2 AnonyRAG 数据集
论文构建了两个匿名数据集来解决这个问题:
| 数据集 | 语言 | 来源 | 样本数 |
|---|---|---|---|
| AnonyRAG-CHS | 中文 | 《水浒传》、《红楼梦》 | 500+ |
| AnonyRAG-ENG | 英文 | 《白鲸》、《米德尔马契》 | 500+ |
构建方法:
- 从经典文学作品中提取实体(人名、地点等)
- 匿名化处理:将所有实体名替换为随机标识符(如"Person_A"、“Location_X”)
- 生成问答对,同样进行匿名化
- 确保 LLM 无法从预训练知识中"猜测"答案
任务类型:
- 匿名还原(Anonymity Reversion):根据上下文推断被匿名化的原始实体
- 多选题(Multiple Choice):客观题评估
6.3 为什么这个评估更公平?
在 AnonyRAG 上,LLM 必须完全依赖检索到的上下文才能回答问题。
- 如果检索不到相关信息,LLM 无法从"记忆"中补救
- 真实反映 GraphRAG 的检索质量和推理能力
- 避免了传统评估中的"水分"
- 实际应用与复现思考
7.1 核心设计原则
从 Youtu-GraphRAG 中,我们可以提炼出几个在构建知识增强系统时值得借鉴的设计原则:
原则 1:统一的约束胜于分散的优化
传统思路:分别优化图构建、索引、检索三个模块Youtu-GraphRAG 思路:用同一套 Schema 统一约束所有模块
这类似于软件工程中的"接口契约"——只要大家遵守同一套契约,各模块就能无缝协作。
原则 2:结构+语义胜于单一维度
传统思路:只考虑图的拓扑结构(Leiden 算法)Youtu-GraphRAG 思路:双重感知——同时考虑结构连接和语义相似
这解决了"形式上相连但语义上无关"的问题。
原则 3:并行分解胜于串行推理
传统思路:一步一步串行推理Youtu-GraphRAG 思路:将复杂查询分解为并行子查询
这不仅提高了效率,还降低了单点失败的风险。
7.2 复现建议
如果你想复现或扩展 Youtu-GraphRAG,以下是一些实用建议:
硬件需求
- 推理:单张 A100 或 4090 应该足够
- 构建:CPU 即可(双重感知算法不依赖 GPU)
关键超参数
config = { "backbone": "GPT-4o-mini / Qwen2.5-7B-Instruct", "max_dfs_depth": 5, # DFS路径遍历最大深度 "community_semantic_threshold": 0.7, # 社区融合的语义阈值 "lambda": 0.5, # 结构vs语义的平衡参数 "max_iterations": 3, # 迭代反思最大次数}工程技巧
- 种子 Schema 设计:好的初始 Schema 能大幅提升性能,建议领域专家参与
- 增量更新:支持 Schema 的自适应扩展,无需从头重建
- 缓存策略:子查询结果可以缓存,相似问题可复用
7.3 潜在改进方向
1. 动态 Schema 学习
当前的 Schema 需要人工初始化。可以探索:
- 从少量样本自动学习 Schema
- 基于查询分布动态调整 Schema
2. 多模态扩展
将框架扩展到图像、视频等多模态场景:
- 图像实体识别 → Schema 约束
- 视频事件提取 → 时序关系
3. 在线学习
根据用户反馈持续优化:
- 失败案例分析 → Schema 扩展
- 成功模式识别 → 检索策略调整
4. 更轻量的 LLM
当前使用 GPT-4o-mini。可以尝试:
- 7B 级开源模型
- 专门微调的小模型
- 总结与未来展望
8.1 核心贡献回顾
Youtu-GraphRAG 在 GraphRAG 领域做出了三个重要贡献:
- 架构创新:首次提出"垂直统一"的范式,用图模式贯穿构建、索引、检索全流程
- 算法创新:双重感知社区检测算法,无需 LLM 调用即可生成高质量层次结构
- 评估创新:AnonyRAG 数据集,解决知识泄露问题,提供更公平的评估基准
8.2 数字亮点
| 指标 | 数值 | 说明 |
|---|---|---|
| 准确率提升 | +16.62% | 相比最佳基线 |
| 成本节省 | 90.71% | Token 消耗 |
| 训练要求 | 无 | 即插即用 |
| 语言支持 | 中英双语 | 同一框架 |
8.3 局限性
论文也坦诚地讨论了 Youtu-GraphRAG 的局限性:
- Schema 依赖:需要高质量的种子 Schema,对新领域有一定门槛
- 多模态不足:当前只支持文本,图像等模态待扩展
- 实时更新:图谱更新需要重新构建索引,增量更新有待优化
8.4 未来展望
Youtu-GraphRAG 代表了 GraphRAG 从"模块优化"到"系统统一"的范式转变。未来可能的发展方向包括:
- 自动化 Schema:让模型自己学习最优的 Schema 设计
- 流式处理:支持实时文档流的增量图谱更新
- 多模态融合:将框架扩展到图像、视频、代码等多模态
- 个性化适配:根据用户偏好和历史动态调整检索策略
8.5 对从业者的启示
如果你正在构建知识增强的 AI 系统,Youtu-GraphRAG 提供了一个重要的教训:
不要把系统设计成一堆孤立优化的模块拼接。找到一个统一的"锚点"(如 Schema),让所有模块围绕它协同工作。
当你的系统性能不佳时,不要急于在单个模块上做文章。试着问自己:
- 各模块之间是否有统一的约束?
- 上游的输出格式是否适合下游的输入需求?
- 是否可以用同一套"语言"让模块对话?
Youtu-GraphRAG 用实验数据证明:这种系统级的统一思维,确实能带来质的飞跃。
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
01.大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。