文章目录
- 一、核心型号演进时间线(含论文/报告与关键信息)
- 二、关键技术演进逻辑(学习重点)
- 三、学习路径建议
- 四、快速定位核心论文的方法
- 总结
图片来源:DeepSeek-V2: A Strong, Economical, and Efficient
Mixture-of-Experts Language Model
https://arxiv.org/pdf/2405.04434
DeepSeek模型演进以“通用基础→MoE效率→推理增强”为主线,核心型号按时间推进,关键论文/技术报告、核心创新与参数规模清晰可追溯,以下是结构化梳理,便于学习时按线跟进与复现关键技术。
一、核心型号演进时间线(含论文/报告与关键信息)
| 发布时间 | 模型型号 | 核心定位 | 关键参数/规格 | 核心论文/技术报告(arXiv编号/标题) | 核心技术创新 |
|---|---|---|---|---|---|
| 2023-11 | DeepSeek-LLM(V1,7B/67B) | 通用大模型起点 | 7B/67B dense;上下文4K;预训练2T tokens | 2401.04652(DeepSeek LLM Scaling) | GQA替代MHA;多步学习率调度;优化C=6ND缩放公式 |
| 2023-11 | DeepSeek-Coder V1 | 代码专用 | 支持86种语言;上下文4K | 2311.06181(Coder-V1) | 代码库级数据组织;多语言代码预训练 |
| 2024-01 | DeepSeek-MoE | MoE架构探索 | 16B总参数;4K上下文;2T tokens | 2401.06069(DeepSeek MoE) | 精细化专家分割;共享专家机制;稀疏激活 |
| 2024-04 | DeepSeek-Math | 数学推理专用 | 1.3B;4K上下文;150B数学语料 | 2404.01658(DeepSeekMath) | 数学语料提纯;分步推理训练 |
| 2024-05(最终版6月) | DeepSeek-V2 | 高效MoE通用模型 | 236B总参数(激活21B);上下文128K;8.1T tokens | 2405.04434(DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model) | 高效MoE架构;混合精度训练;128K长上下文 |
| 2024-06 | DeepSeek-Coder V2 | 代码能力升级 | 338种语言;上下文128K | 2406.07179(DeepSeek-Coder-V2) | 长上下文代码理解;跨语言代码生成增强 |
| 2024-12 | DeepSeek-V3 | MoE规模与效率双升 | 671B总参数(激活37B);128K上下文;14.8T tokens | 2412.19437(DeepSeek-V3 Technical Report) | 多头潜在注意力(MLA);无辅助损失负载均衡;FP8+DualPipe优化 |
| 2025-01 | DeepSeek-R1(含R1-Zero) | 推理专用 | 671B MoE;128K上下文 | 2501.17811(DeepSeek-R1: Incentivizing Reasoning via RL) | 纯强化学习(RLVR);符号工具验证;零SFT推理路线 |
| 2025-12 | DeepSeek-V3.2 | 推理+效率再升级 | 671B MoE;128K上下文 | 2512.xxxx(待公开完整报告) | DSA稀疏注意力;GRPO算法优化;专项领域KL强度调整 |
二、关键技术演进逻辑(学习重点)
- 基础夯实(V1/Coder V1):以dense模型验证缩放规律,解决“如何稳定训大模型”问题,论文2401.04652是理解其缩放策略的核心,适合入门复现基础训练流程。
- 效率跃迁(MoE/V2):2024年初转向MoE,核心是“少激活、高性能”,V2论文2405.04434的MoE架构设计与数据配比,是训练高效稀疏模型的关键参考,可复现专家选择与负载均衡。
- 规模突破(V3):MLA压缩KV缓存、FP8混合精度+HPC协同设计,解决671B参数MoE的训练/推理瓶颈,技术报告2412.19437详细讲硬件适配与优化细节,适合做大规模MoE时参考。
- 推理增强(R1/V3.2):从“能力覆盖”到“深度推理”,R1的RLVR+符号验证、V3.2的DSA稀疏注意力,论文2501.17811是推理增强的核心,适合复现LLM推理能力提升的RL流程。
三、学习路径建议
- 按顺序读论文:先V1缩放报告→V2 MoE论文→V3技术报告→R1推理论文,理解“基础→效率→推理”的演进逻辑。
- 复现优先级:先复现V1的GQA与学习率调度,再尝试V2的MoE专家分割,最后挑战V3的MLA与FP8优化,匹配你的8卡4090环境做小参数验证。
- 补充专项模型:Coder系列(代码)、Math系列(数学)的论文可作为子方向深入,对应任务场景的技术可迁移到垂直领域模型开发。
四、快速定位核心论文的方法
- 通用基础:2401.04652(V1缩放)、2405.04434(V2 MoE)、2412.19437(V3)
- 推理增强:2501.17811(R1)
- 代码专项:2311.06181(Coder V1)、2406.07179(Coder V2)
- 数学专项:2404.01658(DeepSeekMath)
总结
DeepSeek的演进本质是“先解决基础能力,再用MoE提效率,最后用RL强推理”,每一步都有公开论文/报告支撑。学习时可按“模型→论文→代码复现”的路径,重点吃透MoE架构设计、GQA/MLA注意力优化、RL推理增强这三个核心模块,适配你的多GPU环境做小批量实验,快速掌握大规模LLM的训练与优化逻辑。
需要我把这些核心论文的arXiv直达链接+逐篇学习提纲整理好,你直接点击就能按重点阅读吗?