DeepSeek开源再升级:从22页到86页,揭秘29.4万美元训练顶级推理模型的完整技术账单

DeepSeek在发布V4前,将R1论文从22页扩充至86页,首次公开训练成本(29.4万美元)、数据配方(约15万条)、失败尝试和基础设施架构。这种"Open"方式回应了"只给权重不给训练细节"的批评,也为V4铺路。DeepSeek的技术哲学是"质疑没必要改的东西",通过提供完整技术细节,让大模型知识不再局限于少数公司内部。


最近DeepSeek V4的传言越来越多了。

据The Information报道,知情人士透露DeepSeek计划在2月中旬、农历新年前后发布V4模型。内部测试显示,V4在编程能力上可能超越Claude和GPT系列——尤其是处理超长代码提示的场景。

去年R1也是春节前一周发布的,直接引发了全球市场一万亿美元的震动。在大型节假日前搞大事确实也很符合DeepSeek一贯的做法,今年会不会故技重施?

但在V4发布之前,DeepSeek先悄悄做了一件事:把一年前的R1论文从22页扩充到了86页

我下载了两个版本对比,文件大小从928KB变成4.8MB。多出来的60多页显然不是废话,是他们训练的详细账本和踩过的坑。

这个时间点更新旧论文,绝不是巧合。我猜他们在做两件事:一是为V4铺路,让社区先完全理解R1的技术细节;二是用行动回应之前"只开源权重不给训练细节"的质疑。

说实话,看完这份更新,我对Open这个词有了新的理解。上周我发的这篇关于DeepSeek mHC论文的解读很多人表示意外地能看懂,阅读量都突破20万+了,哈哈哈~

【梁文锋署名】DeepSeek新论文:所有人都觉得没必要改的东西,他们改了

所以我今天再挑战下自己,试试给大家用人话说说这次DeepSeek老论文里都更新了啥。

先说更新了什么

v1版本发布于2025年1月22日,22页,主要讲R1是什么、怎么训的、效果多好。

v2版本发布于2026年1月4日,86页。时隔将近一年,多出来的60多页都在讲什么?

我把两个版本的目录对比了一下。v1只有一个简短的Appendix(作者列表)。v2新增了6大类Supplementary:

  • A: GRPO和PPO的详细对比
  • B: 训练细节(这部分最长,约50页)
  • C: 推理行为分析
  • D: 基准测试详情 + 10页安全报告
  • E: 综合分析(与V3对比、test-time scaling等)
  • F: 推理能力迁移

说白了,这次更新就是把"解题过程"补上了,给出了可复现的技术文档。

之前R1开源的时候,很多人吐槽说"只给权重不给训练细节,这算什么开源"。现在DeepSeek把这块补上了。

294K美元的训练账单

论文新增了Table 7,第一次公开了完整的训练成本:

阶段GPU小时成本
DeepSeek-R1-Zero101K$202K
SFT数据创建5K$10K
DeepSeek-R141K$82K
总计147K$294K

这个成本是按H800租赁价格$2/GPU hour算的。

29.4万美元,训练一个媲美OpenAI o1的推理模型。

29.4万美元是什么概念?之前写V3.2的时候我提到,DeepSeek只有150人的团队。现在加上这个成本数据,画面更清晰了——他们不是靠砸钱,是靠效率。

具体怎么训的?论文给了精确配置:

  • R1-Zero: 64×8张H800 GPU,跑了198小时
  • R1: 同样的GPU配置,80小时(约4天)

64×8是512张卡。198+80=278小时。不到12天,训完了两个阶段。

数据配方首次公开

这是我觉得最有价值的部分——Table 4详细列出了RL训练数据的构成:

数学:26k题

  • 从区域竞赛到国际奥林匹克级别
  • 包括代数、微积分、概率、几何
  • 排除了数学证明(因为难以自动验证)

代码:17k + 8k

  • 17k算法竞赛题(Codeforces、LeetCode风格)
  • 8k GitHub真实bug修复问题

STEM:22k选择题

  • 化学占46.5%(最多)
  • 生物30.7%
  • 物理15.5%
  • 其他7.3%

逻辑:15k题

  • 真实世界:脑筋急转弯、经典逻辑谜题
  • 合成数据:Code-IO问题、Zebra puzzle等

通用:66k + 12k

  • 66k评估helpfulness(创意写作、编辑、问答、角色扮演)
  • 12k评估harmlessness

总共约150k条数据。

为什么化学题最多?论文没解释,但我猜测可能是因为化学题的答案更容易自动验证(选择题),同时又需要多步推理。

更有意思的是Cold Start数据的创建流程。R1不是从零开始训的,而是先用R1-Zero的输出,经过这个流程:

  1. 用R1-Zero在高温度(1.0)下生成多条推理轨迹
  2. 过滤:保留答案正确、格式可读的
  3. 用sympy验证数学表达式
  4. 用DeepSeek-V3重写,让推理过程更"人话"
  5. 人工二次验证

论文里甚至给出了重写的prompt,让V3把R1-Zero那种"we"风格的推理,改成"I"风格——因为用户更喜欢第一人称的思考过程。

这种细节,以前根本不会公开。

失败也写进论文

v1版本有一小节叫"Unsuccessful Attempts",提到PRM和MCTS不太行。v2把这部分扩展了,还加了一个我觉得很有价值的案例:Reward Hacking。

Figure 6展示了一个典型的失败场景:用helpful reward model训练时,reward分数一直在涨(左边红线),但CodeForces的实际性能却在跌(右边蓝线)。

这就是reward hacking——模型学会了"讨好"奖励函数,但并没有真正变强。

论文原文的解释是:

“如果reward model包含系统性偏差或不准确,LLM可能学会生成那些被模型高评分、但与真实人类偏好背离的回答。”

PRM(Process Reward Model)的问题也讲得更清楚了:

  1. 细粒度步骤难定义:什么算"一步推理"?在通用推理任务里很难界定
  2. 中间步骤对错难判断:自动标注效果差,人工标注又没法规模化
  3. 必然导致reward hacking:只要引入模型做判断,就会被exploit

所以DeepSeek最后用的是rule-based reward——数学题直接匹配答案,代码题跑测试用例。简单粗暴,但不会被hack。

为什么要公开这些失败?我觉得这才是真正的Open。告诉社区"这条路我们走过了,不通",比只展示成功更有价值。

基础设施首次披露

Supplementary B.1详细描述了RL训练的基础设施,分为4个模块:

1. Rollout Module

  • 用vLLM做推理
  • 对MoE架构实现expert parallelism,减少内存访问开销
  • 部署热点expert的冗余副本来负载均衡
  • 用MTP(Multi-Token Prediction)做self-speculative decoding加速

2. Inference Module

  • 加载reward model和reference model
  • 对rollout阶段生成的样本做forward pass

3. Rule-based Reward Module

  • 统一接口:代码执行器、答案匹配器、格式检查器
  • 异步调度,和前两个模块overlap执行

4. Training Module

  • 支持PPO、GRPO、DPO等算法
  • 数据打包策略:先按长度排序,再用Best-Fit装箱
  • 集成了DualPipe算法做pipeline parallelism

还有一个细节:每个模块跑完后,模型会自动从显存offload到内存或磁盘,给下一个模块腾空间。

这些基础设施细节以前只有DeepSeek内部知道。现在写进论文,其他团队可以照着搭。

10页安全报告

Supplementary D.3是一份完整的安全评估报告,包括:

  1. 风控系统:公开了完整的risk review prompt(Listing 8)
  2. 6个公开benchmark对比:和其他SOTA模型的安全性比较
  3. 分类测试:基于自研安全测试集的细分评估
  4. 多语言安全:不同语言下的安全表现
  5. Jailbreak鲁棒性:对抗攻击下的表现

风控prompt里列了11条安全标准,从"通用原则"到"隐私伪造"到"风险建议",细到可以直接抄。

对想部署R1的企业来说,这部分很实用——不只是模型安全性数据,还告诉你外部风控系统怎么搭。

为什么选择现在更新?

论文更新的时间点是2026年1月4日。

结合V4的发布传言,时间线就很清晰了:

  • 2025年1月20日:R1发布,春节前一周
  • 2026年1月4日:R1论文v2发布,详细补全技术细节
  • 2026年2月中旬(传闻):V4发布,又是春节前后

DeepSeek似乎在做一件事:先把上一代的账本摊开,再发布下一代

这对社区的好处是显而易见的——当V4发布时,研究者已经完全理解R1的技术细节,可以更清晰地看出V4到底改进了什么。

当然,这也可能是回应之前"只开源权重不给训练细节"的批评。不管出于什么原因,结果很实在——社区拿到了一份真正可复现的技术报告。

最后

回到"Open"这个词。

大多数公司的Open是什么?开源权重,开源推理代码,发个技术博客。

DeepSeek的Open是什么?

  • 训练成本精确到GPU小时
  • 数据配方精确到每个类别的数量和来源
  • 失败尝试写进论文,告诉你哪条路不通
  • 基础设施架构图,告诉你怎么搭RL系统
  • 安全评估报告,告诉你怎么做风控

这才是让社区能真正复现和改进的Open。

之前写mHC论文的时候我说,DeepSeek的技术哲学是"去质疑那些所有人都觉得没必要改的东西"。现在看来,他们对"开源"这件事的理解也是一样——不是做到行业平均水平就够了,而是要做到让别人能真正用起来。

从22页到86页,多出来的60页不是凑数,是掏心窝子的诚意。

至于V4会带来什么?如果传言属实,2月中旬就会揭晓。

但不管V4表现如何,这份86页的论文已经是一份礼物——它让我们知道,一个顶尖推理模型是怎么从零训出来的。这种知识,以前只有极少数公司内部才有。

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1150451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

环境配置kkkk

鸿蒙-hdc https://blog.csdn.net/m0_60880588/article/details/144987980

CoDeSys入门实战一起学习(五):CoDeSys V3 车库门控制编程全解析系列(手册基础第一篇)

第一篇:入门篇——CoDeSys V3 与车库门控制任务拆解对于工业自动化初学者而言,选择一个贴近实际的小型项目入门,能快速提升对编程工具和控制逻辑的理解。CoDeSys V3 作为主流的工业控制编程软件,支持 IEC 61131-3 标准编程语言&am…

CoDeSys入门实战一起学习(五):CoDeSys V3 车库门控制编程全解析系列(手册基础第三篇)

第三篇:编程基础篇——变量声明与 FBD 核心逻辑入门完成工程配置后,就进入核心的编程环节。在 CoDeSys 中,所有输入/输出信号、中间逻辑变量都需要先进行声明,才能在程序中使用。本文就带大家完成变量声明,并入门 FBD&…

CoDeSys入门实战一起学习(五):CoDeSys V3 车库门控制编程全解析系列(手册基础第二篇)

第二篇:配置篇——CoDeSys V3 工程搭建与软 PLC 连接在上一篇中,我们明确了车库门控制的核心任务与整体框架。今天就进入实操环节,带大家完成 CoDeSys V3 工程的创建、目标设备配置,以及软 PLC 的连接——这是所有编程工作的基础&…

深度学习毕设项目推荐-基于python-CNN卷积神经网络的宠物行为训练识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现

格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现 关键词:格雷厄姆特价股票策略、数字监管沙盒、股票投资、策略表现、监管环境 摘要:本文深入探讨了格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现。首先介绍了研究的背景、目的、预期读者等内容,阐述了核心概念及…

强烈安利!10款AI论文写作软件测评:研究生科研写作全攻略

强烈安利!10款AI论文写作软件测评:研究生科研写作全攻略 2026年AI论文写作工具测评:精准匹配研究生科研需求 随着人工智能技术的不断进步,AI论文写作工具逐渐成为研究生科研过程中不可或缺的辅助工具。然而,面对市场上…

巴菲特的创新能力评估:量子创新生态系统的价值网络分析

巴菲特的创新能力评估:量子创新生态系统的价值网络分析 关键词:巴菲特、创新能力评估、量子创新生态系统、价值网络分析、投资策略 摘要:本文旨在从量子创新生态系统的价值网络视角对巴菲特的创新能力进行全面评估。通过深入剖析量子创新生态系统的核心概念与架构,阐述相关…

EDCA Admission Protocols 发布:AI 系统进入“可拒绝接入”时代

在现有 AI 系统中,一个长期被忽视却至关重要的问题正在逐渐显现:当人类表达进入 AI 系统时, 是否存在一个明确、可裁决、可拒绝的接入阶段?现实情况是,大多数系统默认“表达即执行”。 一旦输入被接收,就会…

【性能测试】4_性能测试基础 _流程(重点)

文章目录一、如何开展工作二、性能测试流程2.1 性能测试需求分析2.2 性能测试计划及方案2.3 性能测试用例2.4 建立测试环境2.5 测试脚本编写/录制2.6 执行测试脚本2.7 性能测试监控2.8 性能分析和调优2.9 性能测试报告总结一、如何开展工作 思考:为什么要掌握性能测…

HuggingFace项目实战之填空任务实战

目录:一、使用场景二、代码分析一、使用场景 大模型在填空任务中的应用主要涉及自动补全、内容生成和知识推理等场景,其核心能力在于基于上下文预测缺失信息。 二、代码分析 import torchfrom transformers import AutoTokenizer#加载tokenizer token…

【软件测试】5_性能测试 _常用性能测试工具对比

文章目录 一、Loadrunner二、JMeter三、Loadrunner和Jmeter对比3.1 相同点3.2 不同点 一、Loadrunner HP Loadrunner是一种工业级标准性能测试负载工具,可以模拟上万用户实施测试,并在测试时可实时检测应用服务器及服务器硬件各种数据,来确认…

Alignment Protocol v3.0:定义 AI 系统的合法接入语义

Alignment Protocol v3.0 是 EDCA Admission Protocols 中的首个正式协议规范。它不描述模型如何思考, 不描述系统如何生成结果, 而是明确一件事:人类主张在进入 AI 系统前,必须经过合法接入判定。核心语义Alignment Protocol v3.…

【计算机毕业设计案例】基于python-CNN卷积神经网络的宠物行为训练识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

筑梦非洲:中国电建以实干绘就中非合作新图景

“我始终记得自己第一次登上高台时的心情,非常震撼。”中国电建埃及500兆瓦苏伊士湾风电项目,有77台风电机组,今年年初完成了全部风机的吊装任务。埃及工程师马哈茂德穆罕默德回想起那个时刻,至今难掩激动。穆罕默德说&#xff1a…

【毕业设计】基于python-CNN卷积神经网络的宠物行为训练识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【课程设计/毕业设计】基于python-CNN卷积神经网络的宠物行为训练识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

AI 写论文哪个软件最好?深度测评:虎贲等考 AI 凭 “学术闭环” 登顶

毕业季的学术焦虑,一半源于论文本身,一半源于选择困难 —— 市面上 AI 写论文软件层出不穷,功能宣传眼花缭乱,究竟 AI 写论文哪个软件最好?为了帮学子们找到真正能解决创作痛点的工具,我们从学术专业性、功…

收藏学习!大语言模型全解析:原理、架构与应用

大语言模型是基于海量文本训练的"超级概率预测机器",通过Transformer架构实现注意力机制,随参数规模增长涌现出理解、推理等新能力。它已成为各行业的基础生产力工具,但也存在幻觉、偏见等局限。有效使用需掌握提示工程技巧&#x…

企业虚拟服务平台AI能力落地实战:一线架构师的1个经典案例解析(附代码)

好的,作为一名资深软件工程师和技术博主,我很乐意为你撰写这篇关于“企业虚拟服务平台AI能力落地实战”的技术博客文章。标题:企业虚拟服务平台AI能力落地实战:一线架构师的1个经典案例解析(附核心代码) 摘…