DeepSeek突然更新R1论文:暴增64页,能公开的全公开了

来源:DeepTech深科技

运营/排版:何晨龙

2025 年 9 月,DeepSeek-R1 论文以封面文章的形式登上 Nature 杂志,成为全球首个通过顶级期刊独立同行评审的主流大语言模型。从 2 月 14 日投稿到 9 月 17 日正式发表,8 位外部专家历时 5 个月对论文的原创性、方法论和稳健性进行了严格审查。Nature 在编辑评论中直言:几乎所有主流大模型都未曾经历过独立同行评审,而 DeepSeek 打破了这一空白。

让人没想到的是,最近 DeepSeek 还能把这种透明再向前推一步。1 月 4 日,DeepSeek 在 arXiv 上突然更新了这篇论文的第二版,页数从 22 页暴增至 86 页,把此前藏在黑箱里的训练流程、基础设施、消融实验、中间检查点,乃至失败尝试,统统向外界进行了展示。

图丨相关论文(来源:arXiv)

那么,这 86 页究竟比原来的 22 页多出了什么?(关于基准测试结果等初版论文已涉及的部分,我们不再赘述)

GRPO 算法与 RL 基础设施

初版论文对 Group Relative Policy Optimization(GRPO,群组相对策略优化)的介绍相当克制,仅给出核心公式。新版用数页篇幅展开对比分析,解释 GRPO 何以能替代传统的 Proximal Policy Optimization(PPO,近端策略优化)。

PPO 在大模型强化学习中应用广泛,但有个麻烦:它需要训练一个与策略模型规模相当的价值模型来估计优势函数,计算开销很大。更棘手的是,价值模型要根据已生成的部分内容预测最终累积奖励,这对长链推理来说几乎不可行——模型可能在生成过程中反复修正、自我否定,早期内容和最终答案之间的关联性很弱。

GRPO 的做法是干脆不要价值模型。对每个问题采样 16 个输出,用组内奖励的均值和标准差做归一化,得到每个输出相对于同组其他输出的优势估计。这种“组内排名”的思路规避了跨时间步的价值预测,既节省内存,又适配长链推理场景。论文给出的对比实验显示,在 MATH 任务上,PPO 需要仔细调参(特别是 GAE 中的 λ 系数)才能接近 GRPO 的效果,而 GRPO 开箱即用。

图丨 PPO 与 GRPO 的演示(来源:arXiv)

新版论文还首次披露了 RL 训练基础设施的完整架构。系统分为四个模块:Rollout 模块用 vLLM 工作节点批量采样响应;Inference 模块加载奖励模型和参考模型做前向推理;Rule-based Reward 模块计算代码执行、答案匹配等规则奖励;Training 模块完成策略更新。四个模块之间采用异步调度和显存动态卸载策略。

为加速采样,Rollout 模块还用了 Multi-Token Prediction(MTP,多 token 预测)组件做自投机解码,缩短最长样本的生成耗时。考虑到 DeepSeek-R1-Zero 训练时每个问题要采样 16 个输出、单次训练步包含 32 个独立问题,这种工程优化对整体效率的提升不小。

训练成本方面,新版终于给出了明确数字:DeepSeek-R1 的增量训练成本约 29.4 万美元。R1-Zero 训练使用 648 块 H800 GPU,耗时约 198 小时,成本约 20.2 万美元;SFT 数据创建约 1 万美元;R1 后续训练约 8.2 万美元。这不包含 DeepSeek-V3-Base 基座模型的训练成本(约 556.6 万美元),但即便全部加总,也远低于行业认为的顶级模型训练动辄数千万美元的门槛。

图丨DeepSeek-R1 的训练成本(来源:arXiv)

四阶段训练流水线与中间检查点

初版论文只描述了从 DeepSeek-R1-Zero 到 DeepSeek-R1 的跨越,中间过程语焉不详。新版引入了 Dev1、Dev2、Dev3 三个中间检查点,完整呈现了四阶段训练流水线。

图丨DeepSeek-R1 的多阶段流程。(来源:arXiv)

第一阶段是 R1-Zero 的纯 RL 训练。基于 DeepSeek-V3-Base,完全不用监督微调(SFT,Supervised Fine-Tuning),仅依靠正确性奖励和格式奖励引导模型自主探索推理策略。这一阶段的核心发现是所谓的“Aha Moment”:在某个训练节点,模型突然大量使用“wait”这个词进行自我反思。

论文统计了 10 个代表性反思词汇(wait,mistake,however,but,retry,error,verify,wrong,evaluate,check)的出现频率,发现这些词汇在训练过程中增长了 5 到 7 倍。“wait”的变化尤其有意思:训练早期几乎不出现,4,000 到 7,000 步偶尔使用,8,000 步之后显著跃升。

图丨DeepSeek-R1-Zero 在 MATH 数据集中不同难度问题上的性能表现(来源:arXiv)

第二阶段是冷启动 SFT 加第一轮 RL。团队收集了数千条展示对话式、人类友好思考过程的冷启动数据,解决 R1-Zero 可读性差、语言混杂的问题。RL 训练时引入了语言一致性奖励,计算目标语言词汇在思维链中的占比。消融实验表明,这个奖励会导致推理性能轻微下降(特别是在代码任务上),但显著改善了输出可读性。

第三阶段是拒绝采样与大规模 SFT。从第一轮 RL 的检查点进行拒绝采样,生成约 60 万条推理数据,加上约 20 万条来自 DeepSeek-V3 流水线的非推理数据(写作、问答、角色扮演等),组成 80 万样本的 SFT 数据集。这一阶段的关键在于平衡推理能力和通用能力,单纯的推理 RL 会让模型在写作、开放域问答上表现欠佳。

第四阶段是全场景 RL,整合基于规则的推理奖励和基于偏好模型的通用奖励。论文提醒,基于偏好模型的奖励只在最后 400 步引入,过早或过长使用会导致奖励作弊(reward hacking)现象。

性能对比显示,从 R1-Zero 到 Dev1,指令遵循能力(IF-Eval、Arena-Hard)显著提升,但 AIME 数学竞赛分数有所下降,这是冷启动数据规模有限的代价;从 Dev1 到 Dev2,推理性能恢复并超越 R1-Zero;到 Dev3 和最终版本,各维度都达到最优。

蒸馏与强化学习的对比,以及一些关键发现

新版论文最核心的补充之一,是关于蒸馏与强化学习的对比实验。

团队在 Qwen2.5-32B-Base 上进行了超过 10,000 步的大规模 RL 训练,得到 Qwen2.5-32B-Zero。这个模型的性能与 QwQ-32B-Preview 相当,但显著落后于从 DeepSeek-R1 蒸馏而来的 DeepSeek-R1-Distill-Qwen-32B。以 AIME 2024 为例,蒸馏模型的 Pass@1 达到 72.6%,RL 训练模型只有 47.0%。

结论显示,对于中小规模模型,蒸馏比从头 RL 训练更具性价比。论文的原话是,蒸馏策略既经济又有效,但要突破人类智能的边界,可能仍需要更强大的基座模型和更大规模的强化学习。

另一组实验在 Qwen2-Math-7B 上进行。这个模型在 2024 年 8 月发布,早于 OpenAI o1,确保基座没接触过任何推理轨迹数据。经过约 10,000 步策略梯度更新后,Qwen2-Math-7B-Zero 在 AIME 2024 上的表现(22.3%)显著超过 Qwen2-Math-7B-Instruct(7.9%)和 GPT-4o(9.3%)。这说明纯 RL 确实能让模型自主发展出高级推理策略,而非简单模仿人类示范。

新版论文还披露了几条早期的关键发现。团队尝试过 7B Dense 和 16B MoE 模型作为 RL 训练基础,但这些配置在 AIME 上始终无法取得有意义的提升。小模型在响应长度增加时表现出强烈的重复倾向,无法有效利用长链推理。直到切换到 32B Dense、230B MoE 和 671B MoE 等更大规模架构,才观察到实质性提升。这暗示推理能力的涌现可能存在某种规模门槛。

关于数据来源,论文在同行评审文档中回应了“蒸馏 OpenAI”的质疑:DeepSeek-V3-Base 的预训练数据完全来自互联网,没有刻意使用合成数据。某些网页可能包含 GPT-4 生成的答案,但这不是有意为之。为防止基准污染,团队过滤掉了任何与评测问题存在 10-gram 匹配的文本片段,仅数学领域就移除了约 600 万条文本。论文也坦承,n-gram 方法无法防止测试集改写版本混入,2024 年之前发布的基准仍可能有污染风险。

新版论文详细记录了团队在 Process Reward Model(PRM , 过程奖励模型 )上的探索。这本是一个直觉上很合理的方向:不只给最终答案打分,而是对推理过程的每一步提供反馈,把“怎么想”也纳入优化目标。

但落到实践里,它很快撞上了三道坎:第一,“一步”到底怎么切分并没有统一标准,边界划得粗细不同,奖励信号就会变形;第二,要判断某一步是否正确并不容易,模型自标注的可靠性有限,而人工逐步标注又几乎不可能规模化;第三,一旦引入基于模型的 PRM 作为奖励来源,策略模型就不可避免地会学会“迎合评分器”,奖励作弊(reward hacking)风险随之上升。

DeepSeek 的结论是:PRM 用来对 Top-N 候选响应做重排序时确实有效,但放到大规模强化学习训练里,带来的增益不足以覆盖额外的复杂度与计算开销。

他们也尝试过 Monte Carlo Tree Search(MCTS,Monte Carlo Tree Search,蒙特卡洛树搜索)。受 AlphaGo 思路启发,团队设想把答案拆成更细的片段,用预训练的价值模型来引导搜索路径。

然而在语言生成里,token 级的搜索空间呈指数级膨胀:扩展得更广会迅速失控,设置扩展上限又容易过早收敛到局部最优;更要命的是,细粒度价值模型本身就难训练,AlphaGo 那种价值模型渐进提升的闭环机制,在这里很难复现。

论文也特意强调,分享这些失败经验并不等于否定 PRM 或 MCTS 的潜力,只是它们在 R1 的具体开发路径上没有走通。

安全评估与结论

安全是新版论文着重补充的另一个维度。此前有部分人士对 DeepSeek-R1 的安全性表示了质疑,团队这次也算是对这些声音进行了回应。

在训练层面,团队构建了 Safety Reward Model(安全奖励模型)。与采用成对比较的有用性奖励模型不同,安全奖励模型使用逐点方法训练,基于 106,000 条标注为“安全”或“不安全”的样本,学习区分有害与无害响应。在第二阶段 RL 中,安全奖励与有用性奖励、规则奖励共同作用,评估范围覆盖整个响应(包括思维链和最终答案),以识别生成过程中可能出现的风险内容。

在部署层面,官方服务配备了外部风险控制系统。系统分两步工作:首先对用户查询进行关键词匹配,标记潜在风险对话;随后将标记内容与预设的风险审核提示拼接,送入 DeepSeek-V3 进行判断。审核提示覆盖 11 类安全标准,包括违法活动建议、隐私捏造、高风险投资指导等。论文建议部署 R1 的开发者实施类似机制。

评估方面,团队在 6 个公开安全基准(SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench)上与 Claude-3.7-Sonnet、o1、GPT-4o 等模型对比测试。结果显示 R1 在歧视偏见、暴力极端主义、隐私侵犯等类别上表现稳健,平均安全分达 95.0%。

但在 HarmBench 的版权相关测试中表现较弱,例如被要求生成歌词时未能拒绝,导致被判定为不安全。团队还构建了内部安全测试集,按统一分类标准覆盖 4 大类 28 个子类的安全场景,并针对多语言安全和越狱攻击鲁棒性进行了额外评估。

图丨6 个公开安全基准的测试结果(来源:arXiv)

论文坦承,开源模型的安全风险客观存在。风险控制系统能显著提升服务安全性,特别是应对越狱攻击时效果明显,但模型本身在某些边界场景仍有改进空间。

论文最后总结了几点核心发现和局限。核心发现是:预训练检查点本身就具备复杂推理的潜力,释放这种潜力的关键不在于大规模人工标注,而在于三个要素:困难的推理问题、可靠的验证器、充足的 RL 计算资源。自我验证、反思等复杂推理行为会在 RL 过程中自然涌现。

同时,团队也指出 DeepSeek-R1 还存在一些局限性,比如结构化输出和工具调用能力仍不及现有模型;token 效率有待优化,简单问题存在过度推理现象;非中英文查询会出现语言混杂;对 prompt 敏感,few-shot 反而降低性能;软件工程任务因评估耗时长,未能充分进行大规模 RL,相比 V3 提升有限。

更根本的挑战在于纯 RL 方法本身:它依赖可靠的奖励信号,而写作等任务很难用规则定义奖励,用模型打分又容易被策略模型钻空子。对于无法有效评估的任务,如何扩展纯 RL 方法仍是开放问题。论文的判断是,任何能被验证器有效评估的任务,机器都有望通过 RL 超越人类;但对于难以构建可靠奖励模型的任务,进展可能会慢一些。

参考资料:

1.https://arxiv.org/abs/2501.12948

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1131938.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows XP,Vista,7,8.1,10, 11历代Windows系统性能横向评测

https://hackaday.com/2026/01/02/benchmarking-windows-against-itself-from-windows-xp-to-windows-11/ 测试涵盖Windows XP、Vista、7、8.1、10和11的旗舰版,所有系统均配备最新服务包与更新,并安装于同一台联想ThinkPad X220笔记本电脑。该设备搭载…

JavaScript 中 ==、===、Object.is 以及 null、undefined、undeclared 的区别

文章目录1.在JavaScript 当中, 和 与Object.is()的区别1.1 松散比较(loose equality)1.2 严格比较(strict equality)1.3 Object.is同值比较(same-value equality)2.JavaScript null、undefined 与undeclared 的区别?2.1 undefined 与null 的区别 ?2.2 undefined …

C#被评为2025年度编程语言!

关注星标公众号,不错过精彩内容 来源 | OSC开源社区 近日TIOBE宣布 C# 成为 2025 年度编程语言。 TIOBE CEO Paul Jansen 写道: 这是近三年来第二次,C# 被 TIOBE 指数评为“年度编程语言”。C# 获得这一称号,源于其在过去一年中排…

“全球大模型第一股”诞生!智谱AI登陆港股

2026年1月8日,北京智谱华章科技股份有限公司正式在港交所挂牌上市。来源:数据观综合(转载请注明来源)编辑:数据君2026年1月8日,北京智谱华章科技股份有限公司(简称“智谱”)正式在港…

基站定位中 RSSI 误用的系统性问题分析

引言:一个被反复低估的问题 在基站定位(Cell-based Positioning)体系中,信号强度(RSSI / RSRP / RxLev 等)几乎是必不可少的输入信息。 但在实际工程中,定位效果差、漂移大、不稳定&#xff0c…

2026年,“交互”会出现新的定义

随着“新人”(用户群体迭代)、“新机”(智能设备与技术革新)、“新环境”(场景扩展与虚实融合)的涌现,人机交互正从传统的“工具-指令”模式向“智能伙伴-情境化协同”模式演进,形成…

注意,科学家、数学家不一定是智能学家

科学家、数学家不一定是智能学家,科技必须能够复现,智能包含非科技,不一定复现,杂乱无章,无法数学建模……这段话或许触及了一个非常深刻的问题:科学、技术与智能之间的本质区别。科学家、数学家 ≠ 智能学…

移动网络信号指标与单位整理(2G/3G/4G/5G Android vs IoT)

1️⃣ 核心概念 指标网络描述单位注意点RSSI2G/3G/4G/5G接收信号强度指标(总功率,含噪声和邻区信号)ASU / dBm仅量化信号强弱,2G/3G/4G 含义不同,非单小区物理功率RSCP3G单小区信号功率dBmRSCP Received Signal Code…

综合能源系统中基于电转气和碳捕集系统的热电联产建模与优化研究(Matlab代码实现)

👨‍🎓个人主页 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰&a…

【确认出席】叶光辉 盐城市住房公积金管理中心技术信息处副处长丨上海·1月14日

第八届金猿论坛嘉宾“本次大会,现场将会举行十年先锋人物、十年标杆产品、CIO、数据要素价值释放、AI Infra领先企业、创新技术、Data Agent创新应用、国产化优秀代表厂商八项大奖的“2025第八届金猿季颁奖典礼”欢迎报名参与,观礼见证。大数据产业创新服…

救命神器2026 TOP10 AI论文工具:本科生毕业论文写作全攻略

救命神器2026 TOP10 AI论文工具:本科生毕业论文写作全攻略 2026年AI论文工具测评:为何需要一份权威榜单? 随着人工智能技术的不断进步,AI写作工具已经成为高校学生,尤其是本科生撰写毕业论文的重要辅助工具。然而&…

解读具身智能系统任务生命周期与认知闭环的关系

一、先给出一个总判断在具身智能系统中:任务生命周期 认知闭环的外在组织形式 认知闭环 任务生命周期的内在运作机制二者不是并列关系,而是同一过程的两个观察视角:视角关注点任务生命周期“系统在做什么、做到哪一步了”认知闭环“系统如何…

Python纪念币预约自动化:零基础也能轻松搞定

Python纪念币预约自动化:零基础也能轻松搞定 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 还在为抢不到心仪的纪念币而烦恼吗?🤔 今天我要分享一…

工厂定位手环从核心架构、功能亮点、适用场景与选型建议详解

hello~这里是维构lbs智能定位,如果有项目需求和技术交流欢迎来私信我们~点击文章最下方可获取免费获取技术文档和解决方案维构工厂定位手环是广西维构网络科技推出的工业级可穿戴定位终端,核心以多源融合定位为基础,集成工业级防护、安全预警…

全网最全9个AI论文软件,助本科生轻松搞定毕业论文!

全网最全9个AI论文软件,助本科生轻松搞定毕业论文! AI 工具如何改变论文写作的未来 在当今这个信息爆炸的时代,本科生面对毕业论文的压力日益增大。从选题到写作,再到查重和修改,每一个环节都可能成为学生心中的“拦路…

风电的Weibull分布及光电的Beta分布组合研究(Matlab代码实现)

👨‍🎓个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维…

Gerber文件解析利器gerbv:PCB制造验证的专业解决方案

Gerber文件解析利器gerbv:PCB制造验证的专业解决方案 【免费下载链接】gerbv Maintained fork of gerbv, carrying mostly bugfixes 项目地址: https://gitcode.com/gh_mirrors/ge/gerbv 在电子设计自动化流程中,Gerber文件作为PCB制造的核心数据…

NS-USBLoader终极攻略:Switch文件传输与系统引导全解析

NS-USBLoader终极攻略:Switch文件传输与系统引导全解析 【免费下载链接】ns-usbloader Awoo Installer and GoldLeaf uploader of the NSPs (and other files), RCM payload injector, application for split/merge files. 项目地址: https://gitcode.com/gh_mirr…

基于混沌系统和DNA编码的彩色数字图像加密、解密、抗噪声性能分析以及抗裁剪性能分析(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

Python纪念币预约自动化终极指南:零基础实现智能抢购

Python纪念币预约自动化终极指南:零基础实现智能抢购 【免费下载链接】auto_commemorative_coin_booking 项目地址: https://gitcode.com/gh_mirrors/au/auto_commemorative_coin_booking 还在为每次纪念币发行时手速不够快而烦恼吗?这款基于Pyt…