Deepseek系列从v3到R易背面经版

deepseek v3 base要点

MTP : Multi-Token Prediction

训练时:

1. 把前一个block中input tokens经过embedding layer和transformer block的输出,进入output head之前的内容记为h,与下一个block的input tokens经过embedding layer输出的内容都经过rmsnorm后concat 再送入projection和block。这是causal chain的连接关系,在embedding层增加了残差链接。

2. 用k个tokens作为一个部分送入1个block然后输出k个output tokens和后移T个序列长度的target tokens做cross entropy loss。

推理时:

推理阶段要用上一个状态的预估值作为下一个状态的输入,和训练时不同。训练时用ground truth做输入;推理用上一个状态的估值。

MLA (多头潜在注意力)

一种注意力架构,通过将键和值联合压缩成一个潜在向量,显著降低了推理过程中的KV缓存。

主要公式:

1. 我的理解就是把KV Q用像lora的方法 拆开 降秩,一个高维度矩阵用两个矩阵表示;但是RoPE部分没有用到!

KV

Q

O

同样可以通过结合律优化矩阵乘

把 (WUQ)TWUK 离线融合成一个矩阵,可以像前面的优化一样,减少矩阵运算,注意力架构 也将MHA 转化成了 MQA

2. 常规的方法就是把 KV 降维到一个潜在向量C,当需要计算时再把C升维到 KV。另外这里对位置信息进行了解耦,原始的RoPE需要在query和key中融入相对位置信息。但在MLA中,由于KV Cache缓存的是压缩后的低秩key-value信息,不能对相对位置信息同样进行低秩处理。

3. 主要逻辑是一种通过改变矩阵乘法的计算顺序来优化注意力机制计算效率的方法。这种方法在DeepSeek-V2模型中得到了应用,特别是在解码阶段,能够有效减少计算量。方案来源于SGlang。在deepseekv3基于V2对MLA进一步改进,对Q矩阵也进行了低秩处理。主要是qk用降秩的向量来计算。

MOE (mixture of expert)

共享专家隔离策略(shared expert isolation)的整合。在这种情况下,一些专家被标记为共享专家,旨在捕捉共同知识并减轻激活专家之间的冗余。这种共享专家隔离策略有助于提高模型的性能和效率。

  • 子图(a):展示了具有传统top-2路由策略的MoE层。在这种情况下,每个令牌被分配给两个专家中的一个,即top-2。这是传统的MoE路由策略,其中每个令牌只与两个专家相关。
  • 子图(b):说明了细粒度专家分割(fine-grained expert segmentation)策略。相比于传统的top-2路由,DeepSeekMoE采用了更细粒度的专家划分,将专家进一步分为多个子专家。这样,每个令牌可以与更多的专家相关,实现更灵活的激活专家的组合。
  • 子图(c):展示了共享专家隔离策略(shared expert isolation)的整合。在这种情况下,一些专家被标记为共享专家,旨在捕捉共同知识并减轻激活专家之间的冗余。这种共享专家隔离策略有助于提高模型的性能和效率。

这里用的是C图方法

F8量化策略

量化精度:FP8(E4M3)

量化粒度:

权重:block-wise量化,shape是[128,128],静态离线量化

激活:per-token-group 量化, 动态在线量化

(1) 对于激活值,我们以 1x128 的 组 为基础对元素进行分组和缩放(每个 token 每 128 个通道);

(2) 对于权重,我们以 128x128 的 块 为基础对元素进行分组和缩放(每 128 个输入通道每 128 个输出通道)。

如图1的a部分input和weight的fp8量化rescale表示就是权重量化还有output部分就是激活量化部分。 b部分是对于下溢和精度损失的处理。使用FP8等低精度格式进行GEMM运算时,中间结果的累加容易出现下溢,导致精度损失。传统的做法是使用FP32进行累加,以保持精度。每当 Tensor Core 累加了 128 个 FP8 结果后,就会将这些结果转换(或缩放)到 FP32 精度,然后在 CUDA Cores 的 FP32 寄存器中进行累加。

图2 是对fp8量化策略使用的解释。 大部分GEMM运算采用FP8提升整体训练速度(前向传播、激活反向、权重反向)对应图中Fprop, Dgard, Wgrad模块。 对精度敏感模块仍保留原有精度(Embedding、RMSNorm) 。权重梯度和优化器状态均采用高精度存储fp32存储。

DualPipe

细粒度的计算通信并行:

• 将PP stage拆分为更细的模块,提升模块交替编排的灵活度

• 参考ZeroBubble,反向传递中权重更新和梯度传递独立操作

• 经细粒度的拆分和编排后,计算流和通信流barrier刚好可重叠

双向管道调度减少PP中的气泡

• 1F1B中每个batch拆分为1个forward和1个backward

• ZeroBubble中把backward拆分为input和weight两个部分

• DualPipe中使用对称处理,不同batch从不同device上流水

deepseek R系列:deepseek R1 zero

GRPO算法

deepseek R1 zero是deepseek v3 base上使用GRPO算法(Group Relative Policy Optimization)进行强化学习训练。 GRPO算法比PPO算法(Proximal Policy Optimization)用更少的算力达到大规模强化学习训练的目的,GRPO 的核心思想是简化这个过程:它不需要批评模型,而是通过组内相对奖励来优化策略模型。具体来说,GRPO 会从当前策略中采样一组输出,然后根据这些输出的相对表现来调整策略,而不是依赖一个单独的批评模型。

图2公式解释:这里O 是模型输出 Reference model用于和policy model的输出计算KL散度。这里r 是reward 是G个输出结果经过reward model得到的奖励,经过group computation得到相对优势A。

通俗解释:目标函数的核心是让模型生成高奖励的输出(通过相对优势 Ai和策略比率),同时避免新策略偏离旧策略太远(通过裁剪和 KL 散度)。

从deepseek R1 zero到deepseek R1

deepseek R1 zero在输出内容和表达方面略微逊色,于是在deepseek R1采用部分长思维链数据来冷启动。然后做强化学习训练。进行拒绝采样推理产出的数据,然后监督微调,最后做全场景的强化学习。全程使用了GRPO算法。

ref:

zomi酱的deepseek系列讲解

从DeepSeek V3的MTP,解析MTP技术的前世今生_deepseek mtp-CSDN博客

DeepSeek-R1-GRPO理解-CSDN博客

https://zhuanlan.zhihu.com/p/20565045592

DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清 - 腾讯云开发者社区-腾讯云

https://zhuanlan.zhihu.com/p/17565919423 https://zhuanlan.zhihu.com/p/16213202688

https://zhuanlan.zhihu.com/p/20269638568

 https://zhuanlan.zhihu.com/p/16323685381

DeepSeek-V3 技术要点解析_deepseek v3知乎解析-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/69594.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型融入推荐系统

结合项目实际给用户推荐,比如是商家项目,用户问了几个关于商品的信息,大模型就可以根据根据用户画像,给用户推荐商品。 我们现在做的是针对于用户学习的推荐,首先我们要对我们的数据进行处理,提取出我们数…

MariaDB MaxScale实现mysql8主从同步读写分离

一、MaxScale基本介绍 MaxScale是maridb开发的一个mysql数据中间件,其配置简单,能够实现读写分离,并且可以根据主从状态实现写库的自动切换,对多个从服务器能实现负载均衡。 二、MaxScale实验环境 中间件192.168.121.51MaxScale…

【JVM详解五】JVM性能调优

示例: 配置JVM参数运行 #前台运行 java -XX:MetaspaceSize-128m -XX:MaxMetaspaceSize-128m -Xms1024m -Xmx1024m -Xmn256m -Xss256k -XX:SurvivorRatio8 - XX:UseConcMarkSweepGC -jar /jar包路径 #后台运行 nohup java -XX:MetaspaceSize-128m -XX:MaxMetaspaceS…

畅聊deepseek-r1,SiliconFlow 硅基流动注册+使用

文章目录 SiliconFlow 硅基流动注册使用注册创建API密钥使用网页端使用代码调用api调用支持的模型 SiliconFlow 硅基流动注册使用 注册 硅基流动官网 https://cloud.siliconflow.cn/i/XcgtUixn 注册流程 切换中文 ​ 邀请码: XcgtUixn 创建API密钥 账户管理 --&g…

C++ Primer 类型转换

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

Gitlab中如何进行仓库迁移

需求:之前有一个自己维护的新仓库A,现在需要将这个仓库提交并覆盖另一个旧的仓库B,需要保留A中所有的commit信息。 1.方法一:将原有仓库A导出后再导入到新的仓库B中 适用场景:新的仓库B是一个待建仓库,相当…

CF388C Fox and Card Game

Fox and Card Game 题面翻译 桌子上有 n n n 堆牌。每张牌上都有一个正整数。Ciel可以从任何非空牌堆的顶部取出一张牌,Jiro可以从任何非空牌堆的底部取出一张牌。Ciel先取,当所有的牌堆都变空时游戏结束。他们都想最大化他所拿牌的分数(即…

Left side cannot be assigned to

Delphi XE E2064 Left side cannot be assigned to 错误解决方法-CSDN博客 Delphi XE E2064 Left side cannot be assigned to 错误解决方法 1. 起源 此问题源于[秋风人事档案管理系统]用Delphi XE重编译中所发现。 快十年了,当初Delphi 7所编写项目&#xff0c…

牛客周赛Round 80——举手赢棋 python 补题 + 题解

文章目录 前言举手赢棋easy举手赢棋hard 前言 紧跟时事的两道算法题 牛客周赛 Round 80 举手赢棋easy 题目描述 本题为《举手赢棋hard》的简单版本,两题的唯一区别在于对举手次数的限制不同,在本题中,小红有1次举手的机会。 小红获得了参加…

什么是矩阵账号?如何做矩阵账号运营?

在当今数字化浪潮中,无论是跨境电商、内容创作还是品牌推广,矩阵账号运营已成为企业与个人实现快速增长的关键策略。本文将深入探讨矩阵账号运营的核心要素,包括铺量策略、多账号管理、引流技巧以及如何应对运营中的常见问题,助力…

SpringCloud - Sentinel服务保护

前言 该博客为Sentinel学习笔记,主要目的是为了帮助后期快速复习使用 学习视频:7小快速通关SpringCloud 辅助文档:SpringCloud快速通关 源码地址:cloud-demo 一、简介 官网:https://sentinelguard.io/zh-cn/index.h…

文件和内容管理:非结构化数据的有序化

在数据管理的众多领域中,文件和内容管理专注于处理非结构化数据,如文档、图像、音频和视频等。这些数据虽然不像结构化数据那样易于管理和分析,但它们在组织的日常运营中扮演着不可或缺的角色。今天,让我们深入《DAMA数据管理知识…

2025/2/10 心得

第一题。J. C - Grand Garden (AI) 问题陈述 在一个花坛里,有 NN 朵花,编号为 1,2,\ldots,N1,2,…,N。最初,所有花的高度都是 00。你将得到一个高度序列 h{h\_1,h\_2,h\_3,\ldots\} 作为输入。你希望通过重复以下“浇水”操作来将所有花的编…

集成右键的好用软件,支持多线程操作!

今天给大家分享一个超级实用的小工具,真的能帮上大忙呢!这个软件是吾爱大神无知灰灰精心制作的,简直就是图片转换界的“小能手”。 它能一键把webp格式的图片转换成png格式,而且速度超快,完全不输那些付费的软件&#…

UPDATE 语句结合 REPLACE() 函数来批量修改 detail 字段中的 xxx 为 xxx

问题出现的背景,由于阿里云的oss服务器域名更换,所以我们需要修改数据库中detail字段中的域名,才能加载图片 您可以使用 SQL 的 UPDATE 语句结合 REPLACE() 函数来批量修改 detail 字段中的 oss.kxlist.com 为 www.crossbiog.com。 以下是 S…

【设计模式】【行为型模式】职责链模式(Chain of Responsibility)

👋hi,我不是一名外包公司的员工,也不会偷吃茶水间的零食,我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 📫 欢迎V: flzjcsg2,我们共同讨论Java深渊的奥秘 &#x1f…

Visual Studio踩过的坑

统计Unity项目代码行数 编辑-查找和替换-在文件中查找 查找内容输入 b*[^:b#/].*$ 勾选“使用正则表达式” 文件类型留空 也有网友做了指定,供参考 !*\bin\*;!*\obj\*;!*\.*\*!*.meta;!*.prefab;!*.unity 打开Unity的项目 注意:只是看&#xff0…

云原生后端|实践?

云原生(Cloud Native)是一种构建和运行应用程序的方法,它充分利用云计算的优势,包括弹性、可扩展性、高可用性和自动化运维。云原生后端开发通常涉及微服务架构、容器化、持续集成/持续部署(CI/CD)、服务网…

《深度学习》——pytorch框架及项目

文章目录 pytorch特点基本概念 项目项目实现导入所需库下载训练数据和测试数据对训练和测试样本进行分批次展示手写图片判断pytorch是否支持GPU定义神经网络模型定义训练函数定义测试函数创建交叉熵损失函数和优化器通过多轮训练降低损失值得到最终结果注意 pytorch PyTorch 是…

深入探索人工智能的未来:DeepSeek R1与蓝耘智算平台的完美结合

在当今数字化时代,人工智能(AI)和机器学习(ML)正以前所未有的速度改变着我们的生活和工作方式。从智能语音助手到自动驾驶汽车,从精准医疗到金融风险预测,AI的应用无处不在。深度学习作为AI的核…