【深度解析】2025大模型架构内卷升级!DeepSeek、Mistral、NVIDIA最新模型技术全攻略,小白也能看懂的LLM进化史

自最初的 GPT 架构被提出以来,已经过去了七年。乍一看,从 2019 年的 GPT-2 回顾,再展望 2024–2025 年的 DeepSeek V3 和 Llama 4,人们或许会惊讶地发现,这些模型在结构上依然高度相似。

比较不同的大语言模型(LLM),以判断哪些关键因素真正促成了它们良好(或不那么理想)的性能,是一件出了名的困难之事:数据集、训练方法以及超参数设置差异巨大,而且往往缺乏充分的公开说明。

然而,我仍然认为,审视架构本身的结构性变化依然具有很高的价值,因为它可以帮助我们了解 2025 年的 LLM 开发者究竟在做些什么。

13. MiniMax-M2

最近,开放权重 LLM 开发者分享了针对效率优化的核心架构变体。一种例子是 Qwen3-Next(见上一节),它用一个快速的 gated DeltaNet 模块替换了一部分全注意力模块。另一个例子是 DeepSeek V3.2,它使用稀疏注意力,这是一种线性注意力变体,用更好的计算性能换取一定的建模性能(我计划在即将发布的一篇文章中更详细地介绍这一机制)。

现在,MiniMax-M1 落入与上述模型类似的类别,因为它使用了一种线性注意力变体(lightning attention),相较于常规(全)注意力提供了更高的效率。我最初没有覆盖 MiniMax M1,因为它不像这里讨论的一些其他模型那样受欢迎。不过,他们新的 MiniMax-M2 发布目前被认为是最好的开放权重模型(根据基准性能),这使得它大到无法忽略。

图 37:MiniMax-M2 与其他流行的开源权重和专有 LLM 的基准测试性能对比。图片来自官方模型仓库发布的 readme 文件

图 37:MiniMax-M2 的基准性能与其他流行的开放权重和专有 LLM 进行对比。图片来自官方模型中心发布的 readme 文件。

如下面的概览图所示,我将 MiniMax-M2 与其他解码器风格的 Transformer LLM 归在一起,因为它并未使用 MiniMax-M1 中提出的高效 lightning attention 变体。相反,开发者回到了使用全注意力,可能是为了提升建模(以及基准)性能。

图 38:本文所覆盖的主要 LLM 的时间线,旁边列出了一些注意力混合模型,它们构成了更高效的替代方案,通过提升效率来换取一定的建模性能

图 38:本文所覆盖的主要 LLM 的时间线,旁边列出了一些注意力混合模型,它们构成了更高效的替代方案,通过提升效率来换取一定的建模性能。

总体而言,MiniMax-M2 与 Qwen3 惊人地相似。除了更改层数、尺寸等之外,它整体上使用了相同的组件。

13.1 每层 QK-Norm

这里或许唯一值得特别强调的一点是,MiniMax-M2 使用了一种所谓的“per_layer” QK-Norm,而不是常规的 QK-Norm。仔细查看代码可以发现,它在注意力机制内部是这样实现的:

self.q_norm = MiniMaxText01RMSNormTP(self.head_dim * self.total_num_heads, eps=...)self.k_norm = MiniMaxText01RMSNormTP(self.head_dim * self.total_num_kv_heads, eps=...)

在这里,hidden_size 等于拼接后的各个注意力头(num_heads * head_dim),因此 RMSNorm 拥有一个缩放向量,其中为每一个注意力头(以及每个 head 的维度)都提供了不同的参数。

因此,“per_layer”的含义是:RMSNorm(如前文所述用于 QK-Norm)仍然是在每一个 Transformer 模块中定义的(这点与常规 QK-Norm 相同),但除此之外,它并不是在各个注意力头之间复用,而是为每一个注意力头提供一个独立的 QK-Norm。

模型的配置文件中还包含一个滑动窗口注意力(sliding-window attention)的设置(类似于第 3 节中的 Gemma 3),但与第 4 节中讨论的 Mistral 3.1 一样,该选项在默认情况下是被禁用的。

除此之外,除了逐层 QK-Norm 这一点,整体架构与 Qwen3 非常相似,如下图所示。

图 39:Qwen3 与 MiniMax-M2 的对比

13.2 MoE 稀疏性

如上图所示,另一些有趣的细节包括:它们没有使用共享专家(shared expert)(这一点与 Qwen3 相同,但不同于 Qwen3-Next)。如前所述,在我看来,共享专家是有用的,因为它们可以减少其他专家之间的冗余。

此外,从上图可以明显看出,MiniMax-M2 的“稀疏性”是 Qwen3 的两倍。也就是说,在与 Qwen3 235B-A22B 大致相同的规模下,MiniMax-M2 每个 token 只激活 10B 参数,而不是 22B(即在 MiniMax-M2 的每一次推理步骤中,仅有 4.37% 的参数被使用,而 Qwen3 使用的活跃参数比例为 9.36%)。

13.3 部分 RoPE

最后,与 MiniMax-M1 类似,MiniMax-M2 在注意力模块中使用的是“部分”(partial)RoPE,而不是常规的 RoPE 来编码位置信息。与常规 RoPE 相同,这些旋转操作是在应用 QK-Norm 之后,作用于查询(queries)和键(keys)之上的。

这里所说的部分 RoPE,意味着只有每个注意力头中前 rotary_dim 个通道会应用旋转位置编码,而其余的 head_dim − rotary_dim 个通道则保持不变。

在官方的 M1 README 文件中,开发者提到:

Rotary Position Embedding(RoPE)应用于注意力头维度的一半,基础频率为 10,000,000。

我们可以这样直观地表示:

Full RoPE: [r r r r r r r r]
Partial RoPE: [r r r r — — — —]

在上述示意图中,“r” 表示经过旋转(即编码了位置信息)的维度,而短横线表示未被处理的维度。

这样做的目的是什么?在 M1 论文中,开发者指出:

…在 softmax 注意力维度的一半上实现 RoPE,可以在不降低性能的情况下实现长度外推(length extrapolation)。

我的推测是,这样可以防止在处理长序列时出现“过度”的旋转,尤其是当序列长度超过训练数据中出现过的最长文档长度时。换言之,其背后的动机可能是:在模型未曾见过的情况下,与其进行“糟糕的”或“过于极端”的旋转,不如干脆不进行旋转。

14. Kimi Linear

最近,线性注意力机制出现了一次复兴,其目标是提升大语言模型(LLM)的效率。

在 2017 年《Attention Is All You Need》论文中提出的注意力机制(即缩放点积注意力,scaled-dot-product attention),至今仍然是当前 LLM 中最主流的注意力变体。除了传统的多头注意力(multi-head attention)之外,它也被用于一些更高效的形式中,例如分组查询注意力(grouped-query attention)、滑动窗口注意力(sliding window attention)以及多头潜变量注意力(multi-head latent attention)。

14.1 传统注意力与二次方成本

最初的注意力机制在序列长度上呈二次方规模增长:

这是因为查询(Q)、键(K)和值(V)都是 n×d 的矩阵,其中 d 是嵌入维度(一个超参数),而 n 是序列长度(即 token 的数量)。

关于注意力机制的更多细节,可以参考我在另一篇文章中的介绍:

Understanding and Coding Self-Attention, Multi-Head Attention, Causal-Attention, and Cross-Attention in LLMs

https://magazine.sebastianraschka.com/p/understanding-and-coding-self-attention

图 40:由于序列长度 n 的存在,注意力机制产生二次方计算成本的示意图

14.2 线性注意力

线性注意力变体其实已经存在很长时间了。我记得在 2020 年代初期看到过大量相关论文。例如,我能回忆起的较早的一篇是 2020 年的论文《Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention》,在该工作中,研究人员对注意力机制进行了近似:


这里,φ(·) 是一个核特征函数,设置为 φ(x) = elu(x) + 1。

这种近似之所以高效,是因为它避免了显式计算 n×n 的注意力矩阵 QKᵀ,而不是执行所有 token 之间的成对交互(后者在时间和内存上的复杂度为 O(n²d))。

我不想在这些较早的尝试上停留太久。但总结来说,它们将时间和内存复杂度从 O(n²) 降低到了 O(n),从而使注意力机制在长序列场景下变得更加高效。

然而,这些方法始终未能真正流行起来,因为它们会降低模型精度,而且我也从未真正见过这些变体被应用在开源权重的最先进 LLM 中。

14.3 线性注意力的复兴

在今年的下半年,线性注意力变体出现了一定程度的复兴。第一个值得注意的模型是 MiniMax-M1,它采用了 lightning attention,是一个拥有 456B 参数、其中 46B 参数在每个 token 上被激活的混合专家(MoE)模型,于 6 月发布。

随后,在 8 月,Qwen3 团队推出了 Qwen3-Next,我在前文中已经对其进行了更为详细的讨论。接着,在 9 月,DeepSeek 团队发布了 DeepSeek V3.2。这三个模型(MiniMax-M1、Qwen3-Next、DeepSeek V3.2)都在其大多数或全部层中,用高效的线性注意力变体替换了传统的二次方注意力机制。

有意思的是,最近出现了一个转折点:MiniMax 团队发布了他们新的 230B 参数的 M2 模型(在第 13 节中讨论),但该模型并未采用线性注意力,而是回归到了常规注意力机制。团队表示,在线性注意力在生产级 LLM 中的应用是棘手的:它在常规提示下表现良好,但在推理任务和多轮对话任务中的准确性较差,而这些任务不仅对普通聊天场景重要,对 agent 型应用同样重要。

这似乎可能成为一个转折点,表明线性注意力或许并不值得继续追求。然而,事情并未就此结束。在 10 月,Kimi 团队发布了他们新的采用线性注意力的模型 —— Kimi Linear。

图 41:线性注意力混合架构的整体概览

补充说明:我本可以在这张总览图中,将 Qwen3-Next 和 Kimi Linear 与其他 Transformer-状态空间模型(SSM)混合架构归为一类。就我个人而言,我更倾向于将那些模型视为“带有 Transformer 组件的 SSM”,而将这里讨论的模型(Qwen3-Next 和 Kimi Linear)视为“带有 SSM 组件的 Transformer”。不过,由于我已经在 Transformer-SSM 区域中列出了 IBM Granite 4.0 和 NVIDIA Nemotron Nano 2,因此也可以认为把它们统一归为一类是合理的。

14.4 Kimi Linear 与 Qwen3-Next 的对比

Kimi Linear 在结构上与 Qwen3-Next 有多处相似之处。两种模型都依赖于一种混合式注意力策略。具体而言,它们将轻量级的线性注意力与计算成本更高的全注意力层相结合。

更具体地说,两者都采用了 3:1 的比例,即每使用三个采用线性 Gated DeltaNet 变体的 Transformer 块,就插入一个使用全注意力的 Transformer 块,如下图所示。

图 42:Qwen3-Next 与 Kimi Linear 的并列对比

Gated DeltaNet 是一种线性注意力变体,其灵感来源于循环神经网络,并引入了来自论文《Gated Delta Networks: Improving Mamba2 with Delta Rule》的门控机制。从某种意义上说,Gated DeltaNet 是一种带有 Mamba 风格门控的 DeltaNet,而 DeltaNet 本身是一种线性注意力机制。鉴于本文的整体概览性质,DeltaNet 非常适合作为未来单独文章的主题进行介绍。

需要注意的是,上图中 Kimi Linear 部分刻意省略了 RoPE 模块。这是有意为之。Kimi 在多头潜变量注意力(MLA,global attention)层中采用了 NoPE(无位置嵌入)。正如作者所述,这使得 MLA 在推理阶段可以作为纯粹的多查询注意力(multi-query attention)运行,并避免了在长上下文扩展时对 RoPE 进行重新调参(位置信息的偏置据称由 Kimi Delta Attention 模块来处理)。关于 MLA 以及多查询注意力(它是分组查询注意力的一种特例)的更多信息,可以参考我在《The Big LLM Architecture Comparison》一文中的讨论。

此外,我还在另一篇文章中对 Gated DeltaNet 进行了更为详细的介绍。

https://sebastianraschka.com/llms-from-scratch/ch04/08_deltanet/

14.5 Kimi Delta Attention

Kimi Linear 通过引入 Kimi Delta Attention(KDA)机制,对 Qwen3-Next 的线性注意力机制进行了修改,而 KDA 本质上是对 Gated DeltaNet 的一种改进。

在 Qwen3-Next 中,模型使用的是标量门控(即每个注意力头对应一个数值)来控制记忆衰减率;而在 Kimi Linear 中,这一设计被替换为按通道进行的门控,即对每一个特征维度分别进行门控。根据作者的说法,这种设计能够对记忆进行更精细的控制,从而提升长上下文推理能力。

此外,在全注意力层中,Kimi Linear 用多头潜变量注意力(MLA)替换了 Qwen3-Next 中的 gated attention 层(后者本质上是带有输出门控的标准多头注意力层)。这里使用的 MLA 机制与我们在 DeepSeek V3/R1 一节中讨论的是同一种,只是额外加入了一个门控。(回顾一下,MLA 通过压缩 key/value 空间来减少 KV cache 的大小。)

目前还没有与 Qwen3-Next 的直接对比结果,但与 Gated DeltaNet 论文中的 Gated DeltaNet-H1 模型(本质上是结合了滑动窗口注意力的 Gated DeltaNet)相比,Kimi Linear 在保持相同 token 生成速度的同时,实现了更高的建模精度。

图 43:来自 Kimi Linear 论文的带注释图示,显示 Kimi Linear 在速度上与 Gated DeltaNet 相当,且显著快于采用多头潜变量注意力(如 DeepSeek V3/R1)的架构,同时在基准测试中表现更优

此外,根据 DeepSeek-V2 论文中的消融实验结果,在精心选择超参数的情况下,MLA 的性能可以与常规的全注意力相当。

而 Kimi Linear 在长上下文和推理基准测试中与 MLA 的对比表现良好,这再次使线性注意力变体在更大规模、最先进模型中的应用显得颇具前景。需要指出的是,Kimi Linear 的规模为 48B 参数,但它比 Kimi K2 小了 20 倍。未来 Kimi 团队是否会在即将发布的 K3 模型中采用这一方案,将是一件值得关注的事情。

15. Olmo 3 Thinking

Allen AI 于 11 月 20 日发布了他们新的 Olmo 3 7B 和 32B 模型。(官方拼写已从 OLMo 改为 Olmo,因此我在本节中也将采用这一拼写。)

如前所述,Olmo 模型一直都很有意思,因为它们是完全开源的。在这里,这意味着团队还共享了详细的训练报告、多个检查点、关于训练数据的信息,等等。换言之,Olmo 模型是完全透明的。

这一次,Olmo 系列除了基础模型(base)和指令模型(instruct)之外,还额外提供了一种推理模型(reasoning model)版本;并且在 Olmo 3 的技术报告中包含了大量关于训练过程的有趣细节。不过,由于本文是一篇关于架构对比的文章,本节只聚焦于 Olmo 3 的架构。

与 Olmo 3 最接近、最适合进行对比的模型是 Qwen3,因为 Qwen3 系列中有两个规模相近的模型,而且 Qwen3 模型在性能上也与 Olmo 3 相似。

首先,我们来看两者中较小的一个模型:Olmo 3 7B。

图 44:Olmo 3 7B 与 Qwen3 8B 的并列对比

如我们所见,Olmo 3 的架构与 Qwen3 相对相似。不过值得注意的是,这种设计在本质上更可能是受到 Olmo 2 前代模型的启发,而不是 Qwen3。

与 Olmo 2 类似,Olmo 3 仍然采用 post-norm,而不是 pre-norm,因为他们在 Olmo 2 论文中发现,这种设计可以稳定训练过程。

有意思的是,7B 模型仍然像 Olmo 2 一样使用多头注意力(multi-head attention)。不过,为了提升效率并缩小 KV cache 的大小,他们现在使用了滑动窗口注意力(sliding window attention)(例如,与 Gemma 3 类似)。

接下来,我们再来看 32B 模型。

图 45:Olmo 3 32B 与 Qwen3 32B 的并列对比

总体而言,这仍然是同一套架构,只是进行了规模上的放大。此外,各部分的比例(例如,从输入维度到前馈层中间维度的扩展比例等)也大致与 Qwen3 保持一致。

我的猜测是:由于词表规模更小,Olmo 3 的初始架构可能略小于 Qwen3;随后,他们将前馈层中间维度的扩展比例从 Qwen3 中的 5× 提升到了 Olmo 3 中的 5.4×,从而得到一个可用于直接对比的 32B 模型。

另外需要注意的是,32B 模型使用了分组查询注意力(grouped query attention)。

也许最后一个值得一提的小细节是:Olmo 3 在其支持的 64k 上下文长度下,使用了 YaRN 进行上下文扩展,但这一机制只应用在全局注意力层(即非滑动窗口注意力层)中。(YaRN 本质上是一种精细设计的 RoPE 重缩放技术,有助于在长上下文长度下更好地保持模型质量。)

在 Qwen3 中,YaRN 是一个可选项,用于将原生上下文长度从 32k token 扩展到 131k token。

如果你对更多架构细节感兴趣,我在一个独立的 notebook 中从零实现了 Olmo 3,链接如下:

图 46:Olmo 3 的从零实现示例

16. DeepSeek V3.2

本文一开始介绍的是 DeepSeek V3,它发布于 2024 年 12 月。当时 DeepSeek 还发布了多个版本,但我基本上略过了它们,因为那些并不是像 DeepSeek V3 和 DeepSeek R1 这样的重量级旗舰模型发布。

图 47:自 DeepSeek V3 以来的 DeepSeek 模型发布时间线。主要模型以红色标出

然而,DeepSeek V3.2 是一次非常重大的发布,因为在某些基准测试上,它已经可以与当前的 GPT-5.1 和 Gemini 3.0 Pro 模型相媲美。

在整体架构上,DeepSeek V3.2 与 DeepSeek V3 非常相似,但新增了一种稀疏注意力机制,用以提升效率。

图 48:DeepSeek 模型架构,包含多头潜变量注意力(multi-head latent attention)和稀疏注意力

我最初原本计划只为本文写一小节来介绍 DeepSeek V3.2,但最终内容扩展到了 5000 字以上,因此我将其单独整理成了一篇文章,并在下面给出了链接:

A Technical Tour of the DeepSeek Models from V3 to V3.2

https://magazine.sebastianraschka.com/p/technical-deepseek

17. Mistral 3

2025 年 12 月 2 日,在 DeepSeek V3.2 发布的一天之后,Mistral 团队发布了他们全新的Mistral 3模型系列。该系列包括三款较小的稠密模型(3B、8B 和 14B),统一命名为Ministral 3,以及他们新的旗舰模型Mistral 3 Large,这是一个拥有 675B 参数的混合专家(MoE)模型(其中 41B 参数在每个 token 上处于激活状态)。更具体地说,Mistral 3 Large 模型由以下两部分组成:

  • • 一个拥有 673B 参数、其中 39B 参数处于激活状态的 MoE 语言模型
  • • 一个 2.5B 的视觉编码器

(由于本文聚焦于 LLM 相关内容,因此在本节中我们将忽略视觉编码器。不过,我或许应该在未来某个时候更新一下我关于多模态 LLM 的文章)

Understanding Multimodal LLMs

https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

首先,一个有趣的点是,这是 Mistral 自 2023 年的 Mixtral 之后首次再次推出 MoE 模型(在本文前面我曾写道 Mistral 放弃了 MoE,而去年 DeepSeek V3 则引领了一波 MoE 复兴)。

发布博客文章中提到,所有模型规模都提供 base、instruct 和 reasoning 三种版本,这是一个不错的设计。不过,目前他们 675B 模型的 reasoning 版本尚未发布。

另一个有趣的小细节是,根据官方公告,Mistral 此次与 NVIDIA 合作,针对 Blackwell 架构芯片优化了 tokens/sec 的吞吐量。这一点很好,因为这意味着 Ministral 模型在我的小型 DGX Spark 上,相比同类模型会运行得稍快一些(我之后还需要亲自测试)。

除了 Mistral 3 在 tokens/sec 速度上的优势之外,从质量基准测试来看,较小的 Ministral 模型与 Qwen3 大致处于同一水平,而更大的旗舰模型则与 DeepSeek V3.1 表现相当。

由于 Mistral 3 的发布时间仅比 DeepSeek V3.2 晚一天,因此他们在文章中并未包含与 V3.2 的对比(唯一的例外是 LMArena 的 Elo 分数,其中 DeepSeek V3.2 以 1423 略微领先于 Mistral 3 的 1418)。

遗憾的是,目前还无法进行严格的“苹果对苹果”式对比,因为 Mistral 3 Large 目前还没有 reasoning 模型版本,而 DeepSeek V3.2 也未公布其非 thinking 模式下的基准测试结果。不过,如果你感兴趣的话,我将 DeepSeek V3.2-Thinking 的数值(来自 DeepSeek V3.2 报告)叠加到了 Mistral 3 Large 的基准测试图表之上。

图 49:来自 Mistral 3 官方发布公告的 Mistral 3 Large 基准测试结果,并叠加了 DeepSeek V3.2 的结果(来自 DeepSeek V3.2 论文)

将 Mistral 3 Large Instruct 模型与 DeepSeek V3.2-Thinking 模型并排比较(数值来自 DeepSeek V3.2 论文)可以明显看出,V3.2-Thinking 模型的表现要好得多。因此,我将继续关注 Mistral 3 Large Thinking 版本的发布,并期待看到更新后的对比图表。

因此,就目前而言,我会认为:得益于一系列优化,Mistral 3 Large 是一个非常适合成本敏感、低延迟部署场景的优秀候选模型;而如果你的目标是最大化回答质量,那么 DeepSeek V3.2-Thinking 会是更好的选择。Mistral 3 Large 的另一个卖点在于它还提供了多模态支持(而 DeepSeek V3.2 仅支持文本)。

顺便一提,我在本节中如此聚焦 DeepSeek V3.2 的原因在于,这两个模型的发布时间非常接近,仅相差一天;此外,它们的规模也几乎完全一致,分别为 671B 和 673B,这使得二者之间的对比格外有意思。

遗憾的是,目前并没有一份技术报告来详细介绍 Mistral 3 的模型研发过程。不过,由于它是一个 open-weight 模型,我们仍然可以在 Hugging Face Hub 上获取其模型权重并进行分析。因此,接下来我们来更深入地看看 Mistral 3 Large。

结果表明,Mistral 3 Large 的架构与 DeepSeek V3 和 V3.1完全相同!唯一的区别在于:他们将每个专家的规模扩大了 2 倍,同时将专家数量减少为原来的一半。

图 50:DeepSeek V3 与 Mistral 3 Large 的并列对比

不过,尽管在架构上几乎一致,但很可能 Mistral 团队是从零开始训练了 Mistral 3,而不是在 DeepSeek V3 的基础上进行初始化并继续训练,因为 Mistral 使用的是他们自家的 tokenizer。

继 Kimi K2 之后,Mistral 3 成为了第二个采用 DeepSeek V3 架构的模型系列。不过,与将模型规模从 671B 扩展到 1 万亿参数的 Kimi K2 不同,Mistral 3 团队仅调整了专家规模比例,并额外加入了一个用于多模态支持的视觉编码器。当然,为什么不呢?我认为 DeepSeek V3 本身就是一个非常稳健的架构设计,而且它在 MoE 和 MLA 方面都具备不错的效率优势。所以,既然架构本身并没有问题,又何必轻易去改变它呢?如今,真正的“秘密配方”往往更多体现在训练流水线以及推理阶段的扩展策略之中。

18. Nemotron 3

本文并不是对所有现有 LLM 的穷尽性清单。为了保持内容的可控性,我只聚焦于一些主要亮点。这里所说的“亮点”,指的是这些模型要么非常流行、要么性能表现非常出色、要么在架构上具有有趣的组成部分。

话虽如此,现在终于可以把 NVIDIA 的一款模型加入到这个列表中了。NVIDIA 刚刚在 2025 年 12 月 15 日发布了 Nemotron 系列的最新成员 —— Nemotron 3。Nemotron 的一个优点在于,它不仅提供了开源权重和一份技术报告,而且还像 Olmo 3 一样,额外公开了数据集以及训练代码。

根据官方发布公告,Nemotron 3 提供了三种规模:

    1. Nano(30B-A3B),
    1. Super(100B),
    1. Ultra(500B)。

在架构层面,这些模型采用的是一种混合专家(MoE)的 Mamba–Transformer 混合架构。截至本文撰写时(12 月 17 日),只有 Nano 模型作为开源权重模型发布,因此下面的讨论将聚焦于该模型,如下图所示。

图 51:Nemotron 3 Nano 模型的整体示意图,它是一种 Transformer–Mamba 混合架构

如上图所示,Nemotron 3 Nano(30B-A3B)是一个拥有 52 层的 Mamba–Transformer 混合模型,它在结构上交替堆叠了 Mamba-2 序列建模模块与稀疏混合专家(MoE)的前馈层,并且只在少数层中使用自注意力机制。

这张图中包含了大量细节,但简而言之,该架构由 13 个宏块(macro block)组成,每个宏块内部重复包含 Mamba-2 → MoE 的子模块,并额外穿插了少量分组查询注意力(Grouped-Query Attention)层。将宏块与子模块相乘后,该架构总计包含 52 层。

在 MoE 模块方面,每一层 MoE 都包含 128 个专家,但在每个 token 上只激活 1 个共享专家以及 6 个路由专家。

Mamba-2 层本身就足以单独写一整篇文章来介绍(或许可以作为未来的一个主题)。不过在这里,从概念上讲,你可以将它们视为与前文介绍过的 Qwen3-Next 和 Kimi-Linear 所使用的 Gated DeltaNet 方法相似。你也可以在我另一篇文章中相关内容:

Beyond Standard LLMs

https://substack.com/profile/27393275-sebastian-raschka-phd

Gated DeltaNet 与 Mamba-2 层之间的相似之处在于:二者都用一种带门控的状态空间更新来替代标准注意力机制。这类状态空间模块的核心思想是维护一个持续更新的隐藏状态,并通过学习得到的门控机制将新的输入信息混合进来。与注意力机制不同的是,这种方法在输入序列长度上的计算复杂度是线性的,而不是二次方的。

这一架构真正令人兴奋的地方在于:在与同等规模的纯 Transformer 架构相比时,它在性能上表现非常出色,同时还能实现显著更高的每秒 token 生成吞吐量。

总体而言,这是一个非常有意思的发展方向,其在仅使用极少注意力层这一点上,甚至比 Qwen3-Next 和 Kimi-Linear 走得更远。然而,Transformer 架构的一大优势在于其在(非常)大规模下的性能表现。我也非常好奇,Nemotron 3 Super,尤其是 Ultra 版本,将来与 DeepSeek V3.2 这类模型相比会有怎样的表现。

19. Xiaomi MiMo-V2-Flash

在 2025 年 12 月,又出现了一个令人印象深刻的新成员。小米发布了他们最新的Xiaomi MiMo-V2-Flash,其基准测试性能可与 DeepSeek V3.2 相匹配,但参数量仅为后者的一半,同时在推理阶段速度更快。该模型是一个309B 参数的混合专家(MoE)模型,并且每个 token 仅激活 15B 参数

有意思的是,它采用了滑动窗口注意力(Sliding Window Attention, SWA)全局(常规)注意力5:1 的比例组合的方式,这一点与 Gemma 3(见第 3 节)类似。然而,它使用了一个更加激进的滑动窗口大小(128),这一数值比 Gemma 3 使用的窗口大小(1024)小了 8 倍

图 52:Xiaomi MiMo-V2-Flash 与 DeepSeek V3.2 的对比,二者在基准测试中表现相近

基于我目前掌握的信息,这是迄今为止采用滑动窗口注意力的最大模型

此外,小米的该模型还使用了多 token 预测(Multi-Token Prediction, MTP),正如前文第 12.3 节中所介绍的那样。

经历了这么多年,大语言模型的发布依然令人兴奋,我也非常期待接下来还会出现什么新的进展。

本杂志是一个个人热情驱动的项目,你的支持有助于它持续发展。

如果你愿意支持我的工作,可以考虑我的书《Build a Large Language Model (From Scratch)》,或它的续作《Build a Reasoning Model (From Scratch)》。(我相信你会从中收获颇多;它们以你在其他地方很难看到的深度,系统讲解了 LLM 的工作原理。)

感谢你的阅读,也感谢你对独立研究的支持。

《Build a Large Language Model (From Scratch)》现已在 Amazon 上发售;《Build a Reasoning Model (From Scratch)》目前可在 Manning 平台以 Early Access 形式获取

如果你已经阅读了这本书,并且有几分钟时间,我将非常感激你能留下一个简短的评价。这对我们作者来说帮助非常大。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1190172.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何快速掌握PvZ Toolkit:游戏修改的终极指南

如何快速掌握PvZ Toolkit:游戏修改的终极指南 【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器 项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit 还在为植物大战僵尸中的资源不足而烦恼吗?PvZ Toolkit作为植物大战僵尸PC版的终…

油门刹车来回切换的ACC系统到底咋做的?今天咱们直接开撸Simulink+CarSim联合仿真。注意看这个PID控制模块的代码,老司机都爱这么玩

ACC自适应巡航控制模型simulink模型+carsim设置 可选购模型说明文件和操作说明(联系前请明确需求知识类商品出售不退)function [acc_cmd, mode_flag] ACC_Controller(v_ego, v_set, gap_actual, gap_target)persistent integral_error;if is…

[USACO09OPEN] Work Scheduling G

[USACO09OPEN] Work Scheduling G 依旧糖的要死 题目大意 总共 \(N\) 项工作,每个工作两个参数 \(D_i\)(截至日期) 和 \(P_i\)(所获利润),时间 \(0\) 开始,总共有 \(10^9\) 个时间单位。他目前可以从 \(N\) 项工…

救命!制造业AI Agent这么强?架构拆解+实战案例+ROI计算,一篇搞定!

双轨价值:为开发者解析Agent架构,为企业主量化投资回报 引言:制造业的认知革命 当AI从“感知”走向“决策”,AI Agent(人工智能代理)正成为智能工厂的“超级大脑”。它不再只是识别缺陷,而是理…

5分钟掌握AMD Ryzen处理器精准调优:SMU调试工具完全指南

5分钟掌握AMD Ryzen处理器精准调优:SMU调试工具完全指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://…

AI Agent架构保姆级教程:从“懵圈“到“精通“,四层闭环+四步路径,让你少走90%弯路

当前 AI Agent 的主流架构,普遍采用“分层式系统”设计,其核心包括: 以大模型为认知中枢,通过工具与记忆进行能力增强,再由 Agent 编排逻辑驱动执行环境,最终以产品化形态对外提供服务。这一分层已成为业界…

Linux性能排查实战:从“系统慢”到精准定位

大家好,我是刘叨叨,一个致力于让碎片化技术系统性的运维人。 监控大盘一片“绿色”,业务却喊“卡爆了”?别慌,今天分享一套直击要害的排查心法,让你快速把模糊的“系统慢”变成清晰的定位结论。 一、核心思路:先…

【硬核干货】大模型开发核心:预训练技术深度剖析,附完整代码实现!

在逐一熟悉各类主流 AI 应用场景:聊天交互、检索增强生成(RAG)知识库、网络搜索、工具调用、AI Coding等之后,接下来就是要进一步探究这些应用的核心支撑 —— 大语言模型(LLM, Large Language Model)的底层…

终极游戏手柄测试指南:零配置实时检测解决方案

终极游戏手柄测试指南:零配置实时检测解决方案 【免费下载链接】gamepadtest Gamepad API Test 项目地址: https://gitcode.com/gh_mirrors/ga/gamepadtest Gamepad API Test 是一款专为游戏开发者和玩家设计的轻量级手柄测试工具,能够实时可视化…

2026冷风机厂家权威推荐榜:奥德冷风机、工业冷风机、冷风机供应商及品牌实力解析

在工业制冷与通风领域,冷风机作为核心设备,其性能与稳定性直接影响生产效率与能耗成本。据行业数据显示,2025年国内冷风机市场规模已突破120亿元,年复合增长率达8.3%,其中工业冷风机占比超65%。面对市场需求的多元…

2026年学术论文降AI实战测评:谁是过关斩将的利器? - 品牌观察员小捷

步入2026年,学术界对AIGC的监管力度达到了前所未有的高度。随着各大期刊和高校将“AI率”列为与“查重率”同等重要的考核指标,毕业生们面临着严峻挑战。数据显示,超过七成的应届生在论文提交前都遭遇了AI检测超标的…

AI训练数据集供应商推荐:专业图片、视频、AI数据训练服务商精选 - 品牌2025

在人工智能模型训练如火如荼的今天,高质量、合规化的数据已成为决定项目成败的基石。无论是寻求AI训练图片素材供应商、AI训练视频素材供应商,还是更广泛的AI训练数据集供应商,企业面临的共同挑战是如何从海量信息中…

科研新范式:Claude 4.5 Sonnet 深度集成 Benchling,打通实验与写作全链路 - 147API

科研效率的瓶颈,很多时候不在“实验做不出来”,而在“做出来之后跑不成链路”。记录写在 Benchling,证据散在 PubMed,分析在脚本/表格里滚来滚去,最后写作又回到 Word/Overleaf:一旦项目变复杂,团队就会把大量时…

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品

抖音内容高效下载攻略:告别水印困扰,轻松备份原创作品 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 还在为抖音视频的水印烦恼吗?想要批量下载学习素材却无从下手&#…

【CDA干货】5款神级AI数据分析工具,帮你搞定 80% 的工作难题!

在数字化运营的时代,AI已成为处理数据的更强大、高效且易于接近的解决方案。 AI 不仅改变了数据处理的速度和准确性,还极大地降低了数据分析的门槛,让普通用户也能轻松驾驭复杂的数据分析任务。 一、AI在数据分析中的应用 众所周知&#x…

2025上海不锈钢控制柜厂家推荐:专精特新+高新技术认证指南 - 品牌排行榜

一、上海不锈钢控制柜市场的产业升级窗口 根据中国电器工业协会发布的《2024年电气成套设备行业发展报告》,上海地区不锈钢配电箱制造厂家年产值突破320亿元,占全国市场份额的18.7%。随着新能源汽车、半导体制造、生…

Wekan开源看板:从入门到精通的完整实践指南

Wekan开源看板:从入门到精通的完整实践指南 【免费下载链接】wekan The Open Source kanban (built with Meteor). Keep variable/table/field names camelCase. For translations, only add Pull Request changes to wekan/i18n/en.i18n.json , other translations…

免费的问卷调查平台盘点:微信QQ微博多渠道分发集成(2025最新榜单) - 品牌排行榜

2025年在线问卷调查已成为企业决策、学术研究、市场洞察的核心工具,据艾瑞咨询数据,国内问卷调查平台用户规模达4.2亿,企业通过问卷获取的用户反馈数据转化率较传统访谈提升280%。但市场上免费的问卷调查平台普遍存在&…

Dolphinscheduler分布式调度系统实战:从架构解析到生产级部署深度指南

Dolphinscheduler分布式调度系统实战:从架构解析到生产级部署深度指南 【免费下载链接】dolphinscheduler Dolphinscheduler是一个分布式调度系统,主要用于任务调度和流程编排。它的特点是易用性高、可扩展性强、性能稳定等。适用于任务调度和流程自动化…

iOS免越狱个性化定制:Cowabunga Lite隐藏技巧与高阶玩法全解析

iOS免越狱个性化定制:Cowabunga Lite隐藏技巧与高阶玩法全解析 【免费下载链接】CowabungaLite iOS 15 Customization Toolbox 项目地址: https://gitcode.com/gh_mirrors/co/CowabungaLite 厌倦了千篇一律的iOS界面?每次看到朋友的个性化iPhone都…