DeepSeek 的 mHC

纪牛牛吃果冻不吐果冻皮2026年1月9日 22:43四川

在小说阅读器中沉浸阅读

原文：https://zhuanlan.zhihu.com/p/1991140563672664024

大约在去年同一时间段（2025年1月初），DeepSeek 凭借 R1 的发布彻底革新了AI 行业。

如今，DeepSeek 又为2026年开了个好头，发布了一篇引人瞩目的新论文《mHC: Manifold-Constrained Hyper-Connections[1]》，该论文目前已引发广泛关注，有望成为2026年下一次重大人工智能突破的关键推动力。论文建立在字节早先一篇名为《Hyper-Connections[2]》的论文基础之上。

在深入探讨之前，我们需先厘清“残差连接”（Residual Connections）的概念，从而准确理解其研究动机。

下图左一展示了一个标准残差连接，它最初于2016年随ResNet提出。该图并非展示完整模型，而仅示意一个残差块（residual block），用以说明单条残差连接的原理。底部输入为第 l 层的信号（来自模型前一层），该信号随后分两路流动：

• 右侧：输入经模块 layer-F 处理。此模块可为前馈网络、自注意力模块，或其他任意架构单元；
• 左侧：残差流（residual stream）直接将原始输入无修改地向前传递。

两路信号随后按element wise相加，形成该块的输出，其数学表达为：。

大模型中为什么要有这样的结构讨论的不多，可以这样来直观理解：虽然图中仅绘出单层结构，但当多层堆叠时，残差连接能确保原始输入信号深入网络内部的同时有效防止信息丢失。

核心原因在于它有效缓解了“梯度消失”问题：原始输入的无损传递，相当于在优化目标函数中额外引入了一个恒等映射，其梯度恒为1；即便模块layer-F 的梯度趋近于零，整体梯度仍能保持稳定。

在此基础上，字节的团队在2025年提出超连接（Hyper-Connections）的概念，旨在对残差连接进行泛化，（上图中间这个结构）。

核心思想就是通过拓宽残差流自身来扩展残差连接，即不再仅传递单一残差向量，而是将其扩展为多个分量，并在每一层通过可学习映射动态混合，来增强表达能力。

• 底部输入被复制扩展（图例中为4份），构成模型维护的拓宽残差流（初始均为原始输入的副本）
• 左侧：拓宽后的残差流通过一个可学习的残差映射矩阵进行混合。这意味着不再依赖各层固定的恒等路径，而是让模型自主学习信息如何在残差流中混合与传播；这样做计算开销增幅极小，因扩展倍率通常很小（如本例中的4倍）；
• 右侧：扩展后的输入先被投影回原模型维度，再送入layer-F模块处理，从而避免昂贵模块（如注意力或FFN）承担高维计算负担；
•模块 layer-F 的输出再经另一可学习矩阵扩展，最终与残差分量相加，形成本层输出，并作为下一层输入。

毋庸置疑，该设计大幅提升了模型沿残差路径的信息表达能力，即信息跨层流动更加灵活。

然而，这种灵活性也是有代价的：在原始的标准残差连接中，架构本身保证了恒等映射的存在，这对大规模深层网络训练至关重要。

而DeepSeek指出，超连接破坏了这一保障，因其依赖无约束的可学习混合权重矩阵，残差流可能偏离开恒等路径，导致信号在前向或反向传播中发生爆炸或衰减，动摇残差学习赖以成立的“无阻碍信号流”根本前提，进而引发模型训练不稳定。

这正是DeepSeek提出流形约束超连接（manifold-Constrained HC）所要解决的核心问题。

为应对超连接带来的不稳定性，DeepSeek并未牺牲其灵活性，其核心思想是在完全保留超连接表达能力的前提下，重建残差连接赖以成功的恒等性保障。

细看最右图：mHC块与HC块结构几乎一致，信息流路径相同，唯一关键区别在于残差混合矩阵，它不再无约束，而是施加了特定结构约束，以稳定跨层信号传播。mHC残差混合矩阵中所有元素非负；每行、每列元素之和均为 1。

满足上述性质的矩阵称为双随机矩阵（doubly stochastic）；实践中，可通过1967年经典的Sinkhorn–Knopp算法强制实现该约束，即：