DeepSeek 的 mHC

DeepSeek 的 mHC

纪牛牛 吃果冻不吐果冻皮2026年1月9日 22:43四川

在小说阅读器中沉浸阅读

原文:https://zhuanlan.zhihu.com/p/1991140563672664024

大约在去年同一时间段(2025年1月初),DeepSeek 凭借 R1 的发布彻底革新了AI 行业。

如今,DeepSeek 又为2026年开了个好头,发布了一篇引人瞩目的新论文《mHC: Manifold-Constrained Hyper-Connections[1]》,该论文目前已引发广泛关注,有望成为2026年下一次重大人工智能突破的关键推动力。论文建立在字节早先一篇名为《Hyper-Connections[2]》的论文基础之上。

在深入探讨之前,我们需先厘清“残差连接”(Residual Connections)的概念,从而准确理解其研究动机。

下图左一展示了一个标准残差连接,它最初于2016年随ResNet提出。该图并非展示完整模型,而仅示意一个残差块(residual block),用以说明单条残差连接的原理。底部输入为第 l 层的信号 (来自模型前一层),该信号随后分两路流动:

  • • 右侧:输入经模块 layer-F 处理。此模块可为前馈网络、自注意力模块,或其他任意架构单元;

  • • 左侧:残差流(residual stream)直接将原始输入无修改地向前传递

两路信号随后按element wise相加,形成该块的输出,其数学表达为: 。

大模型中为什么要有这样的结构讨论的不多,可以这样来直观理解:虽然图中仅绘出单层结构,但当多层堆叠时,残差连接能确保原始输入信号深入网络内部的同时有效防止信息丢失

核心原因在于它有效缓解了“梯度消失”问题:原始输入的无损传递,相当于在优化目标函数中额外引入了一个恒等映射,其梯度恒为1;即便模块layer-F 的梯度趋近于零整体梯度仍能保持稳定。

在此基础上,字节的团队在2025年提出超连接(Hyper-Connections)的概念,旨在对残差连接进行泛化,(上图中间这个结构)。

核心思想就是通过拓宽残差流自身来扩展残差连接,即不再仅传递单一残差向量,而是将其扩展为多个分量,并在每一层通过可学习映射动态混合,来增强表达能力。

  • • 底部输入被复制扩展(图例中为4份),构成模型维护的拓宽残差流(初始均为原始输入的副本)

  • • 左侧:拓宽后的残差流通过一个可学习的残差映射矩阵进行混合。这意味着不再依赖各层固定的恒等路径,而是让模型自主学习信息如何在残差流中混合与传播;这样做计算开销增幅极小,因扩展倍率通常很小(如本例中的4倍);

  • • 右侧:扩展后的输入先被投影回原模型维度,再送入layer-F模块处理,从而避免昂贵模块(如注意力或FFN)承担高维计算负担;

  • 模块 layer-F 的输出再经另一可学习矩阵扩展,最终与残差分量相加,形成本层输出,并作为下一层输入。

毋庸置疑,该设计大幅提升了模型沿残差路径的信息表达能力,即信息跨层流动更加灵活。

然而,这种灵活性也是有代价的:在原始的标准残差连接中,架构本身保证了恒等映射的存在,这对大规模深层网络训练至关重要。

而DeepSeek指出,超连接破坏了这一保障,因其依赖无约束的可学习混合权重矩阵,残差流可能偏离开恒等路径,导致信号在前向或反向传播中发生爆炸或衰减,动摇残差学习赖以成立的“无阻碍信号流”根本前提,进而引发模型训练不稳定。

这正是DeepSeek提出流形约束超连接(manifold-Constrained HC) 所要解决的核心问题。

为应对超连接带来的不稳定性,DeepSeek并未牺牲其灵活性,其核心思想是在完全保留超连接表达能力的前提下,重建残差连接赖以成功的恒等性保障

细看最右图:mHC块与HC块结构几乎一致,信息流路径相同,唯一关键区别在于残差混合矩阵,它不再无约束,而是施加了特定结构约束,以稳定跨层信号传播。mHC残差混合矩阵中所有元素非负;每行、每列元素之和均为 1。

满足上述性质的矩阵称为双随机矩阵(doubly stochastic);实践中,可通过1967年经典的Sinkhorn–Knopp算法强制实现该约束,即:

  • • 每个输出残差分量接收等量的总输入信号;

  • • 每个输入残差分量对输出的总贡献量相同。

这样下来,即便信息可在多路径间自由混合,拓宽后的残差流仍在全局层面保持了“类恒等”特性。

同时,投影矩阵(扩展前/后的线性映射)也与标准HC不同:DeepSeek通过Sigmoid函数强制其非负。

这里的动机在于若投影中正负系数共存,可能导致信号相互抵消,进而引发大规模训练不稳定。

最后是实验效果,他们在预训练中评估了三种变体:

  • 基线模型(无超连接)

  • 标准超连接(HC)模型

  • • 论文提出的流形约束超连接(mHC)模型。

所有模型均采用受DeepSeek-V3启发的混合专家(MoE)架构;HC与mHC均采用4倍扩展的残差流。

上表对比了参数量均为27B的三类模型在多项下游任务上的表现。两种超连接模型均优于基线,验证了拓宽残差流可提升性能。

更重要的是,mHC在所有任务中持续取得最优结果(见表格最后一行)。表明 mHC在保留超连接优势的同时,实现了更全面的下游性能提升。

引用链接

[1]mHC: Manifold-Constrained Hyper-Connections:https://arxiv.org/abs/2512.24880
[2]Hyper-Connections:https://arxiv.org/abs/2409.19606

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1136736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

压缩哈希(Compressed Hashing)学习算法详解

压缩哈希(Compressed Hashing,简称CH)是一种高效的无监督哈希学习方法,旨在将高维数据映射到低维二进制空间,同时保留数据的局部相似性。该算法通过引入地标点(landmarks)来构建稀疏表示,从而降低维度并提升计算效率,非常适用于大规模近邻搜索和检索任务。 本文将基于…

emwin字体与图片资源:从添加到显示的完整指南

emWin字体与图片资源:从设计到显示的实战全解析你有没有遇到过这样的情况?精心设计了一套UI界面,图标美观、文字清晰,结果烧录进嵌入式设备后——中文变成方块,图片颜色发紫,启动画面卡顿半秒才出来&#x…

agent系统:架构、应用与评估全景综述

agent系统:架构、应用与评估全景综述 原创 无影寺 AI帝国 2026年1月9日 22:05 广东 背景与核心问题 基础模型已使自然语言成为计算的实用接口,但大多数现实任务并非单轮问答。这些任务涉及从多个来源收集信息、随时间维护状态、在工具间进行选择&#…

局部敏感判别分析(LSDA)算法详解与MATLAB实现

局部敏感判别分析(LSDA)算法详解与MATLAB实现 在有监督降维任务中,经典的线性判别分析(LDA)追求全局类间分离和类内紧致,但往往忽略数据的局部几何结构。当数据分布在非线性流形上时,LDA 的表现会大打折扣。局部敏感判别分析(Locality Sensitive Discriminant Analysi…

零基础指南:MOSFET基本工作原理与半导体区域分布

从零开始读懂MOSFET:不只是“开关”,更是电场的艺术你有没有想过,手机充电器为什么能做到又小又快?无人机的电机控制为何如此精准?这些背后都藏着一个功不可没的小元件——MOSFET。它不像CPU那样引人注目,却…

内卷还是变革?智谱唐杰最新演讲:大模型瓶颈期,普通人该如何抓住这3大趋势?

这个时候,可能大部分人都会把目光放到智谱的 CEO 张鹏身上,而我觉得唐杰可能是智谱成功最重要的一环。 唐杰老师是清华大学教授、智谱 AI 首席科学家,也是国内最懂大模型的人之一。 他在智谱上市前夕发了篇长微博,谈 2025 年对大…

SMBus协议层次结构:系统学习物理层与命令层

深入理解SMBus:从物理层到命令层的系统级解析在嵌入式系统和现代计算机架构中,我们常常需要让多个小功能芯片“说同一种语言”——比如温度传感器上报数据、电池管理IC报告剩余电量、内存模块自述规格。这些看似简单的任务背后,离不开一条低调…

企业级域名 SSL 证书信息采集与巡检

背景 在当前数字化时代,SSL 证书是保障企业网络传输安全、验证网站身份及维护用户信任的基石。尤其对于拥有众多域名的企业而言,SSL 证书的有效性直接关系到业务的连续性与安全性。传统手动管理方式难以应对证书数量多、易遗漏的挑战,证书一…

企业级域名 SSL 证书信息采集与巡检

背景 在当前数字化时代,SSL 证书是保障企业网络传输安全、验证网站身份及维护用户信任的基石。尤其对于拥有众多域名的企业而言,SSL 证书的有效性直接关系到业务的连续性与安全性。传统手动管理方式难以应对证书数量多、易遗漏的挑战,证书一…

学长亲荐8个AI论文软件,助你搞定本科生论文格式规范!

学长亲荐8个AI论文软件,助你搞定本科生论文格式规范! 论文写作的“隐形助手”:AI 工具如何改变你的学术之路 对于许多本科生来说,撰写论文不仅是对知识的检验,更是对时间管理、逻辑思维和语言表达能力的综合挑战。尤其…

保姆级教程!AI智能体的可解释因果缰绳全解析:手把手带你用大模型提取因果反馈。

文章摘要 本文介绍了一种创新的方法,利用大语言模型(LLM)代理从原始文本中自动提取因果反馈模糊认知图谱(FCM)。通过三步系统指令,LLM能够系统性地识别文本中的关键概念和因果关系,构建动态系统…

图解说明时序逻辑电路的信号时序关系

时序逻辑电路的信号时序关系:从波形图看懂触发器如何“记住”时间你有没有遇到过这样的情况?明明逻辑设计完全正确,Verilog代码也综合通过了,仿真看起来也没问题——但烧进FPGA后系统就是不稳定,偶尔出错、数据跳变、状…

上拉电阻与信号完整性的关系:深度剖析典型应用

上拉电阻的“隐形战场”:小阻值如何左右信号命脉?你有没有遇到过这样的场景?IC通信时断时续,示波器一测发现时钟边沿像“爬楼梯”;系统莫名其妙反复重启,查遍电源和固件却毫无头绪;两个电压域的…

ARM7异常处理调试技巧:超详细版日志追踪方法

ARM7异常调试实战:一套真正能用的日志追踪方案你有没有遇到过这样的情况?设备在现场莫名其妙重启,连不上仿真器,又无法复现问题。翻遍代码也找不到线索,只能靠猜——是不是栈溢出?中断冲突?还是…

一文说清波形发生器核心要点:初学者快速理解指南

从零搞懂波形发生器:不只是信号源,更是电子系统的“发令枪”你有没有遇到过这种情况——调试一个放大电路时,手头没有信号源,只能靠MCU的PWM勉强凑合?或者在做音频滤波实验时,发现输出波形“毛刺”满屏&…

pjsip VoIP通信入门必看:手把手搭建第一个通话应用

手把手教你用 pjsip 搭出第一个 VoIP 通话应用:从零开始的实战指南你有没有想过,自己动手写一个能打电话的程序?不是用微信、不是走运营商,而是真正通过网络传输声音——哪怕只是两台电脑之间“喂喂”两声。这听起来像是黑科技&am…

MicroPython定时器工作原理通俗解释

让你的MicroPython“会看时间”:定时器工作原理全解析你有没有试过用time.sleep(3)暂停程序三秒,结果发现这期间按钮按了没反应、Wi-Fi收不到消息?这是初学者最容易踩的坑——阻塞式延时让整个系统“死机”了。那怎么才能一边等时间&#xff…

SPI通信项目中遇到c9511e错误的环境修复操作指南

SPI项目编译卡死?一招解决c9511e: unable to determine the current toolkit环境故障你有没有经历过这样的场景:SPI驱动写得行云流水,DMA双缓冲配置得天衣无缝,信心满满一点“Build”——结果编译器弹出一行红字:error…

利用Elasticsearch向量检索提升推荐准确率:深度剖析

用 Elasticsearch 做向量推荐?我们踩过这些坑,也拿到了真实收益你有没有遇到过这样的场景:用户刚看完一款降噪耳机,系统却给他推了个电饭煲?新上架的商品连续一周没人点开,后台数据显示“曝光为0”&#xf…

从零开始的Git生活 | 刚实习同学的噩梦 And 参与开源不可缺的一环

一、Git初识 Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。Git 与常用的版本控制工具 CVS, Subversion 等不同,它采用了分布式版本库…