DeepSeek新突破:mHC论文引发AI行业关注,2026年人工智能新篇章的关键推动力!

大约在去年同一时间段(2025年1月初),DeepSeek 凭借 R1 的发布彻底革新了AI 行业。

如今,DeepSeek 又为2026年开了个好头,发布了一篇引人瞩目的新论文《mHC: Manifold-Constrained Hyper-Connections[1]》,该论文目前已引发广泛关注,有望成为2026年下一次重大人工智能突破的关键推动力。论文建立在字节早先一篇名为《Hyper-Connections[2]》的论文基础之上。

在深入探讨之前,我们需先厘清“残差连接”(Residual Connections)的概念,从而准确理解其研究动机。

下图左一展示了一个标准残差连接,它最初于2016年随ResNet提出。该图并非展示完整模型,而仅示意一个残差块(residual block),用以说明单条残差连接的原理。底部输入为第 l 层的信号 (来自模型前一层),该信号随后分两路流动:

  • • 右侧:输入经模块 layer-F 处理。此模块可为前馈网络、自注意力模块,或其他任意架构单元;
  • • 左侧:残差流(residual stream)直接将原始输入无修改地向前传递。

两路信号随后按element wise相加,形成该块的输出,其数学表达为: 。

大模型中为什么要有这样的结构讨论的不多,可以这样来直观理解:虽然图中仅绘出单层结构,但当多层堆叠时,残差连接能确保原始输入信号深入网络内部的同时有效防止信息丢失。

核心原因在于它有效缓解了“梯度消失”问题:原始输入的无损传递,相当于在优化目标函数中额外引入了一个恒等映射,其梯度恒为1;即便模块 layer-F 的梯度趋近于零,整体梯度仍能保持稳定。

在此基础上,字节的团队在2025年提出超连接(Hyper-Connections)的概念,旨在对残差连接进行泛化,(上图中间这个结构)。

核心思想就是通过拓宽残差流自身来扩展残差连接,即不再仅传递单一残差向量,而是将其扩展为多个分量,并在每一层通过可学习映射动态混合,来增强表达能力。

  • • 底部输入被复制扩展(图例中为4份),构成模型维护的拓宽残差流(初始均为原始输入的副本)
  • • 左侧:拓宽后的残差流通过一个可学习的残差映射矩阵进行混合。这意味着不再依赖各层固定的恒等路径,而是让模型自主学习信息如何在残差流中混合与传播;这样做计算开销增幅极小,因扩展倍率通常很小(如本例中的4倍);
  • • 右侧:扩展后的输入先被投影回原模型维度,再送入layer-F模块处理,从而避免昂贵模块(如注意力或FFN)承担高维计算负担;
  • • 模块 layer-F 的输出再经另一可学习矩阵扩展,最终与残差分量相加,形成本层输出,并作为下一层输入。

毋庸置疑,该设计大幅提升了模型沿残差路径的信息表达能力,即信息跨层流动更加灵活。

然而,这种灵活性也是有代价的:在原始的标准残差连接中,架构本身保证了恒等映射的存在,这对大规模深层网络训练至关重要。

而DeepSeek指出,超连接破坏了这一保障,因其依赖无约束的可学习混合权重矩阵,残差流可能偏离开恒等路径,导致信号在前向或反向传播中发生爆炸或衰减,动摇残差学习赖以成立的“无阻碍信号流”根本前提,进而引发模型训练不稳定。

这正是DeepSeek提出流形约束超连接(manifold-Constrained HC) 所要解决的核心问题。

为应对超连接带来的不稳定性,DeepSeek并未牺牲其灵活性,其核心思想是在完全保留超连接表达能力的前提下,重建残差连接赖以成功的恒等性保障。

细看最右图:mHC块与HC块结构几乎一致,信息流路径相同,唯一关键区别在于残差混合矩阵,它不再无约束,而是施加了特定结构约束,以稳定跨层信号传播。mHC残差混合矩阵中所有元素非负;每行、每列元素之和均为 1。

满足上述性质的矩阵称为双随机矩阵(doubly stochastic);实践中,可通过1967年经典的Sinkhorn–Knopp算法强制实现该约束,即:

  • • 每个输出残差分量接收等量的总输入信号;
  • • 每个输入残差分量对输出的总贡献量相同。

这样下来,即便信息可在多路径间自由混合,拓宽后的残差流仍在全局层面保持了“类恒等”特性。

同时,投影矩阵(扩展前/后的线性映射)也与标准HC不同:DeepSeek通过Sigmoid函数强制其非负。

这里的动机在于若投影中正负系数共存,可能导致信号相互抵消,进而引发大规模训练不稳定。

最后是实验效果,他们在预训练中评估了三种变体:

  • • 基线模型(无超连接);
  • • 标准超连接(HC)模型;
  • • 论文提出的流形约束超连接(mHC)模型。

所有模型均采用受DeepSeek-V3启发的混合专家(MoE)架构;HC与mHC均采用4倍扩展的残差流。

上表对比了参数量均为27B的三类模型在多项下游任务上的表现。两种超连接模型均优于基线,验证了拓宽残差流可提升性能。

更重要的是,mHC在所有任务中持续取得最优结果(见表格最后一行)。表明 mHC在保留超连接优势的同时,实现了更全面的下游性能提升。


说真的,这两年看着身边一个个搞Java、C++、前端、数据、架构的开始卷大模型,挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis,稳稳当当过日子。

结果GPT、DeepSeek火了之后,整条线上的人都开始有点慌了,大家都在想:“我是不是要学大模型,不然这饭碗还能保多久?”

我先给出最直接的答案:一定要把现有的技术和大模型结合起来,而不是抛弃你们现有技术!掌握AI能力的Java工程师比纯Java岗要吃香的多。

即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地!大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇!

这绝非空谈。数据说话

2025年的最后一个月,脉脉高聘发布了《2025年度人才迁徙报告》,披露了2025年前10个月的招聘市场现状。

AI领域的人才需求呈现出极为迫切的“井喷”态势

2025年前10个月,新发AI岗位量同比增长543%,9月单月同比增幅超11倍。同时,在薪资方面,AI领域也显著领先。其中,月薪排名前20的高薪岗位平均月薪均超过6万元,而这些席位大部分被AI研发岗占据。

与此相对应,市场为AI人才支付了显著的溢价:算法工程师中,专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%;产品经理岗位中,AI方向的产品经理薪资也领先约20%。

当你意识到“技术+AI”是个人突围的最佳路径时,整个就业市场的数据也印证了同一个事实:AI大模型正成为高薪机会的最大源头。

最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124437.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CTF Pwn模块系列分享(五):收官总结!实战技巧大整合,轻松应对比赛

CTF Pwn模块系列分享(五):收官总结!实战技巧大整合,轻松应对比赛 今天是咱们「CTF Pwn模块系列分享」的最后一期啦!从第一期的Pwn入门概念、环境搭建,到汇编基础、内存模型,再到栈溢…

学霸同款8个AI论文工具,自考学生轻松搞定毕业论文!

学霸同款8个AI论文工具,自考学生轻松搞定毕业论文! 自考论文写作的“隐形助手”,你真的了解吗? 对于自考学生来说,撰写毕业论文往往是一场“硬仗”。从选题、开题到查重、降重,每一个环节都可能成为阻碍。而…

实例控制台点击网页推理失败?常见问题与解决方法汇总

实例控制台点击网页推理失败?常见问题与解决方法汇总 在部署 AI 模型时,你是否曾遇到过这样的场景:镜像已经拉取成功,终端脚本也运行了,日志显示“服务已启动”,可当你满怀期待地点击“网页推理”按钮时&am…

测试人员晋升策略:绩效展示——专业视角下的职业发展路径

绩效展示在测试职业晋升中的核心地位 在软件测试领域,晋升不仅是个人职业发展的里程碑,更是企业人才战略的关键环节。随着敏捷开发和DevOps的普及,测试人员的角色已从单纯的“bug猎人”演变为质量保障的全面守护者。绩效展示作为晋升的核心依…

揭秘大模型两大核心技术:ReAct推理行动与Reflexion自我反思!

简介 本文介绍ReAct和Reflexion两种提升大模型能力的关键提示技术框架。ReAct结合推理与行动,使模型能够与外部环境交互,减少幻觉;Reflexion在此基础上增加评估和反思机制,形成完整学习闭环。两者结合显著提升模型在知识密集型、决…

一文吃透 CSRF 攻击:原理、经典漏洞与落地级防御方案

一文吃透 CSRF 攻击:原理、经典漏洞与落地级防御方案 在 Web 安全领域,CSRF(Cross-Site Request Forgery,跨站请求伪造)是仅次于 XSS 的经典漏洞,常被攻击者用来窃取用户权限、执行恶意操作(如…

2026年8款降ai率工具实测报告:降aigc效果与功能对比

看着查重报告上红彤彤的数字,是不是心都要凉了?别慌,这是因为现在很多检测系统都升级了,以前稍微改改词就能过,现在已经不行了,因为系统查的是你句子里的逻辑和思维。 说白了,如果你的下一句很容…

2026年,数据工程师的AI大模型“超车”路线:6个月实现职业生涯的弯道超车!

深夜,你刚优化完一个每日处理PB级数据的ETL管道,将数据延迟从小时级降到分钟级。与此同时,科技巨头们正将千亿参数的模型作为下一代产品的核心引擎。这两个看似遥远的世界,在2026年发生了决定性交汇——数据工程师的大规模数据处理…

单Agent搞不定复杂任务?那是你没用双Agent!LangGraph+Milvus硬核实战,这篇干货太香了!

做agent简单,但是做能落地的agent难,做能落地的长周期agent更是难上加难! 这是不是你搞agent开发时的常态? 长周期 Agent落地失效,通常来说,会分两类典型模式: 第一种发生在任务初期&#xf…

2026 企业攻防演练实战指南:从热点解读到安全防线构建

2026 企业攻防演练实战指南:从热点解读到安全防线构建 在数字化转型深化的背景下,企业网络安全已进入 “实战对抗” 时代。2025 年国家级护网行动的全面升级、供应链攻击的常态化,让攻防演练成为企业检验安全能力的核心手段。 本文结合最新…

七十四种不同鸟类图像分类数据集3995张74类别已划分好训练验证测试集

数据集类型:图像分类用,不可用于目标检测无标注文件 数据集格式:仅仅包含jpg图片,每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数):3955 分类类别数:74 图片分辨率:416x416 类别名称:[…

java转大模型的5个月,我到底干了啥?

上周末组了个Java老友局,刚端起酒杯,话题就被“大模型要不要转”给扎住了。坐我旁边的老周,当年带着我们扛过三次双十一大促的服务雪崩,此刻却皱着眉刷着手机:“你看我朋友圈,要么是Python学习打卡&#xf…

泡罩包装机远程数字化运维管理方案

行业背景当前泡罩包装机行业面临数字化、智能化升级需求,传统本地监测与出差维护模式效率低、难实时掌握设备状态,易造成生产中断,无法满足企业降本增效、提升服务与品牌竞争力的需求。痛点分析运维成本高:人工巡检与出差维护耗费…

(86页PPT)德勤大型企业业务流程优化及ERP整体规划方案(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 (86页PPT)德勤大型企业业务流程优化及ERP整体规划方案.pptx_PPT格式的机房运维资料资源-CSDN下载 资料解读:《(86页PPT)德勤大型企业业…

Forrester Wave™ 报告重磅发布:Zilliz 荣膺领导者象限!一文读懂全球向量数据库格局,收藏这篇就够了!

各位开发者和 AI 爱好者: 我们有一些好消息想要和你们分享! 01 Zilliz进入领导者象限 Forrester 是科技领域最知名的研究公司之一。他们最新发布了 2024 年第三季度向量数据库供应商 Wave™ 报告,Zilliz 进入领导者象限!报告**…

WSL2+vLLM部署大模型,收藏这篇就够了!大模型部署

我看到有些小伙伴在评论区留言想要学习一下vLLM框架在windows上本地部署大模型的方法。 其实vLLM框架本身是不支持Windows系统的,但是我们可以把vLLM部署在WSL2中。这里科普一下什么是WSL,WSL它其实就像是一个运行在windows中的linux系统。我们无法在原生…

NIVIDIA高性能计算CUDA笔记(三) cuFFT的简介及实现案例

NIVIDIA高性能计算CUDA笔记(三) cuFFT的简介及实现案例 1. cuFFT库的简介(Introduction of cuFFT libaray) ​ Fourier变换是数字信号处理领域一个很重要的数学变换,它用来实现将信号实现将信号从时域到频域的变换…

旋转曲面接缝处问题

想要实现曲面纹理贴图功能,但是发现曲面表面一旦偏移,接缝处就会出现明显缝隙一开始想通过动态偏移的方式,根据纹理偏移的高度相应的缩小旋转半径。细想发现由于纹理不同,实际偏移的高度也不同。这会导致旋转曲面接不上后面了解到…

Langchain 太重?试试 Google ADK!搭建 Agent 新思路,上下文管理效率翻倍,教程来了!

Agent 的状态数据分两种:会话内的临时上下文和跨会话的长期知识。 前者是“用户刚才说了什么”、“工具返回了什么结果”,会话结束就该清空。后者是“用户三个月前的购买记录”、“历史工单的解决方案”,需要持久化并在未来对话中智能召回。…

Dakota: Design Analysis Kit for Optimization and Terascale Applications

文章目录一、Dakota 核心功能介绍1. **优化(Optimization)**2. **不确定性量化(UQ)**3. **参数研究(Parameter Studies)**4. **模型校准与验证(Calibration & Validation)**二、…