DeepSeek的mHC:一次精巧的工程突破,还是下一代AI的预告?

简介:2025年末,DeepSeek发布了一种叫mHC的新型神经网络架构,CEO亲自署名。这项技术解决了一个十年悬而未决的问题:如何让网络连接模式可学习而不导致训练崩溃。但论文只验证到270亿参数——在万亿参数的今天只是"中小规模"。这究竟是一次扎实的学术贡献,还是DeepSeek下一代旗舰模型的预热海报?本文用零门槛的语言拆解mHC的核心原理与战略意图。


一、DeepSeek的mHC:一次精巧的工程突破,还是下一代AI的预告?


2025年的最后一天,中国AI公司DeepSeek发布了一篇技术论文,介绍了一种叫做mHC(流形约束超连接)的新型神经网络架构。CEO梁文锋亲自署名并上传。

这篇论文在技术圈引发了不小的讨论。但对于大多数人来说,一个合理的问题是:这东西到底是什么?为什么值得关注?

这篇文章试图用不假设任何技术背景的方式,解释mHC解决了什么问题,以及我对它的判断。


二、神经网络的"交通管制"问题


2.1 一个类比:信息如何在网络中流动

想象一座100层的大楼,每层都有一个办公室。一份文件从一楼送进去,需要逐层处理,最终从100楼输出结果。

这就是神经网络的基本工作方式:信息(比如你输入的问题)进入网络,经过几十甚至上百个"层"的处理,最终输出答案。

问题来了:如果每一层都对文件做一点修改,100层下来,原始信息可能面目全非,甚至完全丢失。更糟糕的是,当我们需要"反馈"信息(告诉网络哪里做错了以便改进)时,这个反馈也要穿越100层——它很容易在中途"衰减"到几乎为零,或者"放大"到失控。

这就是深度神经网络训练中的经典难题:梯度消失梯度爆炸


2.2 十年前的解决方案:残差连接

2015年,微软的研究团队提出了一个简单但极其有效的解法,叫做残差连接(Residual Connection)

思路很直接:在每一层旁边开一条"直通电梯"。原始信息不仅会经过这一层的处理,还会直接"复制一份"跳过这一层,和处理结果加在一起传给下一层。

输出 = 这一层的处理结果 + 原始输入(直接跳过)

这个设计保证了一件事:即使某些层"学坏了"或者"没学到东西",信息仍然可以通过直通电梯完整地传下去。训练时的反馈信号也能顺畅地回传。

残差连接的效果立竿见影。它让研究者第一次能够训练超过100层的网络,并且迅速成为几乎所有深度学习模型的标配——包括今天的GPT、Claude、Gemini等大语言模型。


2.3 残差连接的代价:固定的连接模式

但残差连接有一个隐性的代价:那条"直通电梯"的权重是固定的(恒定为1.0)。

这意味着网络无法自己学习"哪些层之间应该连接得更紧密,哪些应该更松散"。所有层之间的跳跃连接都是一模一样的。

打个比方:这就像一座大楼里所有电梯都只能从每一层直达下一层,间距完全相同。你无法设置"从3楼直达15楼的快速通道"或者"7楼到9楼之间需要额外加强联系"。

理论上,如果网络能自己学习这些连接模式,它可能会发现人类设计师想不到的更优结构。


三、一次失败的尝试:Hyper-Connections


2024年,有研究者提出了一个大胆的想法:把残差连接的固定权重变成可学习的矩阵。让网络自己决定层与层之间应该如何连接。

这个方法叫做Hyper-Connections(超连接)

理论上,这释放了巨大的设计空间。网络不再被固定的连接模式束缚,可以自由探索最优的信息路由方式。

但实际结果是灾难性的。

当DeepSeek团队尝试用这种方法训练一个270亿参数的模型时,他们发现:信息在层与层之间传递时,强度被放大了3000倍

这就像你在100层大楼里传递一份文件,每经过一层,文件的"音量"就被放大一点。100层下来,原本正常的文件变成了震耳欲聋的噪音,整个系统彻底崩溃。

训练直接失败,无法继续。


四、mHC:约束即自由


4.1 DeepSeek的诊断

DeepSeek团队意识到,问题的根源不在于"让连接可学习"这个想法本身,而在于缺乏约束

当连接矩阵可以取任意值时,信息在层间的"增益"就失去了控制。某些路径可能会把信号放大,某些可能会压缩,累积起来就是灾难。

他们的核心洞见是:保留连接的可学习性,但严格控制信息的总量守恒。


4.2 一个直觉类比

想象你有四杯水,代表网络中的四条信息流。

在无约束的Hyper-Connections中,你可以随意增减每杯水的量——这就是混乱的来源。

mHC的规则是:你可以在杯子之间任意倒水,但总水量必须保持不变,而且每个杯子既要"倒出去"也要"接收"。

这个约束在数学上叫做双随机矩阵(Doubly Stochastic Matrix):矩阵的每一行加起来等于1,每一列加起来也等于1。它保证了信息只能被"重新分配",而不能被"放大"或"消灭"。

DeepSeek使用了一种叫做Sinkhorn-Knopp算法的数学工具,把原本无约束的连接矩阵"投影"到满足这个约束的空间上。


4.3 结果

效果是显著的:

指标无约束Hyper-ConnectionsmHC
信号放大倍数~3000x(崩溃)~1.6x(稳定)
训练额外开销6.7%
推理性能提升2.1%(BIG-Bench Hard)

mHC让网络在保持训练稳定的同时,获得了"自由学习连接模式"的能力。DeepSeek在30亿、90亿、270亿参数的模型上都验证了这一点。


五、我的判断:一篇"点到为止"的论文


5.1 这篇论文证明了什么

mHC确实解决了一个真实的问题:如何让网络连接可学习而不崩溃。

这是一个优雅的工程方案——找到了"表达能力"和"训练稳定性"之间的精确平衡点。在270亿参数规模上,它工作得很好。


5.2 这篇论文没有回答什么

规模验证不足。270亿参数在今天只能算"中小规模"。DeepSeek自己的V3模型有6710亿参数,GPT-4估计在万亿级别。mHC在这些规模上是否依然有效,论文没有给出答案。

与其他技术的交互不明。当今前沿模型普遍使用MoE(混合专家)架构,mHC与MoE结合后的行为特性没有详细展示。

开销的规模效应。6.7%的额外训练开销在270亿参数时可以接受,但这个数字是否会随规模线性增长?在万亿参数级别,这可能意味着数百万美元的额外成本。


5.3 这篇论文的真正意图

CEO亲自署名并上传技术论文,这在学术界不常见。结合DeepSeek的历史模式(R1模型发布前也有类似的论文预热),我的判断是:

这是一篇产品预告,而不是完整的学术论证。

DeepSeek很可能已经在更大规模上验证了mHC,但选择保留数据,等待下一代旗舰模型发布时一起公布。

论文的功能是:

  1. 宣告方向——“我们找到了解决残差连接局限性的方法”
  2. 建立优先权——在学术上占位
  3. 制造预期——为下一个产品发布造势

六、对普通读者意味着什么


如果你不是AI从业者,mHC对你的直接影响是零。它是基础设施层面的改进,不会立即改变你使用AI产品的体验。

但如果你关注AI行业的竞争格局,这篇论文传递了一个信号:DeepSeek仍在架构层面进行原创性探索,而不仅仅是跟随OpenAI或Google的技术路线。

在一个大多数公司都在拼"谁能堆更多算力"的行业里,试图通过更聪明的架构设计来弯道超车,这至少是一种值得关注的策略——尤其考虑到DeepSeek面临的芯片获取限制。

mHC是否真的会成为下一代AI模型的基础架构?答案要等DeepSeek的下一个旗舰模型发布才能揭晓。

现在的这篇论文,更像是一张预告片的海报:它告诉你电影要来了,但具体好不好看,还得进影院才知道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1124392.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学长亲荐2026TOP10AI论文工具:本科生毕业论文写作全解析

学长亲荐2026TOP10AI论文工具:本科生毕业论文写作全解析 2026年AI论文工具测评:为何值得一看? 随着人工智能技术的不断进步,AI写作工具在学术领域的应用越来越广泛。对于本科生而言,撰写毕业论文不仅是学业的重要环节&…

2026 最新网络安全学习路线:从零基础到实战大神,结构清晰可落地

2026 最新网络安全学习路线:从零基础到实战大神,结构清晰可落地 网络安全作为数字时代的核心刚需,岗位需求持续爆发,但入门门槛高、知识体系杂,很多新手容易陷入 “盲目学工具、越学越迷茫” 的困境。 本文整理了一套…

一张知识地图看懂网络安全:常见技术深度解析与风险防范实战指南

伴随着互联网的发展,它已经成为我们生活中不可或缺的存在,无论是个人还是企业,都离不开互联网。正因为互联网得到了重视,网络安全问题也随之加剧,给我们的信息安全造成严重威胁,而想要有效规避这些风险&…

为什么说千万别学网络安全专业?

前言 很多人说千万别学网络安全专业的原因是因为网络安全专业学习的课程非常难。就业要求高。很多同学在大学开始接触网络空间安全专业时,才发现:对于自己来说,网络空间安全专业相关的课程学习难度有点高。 为什么说千万别学网络安全专业的原…

[Java 并发编程] ThreadLocal 原理

ThreadLocal 原理 1. ThreadLocal 基础使用 ​ ThreadLocal 被称为线程本地变量类,当多线程并发操作线程本地变量时,实际上每个线程操作的是其独立拥有的本地值,可以理解为每个线程分别独立维护自己的副本。这样就规避了线程安全问题&#xf…

网络安全(黑客方向)从入门到进阶:核心攻击手法剖析与防御实战指南

前言 什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 如何成为一名黑客 很多朋友在学习安全方面都会半路转行&#xff0…

开发了一个免费的批量视频语音字幕识别工具,核心点是可批量自动处理识别任务

这个批量识别功能是免费的、无限制的、可批量使用的功能,可实现音频、视频文件语音识别转txt文本、srt字幕,主要是能批量执行识别任务,不用手动一个个去识别,这是与其他语音识别软件的最大的区别,而且可同时处理视频和…

炸裂汇总!2025收官硬核干货:380+页深度拆解RAG/Agent/MCP等9大核心,建议熬夜研读!

作为一名在AI一线滚打多年的老兵,我直白告诉你们:市面上真正能从底层原理直通生产落地的AI工程资料,凤毛麟角。今天这份《The AI Engineering Guidebook(2025 Edition)》,就是其中绝对的顶尖存在——384页硬…

Java小白求职者在互联网大厂面试:从Spring Boot到微服务的技术探索

场景:互联网大厂面试 在某个阳光明媚的早晨,小白程序员“超好吃”来到了知名互联网大厂进行他的Java开发工程师面试。面试官是一位经验丰富且略显严肃的高级工程师。 第一轮提问:Java与Spring Boot基础 面试官:欢迎你,…

重塑未来安全格局的五大前沿技术:从AI安全到零信任的深度解读

目前信息安全领域(不限于技术层面)有哪些前沿的研究方向,代表人物有哪些?有哪些新的研究成果?以及从哪些地方可以获得这些咨询? 我在做 system 方向的安全研究,最近发现其实中美两国都在 TEE (…

【2026年最新】有关漏洞挖掘的一些总结,新手小白网络安全入门必看的经验教训!

时隔一年多以后再次看本文,依然给我一些启发,尤其是经过一定量的实践以后,发现信息收集真乃漏洞挖掘(渗透测试)的本质,这里再次回顾一下本文,尤其是里面如何评估一个项目(目标)的难度,值得学习与借鉴&#…

边缘模型增量微调实战

💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 边缘模型增量微调实战:从理论到边缘设备的高效部署目录边缘模型增量微调实战:从理论到边缘设备的高效部署 引言:边缘智能的必然选择 一、现在时&…

新中地学员转行学GIS开发原因盘点①

你有没有过那种时刻:明明已经很努力了,结果却不尽如人意? 比如考研失利、求职被拒,甚至开始怀疑自己选的专业到底适不适合…… 其实很多人都经历过这种“卡住”的瞬间,但有些人没有停下,而是悄悄换了赛道…

构建企业级安全防线:盘点网络安全防范的核心技术及其实战应用体系

伴随着互联网的发展,它已经成为我们生活中不可或缺的存在,无论是个人还是企业,都离不开互联网。正因为互联网得到了重视,网络安全问题也随之加剧,给我们的信息安全造成严重威胁,而想要有效规避这些风险&…

FileImgSwap 文图变文件藏到图片是一款可以把文件与 PNG 图像进行互转的工具

大家好,我是大飞哥。平时传敏感文件、存私密资料总怕泄露,或者想把文件藏起来不显眼,所以我搞了这款“FileImgSwap文图变文件藏到图片工具”,能把任意文件藏进PNG图里,还能还原提取,加了加密功能&#xff0…

2026最新流出!6款免费AI写论文工具,1天5万字还带真实参考文献!

距离DDL只剩72小时?别焦虑!这篇深夜急救指南,为你揭秘6款能“一键救命”的AI论文神器,最快10分钟生成万字初稿,真实文献引用、自动降重、图表公式一键生成,让你在截止日期前优雅上岸! 深夜的图书…

全网最全8个AI论文工具,本科生轻松搞定论文格式!

全网最全8个AI论文工具,本科生轻松搞定论文格式! 论文写作的“神器”正在改变你的学习方式 对于许多本科生来说,撰写论文是一项既复杂又令人头疼的任务。从选题、收集资料到撰写初稿、格式调整,每一个环节都可能成为阻碍。而如今&…

‌高并发系统测试案例解析

在当今数字化时代,高并发系统(如电商平台、社交媒体或金融服务)已成为业务核心,但高用户负载下的性能问题频发。作为软件测试从业者,理解和测试这些系统至关重要。本文通过解析三个真实案例,探讨测试策略、…

学术生产力七重奏:当Paperzz领衔六大AI写作引擎,毕业论文从“卡壳”走向“丝滑交付”

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿 paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation ——不是工具堆砌,而是一套可落地的“智能写作操作系统” 前言:2026年,…

图片格式转换与尺寸批量大师 支持ICO PNG JPG等八种格式 批量转换与自定义尺寸

大家好,我是大飞哥。平时做设计、剪视频或者整理素材,总得批量改图片格式、调尺寸——要么是做PPT要统一成JPG,要么是做图标要转ICO,之前用在线工具要么限速,要么一次只能传几张。这款“图片格式转换与尺寸批量大师”刚…