学习周报三十

摘要

本周深入研究了DeepSeek团队提出的新型神经网络架构mHC(流形约束超级连接)。该工作旨在解决传统超级连接(HC)在训练超大规模语言模型时引发的数值不稳定(“蝴蝶效应”)问题。mHC通过对连接矩阵施加“双随机矩阵”约束,在保留多通道信息交互灵活性的同时,确保了信号传播的严格稳定性,从而为构建更深、更宽的模型提供了可靠的架构基础。

Abstract

This week focused on an in-depth study of mHC (Manifold-constrained Hyper-Connections), a novel neural network architecture proposed by DeepSeek. This work addresses the numerical instability (“butterfly effect”) issue that arises when training ultra-large language models with traditional Hyper-Connections (HC). By imposing a “doubly stochastic matrix” constraint on the connection matrices, mHC ensures strict stability in signal propagation while retaining the flexibility of multi-channel information interaction, thereby providing a reliable architectural foundation for building deeper and wider models.

1、DeepSeek 新年论文 mHC 的架构学习

DeepSeek 这次讨论的是关于 LLM 架构设计的主题:如何在增加网络「宽度」和复杂度的同时,还能保证模型训练稳定?

LLM 领域,关于「架构」的创新,主要集中在两点上:一是 Muon 优化器,二是 Hyper-Connections(HC)。DeepSeek 这篇 mHC,就是对后者的一个改进。

1.1 复习残差连接

把神经网络想象成一条信息加工的流水线——数据从一端进入,经过层层处理,从另一端输出结果。理论上,层数越多,网络能学会的特征就越复杂,效果应该更好。

但在早期,研究者们发现:当网络层数太深时,效果反而会变差。 在神经网络中,信息穿过几十、几百层后,也会逐渐「迷失」或「损耗」,导致模型难以训练。

我们用一个不太严谨的例子打个比方。假如我们的任务是:将一份中文的商业计划书(原始输入),通过一系列专家处理,最终变成一份可用于路演的、地道的英文 PPT(最终输出)。为此,我们构建了一个线性的流水线,每一个环节就好像神经网络中的一层:

  • 第一环:初级翻译。将中文计划书翻译成基础英文稿。
  • 第二环:语法润色。拿到初级翻译的稿子,修改语法和句式。
  • 第三环:商业术语专家。拿到润色后的稿子,将普通词汇替换为地道的商业术语。
  • 第四环:PPT 设计师。拿到最终文本,将其设计成 PPT。

这个链条是单向且封闭的。如果「语法润色」环节误解了初级翻译的某个句子,那么这个错误就会一直传递下去。商业术语专家和 PPT 设计师都只能基于这份可能已存在早期错误的文本工作。最终 PPT 可能看起来精美,但核心意思已经偏离了原计划书。更糟糕的是,当老板(损失函数)说「这里意思错了」,你很难回溯到底是哪个环节最初理解有误(梯度消失/爆炸),导致整个团队(网络)难以有效改进。

残差连接的提出,就是为了解决这个问题。它的核心思想非常直观:每一层不再传递完整却可能失真的信息,而只传递一个易于学习的、基于原始信号的「修正值」。还是拿上面那个流水线举例,这就像你改变了协作规则,建立了一个 「中央资料库 + 任务清单」 系统。原始的中文计划书(以及每一环处理后的中间版本)被实时存档,对后续所有环节公开、可随时查阅。

新的任务流程变成了:

  • 第一环:初级翻译。他不再生产完整的英文稿,而是生产一份 「翻译修改建议」 。这份建议对照着原始中文,指出:「这里 AAA 这个词,我建议译为 BBB」。
  • 第二环:语法润色。他同时看到两份材料:原始中文计划书和初级翻译的修改建议。他的任务不再是重写整个文档,而是专注于语法层面,提出自己的「语法修饰建议」。
  • 第三环及以后: 以此类推,商业术语专家、PPT 设计师等,都遵循此模式。他们各自专注于自己专业领域的「修正」,同时始终能以原始资料和之前所有的修正建议为参考。
  • 最后,由一个整合器将原始中文计划书与所有环节的「修正建议」清单汇总,一步步应用所有专业修正,生成最终的地道英文 PPT。

所以,残差连接就像是为深度网络的每一层都配备了随时可查的原始蓝图和只修改专业部分的工作指令。具体来说,它不再要求某一层直接拟合一个复杂的输出,而是改为拟合 「输出和输入之间的差值(残差)」。然后,把这个差值加上这一层原始的输入,作为最终的输出。用数学公式表示就是:

用图来表示(残差连接就是右侧那条曲线):

在每一层,原始信号 直接通向下一层(恒等映射),而神经网络 只需要学习「增量」部分——也就是所谓「残差」。这种设计让信号可以无损地传到很深的网络,是目前所有 LLM 的标配。

1.2 改进

残差连接在现代的深度学习架构设计中,几乎无处不在。业内的人一个惯常的比喻就是:这是一条「信息的高速公路」。

但用多了,大家也逐渐发现这条单车道的高速公路,存在一些局限性:信息的宽度(维度C)是固定的,如果想增加信息容量,通常只能把路修得更宽(增加C),但这会急剧增加计算量。

为了解决这个问题,有研究者提出了超级连接(Hyper-Connections, HC) 的概念。它的思路是:既然单车道不够用,我们在残差流里开辟多条车道(n条)。每条车道可以专注于传递不同类型或角度的信息。由于有了 n 条车道,我们需要「交通指挥系统」来管理车道之间的变道和汇合。

用具体做法是:把输入 x 扩展成n个副本,形成一个矩阵。

1.4 痛点:蝴蝶效应

HC 听起来很完美,但在训练超大规模模型(比如 27B 参数)时,由于蝴蝶效应,它也会出现非常不稳定的现象。核心问题在于:HC 破坏了「恒等映射」。传统残差连接的「单车道」之所以稳定,是因为它遵循一个铁律:在每一层的出口,原始输入信号必须原封不动地(乘以系数 1)汇入车流。这就像高速公路上有一个 「免检专用通道」,确保最基础的货物(原始信息)一定能无损送达终点。也就是说,在公式 y=1⋅x+F(x),那个系数 1保证了无论网络多深,信号原本的强度都能保留下来,有助于「数值稳定性」。

而 HC 为了让信息在多车道间灵活交互,引入了一个可学习的矩阵来管理车道间的信息汇合。这相当于在每个出口,把那个保证无损的「免检通道」拆掉了,换成了一个权力很大的「可变收费站」。这个收费站不再简单地放行原始货物,而是有权对所有货物进行重新加权、打包和缩放。这个缩放系数,是通过训练学习出来的。用公式来表述,就变成了类似:

1.5 解法:流形约束(mHC)

这就是 DeepSeek 最新这篇 mHC 论文的核心贡献:流形约束的超级连接 (mHC) 。

「流形」是一个几何学概念,听上去比较唬人。就好比你要学习打太极拳。全世界的太极拳有无数种可能的身体姿势,但真正的「太极拳」并不是任意乱动,它被定义在一个由特定套路和规则构成的「标准动作库」里。这个标准动作库,就是「太极拳」这个运动的流形。

在库内(在流形上):你的动作必须符合太极拳的规则。你可以自由地从「野马分鬃」变换到「白鹤亮翅」,但始终是标准、稳定的太极拳。
在库外(脱离流形):你的动作可能变成街舞、广播体操,或者四不像的乱动。

回到 mHC 上来,还记得那个会导致「蝴蝶效应」的可变收费站吗?mHC 的解决方案,不是拆掉它,而是给它安装一套绝对可靠的「智能红绿灯与流量控制系统」,并颁布三条核心交规:第一条交规(非负通行): 所有从一条车道转到另一条车道的「车辆转换比例」必须是正数或零。第二条交规(出站均衡): 对于每一个出口(下一层的每条新车道),从所有旧车道汇集而来的车流总和,必须恰好是100% 的完整车流(每行之和为 1)。这确保了输出的强度稳定。第三条交规(进站均衡): 对于每一个入口(当前层的每条旧车道),其所有车辆必须被全部分配到各个新车道,一点不剩(每列之和为 1)。这避免了车辆在某个节点堆积或丢失。当一个收费站矩阵)同时满足这三条规则时,它就变成了一个 「双随机矩阵收费站」 。

它的魔力在于:无论有多少车辆(信息)通过,它只是重新规划它们的路径,而整个交通系统的总车辆数(信号总强度)绝对守恒,既不会增加造成爆炸,也不会减少导致消失。

具体而言:控制「蝴蝶效应」:因为总车流守恒,无论这个收费站连续工作 100 层还是 1000 层,信号强度都被牢牢锁死,不可能出现指数级的失控增长或衰减。这恢复了传统单车道高速中「恒等映射」(那个系数 1)的稳定性保障。保留灵活性:车流虽然总量不变,但可以在多条车道间进行极其复杂的重新编组和混合。A 道的「轿车」(一种特征)和 B 道的「卡车」(另一种特征)可以按任何比例合并到新的智能车队中,实现丰富的信息交互。深层可堆积:一个关键数学性质是:多个「双随机矩阵收费站」串联工作,整体效果依然是一个双随机矩阵收费站。这意味着这套稳定规则可以无限传递,网络想建多深就建多深。

总结

本周系统学习了DeepSeek关于mHC的前沿研究,核心在于解决大规模模型训练中的根本性架构挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1144553.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++真题库之 CCF GESP 2025 年 9 月认证 C++ 4 级试题含正确答案与解析(考级教程与教材)

系列文章 《GESP系列教程之 什么是GESP?(真题合集)》 历年真题 2025 年 12 月 《C++真题库之 CCF GESP 2025 年 12 月认证 C++ 1 级试题含正确答案与解析(考级教程与教材)》 《C++真题库之 CCF GESP 2025 年 12 月认证 C++ 2 级试题含正确答案与解析(考级教程与教材)》…

实体侦测模型微调指南:小样本学习+低成本GPU方案

实体侦测模型微调指南:小样本学习低成本GPU方案 引言 在制造业设备维护中,异常检测是保障生产安全的关键环节。传统方法往往需要大量标注数据训练模型,但对于很多中小型制造企业来说,收集足够数量的异常样本既昂贵又不现实。想象…

StructBERT实战教程:构建智能舆情监测系统完整步骤

StructBERT实战教程:构建智能舆情监测系统完整步骤 1. 学习目标与项目背景 1.1 为什么需要中文情感分析? 在当今信息爆炸的时代,用户评论、社交媒体内容、客服对话等文本数据呈指数级增长。企业亟需一种自动化手段来理解公众对品牌、产品或…

C++真题库之 CCF GESP 2025 年 9 月认证 C++ 2 级试题含正确答案与解析(考级教程与教材)

系列文章 《GESP系列教程之 什么是GESP?(真题合集)》 历年真题 2025 年 12 月 《C++真题库之 CCF GESP 2025 年 12 月认证 C++ 1 级试题含正确答案与解析(考级教程与教材)》 《C++真题库之 CCF GESP 2025 年 12 月认证 C++ 2 级试题含正确答案与解析(考级教程与教材)》…

StructBERT实战教程:产品评论分析系统

StructBERT实战教程:产品评论分析系统 1. 引言:中文情感分析的现实需求 在电商、社交平台和用户反馈系统中,中文情感分析已成为企业洞察用户情绪、优化产品服务的关键技术。每天海量的用户评论、客服对话、社交媒体发言中蕴含着丰富的情感倾…

中文文本情感分析:StructBERT模型应用评测

中文文本情感分析:StructBERT模型应用评测 1. 引言:中文情感分析的技术背景与挑战 在自然语言处理(NLP)领域,情感分析(Sentiment Analysis)是一项基础且关键的任务,广泛应用于社交…

StructBERT情感分析API性能评测与最佳实践

StructBERT情感分析API性能评测与最佳实践 1. 中文情感分析的技术背景与挑战 在自然语言处理(NLP)领域,情感分析(Sentiment Analysis)是理解用户情绪、优化产品体验和提升客户服务的核心技术之一。尤其在中文语境下&…

中文情感分析API开发:StructBERT REST接口实现步骤

中文情感分析API开发:StructBERT REST接口实现步骤 1. 背景与需求:为什么需要中文情感分析? 在当今信息爆炸的时代,用户生成内容(UGC)如评论、弹幕、社交媒体发言等海量涌现。对于企业而言,如…

StructBERT部署案例:用户反馈情感分析系统

StructBERT部署案例:用户反馈情感分析系统 1. 引言:中文情感分析的现实需求 在当今数字化时代,企业每天都会收到来自社交媒体、客服系统、电商平台等渠道的海量用户反馈。如何高效地理解这些文本背后的情绪倾向,成为提升服务质量…

中文文本情绪识别案例:StructBERT商业应用

中文文本情绪识别案例:StructBERT商业应用 1. 引言:中文情感分析的现实价值与挑战 在当今数字化服务高度普及的背景下,用户评论、客服对话、社交媒体内容等海量中文文本数据持续产生。如何从中自动提取情绪倾向,成为企业优化产品…

Python真题库之CCF GESP 2024年12月认证 Python 2级试题含正确答案与解析(考级教程与教材)

系列文章 《GESP系列教程之 什么是GESP?》 《GESP 认证标准之 Python 编程一级标准(考试大纲与要求含考试真题)》 《GESP 认证标准之 Python 编程二级标准(考试大纲与要求含考试真题)》 《GESP 认证标准之 Python 编程三级标准(考试大纲与要求含考试真题)》 《GESP …

中文文本情感分析:StructBERT模型优化案例

中文文本情感分析:StructBERT模型优化案例 1. 引言:中文情感分析的现实挑战与技术演进 在社交媒体、电商评论、客服对话等场景中,用户生成内容(UGC)的爆炸式增长使得自动化理解中文语义情绪成为企业洞察用户反馈的核…

StructBERT性能对比:不同硬件配置下的表现

StructBERT性能对比:不同硬件配置下的表现 1. 中文情感分析的技术背景与挑战 随着社交媒体、电商平台和用户评论系统的普及,中文情感分析已成为自然语言处理(NLP)领域的重要应用方向。其核心任务是识别文本中蕴含的情绪倾向——…

Python真题库之CCF GESP 2024年12月认证 Python 3级试题含正确答案与解析(考级教程与教材)

系列文章 《GESP系列教程之 什么是GESP?》 《GESP 认证标准之 Python 编程一级标准(考试大纲与要求含考试真题)》 《GESP 认证标准之 Python 编程二级标准(考试大纲与要求含考试真题)》 《GESP 认证标准之 Python 编程三级标准(考试大纲与要求含考试真题)》 《GESP …

StructBERT模型监控面板:Prometheus+Grafana

StructBERT模型监控面板:PrometheusGrafana 1. 背景与需求分析 随着AI模型在实际业务中的广泛应用,尤其是像StructBERT这类用于中文情感分析的NLP模型,其服务稳定性、响应性能和资源消耗情况变得至关重要。虽然模型本身具备高精度的情感分类…

StructBERT情感分析实战:舆情监测系统性能测试

StructBERT情感分析实战:舆情监测系统性能测试 1. 引言:中文情感分析的现实需求与挑战 随着社交媒体、电商平台和新闻评论的爆炸式增长,中文情感分析已成为企业舆情监控、品牌管理、用户反馈挖掘的核心技术手段。从消费者对新产品的评价到公…

RainGaugeNet:基于CSI的Sub-6 GHz降雨衰减测量和分类用于ISAC应用

一、文献基础信息标题:RainGaugeNet: CSI-Based Sub-6 GHz Rainfall Attenuation Measurement and Classification for ISAC Applications(RainGaugeNet:基于CSI的Sub-6 GHz降雨衰减测量和分类用于ISAC应用)作者:Yan L…

Python真题库之CCF GESP 2024年12月认证 Python 4级试题含正确答案与解析(考级教程与教材)

系列文章 《GESP系列教程之 什么是GESP?》 《GESP 认证标准之 Python 编程一级标准(考试大纲与要求含考试真题)》 《GESP 认证标准之 Python 编程二级标准(考试大纲与要求含考试真题)》 《GESP 认证标准之 Python 编程三级标准(考试大纲与要求含考试真题)》 《GESP …

中文文本情感分类教程:StructBERT模型应用详解

中文文本情感分类教程:StructBERT模型应用详解 1. 引言:中文情感分析的重要性与挑战 在当今信息爆炸的时代,中文互联网每天产生海量的用户评论、社交媒体内容和产品反馈。如何从这些非结构化文本中快速提取情绪倾向,成为企业舆情…

AI智能体数据流水线搭建:从采集到分析全流程,3块钱搞定POC

AI智能体数据流水线搭建:从采集到分析全流程,3块钱搞定POC 1. 为什么你需要这个方案? 想象一下这样的场景:周一晨会上老板突然问"这个实时用户行为分析方案到底靠不靠谱?",而公司的测试环境被项…