DeepSeek 发布全新论文,一文读懂 Engram!

在大模型的发展历程中,一个长期困扰研究者效率的难题是:模型往往需要消耗昂贵的计算资源去重建那些本可以通过简单查询获得的静态知识。

近日,DeepSeek 团队发布重磅论文Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models,由梁文锋等研究者署名,宣布为大模型架构开辟了一个全新的稀疏性维度:条件记忆(Conditional Memory)

为什么 MOE 还不够

长期以来,MoE(专家混合模型)是大模型稀疏性的事实标准。它通过条件计算平衡了模型容量与计算成本。但 DeepSeek 指出,语言信号具有高度的异质性:

  • 动态推理:需要深度的神经计算。

  • 静态知识:如命名实体、公式,本应通过查找直接获取。

目前的 Transformer 缺乏原生的查找原语,被迫用昂贵的算力去运行时重建静态表,这极大地浪费了序列深度。

为此,DeepSeek 推出了Engram模块——一个将经典 N-gram 嵌入现代化,实现O(1) 常数级快速查找的高效知识外挂。

论文四个重点划线:

稀疏分配:发现 U 形扩展规律

研究团队为量化 Engram 与 MoE 之间的协同,论文提出稀疏性的分配问题。这也是该论文的核心。并通过大量实验发现了一个显著的U 形扩展规律(U-shaped scaling law)

  • 权衡关系:纯 MoE 架构缺乏专用内存,迫使模型通过计算低效重构静态模式;而过度分配给记忆则会损害模型的动态推理能力 。

  • 最佳平衡点:当大约 20%-25% 的稀疏参数预算分配给 Engram 时,模型性能达到峰值。例如在 10B 参数规模下,验证损失从 1.7248 降至 1.7109。

基于前述容量分配规律,研究团队训练了Engram-27B模型(总参数量 26.7B,激活参数 3.8B)。在该模型中,原 MoE-27B 的专家数量从 72 个减少到 55 个,同时将释放出的参数重新分配到 5.7B 参数的 Engram 内存中,使容量分配比例达到 ρ=74.3%\rho = 74.3\%ρ=74.3%。

经过预训练后,Engram-27B 在保持与 MoE-27B 相同参数规模和 FLOPs 的前提下,在知识与推理、通用推理、代码以及数学等多个任务上均表现出明显提升。

实证验证:全维度性能飞跃

在严格的等参数(iso-parameter)和等浮点运算量(iso-FLOPs)约束下,Engram-27B 模型在知识、推理、代码和数学等领域均表现出相较 MoE 基线的一致性提升。

预训练性能比较:Dense 模型、MoE 模型与 Engram 模型(来源:论文)

  • 知识储备:MMLU 提升 3.4 分,CMMLU 提升 4.0 分 。

  • 通用推理:最令人惊喜的是,复杂推理(BBH)提升了 5.0 分,科学推理(ARC-C)提升 3.7 分。

  • 代码与数学:HumanEval (+3.0) 和 MATH (+2.4) 同样显著提升。

  • 长文本能力:在“大海捞针”(Multi-Query NIAH)测试中,准确率从 84.2% 飙升至 97.0%。

机制分析:释放有效深度

为什么记性好能让逻辑更强?通过 LogitLens 和 CKA 分析发现Engram 接管了早期层对静态模式的重建工作。当底层不再需要浪费算力去死记硬背时,模型保留了更多的Effective Depth(有效深度)来处理深层语义,让大脑全身心投入高阶推导。
  • 底层减负:Engram 承担了早期层对静态模式(如固定搭配、实体名)的重建工作 。

  • 提升有效深度(Effective Depth):当底层不再浪费算力去死记硬背时,模型实际上获得了更深的表示能力来处理深层语义。

  • 解放注意力:通过将局部依赖交给 Engram 处理,模型释放了宝贵的注意力容量来聚焦全局上下文。

系统效率:突破显存天花板

在工程落地层面,Engram 展现了极致的基础设施感知特性 :

  • 确定性寻址:由于检索索引仅取决于输入序列,系统可以在计算当前层时,异步预取下一层所需的记忆向量 。

  • 打破显存瓶颈:DeepSeek 演示了将高达 100B 参数的嵌入表卸载到廉价的 CPU 内存中。

  • 极低开销:这种跨硬件搬运带来的额外推理延迟低于 3%。这为未来挂载 TB 级别的海量记忆库铺平了道路。

值得关注的是,论文最后明确指出,条件记忆将成为下一代稀疏模型中不可或缺的核心建模组件。

据外媒报道,DeepSeek 计划于 2 月发布其新一代旗舰 AI 模型DeepSeek V4。并且 V4 在多个关键指标上表现优异,与现有主流模型相比展现出一定优势,因此让人不禁拭目以待这款新旗舰的正式亮相。

参考论文:

https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf


DeepSeek 图书推荐

《一本书玩转 DeepSeek》

陈云飞(@花生)|著

超牛的 DeepSeek 应用书,作者是 AI 大佬花生,全书涉及 13 大场景,90 个实用案例,7 大技巧,4 大王炸组合,内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。带你轻松掌握 DeepSeek 核心技巧。

《图解DeepSeek技术》

[沙特] 杰伊·阿拉马尔, [荷] 马尔滕·格鲁滕多斯特 | 著

李博杰 孟佳颖 | 译

大模型领域知名专家 Jay & Maarten 作品。近 120 幅全彩插图通俗解读,不枯燥。从推理模型原理到 DeepSeek-R1 训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1168023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛批了,免费抠图神器,内置几个大模型

今天给大家推荐一款非常厉害的基于人工智能抠图的软件,功能非常强大,而且免费,有需要的小伙伴可以下载收藏。 Aiarty Image Matting 免费的AI抠图软件 这款AI抠图软件十分强,基于先进的阿尔法抠图技术,可以精准自然的…

YOLOv11+多尺度卷积注意力(MSCA):小目标检测精度飙升20%的实战教程

文章目录 【毕设级项目】YOLOv11+多尺度卷积注意力(MSCA):小目标检测精度飙升20%的实战教程 一、项目核心:什么是MSCA注意力? 二、环境准备:5分钟配置依赖 三、步骤1:编写MSCA注意力模块(MSCA.py) 四、步骤2:注册MSCA模块(修改tasks.py) 五、步骤3:编写YOLOv11+MS…

发票识别神器,值得收藏

今天给大家带来的是一款非常好用的发票PDF文件识别软件,可以合并pdf文档,识别最新的全电票和旧版电子发票,有需要的小伙伴可以下载收藏。 InvCom 发票PDF文件识别工具 这款软件是绿色版,下载后点击蓝色的图标就能打开直接使用了。…

YOLOv11 结合多尺度卷积注意力机制(MSCA):高效提升小目标检测性能实战指南

文章目录 【毕设级项目】YOLOv11+多尺度卷积注意力(MSCA):小目标检测性能飙升实战教程 引读:为什么选这个项目? 一、核心原理:多尺度卷积注意力(MSCA)是什么? 二、环境准备:5分钟搭好开发环境 1. 基础依赖安装 三、模块植入:3步把MSCA加到YOLOv11里 步骤1:编写MSCA…

TCP/IP协议栈深度解析:网络通信基石、优化与安全实践

引言:数字社会的基石在数字时代,每一次点击、每一次数据传输、每一次在线交互的背后,都有一套精密的通信机制在默默工作。这套机制的核心就是TCP/IP协议栈——一个由多层协议构成的复杂系统,它不仅是互联网的"通用语言"…

1688接入API

1688 API 是阿里巴巴旗下 B2B 批发平台的官方开放接口,基于 RESTful 架构与签名认证,以 JSON 格式提供商品、订单、供应链等全链路数据,核心价值是合规高效赋能采购选品、订单履约、库存协同与分销运营,适配批发 / 零售 / 跨境 / …

基于多尺度空洞注意力(MSDA)的YOLOv11改进与视觉识别优化

文章目录 毕设实战:基于多尺度空洞注意力(MSDA)的YOLOv11改进与视觉识别优化 一、技术背景与方案优势 二、环境搭建与依赖准备 2.1 虚拟环境配置 2.2 数据集准备 三、MSDA模块的代码实现 3.1 多尺度空洞注意力(MSDA)核心代码 3.2 嵌入MSDA到YOLOv11的Backbone 四、模型训练…

漫谈人机协同中的人机功能分配

在人机协同的分工逻辑中,“人杂机复”与“人道机术”是两种互补且有深度的视角,分别从任务属性和职能定位两个维度,揭示了人类与机器在协同中的核心优势与边界。两者结合,为人机协同的高效实现提供了完整的理论框架。一、基于任务…

内存去哪儿了?一个让大多数 Gopher 都无法清晰回答的问题

大家好,我是Tony Bai。“我的服务内存又在缓慢增长了,pprof 显示不出明显的泄漏点……内存到底去哪儿了?”这句午夜梦回的拷问,或许是许多 Go 开发者心中最深的恐惧。这一切的根源,可能始于一个你自以为早已掌握的基础…

【分布式系统】05 时间的幻象 —— Lamport 与 Vector Clock 如何重建分布式因果?

大家好,我是Tony Bai。欢迎来到《分布式系统:原理、哲学与实战》微专栏的第五讲。在过去的几讲中,我们已经深入了两种截然不同的复制哲学。无论是主从架构的“权威中心”,还是无主架构的“民主联邦”,我们都反复遇到了…

面向工业场景的高效目标检测系统:基于BiFPN与注意力机制的YOLOv11架构优化研究

文章目录 **面向工业场景的高效目标检测系统:基于BiFPN与注意力机制的YOLOv11架构优化与实现** **第一章:核心技术架构——双向特征金字塔与注意力协同** **第二章:项目环境配置与数据预处理** **第三章:改进模块完整实现** **第四章:完整网络架构配置** **第五章:优化训…

学霸同款8个AI论文软件,自考学生搞定毕业论文!

学霸同款8个AI论文软件,自考学生搞定毕业论文! 论文写作的“学霸同款”工具,你值得拥有 在自考学习的过程中,毕业论文往往成为许多学生最头疼的环节。无论是选题困难、资料查找繁琐,还是撰写过程中逻辑不清、语言表达…

我就改了这 3 个 iOS 26.2 设置——结果现在谁再让我回到“以前”,我真的回不去

iPhone 的系统更新大多时候像什么?像你家楼下便利店换了新海报:你路过会看一眼,但很难因此改变人生。 可这次不一样。我把手机升到 iOS 26.2 之后,随手动了 3 个小设置——注意,是“小设置”,不是那种要重装…

美国战争部AI加速战略的核心就是人机环境系统智能

美国战争部近期启动的AI加速战略,表面上是推动军事AI技术的快速部署与领先,但其深层逻辑可归结为以“人机环境系统智能”为核心,通过重构人(军事人员)、机(AI技术)、环境(任务场景&a…

YOLOv11+多尺度扩张注意力机制(MSDA):突破性实现40%长距离特征提取性能提升

文章目录 【毕设级项目】YOLOv11+多尺度扩张注意力(MSDA):长距离特征捕获能力提升40%的实战教程 一、项目核心:什么是MSDA注意力? 二、环境准备:5分钟配置依赖 三、步骤1:编写MSDA注意力模块(dilateformer.py) 四、步骤2:注册MSDA模块(修改tasks.py) 五、步骤3:编…

DataGen Connector本地造数神器(不用 Kafka 也能把 Pipeline 跑起来)

1、它到底做了什么 Source 并行运行&#xff1a;有多少个 source 并发子任务&#xff0c;就把 Long 的序列切成多少段&#xff08;sub-sequence&#xff09;你提供一个 GeneratorFunction<Long, OUT>&#xff1a;把输入的 index&#xff08;Long&#xff09;映射成任意事…

“棋圣”聂卫平去世 享年74岁

九派新闻01-15 07:58:06记者从中国围棋协会获悉&#xff0c;中国围棋协会名誉主席、“棋圣”聂卫平九段昨晚在北京病逝&#xff0c;享年74岁。聂卫平是上世纪中国围棋振兴的关键人物&#xff0c;在八十年代的中日围棋擂台赛中&#xff0c;他作为主将力挽狂澜&#xff0c;连胜多…

Tailwind CSS 4.1:终于把“文字阴影”端上来了——更狠的是,它把配置文件也“踢”出去了

Tailwind CSS 4.1 这次更新&#xff0c;表面看是补齐了一堆大家喊了很多年的视觉工具&#xff08;比如文字阴影、遮罩、彩色投影&#xff09;&#xff0c;但真正动静更大的&#xff0c;其实是它悄悄改变了“你怎么配置 Tailwind”这件事。它把 Tailwind 又往前推了一步&#xf…

Dynamic Kafka Source不重启也能“动态切换集群/主题”

1. 核心概念&#xff1a;从“物理订阅”升级为“逻辑订阅” Dynamic Kafka Source 不是直接让你写 topics ["a", "b"]&#xff0c;而是让你订阅一个或多个 stream id&#xff1a; stream id&#xff1a;逻辑流名称&#xff0c;比如 "input-stream&…

面试官:谈谈 Redis 的过期策略?

在线 Java 面试刷题&#xff08;持续更新&#xff09;&#xff1a;https://www.quanxiaoha.com/java-interview面试考察点面试官提出这个问题&#xff0c;通常意在考察以下几个层面&#xff1a;对缓存数据生命周期管理的理解&#xff1a;你是否清楚 Redis 作为缓存或数据库&…