【必学收藏】DeepSeek Engram新突破:通过可扩展查找实现条件记忆,开启大模型稀疏化新方向

DeepSeek Engram是一种新型条件记忆模块,通过N-gram查找表让大模型直接访问连续token组合的信息。该技术使用压缩和哈希方法处理大规模稀疏表,通过多头哈希减少冲突,并采用上下文感知门控机制决定信息使用。实验表明,将70-80%参数分配给MoE模块,20-30%给Engram模块效果最佳。系统实现采用存算解耦,训练时模型并行,推理时CPU与GPU重叠工作,提高效率。


论文标题:Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
论文链接:https://arxiv.org/abs/2601.07372

1.模型总览

典型transformer包括两个模块,attention模块和FFN模块(也叫MLP模块)。在DeepSeek V3发布后,大量模型开始在FFN模块中使用MoE技术,因此图中用MoE来表示。新的模型并不修改所有的transformer layer,只是在有限的transformer layer中的一开始增加了Engram模块,也使用残差连接(图中的加号),再和后面两个原有模块串行在一起。

Engram模块的输入包括两部分,第一部分就是transformer layer本来应该接受的输入,即图中的Input Hidden,只有上一个layer计算结束,才能得到这个layer的input hidden。第二部分则是模型输入的token id,也就是整个模型最开头的Vocab Embedding layer的输入。关于token的基本概念,可以参考LLM大模型中的token基本概念。因为第二部分的输入,在iteration刚开始的时候就知道了,这里就可以衍生出很多的优化手段。

2. N-gram

这部分以个人理解为主。

假如不考虑并行,从逻辑上说,LLM模型就是一个个新token被依次处理,每个被处理的token和所有之前的token做attention,最终形成一个新的token。信息从单个token开始,通过链式的前向注意力,逐渐涌现出复杂能力。

于是问题来了,为什么信息只从单个token开始呢,而连续N个token可以包括更多信息,而且这些信息还是现成的。虽然,LLM模型可以通过attention计算硬生生地算出这些信息,但是,为什么不可以直接提供这些信息,让LLM的算力更多地花在理解和推理上呢?

想法很好,如何完成呢?

回顾LLM模型最开始,token id需要经过vocab embedding layer查表得到一个向量(即hidden state)。那么,对于2个token的N-gram组合(N=2),是否也可以查询某个table得到一个向量,对N=3的连续token组合N-gram是否也可以查询另外一个table得到一个向量呢?但是,就算得到了这样的向量,也只是最近N个连续token提供的静态信息,会不会反而和基于整个句子理解的意思相反呢?等等问题,都可以通过接下来依次展开Engram模块而得到回答。

扩展一下,一定要连续的若干token组合吗?能否存在其他pattern,比如跳着什么的,也许可以有很多改进性研究可以添砖加瓦。

3. token id的压缩和N-gram重构

目前tokenizer的字典一般在10万数量级左右,也就是说token id的取值范围在0到10万,那么vocal embedding layer要查的表格的行数就是10万左右。

对于2-gram,<id1, id2>的所有可能性是 10万^2, 那就意味着要查询的表格行数有10万^2。对于N=3,4那要查询的表格行数就更大了。最终会导致表格内容太大,完全放不下。

实际上,从语义的角度,有些不同token id对应的语义其实是一样的,比如Apple和apple,对应两个token id,但是是同一个语义,针对这样的情况,可以将一个128K的字典压缩23%,即对于t位置的token id:x_t,有:
x_t' = fun(x_t)
fun是一个压缩映射函数,定义域的数量是128K,而值域的数量是 128K*(1-23%)=99K。于是,Apple和apple都会被映射到同一个x_t'

于是,t位置的token在N-gram下,可以被记为:

在图1中,假设Great是t位置的token,在2-gram下,the Great就是g_t,2 = (x_the', x_Great'),而在3-gram下的Alexander the Great就是g_t,3 = (x_Alexander', x_the', x_Great')

4. Hashed N-grams

就算是将字典从128K压缩到了99K,还是很大,g_t,2还是需要99K^2的最大表格行数。这个数字表达的是<id1', id2'>的所有可能性,但是,实际上,很多的组合是不存在的,也就是说,这么一个大表其实是非常稀疏的。但是,事先明确哪些是稀疏又是非常困难的事情,所以,这里就用了hash哈希的方法来处理。

图中的hash函数是一个lightweight multiplicative-XOR hash,其返回值是z_t,n,k,以此为行数,到表格E中得到结果向量e_t,n,k

但是,就这么一个hash函数就可以解决稀疏大表的问题吗,另外,公式中的k又是什么意思呢?接下来继续讨论。

5. Multi-Head Hashing

为了解决单一哈希函数可能带来的冲突问题,Engram采用了多哈希(Multi-Hash)机制。这类似于多头注意力中的‘头’,但这里每个头对应一个独立的哈希函数。因为大表的稀疏性,几乎没有概率碰到两个不同的输入其所有hash函数的输出都是相同的。当然,多个hash函数也意味着多个Embedding表格实例。最后,从多头表格中查到的所有向量都被concat在一起,而且所有的N-gram也被concat在一起,如下公式。

至此,图1中右侧的Hash2-Gram3-GramConcat都已经介绍完毕。只是,图中用h来表示多头hashing的数量,而在上面公式中用K来表示多个hashing的数量。

6. Context-aware Gating

基于N-Gram查表得到向量e_t后,又如何和整句的意思联系在一起呢?Engram中还有两个内容,一是类似于attention的scaled dot product,二是轻量级卷积层。论文后面的实验表示,这个轻量级卷积层的作用不是很大:removing the lightweight depthwise convolution only marginally degrades performance。

6.1 scaled dot product

在PyTorch中,F.scaled_dot_product_attention是一个完整的注意力API,包括对矩阵V的处理,即:softmax(QK^T/√d_k) * V。而在图1中,scaled dot product表达的是两个向量的scaled点乘,其结果再逐元素乘以第三个向量,而这三个向量的含义,可以用attention的三个矩阵QKV来类比。

作为Engram模块输入的input hidden是t位置token的hidden state,不妨记为h_t,根据注意力机制的效果,我们可以认为这h_t已经包括了整个句子的意思了,这个假设也可以解释后面实验中说把Engram放到第一个transformer layer中的效果并不是最佳的,可能这个时候还无法包含整个句子意思吧。h_t是一个向量,可以类比为QKV矩阵中的Q。

向量e_t经过两个不同linear层后分别得到两个新的向量k_tv_t,可以分别类比QKV矩阵中的K和V。此时k_tv_t的shape就要和模型的hidden size保持一致了。
再接下来,对两个向量h_tk_t做scaled点乘,经过activation后得到一个[0,1]范围内的标量a_t,如下公式所示。其中,h_t是一个列向量,转置后是一个行向量,而k_t也是一个列向量,行向量和列向量相乘后得到一个标量。
这个公式的意思是,如果从表格查询出来的向量和句子意思越相关,即h_tk_t越接近,得到的a_t越接近1,说明我们应该多使用查询结果,否则,得到的a_t越接近0,说明我们应该少使用查询结果。所以,用标量a_t逐元素乘以向量v_t最后得到v'_t来完成这样的功能,如下所示。

6.2 轻量级卷积层

前面讨论的参数中都带了一个下标t,表示对位置t的token的处理。实际上,LLM是对整个序列进行处理的。因此,对于序列中的每个位置t,我们都会得到一个向量v'_t,这些向量最终堆叠成矩阵V'

Engram模块最后的轻量级卷积层对V'使用了RMSNorm、深度因果卷积、SiLU activation和残差连接,如下所示。

在深度因果卷积中,深度应该是对应hidden state中的每一个dim,因此卷积前后的hidden size保持不变,而因果则表示不卷积未来的token数据。

7. U形曲线

在Transformer layer中,参数主要在MoE模块,现在Engram模块有表格也有linear layer都需要参数,那么应该如何分配参数呢?在给定相同的TFLOPs和参数总量的情况下,实验发现下面的U形曲线,两条曲线对应不同的flops,两条曲线的最低点坐标都在70%到80%之间,这表示将参数的70%到80%分配给MoE模块,20%到30%的参数分配给Engram模块,最终的loss最小、效果最好。

8. 系统实现:存算解耦

Engram模块的系统实现可如下图所示,在training时候,使用模型并行的办法将Egram中embedding table分切到多个GPU中,在需要的时候用All-to-All来完成所有的查表操作。而在inference的时候,在iteration一开始的时候就已经知道了所有的token id,因此可以马上开始Engram的部分工作了,包括查表操作,所以,表格可以放到cpu memory中,而查表操作也可以由CPU完成,在GPU完成前面Transformer layer计算工作的时候,将CPU的查表结果传回GPU,实现两者的overlap。

9. 总结

DeepSeek Engram本质上就是为Transformer增加了一个可学习的、条件化的N-gram查找表。它通过多哈希查表的方式,直接查找连续几个token组合对应的向量,让模型能直接“回忆”局部模式,而非每次从头计算。最后,使用一个门控机制让模型自己决定用不用这些信息。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1183735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker镜像使用

Docker镜像使用列出本镜像查找某个镜像下拉某个镜像查看占用空间删除镜像启动镜像列出当前所有正在运行的容器退出容器启动一个或多个已经被停止的容器重启容器停止容器暂停容器中所有的进程删除已停止的容器杀掉一个运行中的容器恢复容器中所有的进程列出本镜像 docker image…

Fun-ASR-MLT-Nano-2512语音模型压缩:量化与剪枝实战

Fun-ASR-MLT-Nano-2512语音模型压缩&#xff1a;量化与剪枝实战 1. 章节名称 1.1 技术背景 随着多语言语音识别需求的快速增长&#xff0c;大参数量模型在准确率上表现出色&#xff0c;但其高资源消耗限制了在边缘设备和低延迟场景中的部署。Fun-ASR-MLT-Nano-2512 是阿里通…

【收藏必学】AI大模型入行攻略:避开弯路,掌握实用技能,轻松入行

随着DeepSeek的爆火&#xff0c;各行各业的AI大模型应用正在加速普及&#xff0c;金融、电商、医疗、法律、制造等行业不断落地应用&#xff0c;同时也逐渐融入了我们的日常生活&#xff0c;做个图&#xff0c;问个问题&#xff0c;润色个文案……我们已经习惯了求助于DeepSeek…

快速掌握Android init.rc配置,启动脚本轻松集成

快速掌握Android init.rc配置&#xff0c;启动脚本轻松集成 1. 引言&#xff1a;为何需要自定义开机启动脚本 在Android系统开发中&#xff0c;尤其是在定制ROM、设备初始化或嵌入式场景下&#xff0c;经常需要在系统启动过程中执行一些特定的初始化操作。这些操作可能包括设…

必收藏!RAG与Agentic RAG全解析:从基础到进阶,解锁大模型实用能力

在大模型应用落地过程中&#xff0c;“AI幻觉”和静态知识局限一直是困扰开发者的核心问题。检索增强生成&#xff08;RAG&#xff09;技术的出现&#xff0c;为解决这两大痛点提供了高效方案&#xff0c;而其进化版代理式检索增强生成&#xff08;Agentic RAG&#xff09;&…

2026年挂具脱漆炉推荐:鱼台光华环保科技挂具脱漆炉设备/原理/报价/定制全解析

在工业涂装与表面处理领域,挂具脱漆炉作为关键设备,直接影响着生产效率与环保水平。据行业统计,2025年国内挂具脱漆设备市场规模已突破12亿元,年复合增长率达8.7%,其中环保型设备占比超65%。在众多设备供应商中,…

vLLM部署HY-MT1.5-7B指南|高性能翻译模型落地实践

vLLM部署HY-MT1.5-7B指南&#xff5c;高性能翻译模型落地实践 在多语言信息处理日益成为刚需的今天&#xff0c;高质量、低延迟的机器翻译能力已成为数据科学家、AI工程师和跨国业务团队的核心工具。尤其在涉及少数民族语言、混合语种文本或专业术语场景下&#xff0c;通用翻译…

腾讯云TI-ONE平台部署图片旋转判断模型指南

腾讯云TI-ONE平台部署图片旋转判断模型指南 1. 引言 1.1 图片旋转判断的技术背景 在图像处理与计算机视觉的实际应用中&#xff0c;图片的方向问题是一个常见但不可忽视的挑战。尤其是在移动端用户上传、扫描文档识别、OCR文本提取等场景中&#xff0c;图片可能以任意角度拍…

DeepSeek-R1-Distill-Qwen-1.5B部署省50%成本?真实案例分享

DeepSeek-R1-Distill-Qwen-1.5B部署省50%成本&#xff1f;真实案例分享 1. 背景与选型动机 在当前大模型快速迭代的背景下&#xff0c;越来越多企业与开发者面临一个现实问题&#xff1a;如何在有限算力资源下实现高性能推理能力。尤其是在边缘设备、嵌入式平台或低成本服务器…

ADAS软件开发

ADAS&#xff08;Advanced Driver Assistance Systems&#xff0c;高级驾驶辅助系统&#xff09;软件开发是一个融合了计算机视觉、传感器融合、控制算法、嵌入式系统和人工智能等多领域技术的复杂工程。以下是ADAS软件开发的关键组成部分、开发流程和技术栈概览&#xff1a;一…

服务CPU突然飙到100%,用Arthas三分钟定位到问题代码

前言 那天下午正准备摸鱼&#xff0c;突然收到告警&#xff1a;生产环境某服务CPU使用率100%。 打开监控一看&#xff0c;好家伙&#xff0c;4核全部打满&#xff0c;而且已经持续了好几分钟。赶紧上服务器排查。 第一步&#xff1a;确认是哪个进程 先用top看一眼&#xff…

2026年热门的/有实力的/质量好的/正规的/高品质的蒸发器厂家权威推荐榜:聚焦节能、高粘度处理与工业废水净化

在化工、制药、食品、环保等诸多工业领域,蒸发器作为核心的浓缩、结晶与分离设备,其性能的优劣直接关系到生产线的效率、能耗与最终产品质量。市场上供应商众多,产品描述琳琅满目,如何从“优质蒸发器”、“专业蒸发…

高精地图车端引擎开发

1.高精地图车端引擎开发 高精地图车端引擎开发是智能驾驶系统中的核心技术之一&#xff0c;主要负责在车辆端高效加载、解析、管理和使用高精地图数据&#xff0c;为感知、定位、规划与控制等模块提供精准的地理空间信息支撑。以下是高精地图车端引擎开发的关键要素和技术要点…

2026年起重电磁铁厂家推荐:山磁智能科技有限公司,正面吊/吊运管坯用/吊运捆扎棒材用/吊运钢管用/吊运中厚钢板坯用/吊运方坏用起重电磁铁全系供应

山磁智能科技(上海)有限公司是一家深耕磁力应用技术研发与制造领域十余年的高科技企业,凭借强大的技术实力与规模化生产能力,成为全球制造业客户信赖的合作伙伴。公司现有现代化厂区110亩,配备精大稀设备140余台,年…

压路机远程监控智慧运维系统解决方案

压路机作为道路建设、机场跑道、水利工程等基础设施建设领域的关键压实设备&#xff0c;其压实均匀性、作业效率、运行可靠性直接影响路基密实度、路面平整度及工程整体质量&#xff0c;是保障施工进度与工程质量的核心装备。传统模式下&#xff0c;压路机多为单机分散作业&…

2026年广州财税记账公司推荐榜:财税公司 /财税代理/ 财税服务 /外包财税 /财税外包 /财税服务外包/ 财税外包公司服务精选

在粤港澳大湾区建设不断深化的背景下,广州作为核心引擎,其市场主体活力持续迸发,对专业、规范的财税服务需求也随之迅猛增长。对于广大中小企业而言,一个可靠的财税合作伙伴不仅是记账报税的助手,更是规避税务风险…

小白指南:elasticsearch安装+Kibana日志展示

从零开始搭建日志分析平台&#xff1a;Elasticsearch Kibana 实战指南 你有没有遇到过这样的场景&#xff1f;线上服务突然报错&#xff0c;几十台服务器的日志散落在各处&#xff0c; tail -f 查到眼花也找不到根源&#xff1b;或者用户反馈某个功能异常&#xff0c;却没人…

2026年资产管理系统软件清单:大型集团+不动产管理优质选择 - 品牌2026

数字化转型进入深水区,大型集团与不动产企业面临资产规模扩容、业态多元叠加、跨域协同加剧等挑战,对资产管理系统的标准化适配、定制化能力、数据安全性及智能化水平提出更高要求。一套优质的资产管理系统,已成为企…

看效果说话:通义千问3-4B生成的80万字长文展示

看效果说话&#xff1a;通义千问3-4B生成的80万字长文展示 1. 引言&#xff1a;小模型也能写“巨著”&#xff1f; 在大模型参数动辄上百亿、千亿的今天&#xff0c;一个仅40亿参数的小模型能否承担起生成超长文本的重任&#xff1f;通义千问3-4B-Instruct-2507给出了肯定答案…

UDS 31服务安全访问机制深度剖析:全面讲解

UDS 31服务安全访问机制深度剖析&#xff1a;从原理到实战的完整指南在一辆现代智能汽车中&#xff0c;诊断接口不仅是维修工具的“入口”&#xff0c;更可能成为黑客攻击的“后门”。随着车辆电子架构日益复杂&#xff0c;如何在开放诊断功能的同时守住安全底线&#xff1f;UD…