DeepSeek Engram 横空出世!重构 LLM 记忆体系,算力效率再升级

当前技术突破的核心路径,仍集中在扩大模型规模优化计算调度上。但有没有另一条可行的创新之路?深度求索(DeepSeek AI)推出的记忆增强技术(Engram)给出了答案——这项革命性技术正在颠覆我们对语言模型扩展路径的固有认知。

记忆增强技术要解决什么问题?

想象这样一个场景:你向语言模型输入“亚历山大大帝”这个短语。每次输入时,模型都要耗费大量计算资源,从零开始重构这个常用表述。这就像一位顶尖数学家,在解复杂方程前,每次都要先逐个数一遍0到9这十个数字——完全是对算力的浪费。

当前主流的Transformer架构模型,没有专门的“模式查询”机制。它们只能通过计算过程模拟记忆检索,效率极低。而记忆增强技术创新性地引入了条件记忆的概念,与混合专家模型(MoE)中的条件计算形成互补,从根源上解决了这一痛点。

实测数据足以证明其优势:在基准测试中,270亿参数的记忆增强模型(Engram-27B)对比同规格混合专家模型,实现了显著性能跃升:

  • • 推理任务基准(BBH):得分提升5.0个百分点
  • • 知识问答基准(MMLU):得分提升3.4个百分点
  • • 代码生成基准(HumanEval):得分提升3.0个百分点
  • • 多查询海量文本检索任务(needle-in-haystack):准确率从84.2%飙升至97.0%

核心特性

记忆增强技术的核心优势体现在以下四个方面:

    1. 稀疏性资源分配研究团队发现了一条U型扩展定律,该定律为模型容量分配提供了最优指引,同时也揭示了神经计算(混合专家模型)与静态记忆(记忆增强技术)之间的权衡取舍难题。
    1. 实证性能验证在参数规模与浮点运算量完全相同的严格条件下,270亿参数的记忆增强模型在知识问答、逻辑推理、代码生成、数学计算四大核心领域,持续领先混合专家模型基线。
    1. 机制原理分析分析结果表明,记忆增强技术能够解放模型底层网络,使其无需再负责静态模式的重构工作,从而保障模型有效深度,为复杂推理任务保留足够的计算能力。
    1. 系统运行效率该技术采用确定性寻址方式,可将超大规模的嵌入表迁移至主机内存中,同时仅带来推理耗时的小幅增加。

工作原理

记忆增强技术可以看作语言模型的“高速查询表”,能够快速调取高频出现的文本模式。

核心架构设计

其设计理念简洁却极具颠覆性:基于N元语法嵌入技术,实现常数时间复杂度(O(1))的快速查询。该技术不会存储所有可能的词汇组合,而是通过哈希函数,将文本模式高效映射到对应的嵌入向量。

核心架构包含三大关键模块:

    1. 分词器压缩在进行模式查询前,记忆增强技术会对分词结果进行标准化处理。例如,让“Apple”和“apple”映射为同一语义概念,此举可使有效词汇量减少23%,大幅提升系统运行效率。
    1. 多头哈希机制为避免哈希冲突(即不同文本模式映射到同一地址),该技术引入了多组独立哈希函数。这就像拥有多本不同的电话簿——即便一本查不到正确号码,其他几本也能提供有效补充。
    1. 上下文感知门控这是整个技术的“智能核心”。并非所有检索到的记忆信息都与当前任务相关,因此记忆增强技术借鉴注意力机制的原理,根据上下文动态判断每条记忆信息的可信度。如果某一文本模式与当前语境不符,门控权重会趋近于0,该模式也会被自动忽略。

扩展定律的发现

在众多研究成果中,U型扩展定律尤为亮眼。研究团队发现,当模型75%~~80%的容量分配给混合专家模型,仅20%~~25%的容量用于记忆增强技术时,模型能达到最优性能表现。

  • • 纯混合专家模型(100%容量):没有专用记忆模块,只能通过计算重构常用模式,效率低下;
  • • 纯记忆增强模型(0%容量):缺乏足够的计算能力,无法完成复杂推理任务;
  • 最优平衡点:实现计算能力与记忆能力的精准平衡。

快速上手记忆增强技术

    1. 安装Python环境,要求版本≥3.8
    1. 执行以下命令安装numpy库:```plaintext
      pip install numpy

实战演练:理解N元语法哈希机制

接下来,我们通过一个实战案例,拆解记忆增强技术的核心哈希机制。

实现基础N元语法哈希查询

本案例将展示记忆增强技术如何通过确定性哈希,将分词序列映射到嵌入向量,完全无需存储所有可能的N元语法组合。

步骤1:环境配置
import numpy as npfrom typing import List# 配置参数MAX_NGRAM = 3 # 最大N元语法长度VOCAB_SIZE = 1000 # 词汇表大小NUM_HEADS = 4 # 哈希头数量EMBEDDING_DIM = 128 # 嵌入向量维度
步骤2:构建简单的分词压缩模拟器
def compress_token(token_id: int) -> int: # 模拟标准化过程:将相似分词映射到同一值 # 真实的记忆增强技术中采用NFKC标准化算法 return token_id % (VOCAB_SIZE // 2)def compress_sequence(token_ids: List[int]) -> np.ndarray: return np.array([compress_token(tid) for tid in token_ids])
步骤3:实现哈希函数
def hash_ngram(tokens: List[int], ngram_size: int, head_idx: int, table_size: int) -> int: # 采用记忆增强技术同款乘法异或哈希算法 multipliers = [2 * i + 1for i inrange(ngram_size)] mix = 0 for i, token inenumerate(tokens[-ngram_size:]): mix ^= token * multipliers[i] # 加入哈希头专属参数,避免不同头产生相同哈希值 mix ^= head_idx * 10007 return mix % table_size# 测试哈希函数sample_tokens = [42, 108, 256, 512]compressed = compress_sequence(sample_tokens)hash_value = hash_ngram( compressed.tolist(), ngram_size=2, head_idx=0, table_size=5003)print(f"二元语法对应的哈希值:{hash_value}")
步骤4:构建多头嵌入查询模块
def multi_head_lookup(token_sequence: List[int], embedding_tables: List[np.ndarray]) -> np.ndarray: compressed = compress_sequence(token_sequence) embeddings = [] for ngram_size inrange(2, MAX_NGRAM + 1): for head_idx inrange(NUM_HEADS): table = embedding_tables[ngram_size - 2][head_idx] table_size = table.shape[0] hash_idx = hash_ngram( compressed.tolist(), ngram_size, head_idx, table_size ) embeddings.append(table[hash_idx]) return np.concatenate(embeddings)# 初始化随机嵌入表tables = [ [ np.random.randn(5003, EMBEDDING_DIM // NUM_HEADS) for _ inrange(NUM_HEADS) ] for _ inrange(MAX_NGRAM - 1)]# 测试多头查询result = multi_head_lookup([42, 108, 256], tables)print(f"检索到的嵌入向量维度:{result.shape}")
输出结果
二元语法对应的哈希值:292检索到的嵌入向量维度:(256,)
结果解读
    1. 哈希值292:代表该二元语法模式在嵌入表中的存储地址,哈希值会随输入分词的变化而改变,体现了确定性映射的特性。
    1. 向量维度(256,):共检索到8个嵌入向量(2种N元语法长度 × 4个哈希头),每个子嵌入向量的维度为32(总维度128 ÷ 4个哈希头),拼接后得到256维的最终向量。

性能提升表现

记忆增强技术在知识类任务中的优势显而易见,但它对推理与代码生成任务的性能提升同样显著。

该技术将局部模式识别的工作转移至记忆查询模块,从而让注意力机制专注于全局上下文处理,最终实现性能的大幅跃升。在32K上下文窗口的RULER基准测试中,记忆增强模型的表现如下:

  • • 多查询海量文本检索任务:准确率97.0%(基线模型84.2%)
  • • 变量追踪任务:准确率89.0%(基线模型77.0%)
  • • 常用词汇提取任务:准确率99.6%(基线模型73.0%)

写在最后

记忆增强技术为人工智能研究开辟了全新方向:能否用可学习哈希函数替代现有的固定函数?能否让记忆模块在推理过程中实现实时动态更新?面对更大的上下文窗口,该技术又将如何应对?

深度求索AI的记忆增强技术代码仓库中,包含完整的技术细节与实现代码,且该技术已被应用于实际业务系统。这项技术带来的核心启示是:人工智能的发展,并非只有“做大模型”和“优化计算”两条路。有时,为模型匹配一套高效的工具,比如一个性能卓越的记忆系统,就能实现事半功倍的效果。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】


四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1188744.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GEO赛道榜单:AI营销获客难?看原圈科技如何领跑2026

原圈科技在GEO(生成式引擎优化)领域表现突出,被普遍视为2026年度领跑者。其核心优势在于,拥有能够兼容国内外主流大模型的自主技术底座,并打造了从洞察、内容到转化的"AI营销员工"产品矩阵。通过在金融、汽车…

2026 年四川果树苗批发实力榜单 全场景覆盖 个性化需求全景参考指南 - 深度智识库

四川凭借得天独厚的盆地气候与山地资源,成为国内果树苗培育与批发的核心产区,产业布局覆盖特色品种研发、规模化育苗、全链条服务等多个维度。当前行业正朝着品种定制化、培育技术智能化、服务体系一体化的方向稳步发…

CFexpress A卡哪个品牌可靠?2026年CFexpress A卡品牌推荐与排名,解决持续写入与兼容性痛点 - 品牌推荐

摘要 在专业影像与内容创作领域,数据存储已从单纯的容量载体演变为保障创作流程连续性与资产安全的核心环节。决策者,尤其是职业摄影师、影视制作团队及机构采购负责人,正面临一个关键抉择:在众多宣称高性能的存储…

2026年国产试验机十大厂家排行榜:力学试验机,教学用试验机,进口配置试验机,大吨位拉力试验机,,线缆拉力试验机 - 品牌推荐大师1

当前,全球制造业正经历一场深刻的智能革命,试验机作为保障产品质量、驱动材料创新的核心装备,其重要性日益凸显。行业发展呈现出三大趋势:一是测试场景从单一静态分析转向复合工况(如高低温、腐蚀环境)下的动态性…

2026年天津继承纠纷律所联系电话推荐:本地化专业团队介绍 - 品牌推荐

在天津这座融合了传统与现代的城市中,家庭财富的传承问题日益凸显,继承纠纷也随之增多。这类纠纷往往不仅涉及复杂的法律条文和财产分割,更交织着深厚的情感与家族关系,处理起来需要极高的专业素养和人文关怀。进入…

GEO服务商榜单

原圈科技如何领跑AI营销 破解获客难题?技术底座 行业知识 端到端方案核心洞察 | 原圈科技GEO服务深度解析:作为2026年榜单的领跑者,原圈科技凭借其"技术底座行业知识端到端方案"三位一体的核心能力脱颖而出。其通过"天眼&qu…

2026年救护车厂家最新推荐:救护车接送病人、救护车转运重症患者、紧急就近派车、长短途救护车出租、长短途病人救护车转运服务选择指南 - 优质品牌商家

2026华南地区救护车接送病人服务推荐指南——覆盖多场景的专业选择根据《2026中国医疗转运服务行业发展白皮书》显示,华南地区(广东、广西、海南)因人口流动频繁、医疗资源分布差异,医疗转运需求年增长率达16.2%,…

2026年1月陕西垃圾分类亭厂家推荐:鑫洁达环保与新阳光环保实力解析 - 深度智识库

随着城市精细化管理的深入推进和垃圾分类政策的全面实施,垃圾分类亭作为城市环境建设的关键设施,其品质与功能性直接影响着市民的生活体验和城市形象。在陕西地区,一批具备专业实力、产品可靠、服务完善的环保设备企…

水下隧道安装紧急电话及应急广播系统的重要性

海底隧道和过江隧道(统称为水下隧道)是交通网络中技术最复杂、安全风险最高的关键节点。在这些环境中,安装可靠、高效的紧急电话及应急广播系统,其重要性已远超普通隧道,是生命保障系统的核心组成部分。一、极端环境下…

解决 WSL2 + Windows Hosts + 开启 VPN 后无法访问本地 Web 服务的问题

问题场景描述:你在 WSL2 中运行了一个 Web 服务(如 Nginx、Go、Php、Node.js 等)。在 Windows 的 hosts 文件中绑定了域名(如 dev.wsl.net -> 172.x.x.x),以便在 Windows 浏览器中访问该服务。不开 VPN …

2026山东济宁高考志愿填报指导机构权威推荐榜单 - 一搜百应

引言据山东省教育招生考试院联合山东教育评估协会发布的《2025年度山东省高考志愿填报服务行业白皮书》显示,随着新高考改革的持续深化与专业选择的日益复杂化,超过68%的考生家庭倾向于借助专业机构进行志愿填报规划…

2026年天津继承纠纷律所联系电话推荐:解决家事难题的可靠伙伴 - 品牌推荐

在天津这座充满历史底蕴与现代活力的城市,家庭财富的传承与分配问题日益凸显,继承纠纷也随之成为许多家庭需要面对的现实难题。进入2026年,随着法律法规的持续完善与社会观念的不断更新,寻求专业、可靠的法律服务成…

新品牌冷启动破局 - 90天GEO实战方案 - AIDSO爱搜

在传统 SEO 见效慢、SEM 成本高的困境下,AI 搜索为新品牌创造了公平竞争的 GEO 红利窗口。本文基于 AIDSO 爱搜实战经验,推出一套 90 天 GEO 冷启动方案,助力新品牌从 “AI 不可见” 突破至 “首位推荐”。方案以低…

好写作AI|学术社交媒体“金句”提炼师:你的论文,值得一条点赞过百的“学术朋友圈”

论文发表了,朋友圈发了九宫格,点赞的却只有导师和亲妈?别灰心,不是研究不好,是你还没掌握“学术网红”的诞生秘诀。 这可能是当代学者最熟悉的“社死现场”:你耗费心血完成的论文终于在线发表,你…

RAG 选型避坑:5 种主流方案对比,轻量场景 vs 大规模场景怎么选?

今天这篇文章,基于10+企业级RAG落地经验,拆解5种主流RAG方案的底层逻辑、实测效果,给出“轻量场景(数据量<10万条,并发<100 QPS)”和“大规模场景(数据量>100万条,并发>500 QPS)”的选型框架与实…

温州净化工程公司施工流程权威指南,2026年优选推荐,洁净车间/净化工程公司/恒温恒湿车间,净化工程公司施工怎么做 - 品牌推荐师

在精密制造、生物医药、新能源等高技术产业领域,净化工程是保障产品品质、提升生产效率的核心基础设施。温州康鼎净化工程有限公司(以下简称“康鼎净化工程”)凭借十余年行业深耕与技术沉淀,已成为长三角地区净化工…

探讨粘合剂用聚酯多元醇品牌商哪家性价比高? - 工业品牌热点

问题1:什么是专业的粘合剂用聚酯多元醇?选择品牌厂家的核心标准是什么? 专业的粘合剂用聚酯多元醇是专门针对粘合剂生产需求定制的高分子聚合物,通过二元酸与二元醇的定向聚合,精准调控分子结构、分子量及官能团数…

小白也能懂的知识库 RAG 工作方式与搭建流程(教程上)

很多人觉得“大模型回答不够用”&#xff0c;第一反应是换模型。更常见的真实原因是&#xff1a;你的问题太粗、信息来源太散&#xff0c;模型只能给出“泛建议”。 知识库的价值在于&#xff1a;把可引用的资料范围锁定&#xff0c;让模型先找资料&#xff0c;再基于资料生成回…

好写作AI|研究故事编织者:当AI学会“学术脱口秀”,你的数据从此不再高冷

你的论文有完美的数据、严谨的方法、扎实的结论&#xff0c;但读起来就像在啃压缩饼干&#xff1f;别急&#xff0c;你的“学术编剧”已上线&#xff0c;专治各种“好研究讲不出好故事”综合征。学术圈最残酷的真相可能是&#xff1a;你的研究价值&#xff0c;约等于别人能记住…

手把手教你搭建本地知识库:个人与中小企业专属指南(2025年最新版)

在数据安全与隐私日益重要的今天&#xff0c;越来越多的个人用户和中小企业希望拥有一个完全本地化、可控、高效的智能知识库系统。通过将大语言模型与企业文档、项目资料、产品手册等知识内容结合&#xff0c;你可以实现智能问答、信息检索、自动摘要等强大功能&#xff0c;而…