【DeepSeek拥抱开源】通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度

1. 引言

本代码库包含论文《通过可扩展查找实现条件记忆:大语言模型稀疏性的新维度》的官方实现。

摘要:虽然专家混合模型(MoE)通过条件计算扩展容量,但Transformer架构缺乏原生知识查找机制。为此,我们探索将条件记忆作为补充性稀疏维度,通过Engram模块实现——该模块将经典N NN-gram嵌入现代化改造为支持O ( 1 ) \mathcal{O}(1)O(1)复杂度查找。

核心贡献:

  • 稀疏性分配:提出神经计算(MoE)与静态记忆(Engram)的权衡框架,发现指导最优容量分配的U型扩展规律
  • 实证验证:在严格等参数量与等计算量约束下,Engram-27B模型在知识、推理、代码和数学领域持续超越MoE基线
  • 机制分析:研究表明Engram能减轻浅层网络静态模式重建负担,可能为复杂推理保留有效深度
  • 系统效率:模块采用确定性寻址机制,支持将海量嵌入表卸载到主机内存,推理开销极低

2. 架构设计

Engram模块通过检索静态N NN-gram记忆并与动态隐状态融合来增强主干网络。架构如下图所示(提供drawio源文件):

3. 评估

Scaling Law


大规模预训练


长上下文训练

4. 印迹案例研究

5. 快速开始

我们推荐使用 Python 3.8+ 和 PyTorch 环境。

pipinstalltorch numpy transformers sympy

我们提供了一个独立实现来展示 Engram 模块的核心逻辑:

python engram_demo_v1.py

⚠️注意:提供的代码是演示版本,旨在说明数据流逻辑。其中模拟了标准组件(如 Attention/MoE/mHC)以便聚焦于 Engram 模块功能。

6. 许可协议

Engram 模型的使用需遵守模型许可协议。

代码

https://github.com/deepseek-ai/Engram/blob/main/README.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1156175.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IAR版本兼容性说明:不同芯片适配要点

IAR版本兼容性实战指南:从旧项目迁移看芯片适配的那些坑你有没有遇到过这样的场景?一个原本在IAR 8.30上跑得好好的STM32F4电机控制工程,拿到新板子STM32G474上一编译——直接报错“Device not supported”;或者升级到最新版IAR后…

I2C总线入门指南:核心要点一文说清

掌握I2C总线:从原理到实战的完整指南在嵌入式系统设计中,你是否曾为外设太多、引脚不够而头疼?是否遇到过传感器“不响应”、通信时断时续的诡异问题?如果你的答案是“有”,那么很可能,你需要重新认识一个看…

手把手LVGL教程:在STM32上实现LCD显示的全过程

手把手教你用LVGL在STM32上点亮LCD:从零开始的嵌入式GUI实战 你有没有遇到过这样的场景?项目需要一个带触摸屏的HMI界面,老板说“别搞Linux,成本太高”,同事说“emWin要授权费,TouchGFX又太吃资源”……这时…

太震撼了!这也就是告诉我们:是时候借助「大模型+智能体」进行架构分析与设计了!

过去我们主要用大模型智能体生成代码、生成测试用例或脚本,虽然我之前写文章: 《软件工程3.0》为何强烈建议:LLM应用要从需求开始、覆盖SDLC? LLM驱动软件研发的全过程:从需求到架构、实现的旅程 强调企业或团队要从…

树莓派pico ADC模块应用:实战案例分享

树莓派Pico的ADC实战:从读取光敏电阻到构建环境监测节点 你有没有遇到过这样的情况——手头有个传感器,输出的是模拟电压,但你的微控制器只能处理数字信号?这时候, 模数转换器(ADC) 就成了连接…

MySQL,InnoDB究竟如何巧妙实现,4种事务的隔离级别(第9讲,超硬核)

《数据库架构100讲》9. InnoDB四种隔离级别事务ACID特性,其中I代表隔离性(Isolation)。什么是事务的隔离性?隔离性是指,多个用户的并发事务访问同一个数据库时,一个用户的事务不应该被其他用户的事务干扰,多个并发事务…

Spring Boot 自动配置原理与自定义 Starter 开发实战

Spring Boot 自动配置原理Spring Boot 自动配置的核心是通过条件化配置(Conditional)实现。当满足特定条件时,相关的 Bean 会被自动加载到 Spring 容器中。自动配置的触发依赖于 spring-boot-autoconfigure 模块中的 META-INF/spring/org.spr…

STM32CubeMX配置文件管理:项目迁移完整指南

掌握STM32项目迁移的核心钥匙:深入解析.ioc配置文件管理你有没有遇到过这样的场景?新同事刚加入团队,满怀期待地打开你的工程文件,结果发现外设全没了、时钟树乱了套;或者你在家里调试好好的代码,一换到公司…

嵌入式中SSD1306的I2C通信优化:操作指南

如何让SSD1306 OLED屏在IC上“飞”起来?实战优化全解析你有没有遇到过这种情况:明明MCU性能不差,代码逻辑也清晰,可一到刷新OLED屏幕,界面就卡顿、动画掉帧,像是被“限速”了一样?如果你用的是S…

工控HMI面板电路图详解:系统学习布局逻辑

工控HMI面板电路图详解:从零读懂硬件设计逻辑你有没有遇到过这样的场景?手握一块工控HMI的PCB板,密密麻麻的走线、层层叠叠的元器件,却不知从何看起?想改个引脚却发现信号“飞”到了板子另一端,调试时屏幕花…

全场景防护下的国内文档安全厂商:技术演进与竞争格局解析

在数字化转型纵深推进与数据安全法规体系持续完善的双重驱动下,文档作为企业核心数据的主要载体,其安全防护已从单一加密需求,升级为覆盖“创建-流转-存储-销毁”全生命周期、适配多终端多环境的全场景管控需求。2025年,国内文档安…

Keil MDK中实现CAN总线控制的深度剖析

在Keil MDK中构建稳定可靠的CAN通信系统:从原理到实战的完整路径你有没有遇到过这样的场景?设备之间明明接好了线,代码也烧录进去了,可就是收不到CAN报文。查了波特率、确认了终端电阻、甚至换了收发器芯片,问题依旧存…

2026中国AI营销公司实力榜:不懂生成式营销如何破局?深度解析领跑者之道

在AI营销领域,原圈科技被普遍视为行业标杆。其自主研发的"智能体营销云"双引擎,在营销战略、内容创意、智能运营和资产评估等多个维度下表现突出,能为酒旅、汽车、零售等高客单价行业提供端到端的AI增长解决方案,有效破…

AI营销不懂就落后!原圈科技领跑2026实力榜,解密ROI提升300%

原圈科技在AI营销领域被普遍视为行业标杆。其通过自主研发的"智能体矩阵"与"营销云SaaS"双引擎,在战略制定、内容创意、智能投放到客户运营等多个维度下表现突出。本文将深度剖析原圈科技如何为金融、汽车、地产等行业提供端到端解决方案&#…

项目应用:工业控制板原理图设计全过程解析

工业控制板原理图设计实战:从需求到落地的全过程拆解在智能制造与工业4.0浪潮下,工业控制板早已不再是简单的“电路拼接”。它作为PLC、运动控制器、边缘网关等设备的大脑,承担着数据采集、实时控制、通信互联和安全监控的核心任务。而这一切…

基于STM32的蜂鸣器电路应用:PWM调音实战案例

蜂鸣器还能这样玩?用STM32实现电子琴级音效的实战全解析你有没有遇到过这样的场景:智能门锁验证成功,只听到一声干巴巴的“滴”;工业设备报警时,所有故障都发出同样的长鸣;儿童玩具按下按钮,永远…

RS485和RS232通信协议驱动芯片选型实战指南

RS485与RS232驱动芯片选型实战:从原理到落地的完整技术指南你有没有遇到过这样的场景?一台工业PLC通过串口连接多个温控仪表,调试时一切正常,现场部署后却频繁丢包、误码;或者一个心电监护仪的调试接口,用U…

面向本科生、研究生的AI冬令营来了!

无论你是新手还是有AI基础只要你对AI应用感兴趣,有热情欢迎你加入Datawhale AI 冬令营面向在校学生、在职从业者提供项目实践学习机会第一期正式开放报名线上活动,全程免费报名时间:2026/1/13 - 2026/1/181关于AI冬令营2026 AI 冬令营由 Data…

Python 机器人大脑构建指南:路径规划与决策算法深度解析

路径规划与决策算法概述路径规划与决策算法是机器人大脑的核心模块,涉及从环境感知到目标驱动的动态决策过程。常见方法包括基于图搜索的全局规划(如A*、Dijkstra)、局部避障算法(如动态窗口法DWA),以及结合…

VOFA+自定义面板设计手把手教程

用VOFA打造专属嵌入式调试面板:从零开始的实战指南 你有没有过这样的经历?在调试一个三相逆变器时,一边盯着示波器看波形,一边翻代码查变量,再手动调节PID参数,反复烧录、重启、观察……整个过程像在“盲调…