不用额外缓存!英伟达开源大模型记忆压缩方案,128K上下文提速2.7倍

联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。

提高大模型记忆这块儿,美国大模型开源王者——英伟达也出招了。

联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣地亚哥分校等机构推出了TTT-E2E方法。

在128K超长文本上处理速度比全注意力模型快2.7倍,处理2M上下文时提速达35倍,性能还不打折。

这项技术与前几天大火的DeepSeek条件记忆模块有所不同。

DeepSeek的Engram模块依赖的是“按需查表”的静态学习路径,而英伟达走的是动态学习的路子,关键在于上下文压缩

通过实时学习将关键内容压缩到自身权重中,让模型在测试阶段依然保持学习状态。

这样既避免了额外缓存的负担,又能精准捕捉长文本中的核心逻辑。

给模型装上记忆压缩包

TTT-E2E并没有依赖复杂特殊架构,反而是基于带滑动窗口注意力的标准Transformer,容易部署。

这个方法的核心思路是将长文本建模从架构设计问题转化为「持续学习」任务

在测试阶段,模型会基于当前读取的上下文进行下一个词预测。

每读取一段文本,就通过梯度下降更新自身参数,通过这种方式持续训练自身,把读到的文本信息动态压缩到权重中,这样就不用额外存储冗余数据。

在训练阶段,团队通过元学习为模型做初始化准备,让模型天生适应「测试时学习」的模式。

把每个训练序列都模拟成测试序列,先在内循环中对其进行测试时训练,再在外循环中优化模型的初始参数,确保初始状态就能快速适配测试时的学习需求,实现了训练与测试的端到端对齐优化。

为了平衡效率与稳定性,TTT-E2E还设计了三项关键优化。

一是采用「迷你批处理+滑动窗口」的组合策略。将测试时的训练数据分成多个迷你批,配合8K大小的滑动窗口注意力,既解决了单token梯度更新易爆炸的问题,又保证模型能记住批内上下文,提升计算并行度;

二是精准更新策略。只更新模型的MLP层(冻结嵌入层、归一化层和注意力层),并且只更新最后1/4的网络块,在减少计算成本的同时避免参数更新混乱;

三是双MLP设计。在需更新的网络块中加入一个静态MLP层,专门存储预训练知识,另一个动态MLP层负责吸收新上下文,来防治模型学新忘旧。

从实验数据来看,TTT-E2E的表现很亮眼。

在3B参数模型的测试中,TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优,而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能均出现明显下滑;

在延迟上,它的推理延迟不随上下文长度增加而变化,与RNN类似,在H100显卡上处理128K文本时,速度比全注意力模型快2.7倍。

在解码长序列任务中,经Qwen-8B模型评估,TTT-E2E生成的文本质量稳定,损失值持续低于传统模型。

通过实验结果也可以看出,该方法的推理延迟与上下文长度无关,始终保持恒定,这也意味着无论处理8K还是128K文本,用户都能获得一致的快速响应体验。

不过,TTT-E2E也存在一些小局限。

在大海捞针这类需要精准回忆细节的任务中,它的表现远不如全注意力模型。

这是因为它的核心是压缩记忆,会过滤掉看似无关的细节,而全注意力模型能近乎无损地召回所有信息。

另一方面,训练阶段的元学习需要计算梯度的梯度,目前实现比标准预训练要慢。

目前,TTT-E2E的代码和相关论文已完全开源。

这项研究的项目总负责人是斯坦福的博士后研究员Yu Sun,他同时是该研究的核心贡献者。

他研究的总体目标是让人工智能系统能够像人类一样持续学习。自2019年以来,他就在开发“测试时训练”的概念框架,TTT-E2E项目的早期构想就是他提出的。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1160813.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026实测推荐:10大免费降AI工具全测评,轻松应对AI检测与论文降AI需求!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

Qwen2.5-0.5B-Instruct供应链优化:需求预测AI系统实战

Qwen2.5-0.5B-Instruct供应链优化:需求预测AI系统实战 1. 引言:轻量大模型在供应链场景的落地契机 随着企业对实时决策和边缘智能的需求日益增长,传统依赖云端大模型的AI系统面临延迟高、成本大、数据隐私暴露等挑战。尤其在供应链管理领域…

【RabbitMQ】消息确认机制 持久化 发布确认机制

文章目录Ⅰ. 消息确认一、消息确认机制二、手动确认方法① 肯定确认② 否定确认③ 否定确认三、代码示例Ⅱ. 持久性一、交换机持久化二、队列持久化三、消息持久化Ⅲ. 发布确认机制一、confirm确认模式二、return退回模式三、常见面试题💥 -- 如何保证 RabbitMQ 消息…

降AI工具哪家强?2026年最新免费平台盘点,这10款高效好用别错过!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

麦橘超然Flux能否替代Stable Diffusion?对比分析

麦橘超然Flux能否替代Stable Diffusion?对比分析 1. 技术背景与选型动因 近年来,AI图像生成技术迅速演进,从早期的GAN架构到如今主流的扩散模型(Diffusion Models),生成质量不断提升。Stable Diffusion 自…

DeepSeek-V4蓄势待发!梁文锋署名论文或开启第二个DeepSeek时刻

据权威媒体The Information报道,DeepSeek将于2月(春节)发布新一代旗舰模型DeepSeek V4,该模型具备强大的编程能力,预计将对当前的AI竞争格局产生重大影响。元旦前一天,DeepSeek发了篇梁文锋署名论文&#x…

制造业企业如何构建高效数据采集系统:从挑战到实践

在当今竞争激烈的全球市场中,制造业企业正面临着前所未有的压力。产品生命周期缩短、客户需求日益个性化、供应链波动加剧,这些因素共同推动着企业向智能化、数字化方向转型。然而,许多制造企业在数字化转型的起步阶段就遇到了巨大障碍——数…

免费降AI工具精选:2026年10大平台横向评测,教你高效降低AI率!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

1.什么是电子签名?

📝 Java实现PDF在线盖章签字和签名 | 解锁文档处理新姿势 🚀 大家好呀~✨ 我是雪碧聊技术,今天给大家带来一篇超实用的技术干货!🌟 如果你正在为 PDF文档的电子签名 而烦恼,或者想在自己的项目中…

2026年免费降AI神器盘点:10款工具亲测对比,轻松应对各类AI检测系统!

央视新闻说到了“大学生论文里的AI味渐浓”这件事。 现实就是这样。结课论文要查AI率,毕业论文也查,就连平时作业都逃不掉,AI率太高直接不过。每次查AICG出来结果的那一刻,简直是大学生崩溃的瞬间。 看着满屏幕的标红&#xff0…

Claude自己写出Claude!2小时干完两月活,人类在工位上多余了?

Claude Cowork的横空出世,不仅是用10天自建系统的技术奇迹,更是对人类职业价值的一次残酷拷问:当AI两小时能干完两个月的工作,我们是该庆幸解放,还是该恐惧被替代? 打工人版Claude重磅出世,给全…

VSCode函数级开发与代码审计——核心操作全解析与落地实践

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

Qwen模型快速选型指南:3小时试遍主流方案不超30元

Qwen模型快速选型指南:3小时试遍主流方案不超30元 你是不是也遇到过这样的情况:团队要上AI项目,领导让你尽快选出最适合的Qwen系列模型,但你一查发现——Qwen-7B、Qwen-Long、Qwen-Image、Qwen-Image-Edit……名字一堆&#xff0…

企业级开发环境中STM32CubeMX下载安装标准化流程

企业级开发中如何“无痛”落地 STM32CubeMX:从安装到团队协同的实战指南你有没有遇到过这样的场景?新同事入职第三天还在折腾开发环境,最后发现是因为他用的 STM32CubeMX 版本比团队高了半个小版本,生成的时钟配置代码直接让主控跑…

实现订单自动关闭机制——电商系统中的定时任务设计与实践

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

改进A星算法:剔除冗余节点与光滑转折点

改进A星算法 剔除冗余节点,光滑转折点 对比优化前后路径。在路径规划领域,A星算法无疑是一颗耀眼的明星。然而,原始的A星算法生成的路径可能存在冗余节点,并且转折点不够光滑,影响了路径的实用性和美观性。今天咱们就来…

2.Java实现电子签名的两种工具

📝 Java实现PDF在线盖章签字和签名 | 解锁文档处理新姿势 🚀 大家好呀~✨ 我是雪碧聊技术,今天给大家带来一篇超实用的技术干货!🌟 如果你正在为 PDF文档的电子签名 而烦恼,或者想在自己的项目中…

Mac系统如何批量命名,Mac批量重命名软件工具

A Better Finder Rename:Mac 用户文件批量重命名的最佳选择如果你需要对文件进行批量命名,Mac自带的批量命名工具能大大提升你的效率。假如你需要为这些图片重新命名,将这些图片命名为墙纸并且加上连续的序号,选中图片后单击右键&…

基于拉丁超立方采样与自适应核密度估计的电力系统概率潮流精准计算

采用拉丁超立方采样的电力系统概率潮流计算 (自适应核密度估计,自适应带宽核密度估计) 拉丁超立方采样属于分层采样,是一种有效的用采样值反映随机变量的整体分布的方法。 其目的是要保证所有的采样区域都能够被采样点覆盖。 该方…

Z-Image-ComfyUI单卡部署教程:16G显存轻松运行指南

Z-Image-ComfyUI单卡部署教程:16G显存轻松运行指南 阿里最新开源,文生图大模型。 1. 引言 1.1 背景与学习目标 随着生成式AI的快速发展,文生图(Text-to-Image)模型已成为内容创作、设计辅助和智能应用开发的重要工具…