Transformer已死?DeepMind正在押注另一条AGI路线

借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的大门。

「灾难性遗忘」,一个困扰了AI界几十年的幽灵,这一次或许被彻底解决了。

过去一年,AI突飞猛进,绝非夸张的修辞,仅谷歌DeepMind一年的成就,就让人眼花缭乱:

但如果DeepMind要选2025年最重要的研究或产品,那最近火爆的嵌套学习「Nested Learning」必有一席之地。

有网友读过论文之后,发帖表示,这篇论文就是《Attention is All you Need》的「续集」。

如果Transformer开启了Scaling时代,那么嵌套学习,可能正在开启真正的AGI时代。

DeepMind创始人Shane Legg更直接,AGI一路坦途,最新进展就是嵌套学习。

甚至有网友表示,如果要给未来的外星人留一篇论文,必然是这篇《嵌套学习》。

如果实现AGI需要2-3项突破,持续学习可能就是其中之一,而谷歌已发表了多篇相关论文。

然而,这些论文有一个共同的作者──

康奈尔大学计算机科学系二年级博士生、谷歌研究院(纽约)研究实习生Ali Behrouz。

Transformer的记忆之殇

在多方面,Transformer表现出色,能够Scaling、推动AI跨越,能实现跨任务、跨领域的泛化能力。

但谷歌很早就意识到一件事:Transformer并不完美。

1. 长上下文处理效率低

2. 抽象知识层级有限

3. 适应性弱

4. 缺乏持续学习能力

特别是第四点,Ali认为那是最关键的问题。

当提到「持续学习」(Continual Learning),我们指的是:

没有训练期,也没有测试期;

模型在使用过程中,持续塑造新的记忆和抽象结构。

人类天生如此。

但对今天的大语言模型来说,几乎不存在任何「持续学习」。

为了说明问题有多本质,Ali用了一个医学上的类比:顺行性遗忘症(Anterograde Amnesia)。

这种病的患者有一个非常诡异的特征:

  • 他们的短期记忆是正常的
  • 他们的长期记忆也还在

但问题在于: 👉短期记忆,无法转移为长期记忆。

于是,他们永远活在「现在」。

新的经历进来,过一会儿就消失; 世界在变,但他们的大脑不再更新

现在,把这个病,套到LLM身上。

你会发现,大模型和人类患者一模一样。

今天的大语言模型,知识主要来自两部分:

预训练阶段学到的长期知识、

当前上下文里的短期信息。

但这两者之间,几乎完全没有通道

AI模型无法自然地把「刚刚学到的东西」,沉淀为未来可复用的知识。

想让它真的学会?

你只能:再烧钱、再训练、再微调。

这和顺行性遗忘症患者的状态,本质上没有区别。

真正的问题不是参数不够多,不是数据不够大,也不只是算力不够。

问题的本质在于「短期记忆」和「长期记忆」之间,根本没有一条自然的知识转移通道。

如果这条通道不存在,所谓「持续学习」,就永远只是一个口号。

这引出了一个核心问题:我们该如何构建一种机制,让AI模型像人类一样,将「现在」的经历沉淀为「未来」的知识?

一切AI皆是「联想记忆」

如果想让AI真正具备持续学习能力,那你绕不开一个最底层的问题:

模型到底是「怎么记住东西的」?

Ali给出的答案,不是Transformer,不是参数量,而是一个更原始、更根本的概念:联想记忆(Associative Memory)。

所谓「联想记忆」,是人类学习机制的基石。

它的本质,是通过经验将不同的事件或信息相互关联。

比如,你看到一张脸,马上想起一个名字;你闻到某个味道,唤起一段记忆。

这不是逻辑推理,而是关联的建立

技术上,联想记忆就是键值对映射:

  • Key:线索
  • Value:与之关联的内容

但关键在于,联想记忆的映射关系不是预先写死的,而是「学出来的」。

从某种角度来看,注意力机制本质上就是一种联想记忆系统:它学习如何从当前上下文中提取key,并将其映射到最合适的value,从而产生输出。

如果我们不仅优化这种映射本身,还让系统去元学习(meta-learn)这种映射过程的初始状态,会发生什么?

基于对联想记忆的理解,他们提出了一个通用框架,名为MIRAS,用于系统化地设计AI模型中的记忆模块。

这一框架的核心思想是:

几乎所有注意力机制、本地记忆结构,乃至优化器本身,其实都可以视为联想记忆的特例。

为了设计一套「可学习的、嵌套式的记忆系统」,我们需要对模型中的记忆结构做出四大设计决策:

  1. 记忆架构(Memory Architecture)
  2. 注意力偏置/目标函数(Attentional Bias/Objective)
  3. 保留机制(Retention Gate)
  4. 学习规则(Learning Rule)

这个框架可以用来统一解释许多已有的注意力机制与优化器

简单来说:MIRAS让我们能够把「记忆」作为一种学习过程进行建模、组合与优化,而不仅仅是一个静态模块。

更进一步,优化器也可以被统一视为「将当前梯度映射到历史信息」的联想过程,就可以对它们进行重新建模与推广。

优化器就是一种「记忆模块」,是模型理解其学习历史、进而做出更优决策的关键组件。

优化过程与学习算法/架构本质上是相同的概念,只是处于系统不同层级中具有不同的上下文(即梯度与数据)。

此外,它们是两个相互连接的组件,其中学习算法/架构为优化器生成上下文(即梯度)。这支持为特定架构设计专属优化器的理念。

由此,谷歌的团队探讨了不同层级之间的知识传递方式,提出了嵌套学习。

嵌套学习

专治LLM失忆症

基于NL的观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,其目标是训练一种联想记忆(associative memory),以将各层的输入映射到其预测中对应的局部误差。

相应地,他们认为预训练是一种上下文内学习形式,其中上下文是全部预训练数据,而各网络层则将该上下文压缩进其参数之中。而其他流行的基于梯度的优化器,本质上也是旨在将梯度压缩进其参数中的联想记忆。

优化器与架构并不是彼此独立的,它们应该互为上下文、协同进化。

为了正式定义Nested Learning(嵌套学习)框架,需要了解两个核心概念:更新频率(Update Frequency)嵌套系统(Nested System)

一、更新频率

首先设定一个时间单位,通常取系统中更新最慢的模块的一次更新作为基本时间单位。

然后,对于系统中其他组件,我们统计它们在一个时间单位内更新了多少次,就得到了它们的「更新频率」。

举个例子:

假设循环神经网络(RNN),上下文长度为(L),那么在处理一段长度为(L)的文本时,RNN的状态会更新(L)次;

而如果外层是一个只在每个文档级别上更新的模块(如预训练模型),那么它的更新频率就是1。

因此,我们可以说:RNN是「快模块」,预训练模型是「慢模块」。

通过这种不同频率的组合,我们就能构建出一个在不同时间尺度上都能学习的系统。

二、嵌套系统(Nested System)

接下来,我们定义什么是一个「嵌套系统」。

它由多个独立的子模块组成,每个模块都有:

自己的参数(Parameter);

自己的上下文(Context);

自己的优化目标(Objective);

自己的梯度流(Gradient Flow)。

这些模块之间以「更新频率」的快慢形成嵌套关系。

如果我们把每个子模块都视为一个联想记忆系统,那么整个模型就可以看作是一个嵌套的联想记忆系统(Nested Associative Memory System)

更进一步,每一个这样的联想系统,本身又可以由更小的优化子过程构成,从而形成递归嵌套。

当构建了一个由多个层级组成的嵌套系统之后,最关键的问题就来了:

不同层之间的知识要如何传递?

知识转移方式有以下几种,这些机制构成了Nested Learning架构中「信息流动」的基础:

  • 直接条件传递(Direct Conditioning):慢层(外层)模型的输出直接作为快层(内层)模型的输入条件
  • 非参数化条件传递:不依赖额外参数,模型的输出直接依赖于上下文本身。虽然没有显式参数连接,但输出依然受到内层状态的强烈影响。
  • 通过反向传播传递(Gradient-Based Transfer):梯度本身就构成了知识的传递路径——高层对目标的判断,反向指导底层如何调整参数。
  • 初始状态传递(Meta-Learned Initialization):慢层模型生成快层模型的初始状态。外层学习一个初始化点,使得内层可以通过少量更新迅速适应新任务。
  • 权重生成(Hypernetwork):慢层模型直接生成快层模型的参数。这就是超网络(Hypernetwork)的本质。

理论固然重要,但最终还是要看这些设计能否在真实任务中带来性能提升。

结合自我修改(Self-Modifying)与连续记忆系统(Continuum Memory System),谷歌提出了嵌套学习范式下的HOPE架构。

他们将Nested Learning与HOPE架构应用于多个任务场景中,尤其聚焦在「长上下文」和「持续学习」两个维度。

总体来看,HOPE在多个核心任务上都优于或显著超越现有对比模型,尤其是在持续学习和长上下文方面显示了明显优势。这体现了嵌套学习和连续记忆系统的潜力。

这到底意味着什么?

Nested Learning不只是一个架构框架,而是一种重新理解深度学习的范式

谷歌DeepMind内部也传出消息:他们已经突破了持续学习,但因为安全原因尚未发布。

如果嵌套学习解决了持续学习能力,或许将是未来最重要的事。

DeepMind的沉默,或许比他们的论文更震耳欲聋。

持续学习赋予了AI可怕的能力:它不再仅仅回应我们的指令,而是开始根据过往的经验,筛选它认为重要的东西。也就是说,它开始有了「偏好」。

如果嵌套学习真的解决了灾难性遗忘,那么我们亲手打开的,可能不只是一扇通往AGI的大门,更是一个未知的潘多拉魔盒。

盒子里的东西,究竟是更聪明的工具,还是一个不仅学会了思考、更学会了「记住仇恨与偏爱」的对手?

这一次,钥匙在谷歌手中,但未来在谁手中?

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1135405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

合规性审查要点:满足监管基本要求

合规性审查要点:满足监管基本要求 引言:AI生成内容的合规挑战与应对 随着生成式人工智能技术的快速发展,Image-to-Video图像转视频生成器等视觉内容生成工具正逐步从实验阶段走向实际应用。然而,这类高自由度的内容生成系统在带来…

D2Admin企业级后台管理系统终极指南:从零到部署的快速上手

D2Admin企业级后台管理系统终极指南:从零到部署的快速上手 【免费下载链接】d2-admin 项目地址: https://gitcode.com/gh_mirrors/d2a/d2-admin 还在为复杂的后台系统开发而困扰?面对权限管理、主题定制、状态维护等难题感到无从下手&#xff1f…

谁说老实人赚不到钱?Claude用一张3500亿的支票打脸OpenAI

出走5年,估值翻倍!曾被嘲笑「太保守」的Anthropic,正凭3500亿美元身价硬刚OpenAI。看理想主义者如何靠极致安全与Coding神技,在ARR激增的复仇路上,终结Sam Altman的霸权!2026开年最震撼的消息!A…

语音合成质量评估体系:建立Sambert-HifiGan的评测标准

语音合成质量评估体系:建立Sambert-HifiGan的评测标准 引言:中文多情感语音合成的技术演进与挑战 随着智能语音助手、有声读物、虚拟主播等应用的普及,高质量、富有表现力的中文语音合成(TTS) 已成为人机交互的关键环节…

用Sambert-HifiGan为智能门锁添加语音交互功能

用Sambert-HifiGan为智能门锁添加语音交互功能 📌 引言:让智能门锁“会说话”的技术路径 随着智能家居生态的不断演进,用户对设备交互体验的要求已从“能用”升级到“好用、贴心”。传统智能门锁多依赖LED提示音或手机App通知进行状态反馈&am…

【西安电科大主办 | ACM出版 | 会议规模大级别高/多位领军人才、Fellow加入 | 论文录用率高/往届快至提交出版后1个月见刊】第五届计算机、人工智能与控制工程研讨会(CAICE 2026)

第五届计算机、人工智能与控制工程研讨会(CAICE 2026) The 5th International Conference on Computer, Artificial Intelligence and Control Engineering 2026年1月23-25日----中国杭州(西安电子科技大学杭州研究院图书馆) 大会官网:ww…

显存不足怎么办?Image-to-Video模型轻量化部署策略

显存不足怎么办?Image-to-Video模型轻量化部署策略 📌 问题背景:大模型时代的显存瓶颈 随着多模态生成技术的快速发展,Image-to-Video(I2V) 模型正成为内容创作、影视特效和虚拟现实领域的重要工具。以 I2V…

Sambert-HifiGan架构解析:从文本到语音的端到端设计

Sambert-HifiGan架构解析:从文本到语音的端到端设计 📌 技术背景与核心挑战 随着人机交互需求的不断升级,高质量、自然流畅的中文语音合成(TTS, Text-to-Speech) 已成为智能客服、有声阅读、虚拟主播等场景的核心技术。…

移动端适配挑战:触屏操作对WebUI的改进建议

移动端适配挑战:触屏操作对WebUI的改进建议 随着移动设备在日常计算中的占比持续上升,越来越多用户期望能够在手机或平板上直接与Web应用交互。然而,许多基于桌面优先设计的WebUI在移动端表现不佳,尤其是在涉及复杂操作流程和高精…

用Sambert-HifiGan为智能汽车添加情感化语音交互

用Sambert-HifiGan为智能汽车添加情感化语音交互 📌 引言:让车载语音“有情绪”地说话 在智能汽车的人机交互系统中,语音合成(TTS, Text-to-Speech)正从“能说”向“说得好、说得像人”演进。传统的TTS系统往往语调单一…

运用人工智能工具快速制作学术感十足的开题报告PPT示例

AI工具开题报告生成能力对比速览 工具名称 生成速度 内容完整度 参考文献质量 适用场景 AIbiye ⚡⚡⚡⚡ ⭐⭐⭐⭐ 15真实文献 理工科开题 AICheck ⚡⚡⚡ ⭐⭐⭐⭐⭐ 自动匹配领域 人文社科类 秒篇 ⚡⚡⚡⚡⚡ ⭐⭐⭐ 基础文献支持 紧急需求 AskPaper ⚡…

结合AI功能高效设计符合学术要求的开题报告PPT参考模板

AI工具开题报告生成能力对比速览 工具名称 生成速度 内容完整度 参考文献质量 适用场景 AIbiye ⚡⚡⚡⚡ ⭐⭐⭐⭐ 15真实文献 理工科开题 AICheck ⚡⚡⚡ ⭐⭐⭐⭐⭐ 自动匹配领域 人文社科类 秒篇 ⚡⚡⚡⚡⚡ ⭐⭐⭐ 基础文献支持 紧急需求 AskPaper ⚡…

能否在Mac M系列芯片运行?ARM架构适配问题

能否在Mac M系列芯片运行?ARM架构适配问题 📌 技术背景与核心挑战 随着苹果M系列芯片(Apple Silicon)的普及,越来越多开发者希望在本地Mac设备上运行前沿AI生成模型。Image-to-Video图像转视频生成器基于I2VGen-XL模型…

广告创意提速:平面广告秒变动态创意素材

广告创意提速:平面广告秒变动态创意素材 从静态到动态:AI驱动的广告内容革命 在数字营销领域,动态视觉内容正迅速取代传统平面广告,成为品牌吸引用户注意力的核心手段。然而,制作高质量视频素材的成本和时间门槛依然很…

Windows环境特殊处理:解决依赖冲突的终极方案

Windows环境特殊处理:解决依赖冲突的终极方案 Image-to-Video图像转视频生成器 二次构建开发by科哥 在将开源项目 Image-to-Video 从 Linux 环境迁移至 Windows 平台的过程中,开发者常会遭遇一系列棘手的依赖冲突、路径解析错误和运行时异常。尽管该项…

影视工作室AI辅助创作实践分享

影视工作室AI辅助创作实践分享:Image-to-Video图像转视频生成器二次构建开发by科哥 在影视与内容创作领域,动态视觉表达正以前所未有的速度演进。传统视频制作依赖大量人力、设备和后期处理,而随着生成式AI技术的突破,静态图像到动…

通过AI智能辅助一键生成符合学术标准的开题报告PPT案例

AI工具开题报告生成能力对比速览 工具名称 生成速度 内容完整度 参考文献质量 适用场景 AIbiye ⚡⚡⚡⚡ ⭐⭐⭐⭐ 15真实文献 理工科开题 AICheck ⚡⚡⚡ ⭐⭐⭐⭐⭐ 自动匹配领域 人文社科类 秒篇 ⚡⚡⚡⚡⚡ ⭐⭐⭐ 基础文献支持 紧急需求 AskPaper ⚡…

用Sambert-HifiGan做游戏NPC配音:打造沉浸式游戏体验

用Sambert-HifiGan做游戏NPC配音:打造沉浸式游戏体验 引言:语音合成如何重塑游戏交互体验 在现代游戏开发中,沉浸感已成为衡量用户体验的核心指标之一。传统的NPC(非玩家角色)对话多依赖预录音频或机械式文本提示&…

采用AI技术自动化生成简洁大方的开题报告PPT模板范例

AI工具开题报告生成能力对比速览 工具名称 生成速度 内容完整度 参考文献质量 适用场景 AIbiye ⚡⚡⚡⚡ ⭐⭐⭐⭐ 15真实文献 理工科开题 AICheck ⚡⚡⚡ ⭐⭐⭐⭐⭐ 自动匹配领域 人文社科类 秒篇 ⚡⚡⚡⚡⚡ ⭐⭐⭐ 基础文献支持 紧急需求 AskPaper ⚡…

权限控制系统:多用户环境下作业隔离与安全管理

权限控制系统:多用户环境下作业隔离与安全管理 📌 引言:多用户场景下的安全挑战 随着AI生成模型在企业级应用中的广泛部署,Image-to-Video图像转视频生成器这类高算力需求工具逐渐从个人开发环境走向团队共享平台。在实际生产中&a…