Google DeepMind :RAG 已死,无限上下文是伪命题?RLM 如何用“代码思维”终结 AI 的记忆焦虑

不久前 DeepMind 发布了一篇论文,内容简单说是:RLM(Recursive Language Models) 不是让模型“硬记”所有内容,而是赋予模型像程序员一样操作数据的能力,让模型在不把超长 prompt 直接塞进 Transformer的情况下,仍然能完成需要密集访问长文本的任务。

也就是它不再试图将所有内容塞进有限的“大脑”(上下文窗口),而是将长文本视为一个“数据库”,模型可以通过编写代码(Python REPL)来递归地检索、切片和阅读它需要的部分。

在这里,RLM 属于通用推理范式

在目前,各大模型厂商都在搞“军备竞赛”,100万、1000万 token 的上下文窗口数据理论上看着很美好,但是在实际使用过程中,相信大家有所体会,当上下文超过一定长度(100k)后,模型的性能会急剧下降,因为模型并不是真的“记住”了 1000万字,它只是把它们塞进去了,但通过注意力机制在找回信息时会变得混乱和遗忘

所以 RAG (检索增强生成) 是目前的主流补丁方案,它把长文档切成小块(Chunks)存入数据库,当用户提问时,系统检索相关的碎片塞给模型。

但是这种场景下,RAG 容易丢失全局上下文,如果一个任务需要同时理解文档的第 1 章和第 10 章的关联,或者需要进行跨段落的复杂推理,RAG 很容易出现失败,因为它只能看到碎片,看不到全貌(“Lost Context”):

而对于 RLM 而言,它不再是一个碎片“阅读者”,而是变成了一个“操作对象”,模型不直接阅读 1000万 token 的文本,而是将整个长文本被作为一个变量 (String Variable)加载到 Python 交互式环境(REPL)中,之后进行递归和代码执行:

  • 模型可以编写代码来处理文本,比如写grep(搜索关键词),slice(切片读取某一段),或者使用正则 (Regex) 来定位信息
  • 如果模型切片出了一段内容,发现里面还有需要深入挖掘的信息,它会调用自身(Recursive Call)来处理那个特定内容,也就是递归

简单来说,整个流程就是:提问 -> 模型写代码搜索 -> 找到片段 -> (如果需要) 递归调用自身分析片段 -> 汇总答案。

那说它比 RAG 好的地方是什么?可以简单来说,它会像人类一样阅读:

  • 当人类需要阅读一本巨厚的书,比如各种字典,肯定不会从头到尾背下来,相反肯定会用目录、用Ctrl+F、做笔记、跳读等方式
  • RLM 的存在就是让 AI 这么做,它不是靠“注意力机制”去死记硬背,而是靠“逻辑导航”去随时调取它需要的任何细节

因为是通过代码精确查找和读取,所以只要文本在那儿,它就永远不会“遗忘”,这就是 RLM 里所谓的“完美记忆”,在这一个程度去理解,RLM 是主动的,模型自己决定要去读哪一段,自己验证找得对不对,如果不通过,它会修正搜索策略

比如,论文里提供的数据:

  • 在 OOLONG-Pairs 密集推理任务上,传统 RAG 准确率只有 0.04%,而 RLM 高达 58%
  • 在多文档研究 BrowseComp+ 上,RLM 从 0% 提升到了 91%

RLM 的做法是:把密集语义理解分摊给多个子调用、每次子调用只看较小片段,减少在超长上下文里“越看越糊”。

而这篇论文最有意思的发现之一是:不需要专门训练,研究人员并没有重新训练 GPT-5 或 Qwen3-Coder ,他们只是给了现有的模型一个 Python 环境和递归访问权限, 然后模型就自己学会了策略,它们开始自己写正则表达式来过滤上下文,自己把大任务拆解成递归的小任务,这是一种零样本(Zero-shot)的策略涌现,模型自己“悟”出了策略:

  • 它自己决定:“这段文本太长,我不能直接读,我要先用正则过滤一下。”
  • 它自己学会了:“我不确定这个答案对不对,我要写一段代码去原文里再验证一次。”

这意味着高智商模型天生具备处理无限信息的能力,只是之前的交互界面(Chat Interface)限制了它们。

论文里提到,RLM 能处理超过模型窗口两个数量级的输入,并且在多个长上下文任务上比 base LLM 和常见脚手架明显更强,且单次查询成本可相当甚至更低,也就是:

RLM 在“长+密”的任务上优势明显,并且把处理长度推到 10M+ tokens 。

从这里可以看到, 虽然递归看起来步骤多,但实际上比把 1000万 token 一次性塞进上下文窗口要便宜,因为模型只读取它通过代码筛选出的那几千个关键 token,而不是为处理数百万无关 token 支付额外费用,更具体的场景例如:

  • 分析整个代码库(不再受限于窗口)
  • 理解并综合数百篇研究论文
  • 处理长达多年的医疗记录

当然也不不是没有限制,比如:

  • 同一套系统提示词跨模型会出问题:Qwen3-Coder 更“放飞”地滥用子调用,所以他们不得不单独加一句“少用 sub-calls、尽量 batch”
  • 模型代码能力不足会直接崩:因为这个范式强依赖“写代码操作 context”
  • 输出 token/思考 token 不够会跑不完:长轨迹 + 多轮 REPL 需要足够输出上限
  • 没有异步子调用会很慢:他们实现是 blocking/sequential,导致运行时间长,作者认为工程上可解决
  • 终止信号(FINAL)很脆弱:模型会把计划当最终答案、或 FINAL_VAR 不被接受等。

也就是,RLM 作为“纯提示词+系统编排”的推理范式已经有效,但要变成稳定产品,需要:

  • 更强的执行/并发工程
  • 更针对性的训练或对齐

论文也在附录提到,他们实现 sub-calls 是串行 blocking 的,也没做“预算控制/批量/缓存”优化,而且模型有时会“过度验证”,导致多余子调用。

这样才能让模型学会在这种协议下更好工作,另外论文提到,在超高难度组合任务 RLM更贵,但性价比高,因为虽然开销大了,但是准确率可以提高不少,目前看来:

当任务需要密集访问长文本,并且证据分散在很多段落/文档时,RLM 可以做到更准更省。

所以也许接下来,问题不在于我们如何把更多 token 塞进窗口,而在于我们如何让 AI 智能地导航无限的信息,这也标志着或者“大上下文窗口”时代即将终结,也许 AI 不再需要更大的窗口,AI 需要的是更聪明的“导航员”

参考链接

https://arxiv.org/html/2512.24601v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155001.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI Agent企业落地避坑指南:7大致命错误,收藏级干货

企业落地AI Agent常面临七大陷阱:需求误判(未先优化流程)、目标输入不明确、数据处理难题、业务模式局限(盲目追求全自动)、项目管理缺失、预期与成本误区。AI Agent本质是效率工具,需明确边界,…

制造业企业数据采集系统选型指南:从技术挑战到架构实践

在工业4.0和智能制造浪潮的推动下,数据已成为制造业企业的新型生产要素。然而,许多制造企业仍面临“数据孤岛”困境:生产设备产生的海量数据沉睡在异构系统中,无法转化为有效的决策支持。根据业界调研,超过60%的制造业…

跨境远控无忧,开启高效跨国连接新时代

为什么需要【全球节点】?当您需要进行跨国、跨地区远程控制时,普通网络连接往往面临高延迟、易丢包、速度慢等问题。ToDesk全球节点插件专为跨境高速连接设计,通过覆盖全球200高速专用节点,构建出稳定、低延迟的传输通道&#xff…

语音识别噪声抑制优化实战

💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 语音识别噪声抑制优化实战:轻量化策略与边缘计算应用目录语音识别噪声抑制优化实战:轻量化策略与边缘计算应用 引言:噪声抑制——语音识别的“隐形瓶…

8款全场景CRM系统横向对比:从获客闭环到供应链协同的能力矩阵

在数字化转型浪潮中,企业对CRM的需求早已从“销售流程管理”升级为“全场景业务闭环”——既要覆盖获客-跟单-订单-售后的客户全生命周期,也要实现订单-采购-生产-委外的供应链协同,最终通过数据驱动构建业务增长闭环。本文选取8款主流CRM/一…

企业级AI客服Agent架构设计实战:风险分层、状态跟踪与模糊意图处理(建议收藏)

本文详细介绍了企业级AI客服Agent系统架构设计,强调"拒绝闲聊,追求收敛"的设计哲学。文章从风险分层架构、后端权威数据源、多轮控制环设计、三层状态管理模型、模糊意图处理策略到工程化交付标准,全面阐述了如何构建一个严谨、可靠…

AI是如何让DDoS变智能,如何防御智能的DDOS!

AI增强DDoS攻击的智能化方式动态流量模式学习 攻击者利用AI分析目标网络流量模式,动态调整攻击流量特征,绕过基于静态规则的防御系统。例如,通过强化学习模拟合法用户行为,使攻击流量更难被检测。自适应攻击策略 AI模型实时监控防…

基于 RPA 的企微外部群自动化架构实现

一、 背景与设计初衷 在企业私域流量的精细化运营中,外部群(包含组织外成员的群聊)是触达客户的关键节点。由于业务场景的多样性,标准的官方 API 在某些特定管理动作上存在权限边界。 ​ QiWe开放平台提供了后台直登功能&#xf…

RPA赋能:外部群自动化管理新纪元

QiWe开放平台提供了后台直登功能,登录成功后获取相关参数,快速Apifox在线测试,所有登录功能都是基于QiWe平台API自定义开发。 一、 RPA 外部群自动化的核心架构 RPA 充当了“数字化员工”的角色,通过模拟人工在桌面端或移动端的…

深度解析LLM训练革命:从GPT到DeepSeek R1的技术演进与架构创新,技术人必看!

本文解析了大语言模型训练范式的技术演进,对比了传统监督训练与GPT自监督学习的根本差异,揭示了"下一个词元预测"核心机制。重点探讨人类介入的对齐阶段重要性,介绍思考链、DeepSeek R1模型等创新技术,以及混合专家(MoE…

中国温室气体排放因子数据库

1793中国温室气体排放因子数据库数据简介本数据是2025年1月最新更新的《国家温室气体数据库》,该数据原始数据来源于国家温室气体排放因子数据库,发布年份为2024年,由数据皮皮侠团队人工整理。本数据记录了不同温室气体排放源的详细信息&…

带货主播记不住卖点台词?一键提词让直播更专业

在带货直播间,无论是新品推荐、产品测评,还是福利秒杀,流程紧凑、信息量大,对主播的临场记忆和表达提出了极高要求。你是不是经常遇到这些场景——产品卖点说一半突然忘词,话术顺序搞混,直播节奏“翻车”&a…

阿里一面直接挂!我用 CompletableFuture 优化代码,面试官:你这是在生产环境埋雷!

上周有个粉丝阿强哭丧着脸来找我,说阿里一面被“秒杀”了。 起因很简单,面试官问他:“有一个核心接口响应很慢,里面串行调用了用户信息、积分查询、优惠券三个服务,你会怎么优化?” 阿强自信满满&#xff…

浏览器秒变 VS Code!Code-Server+cpolar,异地开发再也不用带电脑

Code-Server 是一款能将 VS Code 完整部署到服务器的工具,通过浏览器就能实现远程编码,保留了原编辑器的插件安装、代码调试、终端操作等所有核心功能。它特别适合三类人群:笔记本性能有限的开发者、需要跨设备协作的团队、经常出差的职场人&…

VisionPro二开之显示OK和NG渲染图

VisionPro二开之显示OK和NG渲染图ICogRecord cogRecord null;double width AlgorithmService.Instance.DetectWidth(info.Image,out cogRecord);public double DetectWidth(ICogImage img,out ICogRecord cogRecord){return vpAlgo.DetectWidth(img, out cogRecord);}public …

【技术干货】必藏!2025年AI智能体元年:从命令执行到协作解决,全面解析AI智能体的核心技术架构

2025年被称为AI智能体元年,AI智能体正将人机交互从命令执行转向协作式问题解决。与普通AI工作流不同,AI智能体具备推理、规划、工具使用和记忆能力,能通过反思、工具使用、规划和多智能体协作模式处理复杂任务。智能体式工作流具有灵活性强、…

走进腾讯|MoonBit Codebuddy AI 编程实践交流会回顾

随着大模型能力持续跃迁,AI 正加速进入生产级软件开发场景,软件工程正站在从“人主导编程”迈向“人机协作开发”的关键节点。1 月 10 日,由 腾讯云 IDEA 研究院 MoonBit 联合举办的 「IDEA研究院MoonBit 走进腾讯|腾讯云 Codeb…

Transformer+UNet:顶会的“发文密码”,思路对了结果真香!

Transformer与UNet的结合已成为图像分割与生成领域的主流架构,虽已广泛应用,但在轻量化设计、跨模态适应、3D与视频扩展、以及可解释性等方面仍具创新潜力。针对数据稀缺、模型效率等实际局限,在具体应用场景中提出改进,仍易于产出…

RDMA设计31:RoCE v2 发送模块3

本博文主要交流设计思路,在本博客已给出相关博文约150篇,希望对初学者有用。注意这里只是抛砖引玉,切莫认为参考这就可以完成商用IP设计。(b)应答状态机 当 RoCE v2 发送模块检测到接收队列非空时,则从接收…

RDMA设计32:RoCE v2 发送模块4

本博文主要交流设计思路,在本博客已给出相关博文约150篇,希望对初学者有用。注意这里只是抛砖引玉,切莫认为参考这就可以完成商用IP设计。(c)异常处理单元 异常处理单元负责处理异常接收队列条目。在 RoCE v2 协议中&a…