大模型智能体记忆管理新范式:Agentic Memory框架详解

阿里巴巴与武汉大学联合提出的Agentic Memory (AgeMem)框架解决了大语言模型智能体在长周期推理任务中的记忆管理问题。该框架通过基于工具的统一接口将长期记忆(LTM)和短期记忆(STM)集成到智能体决策过程中,并采用三阶段渐进式强化学习策略和逐步式GRPO机制。在多个基准测试中,AgeMem显著提升了任务性能和记忆质量,实现了端到端的统一记忆管理。


大语言模型(LLM)智能体在长周期推理任务中面临根本性限制,这主要源于有限的上下文窗口,使得有效的记忆管理变得至关重要。现有方法通常将长期记忆(LTM)和短期记忆(STM)作为独立组件处理,依赖于启发式规则或辅助控制器,这严重限制了自适应性和端到端优化能力。

现有架构的局限性主要体现在将LTM和STM视为分离且松散耦合的模块。传统架构通常遵循两种模式:具有基于触发器的LTM的静态STM,或具有基于智能体的LTM的静态STM。在这两种设置中,两个记忆系统被独立优化,然后以临时方式组合,导致记忆构建碎片化和性能次优。

同时,实现统一记忆管理面临三大基本挑战:

(1)功能异构性协调:LTM和STM服务于不同但互补的目的;

(2)训练范式不匹配:现有强化学习(RL)框架对两种记忆类型采用显著不同的训练策略;

(3)实际部署约束:许多智能体系统依赖辅助专家LLM进行记忆控制,显著增加推理成本和训练复杂性。

为此,阿里巴巴集团与武汉大学联合提出了Agentic Memory(AgeMem),这是一个统一框架,将LTM和STM联合管理。与先前将记忆视为外部组件的设计不同,AgeMem通过基于工具的统一接口将两种记忆类型直接集成到智能体的决策过程。研究团队还开发了一种配备逐步式GRPO机制(step-wise GRPO)的三阶段渐进式强化学习策略,有效促进端到端的统一记忆管理行为学习。在多个模型与长期任务基准上进行了全面评估,验证了AgeMem在复杂智能体任务中的稳健性与有效性

  • 论文标题:

    Agentic Memory: Learning Uniffed Long-Term and Short-Term MemoryManagement for Large Language Model Agents

  • 论文链接:

    https://arxiv.org/pdf/2601.01885

01

方法

图1:AgeMem框架

(1)统一记忆管理工具接口

如图2所示,AgeMem通过工具接口将记忆操作暴露给LLM智能体。智能体可使用ADD、UPDATE、DELETE修改持久性LTM,并通过RETRIEVE、SUMMARY、FILTER对STM进行细粒度控制。

图2:AgeMem中用于操作长期记忆(LTM)和短期记忆(STM)的记忆管理工具

(2)三阶段渐进式RL策略

为学习统一且稳定的记忆行为,研究团队设计了渐进式三阶段训练策略。每个任务实例生成完整轨迹:

  • 阶段1(LTM构建):智能体在随意对话环境中接触上下文信息,识别关键信息并存储至LTM。
  • 阶段2(含干扰的STM控制):短期上下文重置,LTM保留。智能体学习通过工具操作抑制噪声、保留有用信息。
  • 阶段3(集成推理与记忆协调):智能体接收正式查询,需从LTM检索知识、管理上下文并生成最终答案。

(3)逐步式GRPO优化机制

采用逐步式GRPO变体连接长周期任务奖励与跨阶段记忆决策。对每组并行轨迹计算终端奖励,归一化优势后广播至同轨迹所有时间步,使最终任务结果监督每个中间记忆决策,实现跨异构阶段的长范围信用分配。

优化目标函数:

其中,ρt为新旧策略概率比,DKL为KL散度惩罚项。

(4)复合奖励函数设计

总轨迹级奖励包含任务完成奖励Rtask、上下文管理奖励Rcontext和记忆管理奖励Rmemory,辅以违规惩罚项Ppenalty:

其中,权重w=[wtask,wcontext,wmemory]⊤,各组件归一化至[0,1]区间。

02

评估

(1)多基准性能对比

图3:五个基准测试上的性能对比(最佳与次佳结果已标注)

在ALFWorld、SciWorld、PDDL、BabyAI和HotpotQA五个基准上,AgeMem在Qwen2.5-7B和Qwen3-4B模型上均取得最高平均性能****41.96%和54.31%,相对无记忆基线分别提升49.59%和23.52%。相比最佳基线Mem0和A-Mem,AgeMem平均提升4.82和8.57个百分点。RL训练带来8.53和8.72个百分点的提升。

(2)记忆质量评估

图4:HotpotQA上不同方法的记忆质量(MQ)分数

AgeMem在两个模型骨干上均取得最高记忆质量(MQ分数0.533和0.605),表明统一记忆管理框架不仅提升任务性能,还促进存储高质量、可复用知识。

(3)STM管理有效性

图5:HotpotQA上不同STM配置的平均提示token数

AgeMem成功减少提示token使用量:在Qwen2.5-7B上平均使用2117 token,较无STM工具版本(2186 token)减少3.1%;在Qwen3-4B上从2310 token降至2191 token,降幅5.1%。

(4)工具使用分析

图6:HotpotQA上工具使用统计(数字为每回合平均调用次数)

RL训练显著增加长期记忆工具使用:ADD操作在Qwen2.5-7B上从0.92次增至1.64次,UPDATE操作从近乎零增至0.13次。短期记忆工具使用更均衡,FILTER调用从0.02次显著增至0.31次。

(5)消融研究

图7:LTM、STM和RL组件的消融研究(Qwen2.5-7B)

添加LTM(+LT)较基线带来10.6%–14.2%增益;加入RL训练(+LT/RL)在HotpotQA上进一步提升6.3%;完整AgeMem系统(+LT/ST/RL)在所有基准上取得最佳结果,整体提升13.9%–21.7%。

(6)奖励函数设计验证

图8:LTM、STM和RL组件的消融研究(Qwen2.5-7B)

研究团队的全奖励策略(All-Returns)比仅任务奖励(Answer-Only)收敛更快、最终性能更高,在保持更高LLM评判分数(0.544 vs 0.509)的同时,记忆质量显著提升(0.533 vs 0.479)。

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1168837.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高效解决AI生成重复问题:十款热门工具全面评测与应对方案

核心工具对比速览 工具名称 核心功能 适用场景 处理速度 特色优势 aibiye 降AIGC率查重 学术论文优化 20分钟 适配知网/格子达/维普规则 aicheck AIGC检测 风险区域识别 实时 可视化热力图报告 askpaper 学术内容优化 论文降重 20分钟 保留专业术语 秒篇 …

用“公司决策“类比揭开大模型黑箱,BuPO方法让AI推理能力飙升(附开源代码)

BuPO方法通过将大语言模型策略分解为内部层次策略,采用自下而上的优化方式,先强化底层基础推理能力,再优化整体决策。实验证明该方法在数学推理等复杂任务中表现优异,揭示了不同模型的独特推理模式,为LLM优化提供了透明…

亲测好用8个一键生成论文工具,本科生轻松搞定毕业论文!

亲测好用8个一键生成论文工具,本科生轻松搞定毕业论文! AI 工具如何让论文写作变得轻松 在当前的学术环境中,越来越多的本科生开始借助 AI 工具来提升论文写作效率。尤其是随着 AIGC(人工智能生成内容)技术的不断发展&…

持续集成的价值流——质量门禁、报告可视化与快速反馈的设计重点

写在前面,本人目前处于求职中,如有合适内推岗位,请加:lpshiyue 感谢。同时还望大家一键三连,赚点奶粉钱。 系列文章已完结,全文阅读链接:https://p.kdocs.cn/s/EJACICRFACQBS持续集成的真正价值…

输入某电商店铺的商品名称,收藏量,销量,计算热度值(收藏+销量),输出爆款商品侯选

为你完整设计一个电商店铺爆款商品候选分析系统,结合大数据与智能管理课程的思想,从场景到代码、从模块到文档,全部覆盖。1. 实际应用场景 & 痛点引入场景你是某电商店铺的运营人员或数据分析师,手头有商品数据(商…

导入自己的观影记录(电影名,评分,时长),统计高分电影(8分以上),推荐同类型电影。

为你完整设计一个观影记录分析与推荐系统,结合大数据与智能管理课程的思想,从场景到代码、从模块到文档,全部覆盖。1. 实际应用场景 & 痛点引入场景你是一名电影爱好者,长期在豆瓣、IMDb 等平台记录观影数据(电影名…

GB/Z167-2025《系统控制图》全维度解析

GB/Z167-2025《系统控制图》是 2025 年 12 月 3 日发布的国家标准化指导性技术文件,适用于过程工业连续控制系统(如石油、天然气工艺过程)的设计与管理。其核心价值在于建立统一的操作控制功能定义和逻辑图规范,填补了传统 P&…

如何用开源 HIS 系统实现病案高效归档与检索?天天开源医疗软件介绍

引言在医疗信息化落地过程中,中小型医院常面临 “病案管理规范化不足、系统部署成本高、数据检索效率低” 三大核心痛点。开源HIS 系统凭借可定制化、低成本的优势,成为解决这类问题的优选方案。项目介绍中小型医院在选择开源 HIS 系统时,往往…

1700RZ14005A电路板控制器

1700RZ14005A 电路板控制器型号: 1700RZ14005A 类型: 控制器 / 控制电路板 适用系统: 工业自动化控制系统(如 Taylor MOD 系列)基本介绍1700RZ14005A 是工业控制系统中的 控制器模块,安装在控制机柜的背板或机箱中。它负责接收输入信号、执行…

锁住新鲜,守护价值:基于工业网关的冷链物流全程可视溯源体系

场景痛点:医药用品、生鲜食品、化工产品等对运输仓储温湿度有着严格的要求。传统温湿度监测局限于冷链车辆中,数据孤立、无法远程查看,一旦出现异常而司机没有及时发现,就有可能带来经济损失和信誉风险。此外,企业也难…

网友直呼不可能,重庆到河南居然仅200公里

在我们许多人印象中,地处西南的重庆与坐落于中原的河南相隔千山万水,然而仔细查看地图会发现,两省市最近处直线距离仅约200公里。 这一数字让人惊叹不已,甚至有网友直呼不可能。 但从地图上测量的结果来看,重庆到河南…

2026重磅揭秘:赋能智能制造业,AI考勤排班Top厂商全景解析

在智能制造与精益生产深度融合的今天,制造业的人力资源管理正面临前所未有的挑战。多班倒、跨生产线协调、灵活用工需求以及严格合规性要求,让传统考勤排班方式不堪重负。AI考勤排班专员以其智能化、数据化、自动化的核心能力,正成为制造业提…

MySQL 数据可视化的核心步骤

数据准备与清洗 确保数据质量是可视化的基础,通过SQL查询筛选、聚合或转换数据,例如使用GROUP BY、JOIN或窗口函数处理原始数据。对于缺失值或异常值,可通过COALESCE或CASE WHEN进行修正。连接可视化工具 主流工具如Tableau、Power BI或Pytho…

6024NR14130电源模块

6024NR14130 电源模块 — ABB Taylor 系列型号: 6024NR14130 类型: 模块化电源模块功能与应用6024NR14130 是一款工业级模块化电源模块,主要用于 ABB Taylor 系列或 MOD300 控制系统中。它为控制系统的 CPU、I/O 模块、通信模块等提供稳定电源,保证整个系…

一文讲透线框图:概念、分类、工具与注意事项全解析

很多新手产品经理常犯的一个错误是:需求还没理顺,就开始纠结按钮是圆角还是直角,配色是极简白还是高级蓝。 想要避免这个问题,其实很简单,先专注画好线框图。 线框图排除了美学的干扰,强迫团队聚焦于最本…

脸都不要了!美国开始正式出售委内瑞拉石油

当地时间1月14日,一位美国政府官员透露,美国已完成首批委内瑞拉石油的销售。 这笔交易价值5亿美元,该官员补充说,预计未来几天和几周还将进行更多石油销售,图2为委内瑞拉一处炼油厂。 1月3日凌晨,美国对委…

ChatGPT优化公司有哪些?剖析专业服务商的核心能力矩阵

在人工智能应用日趋深化的商业环境中,ChatGPT等大语言模型的优化能力,已成为衡量企业数字竞争力的一项重要指标。真正的优化服务商,其价值不仅在于提升单次交互的满意度,更在于构建一套可迭代、可衡量、且与商业目标对齐的系统性能…

基于 Flutter × HarmonyOS 6.0 开发的字数统计小工具实践「CountBot」 的跨端实现

基于 Flutter HarmonyOS 6.0 开发的字数统计小工具实践—— 「CountBot」 的跨端实现前言 在日常开发与内容创作过程中,文本字数统计是一类看似简单、却使用频率极高的小工具。从写技术文档、博客文章,到编辑需求说明、代码注释,开发者往往需…

针对论文降重与AI写作需求,目前市面上有8款热门网站提供高效改写与创作功能。

AI论文工具种类繁多,如何挑选符合自身需求的平台成为关键。通过对8款主流工具的实测分析,从降重效果、AIGC率优化及论文撰写能力等维度展开对比,综合效率、准确度与操作便捷性进行客观评估。以下为基于实际测试与用户评价的实用工具排行摘要。…

一眼读懂中国7大地理区域,你的家乡在哪个板块?

从白山黑水到南海之滨,从雪域高原到江南水乡,中国 960 万平方公里的土地上,地理风貌、人文风情千差万别。为了更清晰地梳理这片土地的地理脉络,地理学界将全国划分为 7 大地理区域,每个区域都有着独特的自然禀赋、经济…