Memento:基于记忆无需微调即可让大语言模型智能体持续学习的框架

news/2025/9/24 7:10:46/文章来源:https://www.cnblogs.com/dBjZoQ833/p/19108477

大语言模型智能体(LLM Agent)是一类利用大语言模型通过交互、推理和决策来自主执行复杂任务的系统,通常具备访问外部工具、记忆系统或环境的能力。与被动响应单一提示的传统LLM不同,LLM智能体采用主动且迭代的运行模式,在明确目标的引导下执行任务。这类系统正被广泛部署为跨领域的自主问题解决器,OpenAI的Deep Research智能体便是典型代表。

当前LLM智能体的构建主要遵循两种学习范式,但是都存在根本性限制。第一种范式基于专门化框架构建智能体,采用固定工作流程和硬编码推理逻辑。虽然这种方法在特定任务上表现良好,但缺乏必要的灵活性,部署后智能体保持静态状态,无法整合在线信息或适应新出现的情况。

第二种范式专注于通过参数调优更新底层LLM本身,包括监督微调和强化学习等方法。这种方式虽然能够实现更灵活的行为模式,但需要承担高昂的计算成本。这两种构建自适应智能体的方法要么过于僵化,依赖静态的手工制作反思工作流程,要么计算密集,需要对LLM模型参数进行梯度更新。

Memento的核心理念
面对如何构建能够在动态环境中持续学习而无需承担微调成本的LLM智能体这一挑战,Memento提供了创新解决方案。该框架通过基于记忆的在线强化学习实现低成本持续适应,完全避免了对LLM的微调需求。

Memento的设计理念源于人类学习机制的模拟。人类在处理经验时会将每次经历情景轨迹,在巩固过程中将其提炼为抽象规则,通过多巴胺驱动的信用分配机制进行选择性强化,并在面临类似问题时通过基于案例或类比的推理进行检索。

基于这一观察,LLM智能体不再依赖微调基础模型,而是利用外部记忆存储包含成功和失败标签的历史轨迹,从类似的过往经验中汲取指导信息进行决策。这一机制的理论基础是基于案例的推理(Case-Based Reasoning, CBR),这是一种具有心理学基础的学习策略,有充分证据表明人类经常通过回忆类似情况来解决问题。

技术实现架构
Memento通过构建非参数化的即时框架来实现基于案例的推理,具体实例化为基于记忆的马尔可夫决策过程(Memory-based MDP)的规划器-执行器架构。该系统包含三个核心组件:规划器、工具增强执行器,以及用于存储历史轨迹作为情景记忆的动态案例库。

与标准马尔可夫决策过程不同,Memento将记忆直接整合到决策过程中。给定当前状态,CBR模块检索相关案例并通过LLM进行重用和适配,这一过程类似于典型的强化学习流程。基于案例的推理智能体根据当前状态和有限的历史案例记忆做出决策,使用案例检索策略为给定状态生成历史案例的概率分布,进而影响LLM的行动选择。CBR智能体的策略通过软Q学习算法进行学习和更新。

具体架构实现为规划器-执行器,在基于案例的规划(上面的阶段1)和基于工具的执行(阶段2)之间交替运行。规划器是一个由案例记忆模块增强的基于LLM的CBR智能体,该模块同时支持写入操作(记录新案例并在线优化Q函数)和读取操作(通过学习的检索策略检索案例以实现自适应案例选择)。执行器则是基于LLM的MCP客户端,通过MCP协议调用托管在MCP服务器上的外部工具。

在Deep Research场景,Memento通过M-MDP方法实现有状态的提示工程。智能体需要通过迭代式环境交互、外部工具调用、外部信息检索以及异构数据处理来解决复杂的长期任务,系统在基于案例的规划和基于工具的执行两个核心阶段间持续交替。
更多案例:
github.com/yjrtfn/cd/issues/766
github.com/yjrtfn/cd/issues/765
github.com/yjrtfn/cd/issues/764
github.com/yjrtfn/cd/issues/763
github.com/yjrtfn/cd/issues/762
github.com/yjrtfn/cd/issues/761
github.com/yjrtfn/cd/issues/760
github.com/yjrtfn/cd/issues/759
github.com/yjrtfn/cd/issues/758
github.com/yjrtfn/cd/issues/757
github.com/yjrtfn/cd/issues/756
github.com/yjrtfn/cd/issues/755
github.com/yjrtfn/cd/issues/754
github.com/yjrtfn/cd/issues/753
github.com/yjrtfn/cd/issues/752
github.com/yjrtfn/cd/issues/751
github.com/yjrtfn/cd/issues/750
github.com/yjrtfn/cd/issues/749
github.com/yjrtfn/cd/issues/748
github.com/yjrtfn/cd/issues/747
github.com/yjrtfn/cd/issues/746
github.com/yjrtfn/cd/issues/745
github.com/yjrtfn/cd/issues/744
github.com/yjrtfn/cd/issues/743
github.com/yjrtfn/cd/issues/742
github.com/yjrtfn/cd/issues/741
github.com/yjrtfn/cd/issues/740
github.com/yjrtfn/cd/issues/739
github.com/yjrtfn/cd/issues/738
github.com/yjrtfn/cd/issues/737
github.com/yjrtfn/cd/issues/736
github.com/yjrtfn/cd/issues/735
github.com/yjrtfn/cd/issues/734
github.com/yjrtfn/cd/issues/733
github.com/yjrtfn/cd/issues/732
github.com/yjrtfn/cd/issues/731
github.com/yjrtfn/cd/issues/730
github.com/yjrtfn/cd/issues/729
github.com/yjrtfn/cd/issues/728
github.com/yjrtfn/cd/issues/727
github.com/yjrtfn/cd/issues/726
github.com/yjrtfn/cd/issues/725
github.com/yjrtfn/cd/issues/724
github.com/yjrtfn/cd/issues/723
github.com/yjrtfn/cd/issues/722
github.com/yjrtfn/cd/issues/721
github.com/yjrtfn/cd/issues/720
github.com/yjrtfn/cd/issues/719
github.com/yjrtfn/cd/issues/718

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深圳建设企业网站网站开发数据接口如何利用

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:Linux从入门到开通⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学更多操作系统知识   🔝🔝 Linux权限 1. 前言2. shell命…

阿里建站服务wordpress 官方主题

总结: Siamese网络衡量两个输入的相似程度,输出是一个[0,1]的浮点数,表示二者的相似程度。孪生神经网络有两个输入(Input1 and Input2),将两个输入feed进入两个神经网络(Network1 and Network2&#xff09…

做网站湘潭wordpress中设置ajax分页

centos7 没有python-pip包就执行命令 yum -y install epel-release 执行成功之后,再次执行 yum install python-pip 对安装好的pip进行升级 pip install --upgrade pip 至此,pip工具就安装好了。 所有的问题都是最后一刻解决,如果没有解决…

网站建设服务费下什么科目织梦网站演示

小明His标签蛋白镍柱纯化有杂带怎么办啊汇研生物——His标签蛋白纯化填料家簇1.样品本身的的属性,His蛋白容易被体系中的蛋白酶降解时,此时就要在样品中加入蛋白酶抑制剂。避免在纯化过程中His蛋白被降解,呈现出纯化后纯度下降。2.His蛋白和其…

商务推广网站国外网站打不开怎么解决

DenyHosts是Python语言写的一个程序,它会分析sshd的日志文件(/var/log/secure),当发现重 复的攻击时就会记录IP到/etc/hosts.deny文件,从而达到自动屏IP的功能 DenyHosts官方网站 http://denyhosts.sourceforge.net 下…

建设快卡额度查询网站海阳玖网站建设

目录 一.Bean生命周期的简介 1.基本概念 2.Spring生命周期的几大阶段 3.注意点及小结 4.生活案例 5.Spring容器管理JavaBean的初始化过程 二. Bean的单例选择与多例选择 1.单例选择与多例选择的优缺点 1.1单例模式的优点: 1.2单例模式的缺点: 1…

郑州制作个人网站html网站设计范例

分布式锁核心知识介绍和注意事项 基于Redis实现分布式锁的几种坑 综合伪代码: 运行:

沈阳市营商环境建设监督局网站昆明做网站优化

最近,机器学习岗位越来越火爆,那么自然对算法的一些能力要求也是越来越高,想要在求职者中脱颖而出,起步自然非常重要。 我和小伙伴们一起研讨了 2019 年校招的一些算法面试,有些是亲自经历的,也有伙伴分享的…

qq同步wordpress分类目录网站大全做seo

考试题型: 不定项选择题 10 道 , 填空题 10 道 , 问答题 2 道 , 编程题 4 道 目录 不定项选择题 10 道填空题 10 道问答题 2 道编程题 4 道 不定项选择题 10 道 在TCP协议中,发送方的窗口大小是由两个关键因素共同决定…

网站建设前的市场分析怎么写wordpress博客金融模板

核心 欧拉角描述的是一种变换,只关注变换后的结果,不关注变换过程中的运动 而四元数不仅良好地表示了一种变换,也很好地表示了一种运动过程,又避免了万向节死锁Gimbal Lock变换顺序,是欧拉角变换的一部分,…

量子机器学习入门:三种数据编码方法对比与应用

在传统机器学习中数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。 量子机器学习的编码完全是另一回事。 传统算法可以直接消化特…

深度学习调参新思路:Hyperband早停机制提升搜索效率

Hyperband是机器学习中一个相当实用的超参数调优算法,核心思路是用逐次减半来分配计算资源。说白了就是让一堆配置先跑几轮,表现差的直接踢掉,剩下的继续训练更多轮次。 这个方法的巧妙之处在于平衡了探索和利用。你…

解决推理能力瓶颈,用因果推理提升LLM智能决策

从ChatGPT到现在的智能体AI这个跨越说明了一个关键转变。ChatGPT本质上是个聊天机器人,生成文本回应;而AI智能体能够自主完成复杂任务——销售、旅行规划、航班预订、找装修师傅、点外卖,这些都在它的能力范围内。 …

昆明市网站制作公司网站一般多少钱一年

摘要: 准备工作 开通阿里云直播服务:阿里云直播服务接收直播流,并提供直播播放地址,完成一场直播需要先开通阿里云直播服务,在 直播官网详情页 中单击 立即开通 ,开通阿里云直播服务。 如您已经能够使用阿里…

做個app网站价格做舞美的好素材网站j

目录 一、目标二、计划三、完成情况1.宏观思维导图2.过程中的团队管理和其它方面的思考 四、意外之喜(最少2点)1.计划内的明确认知和思想的提升标志2.计划外的具体事情提升内容和标志 一、目标 通过参加考试,训练学习能力,而非单纯以拿证为目的。 1.在复…

网站建设中 windows运动网页设计

导出建库表索引等: [rootlnpg ~]# mysqldump -ugistar -pxxx -h192.168.207.143 --no-data -d lndb > lndb20230223-1.sql 只导出索引:参考:MYSQL导出现有库中的索引脚本_mysql 导出数据库所有表的主键和索引-CSDN博客 -- MYSQL导出现有…

高端手机网站 制作公司微信公众平台登录入口官网

Go基础之锁的初识 当我们的程序就一个线程的时候是不需要用到锁的,但是通常我们实际的代码不会是单个线程的,所有这个时候就需要用到锁了,那么关于锁的使用场景主要涉及到哪些呢? 当我们多个线程在读相同的数据的时候则是需要加锁…

自己做一元夺宝网站车之家汽车报价2022官网

Koa 和 Express 都会使用到中间件 Express的中间件是顺序执行,从第一个中间件执行到最后一个中间件,发出响应如上图 Koa是从第一个中间件开始执行,遇到 next 进入下一个中间件,一直执行到最后一个中间件,在逆序&#x…

如何做地方门户网站默认网站停止

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 从零开始学习数据结构与算法:Python实现 数据结构与算法是计算机科学中至关重要…

中国空间站距离地面多少公里中英文网站设计

1、将变量名作为实参和形参: 这时传给形参的是变量的值,传递是单向的。如果在执行函数期间形参的值发生变化,并不传回实参。应为在调用函数时,形参和实参不是同一个存储单元。 2、传递变量的指针: 形参是指针变量&a…