AgentFounder浅析——Agent的演化历程与目标

news/2025/10/15 11:07:25/文章来源:https://www.cnblogs.com/qlhh/p/19142847

理论上(浅显)分析Agent与传统llm、RAG的不同以及演进历程,根据Agent的目标解读AgentFounder论文的训练策略和数据集构建

Agent的目标以及对应的技术方案

Agent的推理目标

形式化的表达:

咱们首先来分析一下最开始大模型的功能,即仅根据\(\pi\)的内部知识和问题\(q\)采样出答案\(o\)

\[o \sim \pi(\cdot|q) \]

然而,模型\(\pi\)原有的内部知识可能不足以支撑回答\(q\)问题(没有训练过相关领域的数据),那么就需要引入外部知识\(R\),也就是常见的RAG架构。RA 先根据\(q\)调用外部tool(向量数据库)得到一定的response(\(R\)),再一同输入到\(\pi\)中进行答案的生成。有效地缓解\(\pi\)在问题\(q\)上自身知识不足的问题,人为地注入了外部知识\(R\)
此方法有效建立在 \(\pi\)是否在\(R\)上有泛化性,\(\pi\)是否会使用外部知识\(R\)

\[R\leftarrow f(q)\\ o \sim \pi(\cdot|q,R) \]

那好,新的问题又出现了,即使\(\pi\)会使用\(R\),但是\(R\)是否真正能够帮助\(\pi\)解决\(q\)也是一个问题,
这个\(R\)仅依赖于问题\(q\)和事先设定好的工具\(f(\cdot)\),也就是说在生成\(R\)时,并没有考虑到是否能帮助到后续的模型\(\pi\)
因此应该在生成\(R\)时,也要依赖于\(\pi\)

\[\begin{aligned} 【初始化】tool\_type, tool\_args &\sim \pi(\cdot|q) \\ 【获得工具输出】 R_i &\leftarrow f(tool\_args; tool\_type) \\ 【迭代生成】o\ |\ tool\_type, tool\_args &\sim \pi(\cdot|q, R_1, ..., R_i) \end{aligned} \]

因此,可以发现的是,\(\pi\)不仅仅要生成答案\(o\),还需要学会工具调用来获取\(R\)以更好的执行后面的任务流程。

所以Agent的目标(需要的推理能力)分为三类

  • 利用模型内部知识根据q生成第一步的planning。

    • \(tool\_type, tool\_args \sim \pi(\cdot|q)\)
    • 学会如何仅根据q构建完整的planning
  • 利用模型内部知识+外部知识(R) 根据q生成下一步的工具调用/答案 的能力 (step-wise)

    • \(o\ |\ tool\_type, tool\_args \sim \pi(\cdot|q, R)\)
    • 学会 single-step下,如何根据需要的信息 选取工具
  • 学会连续调用工具,理解工具间的调用关系,(traj-wise)

    • \(o\sim \pi(\cdot|q, R_1, R_2, ...)\)
    • 学会在整体的traj维度下,协调多个工具之间的使用关系

对应来说:

  • 局部

    • 初始化

    • step-wise的单个工具point-wise的使用

  • 整体

    • traj-wise的工具之间的协调调度

Agent的训练方案

训练目标需要和推理模型对齐。而训练目标体现在(1)数据集的构建方案(2)训练策略(loss)

那么Agent训练方案的是数据集构建+模型训练方式两个难点

  • 数据构建
    • 以上三类能力对应的数据集的构建
    • 输入输出的pair对,参考公式即可
    • 数据需要可扩展/高质量(因此优先在Web Brower 领域进行研究)
  • 训练策略
    • 使用sft教会模型前两种能力(planning生成、学会根据需要的信息选取工具)
    • 使用rl教会模型最后一种能力(工具间的协调调用,因为此任务比较难学习,需要大量的探索以及较高的泛化性要求)

相较于传统的single-step的数据及其sft RL的训练方式

Agent的关键区别是给予了llm自主获取外界知识、与外界交互的能力。

因此,Agent的数据和训练目标 均服务于 如何使Agent学会更好的使用工具与外界交互,从而利用外界的信息更好地完成任务


思路借鉴:AgentFounder:https://www.arxiv.org/abs/2509.13310

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/937347.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

26Java基础之特殊文本文件、日志技术

特殊文件 为什么要用这些特殊文件?存储多个用户的:用户名、密码Rroperties是一个Map集合(键值对集合),但是我们一般不会当集合使用。 核心作用:Properties是用来代表属性文件的,通过Properties可以读写属性文件里…

Aniyomi扩展开发指南与Google Drive集成方案

本文详细介绍了Aniyomi扩展的开发流程和Google Drive集成方案,包含完整的代码结构、安装指南和使用说明,帮助开发者快速构建功能丰富的动漫扩展应用。Aniyomi扩展开发指南 项目概述 Aniyomi是一个基于Android 6.0+的…

2025 最新开锁公司口碑排行榜权威甄选:智能锁 / 汽车锁 / 保险柜开锁服务最新推荐,安全高效品牌指南

锁具服务作为居家与企业安防的关键一环,其专业性与安全性直接关乎财产安全。当前行业却深陷多重困境:无证 “游击队” 服务商充斥市场,无备案资质、缺专业技术的问题给用户埋下安全隐患;智能锁的快速普及让传统服务…

完整教程:ESD保护设计指南 - littelfuse

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

【Python精讲 16】实战项目演练(二):用Flask/FastAPI发布你的第一个Web API - 详解

【Python精讲 16】实战项目演练(二):用Flask/FastAPI发布你的第一个Web API - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; fo…

基于遗传算法的33节点微电网网络重构优化

一、系统建模与参数配置 1. 33节点配电网拓扑 +-------------------+| 33节点主网架 || (IEEE标准结构) |+--------+----------+|v +-------------------+ +-------------------+ | 分布式电源 …

PMTU机制原理和缺陷

PMTU 机制原理 PMTU(Path Maximum Transmission Unit,路径最大传输单元)发现机制 是一种用于动态探测从源主机到目的主机之间整条网络路径上最小 MTU 值的技术,目的是避免 IP 数据包在传输过程中被分片。 ✅ 核心目…

2025 年摇臂钻床厂商最新推荐排行榜:含 3050/3080/3040/3063/50 型号厂家产能与供应优势详解

当前制造业加速向智能化、高效化转型,摇臂钻床作为机械加工核心设备,其品质与供应效率直接决定下游企业生产进度与产品精度。但市场中供应商数量繁杂,部分厂商存在产能不足导致交货延迟、技术落后无法满足定制需求、…

Linux进程 --- 2 - 实践

Linux进程 --- 2 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &qu…

20232402 2025-2026-1 《网络与系统攻防技术》实验一实验报告

20232402 2025-2026-1 《网络与系统攻防技术》实验一实验报告 1.实验内容 本周学习内容为缓冲区溢出漏洞简介和缓冲区溢出基础知识。 1.1 缓冲区溢出漏洞简介缓冲区是连续的一段存储空间。 缓冲区溢出是指向特定缓冲区…

2025 年最新推荐排水沟厂家排行榜:聚焦树脂 / 线性 / 树脂混凝土 / 成品 /u 型排水沟优质厂家推荐

在市政工程、电厂建设、道路施工等基础设施项目中,排水沟的质量与性能直接关乎工程稳定性和使用寿命。当前市场上排水沟产品质量参差不齐,部分产品存在强度不足、易腐蚀、安装后异响移位等问题,增加后期维护成本且埋…

2025 年最新推荐排水沟厂家排行榜:聚焦树脂 / 线性 / 树脂混凝土 / 成品 /u 型排水沟优质厂家推荐

在市政工程、电厂建设、道路施工等基础设施项目中,排水沟的质量与性能直接关乎工程稳定性和使用寿命。当前市场上排水沟产品质量参差不齐,部分产品存在强度不足、易腐蚀、安装后异响移位等问题,增加后期维护成本且埋…

2025 年盖板源头厂家最新推荐榜单:涵盖电力 / 隧道 / 扣槽 / 室内外电缆沟 / 复合及树脂盖板,深度解析源头厂家原材料采购与成本控制

当前盖板行业应用场景持续拓展,从市政工程到电厂、高速、隧道等领域,对盖板的质量、性能及成本要求愈发严苛。但市场上部分厂家存在原材料把控不严、成本控制失衡、定制服务滞后等问题,导致采购方难以精准筛选优质合…

AC6966B SD配置F组可以吗?ok

虽然《Jieli-AC6966B-V1.0.pdf》只标明了PB7可以做SD CLK,但实测是可以读卡的。 如果读不到ID请检查芯片是否贴好。

2025 年最新紫外线灯厂家推荐排行榜:优质厂家权威榜单发布,含杀菌灯消毒灯选购指南

当前,紫外线灯在空气净化、水处理、食品医药等领域的应用愈发广泛,市场需求持续增长,但行业乱象也随之凸显。众多品牌涌入市场,产品质量差异悬殊,部分产品存在使用寿命短、光衰快、紫外线输出不稳定等问题,严重影…

trading platform

每天拥有超过6万亿美刀交易额的市场,你知道它衍生出多少平台吗?今天我们来盘点一下最牛的十大外汇经纪商。 作为杠杆投资,外汇交易又是收益和风险并存的。所以一个优质安全的平台,从搭建到完善,必须时刻考虑交易系…

GDB 与 GDBServer 远程调试基础命令详解

GDB 与 GDBServer 远程调试基础命令详解 ​一、环境准备​​目标机(嵌入式设备)​​安装 gdbserver(如 arm-linux-gnueabihf-gdbserver)启动 gdbserver并监听端口:bashbash复制gdbserver :2345 /path/to/program …

zedboard + AD-FMCOMMS3-EBZ AD9361 (三) matlab demo 测试

zedboard + AD-FMCOMMS3-EBZ AD9361 (三) matlab demo 测试 AMD FPGA and SoC Devices — Examples

内网穿透的原理和安装

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

.NET 构架下remoting和webservice

“WebService 走 HTTP+SOAP,跨平台却低效;Remoting 走 TCP/二进制,高效但仅限 .NET。二者都已被 WCF → gRPC/WebAPI 取代,如今只出现在遗产系统。