LLM-Based Agent综述及其框架学习(五)

文章目录

  • 摘要
  • Abstract
  • 1. 引言
  • 2. 文本输出
  • 3. 工具的使用
    • 3.1 理解工具
    • 3.2 学会使用工具
    • 3.3 制作自给自足的工具
    • 3.4 工具可以扩展LLM-Based Agent的行动空间
    • 3.5 总结
  • 4. 具身动作
  • 5. 学习智能体框架
    • 5.1 CrewAI学习进度
    • 5.2 LangGraph学习进度
    • 5.3 MCP学习进度
  • 参考
  • 总结

摘要

  本文围绕基于大语言模型(LLM)的智能体(Agent)展开探讨,重点分析了其动作模块的构建与功能实现。智能体通过模拟人类认知过程,整合感知信息并进行推理决策,最终执行与环境交互的动作。LLM赋予智能体强大的文本生成能力,使其成为高效的语言生成器。然而,智能体在专业知识、决策透明度和抗干扰能力等方面存在局限,而工具的使用能有效弥补这些不足。通过理解工具功能、学习使用工具甚至自主创建工具,智能体能够扩展行动空间,提升任务完成的质量和效率。工具不仅帮助智能体获取外部资源,还能实现多模态输出,从而拓展应用场景。特别值得关注的是"数字具身"智能体的发展,这类智能体能够通过工具或多模态方式与物理环境动态交互,实现从纯文本输出到具身行为的跨越。具身智能体通过与环境的持续互动获得智能,其行为模式更接近人类,能够主动感知、理解并修改环境。这一范式被视为实现通用人工智能(AGI)的关键路径,其核心在于将模型智能与物理世界紧密结合。未来,随着工具使用能力的提升和具身行为的完善,LLM-Based Agent有望在更广泛领域展现类人的适应性和创造性。

Abstract

  This article focuses on Large Language Model (LLM)-based agents, with a particular emphasis on the construction and functional implementation of their action modules. These agents simulate human cognitive processes by integrating perceptual information, performing reasoning and decision-making, and ultimately executing actions to interact with their environment. LLMs endow agents with powerful text generation capabilities, making them efficient language generators. However, agents still face limitations in areas such as domain-specific knowledge, decision transparency, and robustness against interference. The use of tools can effectively mitigate these shortcomings. By understanding tool functionalities, learning to use tools, and even creating tools autonomously, agents can expand their action space and improve task performance in terms of both quality and efficiency. Tools not only help agents access external resources but also enable multimodal outputs, thereby broadening their application scenarios. Particularly noteworthy is the development of “digitally embodied” agents—agents capable of dynamically interacting with the physical environment through tools or multimodal means, bridging the gap between pure text output and embodied behavior. These embodied agents acquire intelligence through continuous interaction with their environment, exhibiting behavior patterns more akin to those of humans. They can actively perceive, understand, and modify their surroundings. This paradigm is considered a key pathway toward achieving Artificial General Intelligence (AGI), with its core lying in the deep integration of model intelligence and the physical world. In the future, as tool-use capabilities advance and embodied behaviors become more sophisticated, LLM-based agents are expected to demonstrate human-like adaptability and creativity across a wider range of domains.

1. 引言

  人类感知环境后,大脑会对感知到的信息进行整合、分析、推理,并做出决策。随后,他们利用自己的神经系统来控制自己的身体,根据环境做出适应性或创造性的行动,比如进行对话、躲避障碍物或生火。当一个智能体拥有类似大脑的结构,具有知识、记忆、推理、规划和泛化能力,以及多模态感知能力时,它也有望拥有类似于人类的各种各样的行动,以应对周围的环境。在智能体的构建中,动作模块接收大脑模块发送的动作序列,并执行与环境交互的动作。下面将介绍关于LLM-Based Agent概念框架中关于动作模块的内容。

2. 文本输出

  基于transformer的生成式大型语言模型的兴起和发展赋予了LLM-Based Agent固有的语言生成能力。它们生成的文本质量在流畅性、相关性、多样性、可控性等各个方面都表现优异。因此,LLM-Based Agent可以是非常强大的语言生成器。

3. 工具的使用

  工具是工具使用者能力的扩展。当面对复杂的任务时,人类使用工具来简化任务解决和提高效率,从而释放时间和资源。同样,如果智能体也学会使用和利用工具,它们也有可能更高效、更高质量地完成复杂任务。
  LLM-Based Agent在某些方面存在局限性,使用工具可以增强代理的能力。首先,尽管LLM-Based Agent具有强大的知识库和专业知识,但它们不具备记住每一条训练数据的能力。他们也可能由于上下文提示的影响而无法转向正确的知识,甚至产生幻觉知识。再加上缺乏语料库、训练数据以及针对特定领域和场景的调优,在专注于特定领域时,智能体的专业知识也受到限制。专门的工具使法学硕士能够增强他们的专业知识,适应领域知识,并以可插拔的形式更适合特定于领域的需求。此外,LLM-Based Agent的决策过程缺乏透明度,使得它们在医疗保健和金融等高风险领域不那么值得信赖。此外,大语言模型容易受到对抗性攻击,并且它们对轻微输入修改的鲁棒性不足。相比之下,在工具的帮助下完成任务的智能体表现出更强的可解释性和鲁棒性。工具的执行过程可以反映代理处理复杂需求的方法,并增强其决策的可信度。此外,由于工具是专门为其各自的使用场景而设计的,使用此类工具的代理可以更好地处理轻微的输入修改,并且对对抗性攻击更具弹性。
  LLM-Based Agent不仅需要使用工具,而且非常适合工具集成。利用通过预训练过程和CoT提示积累的丰富世界知识,大语言模型在复杂的交互环境中表现出卓越的推理和决策能力,这有助于智能体以适当的方式分解和处理用户指定的任务。此外,大语言模型在意图理解等方面显示出显著的潜力。当代理与工具相结合时,可以降低工具使用的门槛,从而充分释放人类用户的创造潜力。

3.1 理解工具

  智能体有效使用工具的前提是全面理解工具的应用场景和调用方法。如果没有这种理解,智能体使用工具的过程就会变得不可信,无法真正增强智能体的能力。利用大语言模型强大
的零次和少次学习能力[40];41],智能体可以通过使用描述工具功能和参数的零样本提示,或提供特定工具使用场景和相应方法演示的少量样本提示来获取关于工具的知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。当面对复杂的任务时,单一的工具往往是不够的。因此,智能体首先要以适当的方式将复杂的任务分解成子任务,它们对工具的理解在任务分解中起着重要的作用。

3.2 学会使用工具

  智能体学习使用工具的方法主要包括从演示中学习和从反馈中学习。这涉及到模仿人类专家的行为,以及了解其行为的后果,并根据从环境和人类那里收到的反馈进行调整。环境反馈包括关于行动是否成功完成任务的结果反馈和捕获由行动引起的环境状态变化的中间反馈;人类反馈包括显式评估和隐式行为,如点击链接。如果智能体严格地应用工具而没有适应性,那么它将无法在所有场景中获得可接受的性能。智能体需要将他们在特定情境中学习到的工具使用技能推广到更一般的情境中,比如将一个在Yahoo搜索上训练过的模型转移到谷歌搜索上。要做到这一点,智能体有必要掌握工具使用策略中的共同原则或模式,这可以通过元工具学习来实现。增强智能体对简单工具和复杂工具之间关系的理解,比如复杂工具是如何建立在更简单工具的基础上的,可以有助于智能体概括工具使用的能力。这使得智能体能够有效地辨别各种应用场景之间的细微差别,并将之前学到的知识转移到新的工具中。课程学习允许智能体从简单的工具开始,逐步学习复杂的工具,这与需求是一致的。此外,受益于对用户意图推理和规划能力的理解,智能体可以更好地设计工具利用和协作的方法,从而提供更高质量的结果。

3.3 制作自给自足的工具

  现有的工具通常是为了人类的方便而设计的,这对于智能体来说可能不是最优的。为了让智能体更好地使用工具,就需要专门为智能体设计的工具。这些工具应该更加模块化,具有更适合智能体的输入输出格式。如果提供了说明和演示,LLM-Based Agent还具有通过生成可执行程序或将现有工具集成为更强大的工具来创建工具的能力。他们还可以学习进行自我调试。此外,如果作为工具制造者的智能体成功地创建了一个工具,除了使用工具本身外,它还可以为多智能体系统中的其他智能体生成包含工具代码和演示的包。推测一下,在未来,智能体可能会变得自给自足,并在工具方面表现出高度的自主性。

3.4 工具可以扩展LLM-Based Agent的行动空间

  在工具的帮助下,智能体可以在推理和规划阶段利用各种外部资源,如web应用程序和其他语言模型。这一过程可以为LLM-Based Agent提供高专业度、可靠性、多样性和高质量的信息,促进他们的决策和行动。例如,基于搜索的工具可以借助外部数据库、知识图和网页来提高智能体可访问知识的范围和质量,而领域特定工具可以增强智能体在相应领域的专业知识。一些研究人员已经开发出基于大语言模型的控制器,生成SQL语句来查询数据库,或者将用户查询转换为搜索请求,并使用搜索引擎获得期望的结果。更重要的是,LLM-Based Agent可以使用科学工具执行化学中的有机合成等任务,或者与Python解释器接口,以提高其在复杂的数学计算任务中的性能。对于多智能体系统,通信工具(如电子邮件)可以作为智能体在严格的安全约束下相互交互的手段,促进它们的协作,并表现出自主性和灵活性。

3.5 总结

  虽然前面提到的工具增强了智能体的能力,但与环境交互的媒介仍然是基于文本的。然而,工具是为了扩展语言模型的功能而设计的,它们的输出并不局限于文本。用于非文本输出的工具可以使智能体行为的模式多样化,从而扩展了LLM-Based Agent的应用场景。例如,图像处理和生成可以由一个利用视觉模型的智能体来完成。在航空航天工程中,智能体正在被探索用于物理建模和求解复杂微分方程;在机器人领域,需要智能体来规划物理操作并控制机器人执行等等。能够通过工具或以多模态方式与环境或世界动态交互的智能体可以被称为数字具身。具身智能体一直是具身学习研究的中心焦点。

4. 具身动作

  在追求通用人工智能(AGI)的过程中,具身智能体被认为是一个关键的范式,它努力将模型智能与物理世界相结合。具体化假说从人类智能发展过程中汲取灵感,提出智能体的智能来自于与环境的持续互动和反馈,而不是仅仅依赖于精心策划的教科书。类似地,与传统的深度学习模型(从互联网数据集学习明确的能力来解决领域问题)不同,人们预计LLM-Based Agent的行为将不再局限于纯文本输出或调用精确的工具来执行特定的领域任务。相反,它们应该能够主动感知、理解和与物理环境交互,做出决策,并基于LLM广泛的内部知识产生特定的行为来修改环境。我们将这些统称为具体化的行为,它使智能体能够以一种与人类行为非常相似的方式与世界进行交互和理解。

5. 学习智能体框架

5.1 CrewAI学习进度

  CrewAI学习进度指路:CrewAI Community Version(五)——Flows基础

5.2 LangGraph学习进度

  LangGraph学习进度指路:LangGraph(四)——加入人机交互控制

5.3 MCP学习进度

  MCP学习进度指路:MCP(一)——QuickStart

参考

Zhiheng Xi, Wenxiang Chen, Xin Guo. and et al. The Rise and Potential of Large Language Model Based Agents: A Survey.

总结

  本文探讨了基于大语言模型的智能体如何通过工具使用和具身行为实现类人交互能力。研究表明,虽然LLM赋予智能体强大的文本生成能力,但其在专业知识、决策透明度和抗干扰性等方面仍存在不足。通过理解工具功能、学习使用方法和自主创建工具,智能体显著扩展了行动能力边界。特别值得注意的是,工具不仅帮助智能体获取外部资源,还能实现多模态输出,推动智能体从纯文本交互向"数字具身"形态演进。这种能够通过多模态方式与环境动态交互的具身智能体,被视为实现通用人工智能的重要路径,其核心在于将模型智能与物理世界深度融合,通过持续互动获得类人的适应性和创造性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81692.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

游戏引擎学习第298天:改进排序键 - 第1部分

关于向玩家展示多个房间层所需的两种 Z 值 我们在前一天基本完成了为渲染系统引入分层 Z 值的工作,但还没有完全完成所有细节。我们开始引入图形渲染中的分层概念,即在 Z 轴方向上拥有多个独立图层,每个图层内部再使用一个单独的 Z 值来实现…

一些C++入门基础

关键字 图引自 C 关键词 - cppreference.com 命名空间 命名空间解决了C没办法解决的各类命名冲突问题 C的标准命名空间:std 命名空间中可以定义变量、函数、类型: namespace CS {//变量char cs408[] "DS,OS,JW,JZ";int cs 408;//函数vo…

学习笔记:黑马程序员JavaWeb开发教程(2025.4.6)

12.4 登录校验-JWT令牌-介绍 JWT(JSON Web Token) 简洁是指JWT是一个简单字符串,自包含指的是JWT令牌,看似是一个随机字符串,但是可以根据需要,自定义存储内容 Header是JSON数据格式,原始JSO…

香港科技大学物理学理学(科学计算与先进材料物理与技术)硕士招生宣讲会——深圳大学

香港科技大学物理学理学(科学计算与先进材料物理与技术)硕士招生宣讲会——深圳大学专场 🕙时间:2025年5月23日(星期五)14:30 🏫地点:深圳大学沧海校区致原楼1101 &#x1f9d1…

数据库优化技巧:MySQL 重复数据查询与删除(仅保留一条)的性能优化策略

目录 一、查询重复数据 二、删除重复数据 方法 1:创建临时表,操作完成后再删除临时表(安全可靠,适合大表) 步骤 1:创建临时表存储需删除的 ID 步骤 2:根据临时表删除数据 方法 2&#xff1a…

分布式ID生成器:原理、对比与WorkerID实战

一、为什么需要分布式ID? 在微服务架构下,单机自增ID无法满足跨服务唯一性需求,且存在: • 单点瓶颈:数据库自增ID依赖单表写入 • 全局唯一性:跨服务生成可能重复 • 扩展性差:分库分表后ID规…

Golang的代码注释规范与实践

# Golang的代码注释规范与实践 一、注释的重要性 代码注释是程序员交流的桥梁 代码注释是程序员之间沟通交流的重要形式,良好的注释能够帮助其他开发者更快地理解代码的意图和实现方式。 代码维护离不开注释 在项目维护过程中,良好的注释能够帮助开发者回…

Qt读取Excel文件的技术实现与最佳实践

目录 一、成果展示二、核心方法及原理1. QAxObject(基于COM接口)2. 第三方库QXlsx3. ODBC数据库驱动三、实现步骤详解1. QAxObject读取Excel(需安装Excel/WPS)2. QXlsx读取Excel(跨平台方案)四、技术选型与对比五、应用场景与优化建议1. 高频数据处理2. 跨平台工具开发3.…

机器学习第十五讲:决策树全面讲解:像玩“20个问题“游戏猜身份[特殊字符]

机器学习第十五讲:决策树全面讲解:像玩"20个问题"游戏猜身份🎮 资料取自《零基础学机器学习》。 查看总目录:学习大纲 关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署&…

CCpro工程编程软件

CXproᴴᴰ 是一个软件应用套件,用以完成 ABB Cylon CB 系列 BACnet 控制器的设计、工程、编程、配置、测试、调试和维护。 主要优势 CXproᴴᴰ 提供改进的导航和页面命名,使开发人员能够轻松地围绕大型策略进行操作。它也允许立即访问可快速更新的点和…

数据库(二):ORM技术

什么是 ORM? ORM(Object-Relational Mapping) 是一种用于实现 对象模型(面向对象)与关系模型(数据库)之间映射的技术,使程序员可以通过操作对象的方式访问数据库数据,而无…

系统设计——项目设计经验总结1

摘要 在系统设计的时候,注意域的区分,功能区分、类的区分、方法区分范围和定义。在系统设计的时候的,需要思考类、方法在什么情况下会涉及到修改,遵循记住:一个类应该只有一个原因被修改! 当不满足&#x…

【Java高阶面经:微服务篇】3.熔断机制深度优化:从抖动治理到微服务高可用架构实战

一、熔断抖动的本质剖析与核心成因 1.1 熔断机制的核心价值与抖动危害 熔断机制作为微服务弹性架构的核心组件,通过模拟电路断路器逻辑,在服务出现异常时自动阻断请求链,防止故障扩散引发雪崩。但频繁的“熔断-恢复-熔断”抖动会导致: 用户体验恶化:请求成功率波动大,响…

深入浅出人工智能:机器学习、深度学习、强化学习原理详解与对比!

各位朋友,大家好!今天咱们聊聊人工智能领域里最火的“三剑客”:机器学习 (Machine Learning)、深度学习 (Deep Learning) 和 强化学习 (Reinforcement Learning)。 听起来是不是有点高大上? 别怕,我保证把它们讲得明明…

【动手学深度学习】1.1~1.2 机器学习及其关键组件

目录 一、引言1.1. 日常生活中的机器学习1.2. 机器学习中的关键组件1)数据2)模型3)目标函数4)优化算法 一、引言 1.1. 日常生活中的机器学习 应用场景: 以智能语音助手(如Siri、Alexa)的唤醒…

Pytorch针对不同电脑配置详细讲解+安装(CPU)

一、前言 安装pytorch前,应按照我前边的博文中,安装完anaconda和pycharm,并且配置完环境变量以后哈。 Pytorch是什么? 它是一个库,是一个开源的机器学习框架,专注于深度学习任务,由Facebook的人工智能研…

[python] 轻量级定时任务调度库schedule使用指北

schedule是一款专为简化定时任务调度而设计的Python库,它通过直观的语法降低了周期性任务的实现门槛。作为进程内调度器,它无需额外守护进程,轻量且无外部依赖,适合快速搭建自动化任务。不过,该库在功能完整性上有所取…

React的合成事件(SyntheticEventt)

文章目录 前言 前言 React的合成事件(SyntheticEvent)是React为了统一不同浏览器的事件处理行为而封装的一套跨浏览器事件系统。它与原生事件的主要区别如下: 1. 事件绑定方式 • 合成事件:使用驼峰命名法绑定事件(如…

报表控件stimulsoft教程:如何在报表和仪表板中创建热图

Stimulsoft Ultimate (原Stimulsoft Reports.Ultimate)是用于创建报表和仪表板的通用工具集。该产品包括用于WinForms、ASP.NET、.NET Core、JavaScript、WPF、PHP、Java和其他环境的完整工具集。无需比较产品功能,Stimulsoft Ultimate包含了…

[免费]苍穹微信小程序外卖点餐系统修改版(跑腿点餐系统)(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的微信小程序医院预约挂号管理系统(uni-appSpringBoot后端Vue管理端),分享下哈。 项目视频演示 【免费】苍穹微信小程序外卖点餐系统修改版(跑腿点餐系统)(SpringBoot后端Vue管理端) Java毕业设计…