autogen论文解读 - Sun

news/2025/10/9 17:09:23/文章来源:https://www.cnblogs.com/Sun-Wind/p/19131529

论文背景

该论文介绍的是微软的一个多智能体框架,曾经获得了ICLR2024大会LLM智能体专题研讨会最佳论文。

img

在开发基于LLM的复杂应用程序时遇到了很多问题:

  • 以往的研究往往基于单个LLM 智能体,但这无法解决复杂任务,因为它可能缺乏特定领域的知识、工具使用能力或持续的推理和纠错机制。

    如autogpt,langchain等大多是围绕单智能体设计的,缺乏对多智能体协作的原生支持

  • 基于多智能体系统的通用性不足

    如metagpt和软件开发流程深度耦合

框架方法

img

在顶部的子图中,可以看到autogen内置了一些代理,其中conversableagent是最高级的抽象类,而Assistantagent和UserProxyAgent都是它的子类,除此之外还有统一的对话接口和参数,如send,receive等,还可以对代理进行定制,从而实现多样化的代理模式。GroupChatManager可以看成是一个扩展,使用这个功能可以解决更加复杂的任务。

在中间的子图中展现了一个双代理系统中对话编程的示例,我们可以自定义回复函数,如图中当没有人类输入时,会执行消息中的代码进行回复,如果有人类输入,就把人类输入当作回复。这里其实有个疑问,如果没有人类输入并且消息中也没有代码,是不是就返回空消息了。其实这里是一个高度简化的代码示例,如果出现这样的情况会自动回退到默认的回复机制,调用LLM进行自然语言回复。通过这样的设置可以让两个智能体进行自然的对话,相当于控制流在驱动对话。在启动initiate函数时,默认是在A与B之间对话,在自定义的generate函数中,可以通过对话内容,异常或者LLM推理动态决定下一个接收者。它可以主动暂停当前对话流,并通过init函数发起和另一个智能体的对话, 那么控制流就都在每个智能体内部。而不用额外的控制平面来进行调度,大大简化了开发。

底部的子图展现了对话的进行,可以看到刚开始useragent发送给assistant画图的消息,然后assistant调用generate函数产生代码和回复,在人类没有输入的情况下,useragent自动执行代码产生报错并进行回复,assistant继续调用generate生成纠正,整个对话自主进行,无需额外的控制模块。

数据集说明

autogen的应用领域非常广泛,论文中有7个例子,可以开发基于数学问题求解,检索增强聊天(Rag),多代理编码,对话式国际象棋等应用。不同的应用对应的autogen智能体设计框架也有区别,这里主要介绍数学问题求解和rag系统两个实验以及结果。

在数学问题求解实验中,主要使用了MATH 数据集。它包括代数、计数与概率、几何、中级代数、数论、预备代数和预微积分等领域的题目,每个领域都包含问题和对应的解答。还提供问题的难度等级和类型信息。

img

在rag系统实验中主要使用了Natural Questions数据集,这个数据集包含真实用户向 Google 搜索提出的问题,以及从 Wikipedia 中找到的答案。

img

格式如图所示。

除此之外,还会标注出文档中的长答案和短答案。

实验结果

在数学问题求解实验中采用了定性和定量评估。
对于所有评估,都使用GPT-4作为基础模型

img

在定性评估中,采用了MATH数据集中的两个5级问题,分别涉及简化平方根分数和数论问题,每个问题测试三次。上图中展示了相关评估结果。可以看到autogen表现得最好,其他框架都存在各种各样得问题。

img

定量评估如上图所示,一共两组实验,一组是涉及120个5级数学问题,涵盖6个类别,第二组是对整个测试集进行的实验。其中Chatgpt+code和+plugin都是商业级的应用,只能在网页端测试,只能手动操作,并且有每小时消息量限制。所以测试只测试了120个5级数学问题。在debate和langchain中,由于其在小数据集上表现都不太好,所以没有进行更进一步的测试。可以看到autogen在解决数学问题上的表现非常不错。

img

在autogen开发的rag系统中采用了两个代理之间的交互式检索,以上是交互式检索和单次检索的对比。因为检索时会寻找和问题向量相似度最匹配的文本。当第一次没找到时,用户代理会反馈update,这样会去寻找向量数据库中下一条最相似的文档片段,整个过程可以重复多次。

img

如上图所示,红色表示没有使用交互式检索的表现,DPR是一种基线方法。可以看到autogen在rag系统上的表现也很不错,交互式检索对系统也有一定的提升。

下图是autogen和其他多智能体框架的对比

img

有些多智能体框架只适合解决特定的问题

在autogen中,可以根据当前的对话内容或任务进展,动态地选择下一个发言者或调整对话流程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/933713.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高效仿真:功耗与散热攻略

在当今 IC 设计中,“功耗与热管理”是确保系统稳定性和可靠性的关键一环。本文深度聚焦仿真平台在动态功耗分析与热行为模拟中的应用,结合实际案例与现代工具,为你系统解锁仿真中的热控挑战与优化路径。 1、动态功耗…

编程开发工具集合汇总

编程开发工具集合汇总Posted on 2025-10-09 16:55 lzhdim 阅读(0) 评论(0) 收藏 举报这次提供编程开发工具集合的下载。通过网盘分享的文件:  链接: https://pan.baidu.com/s/1WWCFSerGZhhl4V0SS7UjMw?pwd=yi…

各编程语言对应的开发工具软件

各编程语言对应的开发工具软件Posted on 2025-10-09 17:00 lzhdim 阅读(0) 评论(0) 收藏 举报以下内容基于 2024~2025 年公开资料整理,给出主流编程语言与“官方/社区公认最常用”开发工具(IDE 或专用编辑器)…

Vue Day7 VueX ESLint介绍

这里先了解VueX,为后面 Vue3 的Pinia做准备VueX是一个Vue的状态(即数据)管理插件,可以帮我们管理vue通用的数据(多组件共享的数据)

win7无线网络连接wifi名称乱码

win7无线网络连接wifi名称乱码 我想让他输出乱码的格式,没成with open("wifiencode.txt", "w", encoding="utf-8") as f:f.write("读者无线")text = "读者无线" …

【完结】-固态硬盘ssd

固态硬盘SSD 原理 基于闪存技术Flash Memory 属于EEPROM 组成 闪存翻译层:负责翻译逻辑块号,找到对应的页 存储介质:多个闪存芯片(flash chips)--每个芯片包含多个块(block)--每个块包含多个页(page) 读写性能…

Vue的nextTick函数作用

在 Vue 中,nextTick 是一个非常重要的异步工具函数,用于在 DOM 更新完成后执行回调逻辑。它常用于你想在 Vue 更新数据后立即操作最新的 DOM 元素时。✅ 简单定义 js复制代码Vue.nextTick(callback)或在 Vue 3 中(使…

# 中国大模型落地应用研究报告2025 - 深度导读与趋势分析

# 中国大模型落地应用研究报告2025 - 深度导读与趋势分析Posted on 2025-10-09 16:51 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:# 中国大模型落地应用研究报告2025 - 深度导读与趋势分析中国大模型落地应…

# JetBrains 2024开发者生态调查报告推荐

# JetBrains 2024开发者生态调查报告推荐Posted on 2025-10-09 16:51 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:# JetBrains 2024开发者生态调查报告推荐JetBrains 2024开发者生态调查报告推荐 ** 报告链…

# ShowMeBug技术评估创新案例:从八股文到实战编程的招聘革命

# ShowMeBug技术评估创新案例:从八股文到实战编程的招聘革命Posted on 2025-10-09 16:51 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:# ShowMeBug技术评估创新案例:从八股文到实战编程的招聘革命ShowMeB…

# ️ GitHub工程师肖恩戈德克的系统设计哲学:从复杂到简单的工程智慧

# ️ GitHub工程师肖恩戈德克的系统设计哲学:从复杂到简单的工程智慧Posted on 2025-10-09 16:51 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:# ️ GitHub工程师肖恩戈德克的系统设计哲学:从复杂到简单的工…

README生成和更新Prompt

README生成和更新PromptPosted on 2025-10-09 16:51 吾以观复 阅读(0) 评论(0) 收藏 举报关联知识库:README生成和更新PromptREADME生成和更新Prompt 核心目标 文档清晰 > 自动化 - 手动指定文件类型,生成结…

#6515. 「雅礼集训 2018 Day10」贪玩蓝月

其实 \(4, 5\) 操作都不重要,重要的是这个维护的思路。 考虑维护两个栈,插入的话就往前插就插入第一个栈,否则插入第二个栈,此时我们可以动态的维护一个 DP 数组,表示每个栈中的答案。 如果删除的话,我们就向指向…

车企数据治理平台化实战:从数据孤岛到全链路治理的架构演进

在汽车产业智能化转型背景下,数据已成为驱动研发、制造、营销与服务创新的核心资产。某大型整车制造企业面对系统烟囱林立、数据标准不统一、质量管控难等典型问题,通过构建企业级数据治理平台,实现了从数据规范制定…

完整教程:Java中的缓存机制与分布式缓存实现!

完整教程:Java中的缓存机制与分布式缓存实现!pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

jsconfig.json-vscode或cursor ctrl点击@路径,快速到达

vscode或cursor ctrl点击@路径,快速到达 {"allowJs": true,"compilerOptions": {"baseUrl": ".","paths": {"@/*": ["./src/*"]}},"inc…

C# 弃元模式:从语法糖到性能利器的深度解析

在 C# 的语法演进中,“弃元(Discard)” 以一个简单的下划线 _ 成为了既提升代码可读性,又优化性能的 “双料特性”。它并非单纯的语法简化,而是编译器层面对 “有意忽略的值” 的深度优化 —— 通过明确 “忽略”…

完整教程:经典字符串与数组题目

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025钣金加工厂家最新推荐榜:精密工艺与定制服务口碑之选

钣金加工厂家最新推荐榜:精密工艺与定制服务口碑之选随着制造业转型升级步伐加快,钣金加工行业正迎来新一轮技术变革。作为制造业的基础工艺,钣金加工的质量直接影响到产品的结构强度、外观精度和使用寿命。在众多钣…

完整教程:Real-Time MDNet

完整教程:Real-Time MDNetpre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", …