[PaperReading] REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

news/2025/9/26 13:51:40/文章来源:https://www.cnblogs.com/fariver/p/19110976

目录
  • REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
  • TL;DR
  • Method
    • 实验设计
      • 不同方法的对比
    • BadCase分析
  • Q&A
  • Experiment
    • WebShop​​
  • 总结与思考
  • 相关链接

REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

link
时间:22.10
单位:Princeton University && Google Brain
相关领域:Agent
作者相关工作:Shunyu Yao
被引次数:4520
项目主页:

  • blog: https://research.google/blog/react-synergizing-reasoning-and-acting-in-language-models/
  • 主页:https://react-lm.github.io/
  • code: https://github.com/ysymyth/ReAct

TL;DR

大语言模型LLMs的推理能力(reasoning)与执行能力(acting)通常作为两个Topic分开研究。本文提出ReACT(Reasoning and Acting),研究如何使两者更好协同,Reasoning能力使模型推导及更新规划,而Acting使用模型可以从环境中接口里获取到更多知识信息。

Method

实验设计

Domains: 在这两个任务中,模型​​仅接收问题/陈述本身​​,而​​不直接获取​​任何可能包含答案的支撑文档或段落。这意味着模型必须完全依赖其​​内部知识​​或通过​​与外部环境交互​​来获取必要信息。
Action Space
Wikipedia Web API​​有三种接口:

  • search:根据给定的实体名称(如"George Washington")进行搜索。
  • lookup:在当前打开的维基百科页面中,查找包含特定字符串的下一句话。
  • finish:终止当前任务,并提交最终答案。

image

不同方法的对比

image

HotPotQA:multi-hop question answering,多轮对话测试集
FEVER:fact verification,事实验证的Benchmark

  • CoT-SC:​​ SC是 ​​Self-Consistency​​ 的缩写。其核心做法是在推理时,通过提高解码温度(temperature)来从语言模型中采样生成多条(例如21条)不同的推理轨迹,然后通过​​多数投票​​(majority vote)的方式从这些答案中选择最一致的一个作为最终答案,以此提高准确性和鲁棒性。
  • ReAct → CoT-SC​​: 指首先尝试使用ReAct方法(通过API与环境交互获取外部信息)来解决问题。如果ReAct在设定的最大步数内(HotpotQA为7步,FEVER为5步)未能得出答案,则​​回退(back off)​​ 到使用CoT-SC方法,依赖模型的内部知识进行推理。
  • ​​CoT-SC → ReAct​​: 指首先使用CoT-SC方法进行推理。如果CoT-SC采样产生的多个答案中,得票最高的答案其票数未能超过总采样数的一半(即 n/2),表明模型的内部知识对于此问题并不自信或存在分歧,此时则回退到使用ReAct方法,通过外部交互来寻找答案。

BadCase分析

  • CoT的主要问题​​:​​幻觉(Hallucination)​​。这是CoT最主要的失败模式(占56%),即推理链条中混入了不正确的事实或信息。
  • ReAct的主要问题​​:​​推理错误(Reasoning Error)​​ 和​​搜索结果错误(Search Result Error)​​。

Q&A

Q:图1d这种模式对于现在agent很常见,为什么会是本文创新点?
A:“思考-行动-观察”的循环模式如今已成为构建AI Agent的常见范式。但在本文发表的当时(2022年),这是一个重要的​​范式创新​​。本文是​​首个​​系统性地、通用地将“推理”和“行动”在语言模型中​​交织(interleave)​​ 起来的工作,并为其命名(ReAct)。
Q:文中的Acting指得是什么?
A:Acting​​ 指的是模型能够发出​​可执行的动作​​,与​​外部环境(external environment)​​ 进行交互,从而获取新的信息或改变环境状态。在​​知识密集型任务​​(如HotpotQA, FEVER)中,Acting 特指通过一个简单的 ​​Wikipedia API​​ 进行交互,动作包括:search, lookup, finish。

Experiment

WebShop​​

WebShop是一个模拟的在线购物网站环境,它包含了从亚马逊爬取的​​118万种真实商品​​和​​1.2万条人类指令​​。
智能体(Agent)的任务是根据用户的​​自然语言指令​​购买符合要求的产品。指令通常包含多项属性要求,例如:“I am looking for a nightstand with drawers. It should have a nickel finish, and priced lower than $140”(我需要一个带抽屉的床头柜。它应该是镍色 finish,并且价格低于140美元)。
​​评估指标 (Evaluation Metrics)​​

  • 成功率 (Success Rate, SR)​​: 智能体最终购买的商品​​完全满足​​指令中所有要求的任务比例
  • 平均得分 (Score)​​: 一个更细粒度的指标,计算智能体购买的商品所满足的指令属性要求的百分比,然后在整个测试集上求平均。
    基线模型 (Baselines)​​
  • 作者将ReAct与之前需要大量数据训练的方法进行比较:
  • 模仿学习 (Imitation Learning, IL)​​: 在1,012条人类标注的轨迹上进行训练
  • ​模仿+强化学习 (IL+RL)​​: 在IL的基础上,额外使用10,587条训练指令进行强化学习优化。
    image

总结与思考

比较早想到结合Reasoning与Acting的方法,也设计了比较严谨来证明有效性。可以被认为是Agent系列工作的先驱之作。

相关链接

https://zhuanlan.zhihu.com/p/1921961266257336099

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/918341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCSG斩获第四届琶洲算法大赛开源领域第一

9月23日,第四届琶洲算法大赛生态赋能大会在广州琶洲成功举办。本届大赛以“算法领航 琶洲奋进”为主题,吸引了来自中国、日本、肯尼亚、法国、美国、新加坡、意大利等全球30多个国家的8131支团队同台竞技。 赛事设置…

Gitee DevOps:本土化工具链如何重塑中国技术团队的研发效能

Gitee DevOps:本土化工具链如何重塑中国技术团队的研发效能 当全球科技巨头竞相布局DevOps赛道时,中国技术团队正面临一个关键挑战:如何将国际先进的持续交付理念与本土研发场景深度融合。Gitee DevOps作为国内首个…

外贸公司英文网站苏州网站建设的公司

在Linux系统中,syslog是一种系统日志服务,用于收集、存储和管理系统和应用程序生成的日志消息。syslog服务负责记录系统的运行状态、错误信息、警告、调试信息等,以便系统管理员可以监控系统的健康状况、故障排查和性能优化。 含义和作用&am…

山东省建设部网站官网南宁做网站的公司有哪些

【图像分类】【深度学习】【Pytorch版本】GoogLeNet(InceptionV1)模型算法详解 文章目录 【图像分类】【深度学习】【Pytorch版本】GoogLeNet(InceptionV1)模型算法详解前言GoogLeNet(InceptionV1)讲解Inception结构InceptionV1结构1x1卷积的作用辅助分类器 GoogLeNet(Inceptio…

在阅读中测试用户的词汇掌握情况

在阅读中测试用户的词汇掌握情况的方案 \(\rm I\) 基本流程与原理 \(\rm II\) 具体的程序实现流程

测试平台如何重塑CI/CD流程:从质量关卡到全流程协同的进化之路

测试平台如何重塑CI/CD流程:从质量关卡到全流程协同的进化之路 在当今高速迭代的软件开发环境中,持续集成和持续交付(CI/CD)已经成为企业保持竞争力的关键能力。然而,随着交付速度的不断提升,传统的测试方法已经无…

【译】Visual Studio 中针对 .NET MAUI 的 XAML 实时预览功能的增强

Visual Studio 2022 17.14 中的 XAML 实时预览功能为 .NET MAUI 项目带来了显著的可用性提升:XAML 实时预览窗口现在在设计时即可使用,无需启动调试会话。这一变化简化了 .NET MAUI 应用程序的 UI 开发工作流程。 设…

在CodeBolcks下wxSmith的C++编程教程——键盘输入和显示结果

0.前言 欢迎来到 wxSmith 教程页面!wxSmith 与 Code::Blocks、wxWidgets 和 C++ 编译器相结合,为您提供一种所见即所得的方式来创建具有图形用户界面 (GUI) 的应用程序。该组合形成了一个用于快速应用程序开发 (R…

深入解析:【Java开发:Lambda表达式】

深入解析:【Java开发:Lambda表达式】2025-09-26 13:44 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !…

慢慢来做网站多少钱竞赛网站开发

手机app移动开发论文-个人心情日记本的设计实现 毕设论文毕业设计(论文)题 目 个人心情日记本的设计与实现专 业 计算机网络技术班 级 网络学 号姓 名指导教师2016 年 1 月 14 日个人心情日记本【摘要】据准确数据调查,全球人口已超过65亿,其中&#xff…

TIA SIM 授权

TIA SIM 授权安装 TIA安装包不区分版本,授权区分。 安装过程不涉及授权。 安装完为试用版(Trial),限有效期。 详情见:"Automation License Manager" 过期后,貌似也能用? TIA-"Installed software&…

算法第一章作业

算法第一章作业c++编码规范:命名约定 类/结构体:PascalCase(如DataProcessor) 函数/方法:camelCase(如calculateTotal) 变量:snake_case(如student_count) 常量:UPPER_SNAKE_CASE(如MAX_SIZE) 枚举:类型…

轻松筹 做的网站价格网站策划书的要点

1. 简介 因为MCU的内存和算力的限制,那些对内存消耗大或算力需求大的压缩算法就不适合在MCU中使用。适用于MCU的压缩算法主要有:RLE、LZ77、Huffman、LZO、DEFLATE、LZ4。 2. 算法 2.1. RLE RLE(Run Length Encoding),也称为行程编码&…

晋中住房与城乡建设厅网站wordpress 筛选功能

将安装JSP引擎的计算机称作一个支持JSP的Web服务器。这个服务器负责运行JSP,并将运行结果返回给用户。 JSP的核心内容之一就是编写JSP页面,JSP页面是Web应用程序的重要组成部分之一。一个简单Web应用程序可能只有一个JSP页面,而一个复杂的Web应用程序可能由许多JSP…

采购系统

目录伯特利门户一、批量系统菜单1. 批量供应商供应商信息供应商信息修改供应商账号管理批量系统菜单2. 批量需求需求申请年度项目3. 批量任务任务分配任务列表4. 批量招标个人任务标物管理5. 批量合同合同管理采购文件…

幽冥大陆(七)安诺克酒店智能门锁SDKV3 VBDemo—东方仙盟 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

免费做图素材网站有哪些自己做发卡网站

文章目录1. 向管理表中装载数据2. 通过查询语句向表中插入数据3. 动态分区插入4. 从单个查询语句创建表并加载数据5. 导出数据学习自《Hive编程指南》 1. 向管理表中装载数据 hive (default)> load data local inpath "/home/hadoop/workspace/student.txt">…

PostgreSQL patroni 高可用 1:ectd 安装和配置

PostgreSQL patroni 高可用 1:ectd 安装和配置PostgreSQL patroni 高可用 1:ectd 安装PostgreSQL ptroni的高可用架构图如下所示,本文完成如下架构图中红色标记内的ectd分布式存储的安装和配置。图片来源于:https:…

实用指南:黄金价格小工具抖音快手微信小程序看广告流量主开源

实用指南:黄金价格小工具抖音快手微信小程序看广告流量主开源pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Con…

20250725_QQ_ezusb

流量分析, USB, pyshark, Base64, kamasutra, DASCTFTags:流量分析,USB,pyshark,Base64,kamasutra,DASCTF 0x00. 题目 附件路径:https://pan.baidu.com/s/1GyH7kitkMYywGC9YJeQLJA?pwd=Zmxh#list/path=/CTF附件 附件…