大模型智能体化推理：LLM如何成为自主智能体的全面解析

本文系统综述了智能体化推理(Agentic Reasoning)范式，探讨大语言模型如何从静态推理转变为与环境持续交互的自主智能体。文章从三个维度分析：基础智能体推理(规划、工具使用)、自我演进智能体推理(通过反馈自适应)和集体多智能体推理(多智能体协作)，并区分上下文推理和训练后推理两种优化模式。这一范式统一了"推理"与"行动"，使LLMs能够在开放和动态环境中进行长程规划和主动改进，已在科学、机器人、医疗等领域展现应用价值，未来发展将聚焦个性化、长程交互和治理框架等方向。

推理是推理（Inference）、问题求解及决策制定背后的核心认知过程。尽管大语言模型（LLMs）在数学和代码等标准基准测试所代表的闭合世界（Closed-world）设置中展现出强大的推理能力，但在开放式和动态环境中仍面临挑战。**智能体化推理（Agentic Reasoning）**的兴起标志着一种范式转变，它通过将 LLMs 重塑为能够通过持续交互进行规划、行动与学习的自主智能体，实现了“思维”与“行动”的跨越。

在本综述中，我们通过三个互补维度对智能体化推理进行了系统化梳理。首先，我们通过三个层次表征环境动态：基础智能体推理确立了在稳定环境下的核心单智能体能力，包括规划、工具使用和搜索；自我演进智能体推理探讨了智能体如何在动态设置中通过反馈、记忆与自适应来优化这些能力；集体多智能体推理则将智能扩展至协作场景，研究多个智能体如何协调角色、共享知识并追求共同目标。

在所有层次中，我们通过区分以下两种设置来分析系统约束与优化：一是上下文推理（In-context reasoning），它通过结构化编排和自适应工作流设计来扩展测试时交互（Test-time interaction）；二是训练后推理（Post-training reasoning），它通过强化学习（RL）和监督微调（SFT）来优化行为。此外，我们回顾并总结了智能体化推理框架在科学、机器人、医疗、自主研究及数学等现实应用与基准测试中的表现，阐明了不同推理机制在各领域如何实例化及评估。

本综述将智能体化推理方法整合为一个统一的路线图，连接了思维与行动，并为涵盖环境动态、优化设置及智能体交互设置的智能体系统提供了实践指导。最后，我们概述了当前挑战与未来方向，总结了智能体化推理的发展历程，并指明了亟待解决的问题：个性化、长程交互、世界建模、可扩展的多智能体训练以及面向现实部署的治理框架。

关键词：智能体化人工智能（Agentic AI），LLM 智能体，智能体化推理，自我演进

第三步：格式处理与项目信息

**Github 仓库：**https://github.com/weitianxin/Awesome-Agentic-Reasoning
引用说明：在正式引用本文时，请确保保留“智能体化推理（Agentic Reasoning）”这一核心术语，以区别于传统的自动化推理（Automated Reasoning）。

1. 引言 (Introduction)

推理是智能的核心，支撑着跨交互与动态设置的逻辑推演、问题求解及决策制定。大语言模型（LLMs）在数学问题求解和代码生成等闭合世界领域已取得显著进展。实证研究表明，通过显化中间推理过程的技术，如**思维链（Chain-of-Thought）**提示、任务分解及程序辅助求解，已显著增强了模型的推理性能 [1, 2, 3, 4]。然而，这些方法通常假设环境是静态的，且仅涉及短程推理。传统的 LLMs 缺乏在信息随时间演化的开放式环境中行动、适应或自我改进的机制。

在本综述中，我们将这一演进过程系统化为智能体化推理（Agentic Reasoning）框架：LLMs 不再是被动生成序列，而是被重塑为通过与环境持续交互进行规划、行动与学习的自主推理智能体。这一重塑统一了“推理”与“行动”，将推理置于感知、规划、决策和验证的核心组织地位。例如，ReAct [5] 系统将深思熟虑与环境交互相交织；工具使用框架实现了自主的 API 调用；基于工作流的智能体则能动态编排子任务与可验证动作 [5, 6, 7]。从概念上讲，这类似于从静态、单次推理向不确定性下的**序列决策（sequential decision-making）**的转变。与简单的输入-输出映射不同，该范式要求智能体具备长程规划能力、应对部分可观测性（partial observability），并通过反馈进行主动改进 [8, 9, 10]。

智能体化推理定义智能体化推理将推理定位为智能体的核心机制，涵盖基础能力（规划、工具使用和搜索）、自我演进自适应（反馈与存储驱动的自适应）以及集体协同（多智能体协作），并可通过上下文编排或训练后优化来实现。

为了系统化表征环境动态，我们围绕智能体化推理的三个互补范畴构建了本综述：基础能力、自我演进和集体智能。

**基础智能体推理（Foundational Agentic Reasoning）**奠定了单智能体核心能力的基石，包括规划、工具使用和搜索，使其能在复杂但稳定的环境中运行。在此层次，智能体通过分解目标、调用外部工具并通过可执行动作验证结果。例如，程序辅助推理 [3] 将逻辑推导扎根于代码执行中；OpenHands [11] 等仓库级系统将推理、规划和测试整合至统一循环；结构化存储模块 [12, 13] 则通过持久化中间推理轨迹，将事实召回转化为程序化能力。
**自我演进智能体推理（Self-Evolving Agentic Reasoning）**在上述基础上，使智能体能通过累积经验持续改进。该范式涵盖了特定任务的自我提升（如通过迭代批判），并扩展到内部状态（如存储和策略）的持久化更新。智能体不再遵循固定的推理路径，而是发展出反馈整合与存储驱动的自适应机制。诸如 Reflexion [14] 的反思框架允许智能体批判并精炼自身的推理过程，而 RL-for-memory [15] 等强化学习方案则将存储的写入与检索形式化为策略优化。通过这些机制，智能体动态地将推理时推理（inference-time reasoning）与学习相结合，在无需全量重训的情况下更新内部表征和决策策略。
**集体多智能体推理（Collective Multi-Agent Reasoning）**将智能从孤立的求解器扩展至协作生态系统。多个智能体不再孤立运行，而是通过明确的角色分配（如管理者-执行者-评论者）、通信协议和共享存储系统协同实现共同目标 [16, 17]。随着智能体在子任务中专业化并相互精炼输出，协作放大了推理的多样性，使系统能够通过基于自然语言的多轮交互进行辩论、解决分歧并达成一致性 [18, 19]。

在所有层次中，我们通过区分两种互补模式来分析系统约束与优化：**上下文推理（In-context Reasoning）**侧重于扩展推理时计算（inference-time compute），通过编排和自适应工作流设计，使智能体在不修改参数的情况下动态导航复杂问题空间；**训练后推理（Post-training Reasoning）**则目标在于能力的内化，通过强化学习和微调将成功的推理模式固化到模型权重中。

综述范围 (Survey Scope)

本综述回顾了推理赋能的智能体系统，其中推理是驱动自适应行为的核心动力。我们通过两种互补的优化模式对这些系统进行分析：

上下文推理（In-context Reasoning）：通过结构化编排与规划扩展推理时交互（inference-time interaction），无需参数更新。
训练后推理（Post-training Reasoning）：通过强化学习与微调将推理策略内化至模型参数中。

我们的研究范围涵盖了将上述模式嵌入规划、存储与自我改进的方法论，跨越了单智能体与多智能体语境。本综述总结了截至 2025 年的研究进展。

这些方法论已开始支撑广泛的实际应用，包括数学探索 [29, 30]、氛围编码（vibe coding）[11, 31, 32]、科学发现 [33, 34, 35]、具身机器人 [36, 37, 38]、医疗保健 [39, 40] 以及自主网络探索 [41, 42]。这些应用揭示了由领域特定数据模态、交互约束及反馈循环所塑造的独特推理需求，从而催生了整合规划、工具使用、搜索、反思、存储机制及多智能体协作的多样化系统设计 [43, 44]。与此同时，评估智能体化推理的基准测试体系也已建立，涵盖了从隔离单个智能体能力的针对性测试，到在领域特定环境和场景中评估端到端行为的应用级基准 [45, 46, 47, 48, 20, 21, 49, 50]。

总之，本综述将智能体化推理方法合成一个统一的路线图，连接了“推理”与“行动”。我们系统地表征了这些方法在基础性、自我演进式及集体推理这三个互补范畴中的表现，并区分了上下文与训练后两种优化模式。我们通过具有代表性的应用与评估基准进一步对该路线图进行实证说明，展示了不同的智能体化推理机制如何在现实领域与任务设置中实例化并接受评估。最后，我们概述了开放性挑战与未来方向，指明了诸如个性化、长程交互、世界建模、可扩展多智能体训练以及现实部署治理框架等关键前沿领域。