谷歌团队突破：让AI代理在资源有限的环境下更聪明地工作

这项由加州大学圣巴巴拉分校的刘腾霄与谷歌云AI研究院、谷歌DeepMind、纽约大学的研究团队共同完成的研究，发表于2025年11月21日的arXiv预印本服务器，论文编号为arXiv:2511.17006v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

在日常生活中，我们经常面临这样的情况：手头的钱有限，需要明智地花费每一分钱来完成购物任务。AI代理也面临类似的挑战，只不过它们的"钱"是计算资源和工具调用次数。研究团队发现了一个有趣的现象：即使给AI代理更多的工具使用"预算"，它们的表现也不会变好，就像给一个不会理财的人更多钱，他们可能还是会乱花一样。

这个问题的核心在于，现有的AI代理缺乏"预算意识"。它们不知道自己还有多少资源可以使用，也不懂得如何根据剩余资源来调整策略。就像一个人购物时不看钱包里还有多少钱，结果要么钱花光了还没买到重要的东西，要么买了一堆不必要的物品。

研究团队针对这个问题开发了两个创新解决方案。第一个是"预算追踪器"，这就像给AI代理装上了一个实时显示剩余预算的小屏幕，让它时刻知道自己还能使用多少次工具。第二个更高级的解决方案叫做BATS（预算感知测试时缩放），这不仅让AI代理知道剩余预算，还教会它如何根据预算情况动态调整工作策略。

为了测试这些方法的效果，研究团队设计了一个统一的成本计量系统，将AI代理的"思考"成本（处理文字的费用）和"行动"成本（使用工具的费用）合并计算，就像把买菜的钱和买肉的钱加起来算总的采购成本一样。这让他们能够公平地比较不同方法的性价比。

实验结果令人振奋。在网络搜索任务中，配备了预算追踪器的AI代理在各种预算限制下都表现得更好。更重要的是，BATS框架能够在使用更少资源的情况下获得更高的准确率。这就像一个精明的购物者，不仅能用更少的钱买到更好的商品，还能根据钱包里的余额灵活调整购买策略。

这项研究的意义远不止于技术层面的突破。在现实应用中，AI代理的资源使用直接关系到运行成本和效率。无论是企业使用AI来处理客户咨询，还是个人使用AI助手来完成日常任务，都需要在有限的计算预算内获得最佳效果。这项研究为构建更加经济高效的AI系统提供了重要的理论基础和实践指导。

一、现有AI代理的"花钱"困境

当我们给孩子零花钱时，有些孩子会很快花光，有些孩子则会精心规划每一分钱的用途。AI代理在使用计算资源时也存在类似的差异。研究团队通过大量实验发现，传统的AI代理就像那些不懂理财的孩子，即使给它们更多的"预算"（工具调用次数），它们也无法有效利用这些额外资源。

这个问题的根本原因是什么呢？AI代理在工作时需要消耗两种主要资源：一种是"思考"资源，用于处理和分析文本信息；另一种是"行动"资源，用于调用外部工具如搜索引擎或浏览网页。就像一个研究员既需要时间来思考问题，也需要预算来购买实验设备一样。

研究团队发现，当前的AI代理缺乏对自身资源消耗的认知能力。它们不知道自己已经用了多少次工具，也不清楚还剩多少"预算"。这导致了两个严重问题：要么代理过早地停止工作，明明还有资源却不继续深入探索；要么代理采用低效的策略，浪费宝贵的资源在不重要的任务上。

为了更好地理解这个问题，研究团队建立了一个数学模型来描述AI代理的测试时缩放行为。他们将问题形式化为一个预算约束优化问题：在给定的工具调用预算内，AI代理需要最大化任务完成的准确率。这就像要求一个厨师在固定的食材预算内做出最美味的菜肴。

研究团队还特别关注了网络搜索代理这一应用场景。这类代理需要使用搜索和浏览工具来回答复杂的信息查询问题。每次搜索查询和网页浏览都会消耗预算，因此如何明智地分配这些调用次数对最终效果至关重要。实验数据显示，在没有预算意识的情况下，代理往往会在答案质量达到平台期后继续消耗资源，却无法获得相应的性能提升。

这种现象在实际应用中造成了巨大的资源浪费。企业在部署AI代理时，往往需要为每次工具调用付费，而低效的资源使用直接转化为更高的运营成本。研究团队认识到，解决这个问题需要从根本上改变AI代理对资源的认知和管理方式。

二、预算追踪器：给AI代理装上"钱包显示器"

研究团队开发的第一个解决方案简单而巧妙，他们称之为"预算追踪器"。这个工具的工作原理就像在AI代理面前放置一个实时更新的预算显示屏，让它时刻知道自己还有多少"钱"可以花。

预算追踪器的设计哲学是"简单有效"。它不需要对现有的AI代理架构进行复杂的修改，而是像一个插件一样可以轻松集成到任何基于ReAct框架的代理系统中。每当代理使用一次工具后，追踪器就会自动更新并显示剩余的预算信息，包括搜索查询次数和网页浏览次数的余额。

这个看似简单的改进带来了显著的效果提升。实验结果显示，仅仅是让AI代理知道自己的预算状况，就能在各种不同的语言模型上持续提升任务完成的准确率。这证明了"预算意识"对AI代理性能的重要性，就像一个消费者知道自己钱包里的余额后会做出更明智的购买决策一样。

更令人惊喜的是预算追踪器在资源效率方面的表现。研究团队发现，配备了预算追踪器的AI代理不仅准确率更高，而且能够用更少的资源达到同样的效果。在某些测试中，使用十分之一预算的追踪器代理就能达到传统代理使用全部预算的准确率水平，同时搜索调用次数减少了40.4%，浏览调用次数减少了21.4%，整体成本降低了31.3%。

预算追踪器还解决了另一个重要问题：资源扩展性。传统的AI代理在达到性能平台期后，即使给予更多预算也无法进一步提升效果，就像给一个已经吃饱的人更多食物也不会让他更满足一样。而配备了预算追踪器的代理能够有效利用额外的预算资源，实现持续的性能改进。

研究团队在三个不同的信息搜索数据集上验证了预算追踪器的效果，包括英文的BrowseComp数据集、中文的BrowseComp-ZH数据集，以及专门测试搜索能力的HLE-Search数据集。在所有测试中，预算追踪器都表现出了一致的改进效果，证明了其方法的普适性和可靠性。

三、BATS框架：AI代理的智能资源管理系统

虽然预算追踪器已经带来了显著的改进，但研究团队并未止步于此。他们开发了一个更加先进的解决方案——BATS（Budget Aware Test-time Scaling，预算感知测试时缩放）框架。如果说预算追踪器是给AI代理装了一个余额显示器，那么BATS就是为代理配备了一个智能的财务规划师。

BATS框架的核心创新在于其动态适应能力。它不仅让AI代理知道剩余预算，更重要的是教会代理如何根据预算情况调整工作策略。就像一个经验丰富的项目经理会根据剩余时间和资源来调整项目计划一样，BATS让AI代理能够在执行过程中灵活地调整其探索深度和验证策略。

BATS框架包含两个关键模块：预算感知规划模块和预算感知自我验证模块。规划模块的工作就像制定一个详细的购物清单，它会根据问题的复杂程度和当前预算来制定行动计划。这个计划不是一成不变的，而是会根据执行过程中获得的新信息和剩余预算的变化进行动态调整。

规划模块采用了一种巧妙的约束分解策略。它将复杂的查询问题分解为两类约束：探索性约束和验证性约束。探索性约束用于扩大候选答案的搜索范围，而验证性约束则用于确认具体的细节。这种分解方式让代理能够更有策略地分配预算，避免过早陷入细节验证而忽略了更广泛的探索。

自我验证模块则像一个质量控制专员，它会在每次代理提出答案时进行严格的检查。更重要的是，这个模块具有预算感知能力，能够根据当前的资源状况决定是继续深入当前方向、转向其他探索路径，还是接受当前答案。这种动态决策机制确保了代理在任何预算约束下都能做出最优的资源分配决策。

BATS框架的验证模块还具有轨迹压缩功能。当代理决定改变策略时，验证模块会将之前的探索过程压缩成简洁的摘要，既保留了有用的信息，又为后续操作释放了上下文空间。这就像一个记录员会将长篇的会议记录精炼成要点摘要，既节省了存储空间，又保留了关键信息。

实验结果显示，BATS框架在各种预算约束下都能实现更好的成本效益平衡。它不仅在准确率上超越了传统方法，更重要的是推进了成本-性能的帕累托前沿，这意味着在任何给定的成本下，BATS都能提供更好的性能，或者在任何给定的性能要求下，BATS都能以更低的成本实现。

四、实验验证：理论与现实的完美结合

为了验证预算感知方法的有效性，研究团队设计了一系列全面而严格的实验。他们选择了三个具有挑战性的信息搜索数据集进行测试，每个数据集都代表了不同类型的复杂查询任务。

BrowseComp数据集包含1266个困难的网络浏览问题，需要代理进行持续的信息检索和推理。这些问题通常涉及多轮搜索和深度的网页内容分析，是测试代理综合能力的理想选择。BrowseComp-ZH数据集则包含289个中文问题，专门测试代理在区域特定网络环境中的表现能力，这对于验证方法的跨语言适用性至关重要。

HLE-Search数据集是从"人类最后考试"中精选出的200个问题，这些问题明确要求通过搜索而非纯推理来解答。这个数据集的设计确保了测试的焦点真正集中在代理的搜索和信息整合能力上，而非其内在的知识储备。

实验设计中最重要的创新之一是统一成本度量系统的引入。传统的评估方法往往只关注任务准确率，而忽略了达成这种准确率所需的资源成本。研究团队开发的统一成本度量将代理的"思考"成本（令牌处理费用）和"行动"成本（工具调用费用）合并计算，就像计算一次完整旅行的总费用需要包括交通、住宿和餐饮所有开销一样。

这种成本计算方式的精妙之处在于它考虑了代理运行的所有经济成本。令牌成本根据不同类型（输入、输出、缓存命中）采用了差异化定价，工具调用成本则基于实际的API服务定价。这样的设计确保了实验结果与实际部署环境的经济现实高度一致。

实验结果令人印象深刻。在严格的预算约束下（每种工具100次调用），BATS框架在所有测试数据集上都显著超越了基线方法。使用Gemini-2.5-Pro模型时，BATS在BrowseComp上达到了24.6%的准确率，在BrowseComp-ZH上达到了46.0%，在HLE-Search上达到了27.0%。这些数字不仅代表了绝对性能的提升，更重要的是它们是在没有任何特定任务训练的情况下实现的。

早期停止实验提供了另一个有趣的视角。当允许代理在找到满意答案时提前结束而不必耗尽所有预算时，BATS表现出了更加智能的资源管理能力。它能够根据问题的复杂程度和当前进展动态调整资源使用，在简单问题上快速得出答案，在复杂问题上投入更多资源进行深入探索。

消融研究进一步验证了BATS各个组件的重要性。移除规划模块会导致中等程度的性能下降，而移除验证模块则会造成更显著的影响，特别是在BrowseComp数据集上准确率从18.7%下降到15.4%。这表明验证模块在帮助代理准确评估当前进展和做出明智的资源分配决策方面发挥了关键作用。

五、方法论创新：从并行到序贯的全面覆盖

研究团队不满足于单一的测试方式，他们系统地探索了两种主要的测试时缩放范式：序贯缩放和并行缩放。这种全面的方法论确保了预算感知方法的普适性和稳健性。

序贯缩放就像一个学生反复修改作文直到满意为止。在这种方式下，AI代理会在给出初始答案后被要求重新审视问题，利用剩余预算进行更深入的探索和验证。研究团队采用了"预算强制"策略，当代理试图给出答案时，系统会提醒它还有剩余预算，鼓励其进行更全面的信息收集。

传统代理在序贯缩放中很快就会遇到性能天花板，即使给予更多预算也无法突破。这就像一个已经江郎才尽的作家，给他更多时间也写不出更好的内容。相比之下，配备预算追踪器的代理能够持续利用额外资源实现性能提升，展现出更好的扩展曲线和成本效益比。

并行缩放采用了完全不同的策略，它就像同时雇佣多个研究员独立工作，然后综合所有人的发现得出最佳答案。在这种模式下，代理会在固定预算下运行多个独立的推理过程，然后通过投票机制或最佳选择策略来确定最终答案。

研究团队实现了多种聚合策略来处理并行运行的结果。多数投票就像民主选举，选择得票最多的答案作为最终结果。最佳选择策略则更像专家评审，由判断模型评估所有候选答案并选出最优解。Pass@N指标则计算在N次尝试中至少有一次正确的概率，这对于评估代理的可靠性特别有价值。

并行缩放的实验结果同样证明了预算感知方法的优势。在所有并行运行数量和成本水平下，配备预算追踪器的代理都始终保持更优的性能曲线。这种一致性表明预算感知不仅在单一运行中有效，在多重运行的复杂场景中同样能够提供显著的改进。

特别值得注意的是，研究团队发现不同的缩放策略适用于不同的应用场景。序贯缩放更适合对准确性要求极高的场景，因为它允许代理在单一问题上投入大量资源进行深度探索。并行缩放则更适合需要快速响应的场景，因为它可以通过并行处理来降低单次查询的延迟。

六、技术实现细节：从理论到实践的桥梁

将理论框架转化为实际可用的系统需要解决许多技术挑战。研究团队在实现过程中展现了极高的工程水平和实用主义精神。

在模型选择方面，研究团队使用了三个代表性的大型语言模型：Gemini-2.5-Flash、Gemini-2.5-Pro和Claude-Sonnet-4。这种多模型验证策略确保了结果的普适性，就像在不同品牌的汽车上测试新型燃油添加剂一样。为了保证实验的公平性，团队对所有模型都采用了相同的参数设置和评估标准。

上下文管理是实现过程中的一个重要挑战。AI代理在执行复杂任务时会积累大量的历史信息，就像一个侦探的案件档案会越来越厚。为了防止上下文长度失控，研究团队采用了几种巧妙的策略：每次浏览网页时将内容截断到合理长度，只保留最新的工具响应而丢弃历史输出，在验证模块中用简洁摘要替换详细轨迹。

工具集成方面，研究团队使用了Google自定义搜索API进行网络搜索，使用Jina.ai和Crawl4AI进行网页内容抓取。这些选择都基于实际部署的考虑，确保了实验环境与真实应用场景的一致性。

成本计算的精确性对于验证预算感知方法的有效性至关重要。研究团队建立了基于实际API定价的成本模型，将搜索和浏览调用的单次费用设定为0.001美元，这个数字是基于大量实验数据的统计平均值。令牌消耗则严格按照各个模型提供商的官方定价计算，确保了成本分析的真实性和可信度。

为了处理实验中的随机性和确保结果的可重现性，研究团队采用了严格的实验控制措施。在代理执行过程中使用0.7的温度参数来鼓励探索性行为，在最终答案选择和评估时使用0.0的确定性温度以确保结果的一致性。所有实验都进行了多次重复，并报告了平均结果。

评估方法的设计也体现了研究团队的深思熟虑。他们使用Gemini-2.5-Flash作为判断模型来评估答案的正确性，并采用了来自Human's Last Exam项目的评估提示词。这种自动化评估方法不仅提高了评估效率，还确保了评估标准的一致性和公正性。

说到底，这项研究最令人兴奋的地方在于它解决了一个既实用又深刻的问题。在AI技术日益普及的今天，如何让AI系统更加经济高效地完成任务不再只是技术问题，更是关系到AI技术能否真正普及到普通人生活中的关键因素。研究团队通过简单而巧妙的预算感知机制，让AI代理学会了"精打细算"，这不仅提升了技术性能，更重要的是为AI技术的大规模应用扫除了经济障碍。

这项研究的另一个重要意义在于它为AI代理的设计思路提供了新的启发。传统的AI代理设计往往专注于在无限资源假设下优化性能，而这项研究证明了在现实的资源约束下，AI代理同样可以表现得非常出色，甚至更好。这种设计哲学的转变可能会影响未来AI系统的发展方向，推动更多研究者关注实用性和经济性的平衡。

归根结底，这项研究展示了AI技术发展的一个重要趋势：从追求绝对性能向追求性价比的转变。在计算资源有限、部署成本敏感的现实世界中，能够智能管理资源的AI系统将具有更大的实用价值和更广阔的应用前景。研究团队的工作为构建这样的智能系统提供了理论基础和实践指导，为AI技术的普及和应用开辟了新的道路。有兴趣的读者可以通过arXiv:2511.17006v1查询完整的技术细节和实验数据。

Q&A

Q1：预算追踪器是如何工作的？

A：预算追踪器就像给AI代理安装了一个实时的预算显示屏，让它时刻知道还有多少工具调用次数可以使用。每次代理使用搜索或浏览工具后，追踪器会自动更新并显示剩余预算，帮助代理根据资源状况调整策略。

Q2：BATS框架比普通AI代理好在哪里？

A：BATS框架不仅让AI代理知道预算余额，还教会了它如何根据预算情况智能调整工作策略。它包含规划和验证两个模块，能够动态决定是继续深入探索还是转向新方向，就像一个经验丰富的项目经理会根据剩余时间和资源调整计划一样。

Q3：这项研究对普通用户有什么实际意义？

A：这项研究让AI助手变得更加经济高效，意味着企业和个人使用AI服务的成本会降低，同时获得更好的效果。就像手机变得更省电但功能更强大一样，这种技术进步最终会让AI服务更便宜、更普及，普通人也能更容易地享受到高质量的AI助手服务。