Anthropic深度解析:AI智能体评估完全指南,从入门到实践

Anthropic团队详解AI智能体评估体系,强调评估对提升AI系统可靠性的关键作用。文章系统介绍了评估结构、评分器类型及针对不同智能体(编码、对话、研究、计算机使用)的评估方法,并提出处理非确定性的pass@k和pass^k指标。通过从零到一的评估路线图,指导团队如何尽早构建评估体系,结合自动化评估、生产监控和人工审查等多层次方法,确保AI智能体质量与持续改进。


Anthropic发布了一篇blog《揭秘AI Agents评估》,细节满满!

原文略微有点长,整理了一张脑图,要点精髓:

良好的评估evaluations)能帮助团队更有信心地发布AI智能体没有评估,很容易陷入被动循环——只在生产环境中发现问题,修复一个故障又会引发其他问题。评估能在问题影响用户之前让问题和行为变化变得可见,其价值在智能体的整个生命周期中不断累积。

通过Anthropic内部工作以及与处于智能体开发前沿的客户合作,已经学会了如何为智能体设计更严格和有用的评估:

一、评价的结构

评估(“eval”)是对AI系统的测试:给AI一个输入,然后对其输出应用评分逻辑来衡量成功。在本文中,我们专注于自动化评估,可以在开发过程中无需真实用户即可运行。

单轮评估很简单:一个提示、一个响应和评分逻辑。对于早期的LLM,单轮、非智能体评估是主要的评估方法。随着AI能力的提升,多轮评估变得越来越常见。

在简单的评估中,智能体处理一个提示,评分器检查输出是否符合预期。对于更复杂的多轮评估,编码智能体接收工具、任务(在此案例中是构建MCP服务器)和环境,执行"智能体循环"(工具调用和推理),并用实现更新环境。然后使用单元测试来验证工作的MCP服务器。

智能体评估更加复杂。智能体在多轮中使用工具,修改环境中的状态并进行适应——这意味着错误可能会传播和累积。前沿模型还能找到超越静态评估限制的创造性解决方案。例如,Opus 4.5通过发现政策中的漏洞解决了一个τ2-bench关于预订航班的问题。它"未能"通过所写的评估,但实际上为用户提出了更好的解决方案。

在构建智能体评估时,使用以下定义:

任务(也称为问题或测试用例)是具有定义输入和成功标准的单个测试。

每个任务的尝试是一个试验。由于模型输出在运行之间会有所不同,我们运行多个试验以产生更一致的结果。

评分器是对智能体某些方面表现进行评分的逻辑。一个任务可以有多个评分器,每个评分器包含多个断言(有时称为检查)。

记录(也称为跟踪轨迹)是试验的完整记录,包括输出、工具调用、推理、中间结果和任何其他交互。对于Anthropic API,这是评估运行结束时完整的messages数组——包含评估期间对API的所有调用和所有返回的响应。

结果是试验结束时环境的最终状态。预订航班的智能体可能在记录结束时说"您的航班已预订",但结果是在环境的SQL数据库中是否存在预订。

评估框架是端到端运行评估的基础设施。它提供指令和工具,并发运行任务,记录所有步骤,对输出进行评分,并汇总结果。

智能体框架(或脚手架)是使模型能够作为智能体运行的系统:它处理输入,编排工具调用,并返回结果。当我们评估"一个智能体"时,我们是在评估框架模型一起工作。例如,Claude Code是一个灵活的智能体框架,我们通过Agent SDK使用其核心原语来构建我们的长运行智能体框架。

评估套件是为测量特定能力或行为而设计的任务集合。套件中的任务通常共享广泛的目标。例如,客户支持评估套件可能测试退款、取消和升级。

二、为什么要构建评估?

初期靠手动测试和直觉可快速推进智能体,但上线后若无评估,团队只能被动等投诉,难辨回归与噪声。早期或规模化阶段引入评估,都能明确成功定义、自动覆盖百种场景、加速迭代。Claude Code、Descript、Bolt AI的实践显示:评估指导研究-产品协作、支持 A/B 测试与成本基线,并助团队在新模型发布数天而非数周内完成升级,长期收益远超前期投入。

三、如何评估AI智能体

展示几种智能体类型的成熟技术

智能体评分器类型

智能体评估通常结合三种类型的评分器:基于代码的、基于模型的和人类。每个评分器评估记录或结果的某些部分。有效评估设计的重要组成部分是为工作选择合适的评分器。

基于代码的评分器

基于模型的评分器

人类评分器

对于每个任务,评分可以是加权的(组合评分器分数必须达到阈值)、二进制的(所有评分器必须通过)或混合的。

能力与回归评估

能力评估聚焦“能做什么”,从低通过率起步,推动团队挑战难题。回归评估确保“仍能做旧任务”,通过率应近100%,防止倒退。能力评估达标后可转为回归套件,持续监控漂移,从“能否做到”转为“是否仍可靠”。

评估编码智能体

编码智能体写、测、调代码,评估依赖明确任务与稳定测试。SWE-bench Verified用GitHub问题+测试评分,通过率一年从40%升至80%。Terminal-Bench测构建内核等任务。除结果测试,还可评代码质量与行为记录,确保工具调用与交互规范。

评估对话智能体

对话智能体在支持、销售等场景交互,需评状态维护、工具使用与语气。成功维度含状态达成、轮次控制与语气合规。τ-Bench与τ2-Bench模拟多轮交互,一模型扮用户,一模型扮智能体,评任务完成与交互质量,覆盖零售、航空等场景。

评估研究智能体

研究智能体收集、综合、输出信息,质量依赖上下文:市场扫描、尽调、科研标准各异。评估需结合基础检查、覆盖验证、来源质量与连贯性评分。BrowseComp测“大海捞针”式搜索。LLM评分需与专家校准,确保综合全面、来源权威、结论可信。

计算机使用智能体

计算机使用智能体通过GUI操作软件,评估需在真实或沙盒环境中验证结果。WebArena测浏览器任务,查URL与后端状态;OSWorld扩展至操作系统级,评文件、配置、数据库与UI变化。需平衡令牌效率与延迟,选DOM或截图交互,确保任务准确完成。

如何思考智能体评估中的非确定性

无论智能体类型如何,智能体行为在运行之间都会有所不同,这使得评估结果比最初看起来更难解释。每个任务都有自己的成功率——一个任务可能是90%,另一个任务可能是50%——而在一次评估运行中通过的任务可能在下次失败。有时,我们想要测量的是智能体多频繁(试验成功的比例)成功完成一个任务。

两个指标有助于捕捉这种细微差别:

pass@k衡量智能体在k次尝试中至少获得一个正确解决方案的可能性。随着k的增加,pass@k分数上升——更多的"射门次数"意味着至少一次成功的几率更高。50%的pass@1分数意味着模型在第一次尝试时成功完成了一半的评估任务。在编码中,我们通常最关心智能体在第一次尝试时找到解决方案——pass@1。在其他情况下,提出许多解决方案是有效的,只要有一个有效。

**passk**衡量**所有k次试验**成功的概率。随着k的增加,passk下降,因为要求在更多试验中保持一致是更难达到的标准。如果您的智能体每次试验成功率为75%,并且您运行3次试验,通过所有三次的概率是(0.75)³ ≈ 42%。这个指标对于用户期望可靠行为的面向客户智能体尤其重要。

随着试验次数的增加,pass@k和passk出现分歧。在k=1时,它们是相同的(都等于每次试验的成功率)。到k=10时,它们讲述了相反的故事:pass@k接近100%,而passk下降到0%。

两个指标都很有用,使用哪个取决于产品要求:对于工具一次成功重要的用pass@k,对于一致性至关重要的智能体用pass^k。

四、从零到一:通往优秀智能体评估的路线图

收集初始评估数据集的任务

  • 第0步:尽早开始
  • 20–50个真实失败案例即可起步;拖得越久越难补。
  • 第1步:从现成手动测试与工单里挖用例
  • 按用户影响排序,直接转成任务。
  • 第2步:写“双专家可复判”的明确任务
  • 模糊规范=噪声;0%通过率先查任务/评分器,而非模型。
  • 第3步:正负样本平衡
  • 只测“该做”会过度优化;同步覆盖“不该做”场景。

设计评估框架和评分器

  • 第4步:隔离干净环境
  • 禁残留文件/缓存/资源泄漏,防止“git偷看”类假阳性。
  • 第5步:评结果不评路径
  • 多给部分分;LLM-as-judge须与人拉齐,留“未知”出口;防阈值/格式等评分 Bug。

长期维护和使用评估

  • 第6步:定期读日志
  • 确认失败公平,排除评分器甩锅。
  • 第7步:监控饱和
  • 分数>80%时换更难任务,避免“小步美化”掩盖真实提升。
  • 第8步:持续贡献与所有权
  • 核心 infra 归评估团队,业务方像写单元测试一样提任务;PR 式开放提交,评估先行再开发。

评估如何与其他方法配合,全面了解智能体

自动化评估可以在不影响生产环境或影响真实用户的情况下,针对智能体运行数千个任务。但这只是了解智能体性能的众多方法之一。完整的图景包括生产监控、用户反馈、A/B测试、手动记录审查和系统的人工评估。

了解AI智能体性能的方法概述

这些方法映射到智能体开发的不同阶段。自动化评估在发布前和CI/CD中特别有用,在每次智能体更改和模型升级时作为抵御质量问题的第一道防线运行。生产监控在发布后启动,以检测分布漂移和未预料到的现实世界故障。A/B测试在您有足够流量时验证重大更改。用户反馈和记录审查是填补空白的持续实践——不断分类反馈,每周抽样阅读记录,并根据需要深入挖掘。保留系统的人工研究,用于校准LLM评分器或评估主观输出,其中人类共识作为参考标准。

与安全工程中的[瑞士奶酪模型]一样,没有单一的评估层能捕捉到每个问题。结合多种方法,一个层漏掉的故障会被另一个层捕捉到。

最有效的团队结合这些方法——用于快速迭代的自动化评估、用于真相的生产监控,以及用于校准的定期人工审查。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1196439.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python Chroma 相关命令

Python Chroma 相关命令 @echo offtitle Jupyter Notebook - 无密码模式echo 正在启动 Jupyter Notebook(无密码)... REM 设置环境call conda activate chroma-env REM 启动 Jupyter(禁用 token)jupyter notebook…

DeepSeek Engram模块:大语言模型条件记忆架构创新与系统优化全解析

DeepSeek发布的Engram模块通过创新"条件记忆"架构,为大语言模型开辟稀疏化新维度。技术方面,实现O(1)静态记忆查找,引入词表压缩与多头哈希,支持计算存储解耦与硬件协同优化。性能上,Engram-27B在知识任务、…

完整教程:手机也能当服务器?用Termux轻松实现手机等于服务器

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

人群仿真软件:Legion_(15).Legion的数据分析与报告

Legion的数据分析与报告 在人群仿真软件Legion中,数据分析与报告是至关重要的环节。通过有效的数据分析,可以评估仿真结果的准确性、验证模型的有效性,并为决策提供科学依据。本节将详细介绍Legion中的数据分析与报告功能,包括数…

人群仿真软件:Legion_(15).Legion社区与支持资源

Legion社区与支持资源 社区支持 在进行人群仿真软件Legion的二次开发过程中,社区支持是一个非常重要的资源。Legion社区不仅提供了大量的文档和教程,还有活跃的论坛和用户群,可以帮助开发者解决各种技术问题。以下是一些获取社区支持的途径…

项目管理系统采购怎么做预算才不容易超支

要想项目管理系统采购不易超支,关键是以总拥有成本(TCO)为核心制定可落地的分层预算,并用“范围冻结里程碑放款风险预备金”三件套管理不确定性。建议将预算拆分为许可/订阅、实施/集成、培训/变更、运维与合规四层,设…

RAG知识库冷启动:从零构建高质量问答对(建议收藏)

文章详细介绍RAG知识库的冷启动策略,重点在于将文档内容转化为高质量问答对,以跨越用户口语化提问与文档结构化内容之间的鸿沟。提供了从网页、文档和图片中抽取FAQ并补充相似问法的完整流程,包括合理的分段策略、结构化提示词设计和人工复核…

人群仿真软件:Legion_(16).Legion的优化技巧

Legion的优化技巧 1. 提高仿真速度 1.1 并行计算 Legion仿真软件支持并行计算,这可以显著提高仿真速度,尤其是在处理大规模人群仿真时。并行计算的核心思想是将任务分解为多个子任务,每个子任务由不同的处理器或线程并行执行,最…

AI论文助手Top8:详细解析平台写作能力及降重技术,智能化需求响应

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优…

全网最全自考必备TOP8 AI论文软件测评

全网最全自考必备TOP8 AI论文软件测评 2026年自考AI论文工具测评:为何需要这份全面榜单? 随着人工智能技术的不断进步,越来越多的自考生开始借助AI论文软件提升写作效率、优化内容质量。然而,市面上的工具种类繁多,功…

AI大模型开发完整学习路线与实战资源分享_转行AI大模型开发难吗?需要学些什么?怎么学才能找到工作?

本文系统介绍AI大模型开发学习路径,涵盖基础理论、Python编程、数据处理、深度学习框架及模型训练部署等核心知识。作者提供7阶段学习路线图,包含视频教程、实战项目、开发工具和面试资料等丰富资源,帮助学习者从零基础掌握技能,顺…

设置XRefreshView下拉刷新头的背景色为透明色

今天在做小应用的时候,发现了一个棘手的问题,我想要去设置XRefreshView下拉刷新头的背景色为透明色,问了Qoder之后,他给我的建议如下:1.new 一个新的头2.设置该对象的背景色为透明色// 创建标准的XRefreshViewHeader X…

2026年大模型从技术狂欢到真实落地的完全指南

文章总结了2025年大模型从技术到落地的转变,分享了Dify部署、RAGFlow知识库构建等实践经验,并指出实际应用中面临的效果、工程、成本和业务问题。作者计划在2026年通过真实调研了解大模型应用现状和痛点,提供可复现的工程实战、架构方案、优化…

2026 Kimi平台优化TOP5 GEO服务商推荐——综合实力强的GE服务商锚定AI 搜索破局核心

聚焦Kimi优化GEO服务商核心能力 甄选综合实力强的 GEO 服务商标杆 2026年,AI原生搜索已成为流量核心入口,GEO(生成式引擎优化)不再是营销增效的可选工具,而是企业数字化生存的刚需能力。从AI搜索排名优化、AI SEO…

260110A 网格图

给定一个 \(n\times m\) 的网格图和 \(q\) 个关键点。要求以每个关键点为中心分别放置一个 L 形。要求每个格子至多被覆盖一次。求合法方案数。 L 形: .@. .@. ... ... .#@ @#. .#@ @#. ... ... .@. .@.\[q,n\times m…

大模型开发者必看:从RAG到Agent Memory,收藏这篇技术演进史

文章详细阐述了大模型应用记忆技术的三阶段演进:从只读的原始RAG,到动态决策的Agentic RAG,再到具备读写能力的Agent Memory。Agent Memory通过引入写入工具,使AI能够存储、检索和编辑信息,实现自我学习与个性化&#…

2026最新草本防脱洗发水_草本防脱精华_强韧固发洗发水_强韧柔顺洗发水_清爽控油蓬松洗发水品牌首选推荐珍妮诗:专注头皮健康,26年国货品牌实力之选.

在头皮护理意识日益觉醒的当下,防脱固发、控油蓬松等细分需求持续升温,选择兼具安全性与功效性的洗护产品成为消费者关注焦点。2026年,历经26年市场沉淀的国内个护品牌珍妮诗,凭借其科学的防脱方案、丰富的产品矩阵…

导师严选8个AI论文软件,MBA论文写作必备!

导师严选8个AI论文软件,MBA论文写作必备! AI 工具如何助力论文写作? 在当今快节奏的学术环境中,MBA 学生和研究者们面临着日益繁重的论文写作任务。传统写作方式往往耗时费力,而 AI 工具的出现则为这一过程带来了全新…

WIN10自动启动aa.exe

开始--运行:shell:startup 打开:C:\Users\admin\AppData\Roaming\Microsoft\Windows\Start Menu\Programs\Startup 将目标文件复制到此位置即可