【AI开发必备】大模型Agent评估全攻略:从编码到对话,保姆级教程让你少走90%弯路!

揭秘 AI 代理的评估 - 多种Agent的评估方法

前言:

在上一篇文章中,我们只是介绍了Agent评估常用的方法,没有具体的案例,本文中是具体的几种Agent类型的评估方法,编码Agent、研究搜索Agent、对话聊天Agent、计算机操作Agent等

一、评估编码 Agent 的方法

编码 Agent 的主要任务:编写、测试和调试代码,像人类开发者一样在代码库中检索浏览,所以编码 Agent 是依赖于明确指定的任务,根据这一点,我们可以知道:确定性评分器非常适合编码 Agent

🌴第一方面的评估要点是:代码能否运行、测试是否通过

这里介绍两种编程基准

  1. SWE-bench Verified
  2. Terminal-Bench

1、Terminal-Bench 这个的理解就是:其不是修复单一的编译错误,而是完成整个编译过程,这个就是端到端的测试,从开始到结束,例如:部署 Web 应用、从零搭建 Mysql 数据库
2、SWE-bench Verified 是一种“单元测试”,常规的使用方法:

  • • 给 Agent 一个真实的问题
  • • Agent 开始编写修复代码
  • • 运行测试套件,保证 Agent 编写的修复代码可以通过测试

🌴第二方面的评估要点是:Agent 的工作过程是否合理高效

当你有了测试案例集|测试函数来验证编码 Agent 执行的任务的结果的时候,评估编码 Agent 的工作过程也是很有用的,不仅要单一的评估测试结果是否通过,也要观察评估完成任务的过程是否合理以及优雅

这个时候有两种额外的评估方法

    1. 基于启发式规则的代码质量评估:也就是用代码规则来检查代码质量,而不是只看测试结果
  • • 代码的复杂度
  • • 代码的重复率
  • • 命名的规范
  • • 安全漏洞
  • • 性能问题
  • • 代码的可读性
    1. 基于模型的行为评估:用 大模型去评估 Agent 的执行任务的中间过程,也就是行为

例如:任务 A - 查询数据库中的用户信息

AgentA 的做法:直接查询所有用户的信息,在内存中进行过滤
AgentB 的做法:用 where 语句条件查询用户信息,最后返回需要的数据

在这种情况下,虽然 A 与 B 都完成了任务,但是 AgentB 其实是做得更好的,更符合规范的

🌟结论:编码 Agent 的评估,要评估两个主要方向,编码 Agent 的执行结果和执行过程

案例:这是一个完整的案例,实际使用的时候可以动态调整,不必全部都有

task: id: "fix-auth-bypass_1" # 任务ID:修复认证绕过漏洞_1 desc: "修复当密码字段为空时的认证绕过漏洞..." graders: # 评分器 - type: deterministic_tests # 确定性测试 required: - test_empty_pw_rejected.js # 拒绝空密码的测试 - test_null_pw_rejected.js # 拒绝null密码的测试 - type: llm_rubric # LLM评分标准 rubric: prompts/code_quality.md # 代码质量评分提示词文件 - type: static_analysis # 静态代码分析 commands: - eslint # 代码风格检查 - tsc # TypeScript类型检查 - type: state_check # 状态检查 expect: security_logs: event_type: "auth_blocked" # 期望安全日志中有认证阻止事件 - type: tool_calls # 工具调用检查 required: - tool: read_file params: path: "src/auth/*" # 读取认证代码 - tool: edit_file # 编辑文件 - tool: run_tests # 运行测试 tracked_metrics: # 追踪指标 - type: transcript # 对话记录指标 metrics: - n_turns # 对话轮数 - n_toolcalls # 工具调用次数 - n_total_tokens # 总token消耗 - type: latency # 延迟指标 metrics: - time_to_first_token # 首token时间 - output_tokens_per_sec # 输出速度(tokens/秒) - time_to_last_token # 总完成时间

二、评估对话 Agent 的方法

对话代理在与用户互动时,涉及支持、销售或辅导等领域。与传统聊天机器人不同,它们会保持状态、使用工具,并在对话中途采取行动。

虽然编程和研究代理也可能涉及与用户的多次互动,但对话代理呈现出一个独特的挑战:互动本身的质量也是你评估的一部分

对话代理的有效评估通常依赖于可验证的最终状态结果和能够捕捉任务完成与互动质量的评分标准。

与其他大多数评估不同,它们通常需要第二个 LLM 来模拟用户。我们使用这种方法在我们的对齐审计代理中,通过长时间的对抗性对话来测试模型。

🌴 第一方面的评估要点:可验证的最终状态,也就是对话 Agent 最终要完成的任务,例如:客服退款、修改收货地址、生成报价单等

🌴 第二方面的评估要点:相比其他类型 Agent 的独特的挑战:互动本身的质量也是你评估的一部分

例如:场景 - 客服退款

Agent A:

用户:“我要退款”

Agent:“订单号?”

用户:“12345”

Agent:“已退款”

任务完成 但态度生硬

Agent B:

用户:“我要退款”

Agent:“很抱歉给您带来不便。请问是哪个订单呢?”

用户:“12345”

Agent:“我查到了您的订单,符合退款条件。我现在为您处理,预计3-5个工作日到账。还有其他需要帮助的吗?”

任务完成 交互体验好

结论:所以对话 Agent 的评估标准是:最终状态验证 + 交互质量的评估

一个对话 Agent 是否有效的标准可以是多维度的:

    1. 用户的问题和诉求是否解决(状态检查)、
    1. 是否在 10 轮对话中完成(文本上下文的约束)、
    1. 语气是否恰当(LLM 来评估)

有两个多维度的测试基准,其模拟了零售支持和航空预订等领域的多轮交互,其中使用了一个 LLM 扮演用户角色,这两个测试基准:𝜏-Bench 及其后续版本τ2-Bench

在开发类似场景和领域的客服对话 Agent,可以使用这两个测试基准来评估自己开发的 Agent 是否有效

一个测试评估案例,对话 Agent 处理沮丧用户的退款

graders: # 1. LLM评分标准 - type: llm_rubric rubric: prompts/support_quality.md # 客服质量评分提示词文件 assertions: # 列出来的评分的重点角度 - "Agent对客户的沮丧表现出同理心" - "解决方案被清晰地解释" - "Agent的回复基于fetch_policy工具的结果" # 2. 状态检查 - type: state_check expect: # 期望的最终状态 tickets: status: resolved # 工单状态:已解决 refunds: status: processed # 退款状态:已处理 # 3. 工具调用检查 - type: tool_calls required: # 必须调用的工具 - tool: verify_identity # 验证身份 - tool: process_refund # 处理退款 params: amount: "<=100" # 金额必须 ≤ 100 - tool: send_confirmation # 发送确认 # 4. 对话记录约束 - type: transcript max_turns: 10 # 最大对话轮数:10轮tracked_metrics: # 追踪指标 # 1. 对话记录指标 - type: transcript metrics: - n_turns # 对话轮数 - n_toolcalls # 工具调用次数 - n_total_tokens # 总token消耗 # 2. 延迟指标 - type: latency metrics: - time_to_first_token # 首token时间 - output_tokens_per_sec # 输出速度(tokens/秒) - time_to_last_token # 总完成时间

三、评估研究 Agent 的方法

研究 Agent 的主要任务是:研究代理收集、综合和分析信息,然后产生输出,如答案或报告

该 Agent 的评估无法类似于编码 Agent 单元测试那么确定,研究 Agent 的输出质量的评估只能是相对任务进行判断,主要是:

  • • 全面的搜索和研究
  • • 有良好的且正确的来源

并且不同领域的任务,评估的标准也是不一样的,例如:市场研究和技术调研是需要不同的标准

研究 Agent 评估面临独特挑战:专家可能对综合是否全面存在分歧,真实情况会随着参考内容不断变化,而更长、更开放式的输出会为错误创造更多空间

比较有名的测试基准是:BrowseComp

这样的基准测试 AI 代理能否在开放网络中找到针子——这些问题设计得容易验证但难以解决

BrowseComp 是 OpenAI 发布的一个 AI 代理浏览能力基准测试,专门评估 AI 能否在开放网络中找到"难以发现"的信息。但是答案非常好验证,一般都是一个词或短语,方便开发者进行评估

例如: “在悉尼歌剧院附近的植物园里有一座铜雕塑,雕塑中的男人手里拿着什么物体?”

这个问题需要:

  1. 定位悉尼歌剧院附近的植物园

  2. 找到该植物园的铜雕塑信息

  3. 识别雕塑细节(男人手持物体)

所以构建研究 Agent 的评估的一般方式是:组合多种评分器类型

    1. 基础性检查:检查验证每一个声明都有来源支持吗?
    1. 覆盖性检查:来源里面的关键信息都包含了吗?都使用了吗?
    1. 来源质量检查:引用的资料是否权威,不能因为在网络搜索排名第一就使用它

我们使用一个例子来说明这三种检查的主要方向:

研究Agent的评估

四、评估计算机使用 Agent 的方法

计算机使用 Agent 通过与人类相同的界面与软件交互

  • • 屏幕截图
  • • 鼠标点击
  • • 键盘输入和滚动

而不是通过 API 或代码执行和软件交互,计算机 Agent 可以使用任何带有图像用户界面的程序

那么评估这种类型的 Agent,不仅仅是评估界面是否出现,还要评估软件后面的逻辑是否正确执行,例如:

    1. WebArena 测试基于浏览器的任务,使用 URL 和页面状态检查来验证代理是否正确导航,同时对修改数据的任务进行后端状态验证(确认订单确实已下单,而不仅仅是确认页面出现了)
    1. OSWorld 将此扩展到完整的操作系统控制,评估脚本在任务完成后检查各种产物:文件系统状态、应用程序配置、数据库内容和 UI 元素属性

🌟这一个设计思路非常重要,引用官方原文:

浏览器使用代理需要在 token 效率和延迟之间取得平衡。基于 DOM 的交互执行速度快但消耗大量 token,而基于屏幕截图的交互速度较慢但 token 效率更高。
例如,当要求 Claude 总结维基百科时,从 DOM 中提取文本更高效。当在亚马逊上寻找新笔记本电脑保护套时,截图更高效(因为提取整个 DOM会消耗大量 token)。在我们的 Claude for Chrome 产品中,
我们开发了评估方法来检查代理是否为每个场景选择了正确的工具。这使我们能够更快、更准确地完成基于浏览器的任务

如果要开发一个浏览器的 Agent,那么在执行的行为中可以考虑这个方向:操作 DOM 还是网页截图

    1. 如果网页的文本较多,那么直接读取 DOM 元素回更加的高校,并且信息密度很大,无用的网页标签会大大减少
    1. 如果网页的 DOM 很多,文本信息非常的分散,典型的就是电商网站,商品推荐任务,可以考虑截图,截图会更高效和清晰

五、总结

无论智能体类型如何,智能体行为在每次运行中都会变化,这使得评估结果比最初看起来更难解释。

每个任务都有其自身的成功率可能在某个任务上达到 90%,在另一个任务上只有 50% 一个在某个评估运行中通过的任务,在下一个运行中可能会失败。

有时,我们想要测量的是智能体在某个任务上成功的频率(即试验的比例)

有两个指标有助于捕获这种细微的差异:

1、pass@k 衡量代理在 k 次尝试中至少获得一个正确解决方案的可能性。

🌟 随着 k 的增加,pass@k 分数会上升——更多的“射门机会”意味着至少 1 次成功的几率更高。

50% 的 pass@1 分数意味着模型在评估中第一次尝试就成功完成了半数任务。在编程中,我们通常最关心代理第一次就找到解决方案——pass@1。在其他情况下,只要有一个解决方案有效,提出许多解决方案也是可以的。

例如: pass@3 的案例解释

总共有 5 个任务,在 3 次机会里面至少成功一次的有 3 个任务,所以 pass@3 = 60%,可以注意到在任务三中,Agent 在第四次机会执行成功了,但是不作为 pass@3 的判断标准里面了,所以无效

2、pass^k 衡量所有 k 次试验成功的概率。

🌟 随着 k 的增加,pass^k 会下降,因为要求在更多试验中保持一致性是一个更难达到的标准。

如果你的代理每次试验的成功率为 75%,而你运行了 3 次试验,那么全部 3 次试验成功的概率是 (0.75)³ ≈ 42%。这个指标对于面向用户的代理尤其重要,因为用户期望每次都能获得可靠的行为

这两个指标可以作为捕获 Agent 的差异,

    1. 一个表示可用性,pass@k,说明 Agent 的潜力是多少,给足够的机会,它可以做些什么,它的边界在哪里
    1. 一个表示稳定性,pass^k 说明Agent 有多可靠,衡量这个 Agent 在任务中的靠谱性

随着试验次数的增加,pass@k 和 pass^k 出现分化。在 k=1 时,它们是相同的(都等于每次试验的成功率)。到 k=10 时,它们呈现出截然相反的情况:pass@k 接近 100%,而 pass^k 降至 0%。

两种指标都很有用,使用哪种取决于产品需求:对于工具,一个成功就很重要,使用 pass@k;对于代理,一致性是关键,使用 pass^k。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184356.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

赋能企业健康服务升级—HealthAI开放平台的全链路技术解决方案

在数字化浪潮与健康需求升级的双重驱动下&#xff0c;健康管理正从传统模式向AI精准服务转型。企业对专业化、场景化的数字化健康管理产品需求日益迫切&#xff0c;健康有益HealthAI健康云开放平台以垂直领域深耕优势&#xff0c;为ToB客户提供全链路AI健康管理解决方案&#x…

【收藏必看】AI Agent核心组件深度解析:从记忆、工具到规划,构建智能体全攻略

文章详细介绍了AI Agent的定义与三大核心组件&#xff1a;记忆系统&#xff08;短期与长期记忆&#xff09;、工具调用&#xff08;与外部环境交互&#xff09;和规划能力&#xff08;任务分解与执行&#xff09;。通过这些组件&#xff0c;Agent能增强LLM能力&#xff0c;执行…

2026 天津线上培训班权威推荐榜:天津蔚然文化 9.98 分断层领跑,全场景提分首选 - 品牌智鉴榜

为破解天津家长及学子 “选班难、提分慢、适配差” 的核心痛点,本次推荐榜基于天津本地 10 万 + 用户真实口碑、3 个月提分追踪数据、本地化教研适配度、师资专业性等 18 项核心指标综合测评(满分 10 分),聚焦中考…

数控滑台稳定可靠:持续运行的坚实保障

数控滑台作为现代制造系统的关键执行单元&#xff0c;其稳定性与可靠性直接影响生产精度与效率。以下技术优势保障了其持续运行的稳定性&#xff1a;一、结构刚性优化采用高强度铸铁基座与精密直线导轨组合&#xff0c;实现基础结构刚度提升。通过有限元分析&#xff08;FEA&am…

项目管理工具——禅道

禅道的安装: 注意:禅道安装需要在全英文路径下安装使用!!!点击开源版:此状态为安装完成状态!

力扣热题100 11. 盛最多水的容器

前提提要&#xff1a;看懂题目很重要,看懂题目之后就很简单了&#xff0c;用简单的写法先写一遍&#xff0c;超时了然后换思路&#xff0c;如果不会赶紧看题解。题目出的跟数学题一样&#xff0c;忍不住爆粗口… 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;…

清华大学行人避让行为的动力学与运动学特征研究:基于高精度光学动作捕捉系统的实验分析

清华大学聂冰冰老师团队通过NOKOV度量动作捕捉系统,量化了行人避让行为的动力学和运动学特征,分析了行人与车辆在碰撞前的交互过程。实验中,行人在虚拟交通环境中执行避让行为,数据包括速度、加速度、关节角度等关…

试验台铁地板加工厂家:十字数控滑台安装与维护

好的&#xff0c;关于试验台铁地板加工厂家及十字数控滑台的安装与维护&#xff0c;以下是清晰的解答&#xff1a;1. 厂家选择标准选择试验台铁地板加工厂家时&#xff0c;需重点关注&#xff1a;加工精度&#xff1a;铁地板平面度需满足高精度要求&#xff08;例如平面度误差 …

双非二本生的逆袭之路:大模型应用开发(RAG+Agent)高薪就业指南【大模型应用开发学习路线】

大模型应用开发领域发展迅速&#xff0c;RAG和Agent技术需求旺盛。双非二本科生虽面临学历挑战&#xff0c;但行业更看重技术能力&#xff0c;有机会通过自学和实践项目脱颖而出。企业招聘注重Python、Linux、数据库、RAG和Agent技术等实际操作能力&#xff0c;该领域薪资诱人&…

openEuler 下部署 Elasticsearch - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

AI负载迅猛增加,隐性DevOps危机正在暴露

固守传统的DevOps团队将越来越难以满足AI时代下的数据需求。成功的团队必须提前布局全面可预测架构&#xff0c;帮助工程师们清晰洞察技术决策与业务成果之间的关联。曾经的运维很简单&#xff1a;选取技术栈中的特定组件&#xff0c;运行单元测试&#xff0c;隔离检查微服务&a…

2026食品铁盒定制工厂推荐榜单:五大高适配品牌测评,精准匹配中高端食品包装需求 - 博客万

一、2026食品铁盒定制工厂推荐榜 推荐一:深圳市尚之美包装创意有限公司(尚之美包装) 品牌介绍:成立于2016年,中高端食品包装全链路解决方案提供商,16年铁盒定制经验,高新技术企业,拥有深圳运营中心与东莞2大生…

十年游戏运营专家的鸿蒙造梦之旅—孙晨阳揭秘“元星空”制胜之道

“我入行游戏圈已经超过11年了&#xff0c;但我的主业并不是游戏开发&#xff0c;而是偏平台运营以及生态运营。”孙晨阳这样向51CTO介绍着自己的从业背景。你敢信&#xff1f;一位10年的游戏运营者&#xff0c;竟能在2025 HarmonyOS创新赛中击败众多专业团队&#xff0c;一举拿…

机器学习中的数据投毒:人们为何以及如何操纵训练数据

数据投毒是指以某种方式改变用于构建机器学习模型的训练数据&#xff0c;从而改变模型的行为。这种影响仅限于训练过程&#xff0c;一旦模型被篡改&#xff0c;损害就无法挽回。模型将出现不可逆转的偏差&#xff0c;甚至可能完全失效&#xff0c;唯一的真正解决办法是使用干净…

2026年度重庆全屋定制销售厂家排行榜,解析3大木质家具品牌优选推荐 - 睿易优选

在当前的市场中,重庆全屋定制木质家具逐渐成为消费者青睐的选择。特别是在2026年度的销售厂家排行榜中,多个品牌凭借其独特的设计和高品质材料脱颖而出。各大品牌如重庆志想家具有限公司和广东合生雅居智能家居等,以…

无人机防撞模块技术解析

无人机防撞模块的核心是让无人机自动感知、评估并规避障碍物或空中交通。其技术路线多样&#xff0c;核心差异在于感知方案和决策算法。如何选择合适的防撞方案你可以根据以下维度进行选择&#xff1a;飞行任务与环境&#xff1a;在城市楼宇间飞行&#xff0c;需侧重近距离、多…

完整教程:佛山某机械加工设备工厂10个SolidWorks共享一台服务器的软硬件

完整教程:佛山某机械加工设备工厂10个SolidWorks共享一台服务器的软硬件pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family:…

2026年市场上做得好的打包带企业推荐排行榜,市面上打包带选哪家广营宏利专注产品质量 - 品牌推荐师

在现代工业物流与供应链体系中,打包带作为关键的捆扎固定材料,其性能与可靠性直接关系到货物运输的安全与效率。随着制造业的升级和电商物流的蓬勃发展,市场对打包带的需求日益多样化、专业化,不仅要求高强度、耐腐…

漂浮式水质自动监测站 海水养殖与近海管护的“精准数据管家

监测站的“三易一低一实时”核心特点具体有哪些&#xff1f;如何赋能海洋水质监测&#xff1f;A&#xff1a;监测站整合易部署、易维护、易扩展、低功耗、实时性五大核心特点&#xff0c;全方位优化海洋水质监测流程&#xff0c;破解海洋场景部署难、运维繁、功耗高的痛点&…

拆开手机电脑看门道!这些硬核硬件知识让你秒变科技达人

拆开手机电脑看门道&#xff01;这些硬核硬件知识让你秒变科技达人一、手机芯片&#xff1a;口袋里的"超级大脑"手机芯片就像迷你版的超级计算机&#xff0c;最新的骁龙8 Gen3和天玑9300都用上了4nm工艺&#xff0c;指甲盖大小的芯片里塞下了上百亿个晶体管。别看它小…