刚刚,OpenAI开源PaperBench,重塑顶级AI Agent评测

今天凌晨1点,OpenAI开源了一个全新的AI Agent评测基准——PaperBench。

这个基准主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。

根据OpenAI公布的测试数据显示,目前知名大模型打造的智能体,还无法战胜顶级机器学习专业博士。但在辅助学习、了解科研内容方面很有帮助。

图片

开源地址:https://github.com/openai/preparedness/

PaperBench组成介绍

PaperBench的核心是其任务模块,主要定义了智能体需要完成的具体任务,需要从头开始复现20篇ICML 2024会议上的Spotlight和Oral两大类顶级论文,包括理解论文的贡献,开发代码库以及成功执行实验,以评测智能体从理论到实践的全方位自动化能力。

为了确保评估的准确性和细致性,PaperBench开发了一套详细的评分标准,以层次化的树形结构呈现。使得评分过程能够深入到每一个细节,从论文的核心贡献到具体的实验结果,再到代码实现和执行要求,每一个环节都有相应的评分节点。

这些评分节点被精心设计为可单独评分的任务,总数达到了8316个,从而实现了对智能体能力的全面评估。

图片

评分模块的核心是基于大模型的自动评分系统,它能根据评分标准自动评估智能体的复制尝试。自动评分系统的引入大幅提高评分效率和可扩展性,使PaperBench能快速评估大量提交。

为验证自动评分系统的准确性,PaperBench创建了单独的评分系统基准测试JudgeEval,通过比较自动评分系统的输出与人类专家的评分结果来评估其性能。这一过程不仅确保自动评分系统的可靠性,也为未来的评分系统改进提供重要参考。

规则模块确保评估过程的公平性。它规定智能体在执行任务时可以使用的资源,例如允许智能体浏览互联网,但禁止使用论文作者的原始代码库或其他在线复制资源。这些规则确保智能体的能力基于其自身的理解和实现,而非依赖现有代码或资源。

图片

PaperBench还包含一个轻量级评估变体模块PaperBench Code-Dev,旨在降低评估门槛,使其更适合更广泛的社区使用。

Code-Dev放宽了一些评测要求,例如,跳过了执行代码以验证结果是否复制的步骤,仅对代码开发进行评估。这一变体虽牺牲了一些评估完整性,但大幅降低了评估成本和复杂性,使更多研究者能参与智能体的评估。

智能体测试环境

每个被测试的智能体在运行Ubuntu 24.04的Docker容器中执行任务,保证了环境的一致性和可重复性,接近真实研究场景的运行环境。

容器可访问单个A10 GPU,这对于加速机器学习实验至关重要。同时,容器具备联网能力,智能体可下载软件包、访问在线资源。

为满足实验中的多种服务需求,研究人员为智能体提供了HuggingFace和OpenAI API的密钥,其中OpenAI API预加载了1000美元额度。这确保了智能体在需要使用OpenAI的微调API或从HuggingFace下载数据集时,能够顺利操作。

图片

智能体的本地工作目录包含论文的PDF和Markdown格式文件、论文附录以及指令文本文件,为智能体提供了丰富的信息来源和明确的指导。

在智能体设置方面,研究团队基于Inspect AI的基本智能体开发了SimpleAgent。SimpleAgent运行工具使用循环,配备bash shell命令执行工具、Python代码执行工具、web浏览器工具和分页文件阅读器工具,能够高效完成任务。但是,大多数使用SimpleAgent的智能体存在提前结束任务的问题。

为解决这一问题,OpenAI开发了IterativeAgent通过修改系统提示,要求智能体每次只进行下一步操作,并移除了提交工具,确保在整个可用时间内持续工作。这些改进使IterativeAgent在实验中表现出与SimpleAgent不同的行为模式,为研究不同智能体设置对模型复制能力的影响提供了新的视角。

评测数据

OpenAI通过该基准对 GPT - 4o、o1、o3 - mini、DeepSeek - R1、Claude 3.5 Sonnet 和 Gemini 2.0 Flash主流开闭源模型打造的智能体进行了综合测试。

每个模型对每篇论文运行3次,每次运行的最长时间为12小时。结果显示,Claude 3.5 Sonnet效果最好,平均复现分数达到21.0%;o1的得分较低,为13.2%;R1只有6%;其他测试模型的表现更差。

最让人意外的是,OpenAI刚发布没多久的o3-Mini-High直接垫底,看来这个评测还是相当客观的

图片

通过对智能体日志的手动检查发现,除 Claude 3.5 Sonnet 外,其他模型经常提前结束任务,并且所有模型都未能有效规划如何在有限时间内完成论文复现任务,o3 - mini 在工具使用方面也存在困难。

这表明智能体在执行长期任务方面存在不足,尽管它们在制定和编写多步计划方面有一定能力,但在实际执行长计划时却表现不佳。

为了进一步确定智能体和PaperBench的评测准确性,OpenAI还找来了8名顶级名校的机器学习专业博士,需要在与智能体相似的条件下,对 PaperBench中的4篇论文进行复现尝试,每人对每篇论文进行3次独立尝试。

图片

结果显示,在复现尝试的早期阶段,o1的表现优于人类基线,但在24小时后,人类开始超越 o1

这表明模型在开始时能够快速编写大量代码,但在后续有效规划和改进提交内容方面存在不足,而人类在前期消化论文的时间较多,但后续能够持续提升复现效果。也就是说,目前智能体的能力还无法超越人类。

本文素材来源OpenAI,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/75495.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Golang封装Consul 服务发现库

以下是一个经过生产验证的 Consul 服务发现封装库,支持注册/注销、健康检查、智能发现等核心功能,可直接集成到项目中: package consulimport ("context""fmt""log""math/rand""net""os""sync"&quo…

自适应信号处理任务(过滤,预测,重建,分类)

自适应滤波 # signals creation: u, v, d N = 5000 n = 10 u = np.sin(np.arange(0, N/10., N/50000

PyTorch深度学习框架 的基础知识

目录 1.pyTorch检查是否安装成功 2.PyTorch的张量tensor 基础创建方式(三种) 2.2用列表创建tensor 2.2使用元组创建 tensor 2.3使用ndarray创建创建 tensor 2.4 快速创建tensor的常用方法 3.pyTorch中的张量tensor的常用属性 4. tensor中的基础数据…

MySQL学习集--DDL

DDL 数据库操作 查询所有数据库 SHOW DATABASES;查询当前数据库 SELECT DATABASE();创建 CREATE DATABASE[IF NOT EXISTS]数据库名[DEFAULT CHARSET 字符集][COLLATE 排序规则];删除 DROR DATABASE[IF EXISTS]数据库名;使用 USE 数据库名;表操作 创建表格 CREATE TABL…

Vue 3 中按照某个字段将数组分成多个数组

方法一:使用 reduce 方法 const originalArray [{ id: 1, category: A, name: Item 1 },{ id: 2, category: B, name: Item 2 },{ id: 3, category: A, name: Item 3 },{ id: 4, category: C, name: Item 4 },{ id: 5, category: B, name: Item 5 }, ];const grou…

LeetCode刷题 -- 48. 旋转图像

题目 算法题解:顺时针旋转矩阵(90度) 1. 算法描述 给定一个 n n 的二维矩阵,请将矩阵顺时针旋转 90 度。 例如: 输入: [[1,2,3],[4,5,6],[7,8,9] ]输出: [[7,4,1],[8,5,2],[9,6,3] ]2. 思…

Vulkan进阶系列1 - Vulkan应用程序结构(完整代码)

一: 概述 在前面的20多篇文章中,我们了解了Vulkan的基础知识,和相关API的使用,接下来我们要从零开始写一套完整Vulkan应用程序,在这个过程中加深对Vulkan中的各种概念的理解。 Vulkan 应用程序一般遵循 初始化 -> 运行循环 -> 资源清理 的结构,本实例也基本遵循了…

VTK的两种显示刷新方式

在类中先声明vtk的显示对象 vtkRenderer out_render; vtkVertexGlyphFilter glyphFilter; vtkPolyDataMapper mapper; // 新建制图器 vtkActor actor; // 新建角色 然后在init中先初始化一下: out_rend…

【CSS3】04-标准流 + 浮动 + flex布局

本文介绍浮动与flex布局。 目录 1. 标准流 2. 浮动 2.1 基本使用 特点 脱标 2.2 清除浮动 2.2.1 额外标签法 2.2.2 单伪元素法 2.2.3 双伪元素法(推荐) 2.2.4 overflow(最简单) 3. flex布局 3.1 组成 3.2 主轴与侧轴对齐方式 3.2.1 主轴 3.2.2 侧轴 3.3 修改主…

详细介绍一下C++的按位运算

在C中,按位运算(Bitwise Operations) 是直接对二进制位(bit)进行操作的低级运算,常用于处理硬件、优化性能、加密算法或底层资源管理。以下是按位运算符的详细说明、示例和典型应用场景: 1.按位…

Flask与 FastAPI 对比:哪个更适合你的 Web 开发?

在开发 Web 应用时,Python 中有许多流行的 Web 框架可以选择,其中 Flask 和 FastAPI 是两款广受欢迎的框架。它们各有特色,适用于不同的应用场景。本文将从多个角度对比这两个框架,帮助你更好地选择适合的框架来构建你的 Web 应用…

Python爬虫第一战(爬取优美图库网页图片)

本文是我在学习过程中记录学习的点点滴滴,目的是为了学完之后巩固一下顺便也和大家分享一下,日后忘记了也可以方便快速的复习。 爬取网页图片 前言前言 今天学习的主要是关于如何利用Python爬取网页图片知识的理解和应用 # 1.获取网页信息,交给beautifulsoup # 2.获取页面里…

J1 ResNet-50算法实战与解析

🍨 本文為🔗365天深度學習訓練營 中的學習紀錄博客🍖 原作者:K同学啊 | 接輔導、項目定制 一、理论知识储备 1. 残差网络的由来 ResNet主要解决了CNN在深度加深时的退化问题(梯度消失与梯度爆炸)。 虽然B…

Python入门(3):语句

目录 1 基本语句 1.1 表达式语句 1.2 赋值语句 2 控制流语句 2.1 条件语句 2.2 循环语句 while循环: for循环: 2.3 流程控制语句 1. break语句:退出整个循环体 2. continue语句:只跳过本次循环,还会进…

浅浅尝试Numpy的函数s:

1.numpy.empty: numpy.empty方法用来创建一个指定形状(shape),数据类型(dtype)且未被初始化的数组: numpy.empty(shape,dtype float,order C) 参数说明: shape:数组形状。 dtype:数据类型&am…

【C++】nlohmann::json 配置加载技术实践:从基础到高级应用

一、nlohmann::json 库概况与核心特性 nlohmann::json 是 C 社区最受欢迎的 JSON 库之一,其设计理念简洁即美,通过单头文件实现完整的 JSON 解析、序列化和操作功能。 1.1 基本特性 nlohmann::json是一个现代C编写的开源JSON库,采用MIT协议…

运算放大器(四)滤波电路(滤波器)

1.滤波电路概述 滤波电路简称滤波器,是一种能使某一部分频率的信号顺利通过,而使其它频率的信号被大幅衰减的电路。 2.滤波器的分类 (1)低通滤波器:低频信号能够通过,而高频信号不能通过的滤波器称为低通…

mac如何将jar包上传到maven中央仓库中

mac如何将jar包上传到maven中央仓库中 准备sonatype账号 sonatype官网:https://central.sonatype.com/ 建议使用GitHub账号注册,方便 之后选择查看用户信息 选择此选项获取用户token的username与password,建议提前复制一下谨防丢失 之后…

【通知】STM32MP157驱动开发课程全新升级!零基础入门嵌入式Linux驱动,掌握底层开发核心技能!

在嵌入式Linux系统开发中,驱动程序开发是一项关键技术,它作为硬件与软件之间的桥梁,实现了操作系统对硬件设备的控制。相较于嵌入式Linux应用开发,驱动开发由于涉及底层硬件且抽象程度较高,往往让初学者感到难度较大。…