详细介绍:OSWorld - 多模态智能体在真实计算机环境中的开放式任务基准
2025-10-01 22:30 tlnshuju 阅读(0) 评论(0) 收藏 举报文章目录
- 一、关于 OSWorld
- 1、项目概览
- 2、相关链接资源
- 3、功能特性
- 二、安装配置
- 1、VMware/VirtualBox 方案(本地物理机)
- 2、Docker 方案(支持KVM)
- 3、AWS 云方案
- 三、快速开始
- 四、实验评估
- 1、基线模型测试
- 2、结果查看
- 五、常见问题
- 虚拟机凭证
- 代理配置
- 六、参考文献
一、关于 OSWorld
1、项目概览
OSWorld 是一个用于评估多模态智能体在真实计算机环境中执行开放式任务的基准测试平台。支持跨平台操作(Ubuntu/Windows/macOS)和多种虚拟化技术(VMware/VirtualBox/Docker/AWS)。
2、相关链接资源
- Github:https://github.com/xlang-ai/OSWorld
- 官网:https://os-world.github.io/
- 官方文档:https://timothyxxx.github.io/OSWorld/
- 数据示例:https://github.com/xlang-ai/OSWorld/tree/main/evaluation_examples
- 数据查看器:https://os-world.github.io/explorer.html
- 论文:https://arxiv.org/abs/2404.07972
- 社区支持:Discord
- 预下载缓存:https://drive.google.com/file/d/1XlEy49otYDyBlA3O9NbR0BpPfr2TXgaD/view?usp=drive_link
- License:Apache 2.0
3、功能特性
多平台支持
- VMware/VirtualBox/Docker/AWS 等多种虚拟化方案
- 支持 Ubuntu/Windows/macOS 操作系统
并行评估
- AWS 云服务支持可将评估时间缩短至1小时内
- 多环境并行执行框架
二、安装配置
1、VMware/VirtualBox 方案(本地物理机)
# 克隆仓库
git clone https://github.com/xlang-ai/OSWorld
cd OSWorld
# 安装依赖
pip install -r requirements.txt
# 或仅安装基础环境
pip install desktop-env
2、Docker 方案(支持KVM)
# 检查KVM支持
egrep -c '(vmx|svm)' /proc/cpuinfo
# 清理残留容器
docker stop $(docker ps -q) && docker rm $(docker ps -a -q)
3、AWS 云方案
- 详细指南:AWS配置指南
- 公共评估规范:PUBLIC_EVALUATION_GUIDELINE.md
三、快速开始
from desktop_env.desktop_env import DesktopEnv
env = DesktopEnv(action_space="pyautogui")
obs = env.reset(task_config=example)
obs, reward, done, info = env.step("pyautogui.rightClick()")
四、实验评估
1、基线模型测试
# 单线程执行(VMware方案)
python run.py --provider_name vmware --observation_type screenshot --model gpt-4o
# 多环境并行(Docker方案)
python run_multienv.py --provider_name docker --num_envs 10
2、结果查看
python show_result.py
五、常见问题
虚拟机凭证
- 默认账号:
user
/password
- AWS方案:
osworld-public-evaluation
代理配置
- 指南文档:PROXY_GUIDELINE.md
- 预配置方案:PUBLIC_EVALUATION_GUIDELINE#proxy-setup
六、参考文献
@misc{OSWorld,title={OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments},author={Tianbao Xie et al.},year={2024},eprint={2404.07972},primaryClass={cs.AI}
}
伊织 xAI 2025-08-10(日)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/924349.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!相关文章
中间件详解与自定义 - 实践
中间件详解与自定义 - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", …
格林达姆 花——季护航2006年-2017年天朝纸媒资料备份(不全)
补充:由于B站的P主@答脸P 在网易云音乐的鉴---证歌曲播放量即将破万的时候答脸P网易音乐人账号喜提永封,以及流浪的猎人在多个QQ群发布2015年文X部120首禁曲之一的,由洛天依演唱的“腐乘以无限大”曲谱导致流浪的猎…
【Groovy】变量和基本数据类型
1 变量
1)变量的声明
int a = 1
def b
def c = 1 在脚本中定义变量无需声明变量的类型,如下。在类不能使用以下方式定义变量,否则会编译报错。
a = 1
b = "abc" 2)变量命名规范变量名可…
免费网站空间 asp.net东莞市视频直播网站开发
💌 所属专栏:【Git】 😀 作 者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…
2026届模拟/射频IC设计方向保研经验分享
2026届模拟/射频IC设计方向保研经验分享保研经验分享
1. 前言
以下内容都是个人经历,可能带有主观性,仅供参考。禁止开盒。2. 个人背景学校:西安电子科技大学专业:微电子科学与工程(教改班)排名:班级 2/30,专业…
2021 ICPC 沈阳 BEFHJLM(待补
B - Bitwise Exclusive-OR Sequence
种类并查集。
根据每一对的异或关系,可以得到二进制中每一位是否互斥关系,涉及到两种关系的处理用种类并查集更好维护;另外再维护两个点之间是否有关系,之后可能形成多个关系的…
贵州公司网站开发西宁最好网站建设公司哪家好
你可能知道while除了表示“当……的时候”,还有它与when, as的用法区别,但是这些还不够全面,今天小编就来给大家详细解析一下相关的用法,一起来看看吧!一、考查表示时间的用法,其意为“当……的时候”。如&…
Docker容器完全操控指南
Docker容器完全操控指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &qu…
【Groovy】Groovy环境搭建
1 前言
Groovy 是一种基于 JVM 平台的敏捷且动态的编程语言,能与 Java 无缝集成。该语言由 James Stracham 和 Bob McWhirter 于 2003 年启动开发,在 2007 年 1 月发布第一个版本。
Groovy 具有以下优势…
php 网站 发布优对 网站开发
摘要:沈海军:今天(2019年4月10日)下午接受广东卫视采访,就晚上21:00即将发布的人类首张黑洞照片发表了评论。提笔撰稿时,尚未到照片官方的发布时间,故不能一睹黑洞照片的芳容,但鉴于…
做网站分页垦利网站定制
# -*- coding: utf-8 -*-
z0
def numbersize(a,b):global zif(a>b):zaelif(a<b):zbelif(ab):zaelse:z99return z
2025年TAB拉链制造商权威推荐榜:创新设计与耐用品质口碑
2025年TAB拉链制造商权威推荐榜:创新设计与耐用品质口碑
在纺织辅料行业快速发展的今天,TAB拉链作为功能性与装饰性并重的重要配件,其技术创新与品质标准已成为衡量制造商实力的关键指标。随着新材料应用与智能制造…
VMware Cloud Foundation 9.0.1.0 发布 - 领先的多云平台
高效管理虚拟机 (VM) 和容器工作负载,为本地部署的全栈超融合基础架构 (HCI) 提供云的优势。VMware Cloud Foundation 9.0.1.0 发布 - 领先的多云平台
高效管理虚拟机 (VM) 和容器工作负载,为本地部署的全栈超融合基…
velero 备份及使用方法
1、安装velero
wget https://github.com/vmware-tanzu/velero/releases/download/v1.17.0/velero-v1.17.0-linux-amd64.tar.gz
tar -xzf velero-v1.17.0-linux-amd64.tar.gz
cd velero-v1.17.0-linux-amd64
cp velero…
CT5132 Program. Tools for AI:-week4 note
CT5132 Program. & Tools for AI:-week4 noteNumpy: Multidimensional Arrays and Fancy Indexing
标题解析:NumPy: Multidimensional Arrays and Fancy Indexing
🧠 NumPy 是什么?
NumPy(Numerical Python)…
Fluttercon EU 2025 :Let‘s go far with Flutter - 详解
pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …
洛谷月赛T1 P14081 「CZOI-R7」炸弹游戏
洛谷月赛T1 P14081 「CZOI-R7」炸弹游戏竟然做了一晚上才AC
发题解警示自己犯糖
一道思维题,推公式即可首先手玩一下样例发现 m=1,m=2均无法成功,直接输出
如果大于2一定存在范围[L,R]可以胜利
对于最小值,不难想…
io的异步处理io_uring,实现io_uring_tcp_server - 详解
pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …
网络舆情应对措施seo推广教程seo推广技巧
1、什么是多态性?什么是虚拟方法调用? 对象的多态性: Person p new xx(); 此时new的对象可以为多种形态,但需要是person类的子类。即父类的引用指向子类的对象。 虚拟方法调用: p.eat(); 该语句在编译时会认为时调用Person类中的…