不用手也能玩手机?多代理协作框架让 APP 自动执行任务

news/2025/9/19 15:48:25/文章来源:https://www.cnblogs.com/freedom-w/p/19100994

image

原文:https://mp.weixin.qq.com/s/i-o68QcHK6KsUC8YrWuVjA

论文:Mobile-Agent-v3: Fundamental Agents for GUI Automation

github: https://github.com/X-PLUG/MobileAgent

全文摘要

本文介绍了一种名为Mobile-Agent-v3的通用GUI代理框架,该框架基于开源模型GUI-Owl,并在其基础上进行了进一步的性能提升。GUI-Owl是一种基础GUI代理模型,可以在桌面和移动环境中实现地面上下文理解、问答、规划、决策和一般性程序知识。此外,该模型还具有大规模环境基础设施、多样化基础代理能力构建和可扩展环境RL等关键创新点。实验结果表明,Mobile-Agent-v3在AndroidWorld和OSWorld基准测试中分别取得了73.3和37.7的成绩,达到了新的GUI代理框架中的最佳水平。

figure_3

论文方法

方法描述

该论文提出了一种名为“GUI-Owl”的多模态强化学习框架,用于实现复杂图形用户界面(GUI)任务的自动化。该框架采用了多种数据合成策略来增强模型的推理能力,并引入了迭代在线拒绝采样、自适应奖励函数等技术来提高模型的性能。此外,该论文还介绍了Mobile-Agent-v3多代理协作框架,通过四个专门的代理来实现任务规划、子任务执行和反思推理等功能。

方法改进

与传统的基于手动标注的方法相比,GUI-Owl框架利用自我监督的方式生成大量的高质量交互轨迹数据,从而减少了人工标注的需求。同时,该框架采用了大规模预训练、迭代调优和强化学习等多种技术手段,进一步提高了模型在实际应用中的稳定性和可靠性。此外,Mobile-Agent-v3多代理协作框架通过将任务分解为多个相对简单的子任务,并由不同的代理协同完成,实现了更加高效的任务自动化。

解决的问题

该论文主要解决了图形用户界面任务自动化的挑战问题,包括数据集规模小、人工标注成本高、模型泛化能力差等问题。通过使用自我监督和大规模预训练等技术手段,GUI-Owl框架能够生成大量高质量的交互轨迹数据,从而降低了人工标注的成本;而Mobile-Agent-v3多代理协作框架则通过将任务分解为多个相对简单的子任务,并由不同的代理协同完成,实现了更加高效的任务自动化。这些技术手段的应用使得GUI-Owl框架能够在真实环境中实现更加可靠、稳定的自动化任务处理。

figure_4

figure_5

figure_7

论文实验

本文主要介绍了基于视觉语言模型的 GUI 自动化系统 GUI-Owl 的性能评估和优化方法。文章中包含了四个关键维度的评估:地面能力、全面 GUI 理解、端到端代理能力和多代理能力的比较。在每个维度下,都进行了详细的实验设计和结果分析。

在地面能力方面,作者使用了两个基准数据集(ScreenSpot 和 OSWorld-G)来评估 GUI-Owl 在定位 GUI 元素方面的表现,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了最好的成绩,证明其具有较强的地面能力。

在全面 GUI 理解方面,作者使用了两个基准数据集(MMbench-GUI L2 和 Mobile Control)来评估 GUI-Owl 对于屏幕状态的理解和单步决策的能力,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了较好的成绩,证明其能够准确理解屏幕状态并作出正确的决策。

在端到端代理能力方面,作者使用了两个基准数据集(AndroidWorld 和 OSWorld)来评估 GUI-Owl 在复杂任务中的表现,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了较好的成绩,证明其能够在真实环境中完成复杂的 GUI 任务。

在多代理能力方面,作者将 GUI-Owl 集成到了两个不同的框架中(Mobile-Agent-E 和 Agent-S2),并与多个其他模型进行了比较。结果显示,GUI-Owl 在这两个框架中均取得了较高的成功率,证明其具有良好的多代理适应能力。

此外,文章还介绍了 GUI-Owl 的训练数据生成管道以及优化方法,包括自演化轨迹数据生产、高质量查询生成、轨迹正确性判断模块等。这些方法可以提高 GUI-Owl 的性能和效率,使其成为一个更加强大和可靠的 GUI 自动化系统。

table_1

table_2

table_3

table_4

table_7

论文总结

文章优点

  • 本文提出了一种全新的GUI自动化模型GUI-Owl,该模型将感知、接地、推理、规划和行动执行整合在一个可扩展框架中。
  • GUI-Owl使用Qwen2.5-VL进行训练,并在大规模、多样化的GUI交互数据上进行了广泛的后处理,取得了在各种具有挑战性的基准测试中的最先进的性能表现。
  • 通过合成推理数据和可扩展强化学习框架,GUI-Owl能够实现灵活的决策制定,从单个自主执行者到协作多代理角色协调。

方法创新

  • GUI-Owl是一种端到端的多模态代理模型,它将感知、接地、推理、规划和行动执行整合在一个可扩展框架中。
  • 该模型使用了Qwen2.5-VL进行训练,并在大规模、多样化的GUI交互数据上进行了广泛的后处理,使其能够在各种具有挑战性的基准测试中取得最先进的性能表现。
  • 通过合成推理数据和可扩展强化学习框架,GUI-Owl能够实现灵活的决策制定,从单个自主执行者到协作多代理角色协调。

未来展望

  • GUI-Owl可以应用于各种GUI自动化任务,包括文本编辑、文件管理、图像处理等。
  • 未来的研究方向可能包括进一步提高GUI-Owl的性能和效率,以及将其与其他技术结合使用,以实现更复杂的任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/907873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB实现单帧图像超分辨率重建

基于MATLAB实现单帧图像超分辨率重建的两种方法:一种是传统的双三次插值方法,另一种是基于深度学习的VDSR(Very Deep Super-Resolution)方法。 方法一:双三次插值方法 双三次插值是一种传统的图像放大方法,通过计…

绕过安全控制安装第三方软件

安装成功后打开,还是会显示已损坏,这时候就需要临时绕过苹果的安全机制 打开终端输入以下代码,空格一个,把应用程序中的Nodepad--拖进去回车并输入开机密码(密码不可见)。 sudo xattr -r -d com.apple.quarantin…

详细介绍:认知语义学意象图式对人工智能自然语言处理中隐喻分析的影响与启示

详细介绍:认知语义学意象图式对人工智能自然语言处理中隐喻分析的影响与启示pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fam…

完整教程:LeetCode 刷题【81. 搜索旋转排序数组 II、82. 删除排序链表中的重复元素 II、83. 删除排序链表中的重复元素】

完整教程:LeetCode 刷题【81. 搜索旋转排序数组 II、82. 删除排序链表中的重复元素 II、83. 删除排序链表中的重复元素】pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !impor…

软件体系结构概论 1章

1.如何客服软件危机 人们面临的不光是技术问题,更重要的是管理问题。 采用工程化的开发方法与工业化的生产技术 在技术上,应该采用基于重用的软件生产技术,在管理上,应该采用多维的工程管理模式

vLLM常用参数解释

vLLM常用参数解释--max-model-len 16384 :设置模型能处理的最大上下文长度(输入 + 输出)token数量,典型值:8192, 16384, 32768, 131072--max-num-batched-tokens 8192 :一次批处理(batch)中,最多允许的总 tok…

vue2 项目实例 Layout布局(二)

vue2 项目实例 Layout布局(二)本布局是按照vue-admin-template 搭建流程即可或其它后台框架搭建,实际根据需求改动https://panjiachen.github.io/vue-element-admin-site/zh/guide/ 1、使用Scss 安装scss 后续在页…

故障处理:ORA-00600 2252故障处理

我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页面浏览效果更佳。1,环境介绍…

Android 平台 MAUI 应用更新服务

该代码是面向 Android 平台 的 MAUI(.NET Multi-platform App UI)应用更新服务实现,实现了IUpgradeService接口,核心功能涵盖版本检查、APK 下载与安装,整体设计兼顾异常处理、用户体验与 Android 版本兼容性。 一…

SQLSERVER数据备份 - 实践

SQLSERVER数据备份 - 实践2025-09-19 15:37 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; f…

SQL脚本:查询指定SQL的统计信息(cursor,awr)

我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页面浏览效果更佳。SQL脚本:查询…

k8s学习笔记8——Service

k8s学习笔记8——Service容器带来的问题自动调度: 在Pod创建之前,用户无法预知Pod所在节点以及Pod的IP地址 一个已经存在的Pod在运行过程中,出现故障,Pod也会在新的节点使用新的IP进行部署 应用程序访问服务时,地址是不…

逆向分析之if语句与循环语句的分析

前言 本次我们要介绍if语句,for循环编译后的反汇编内容,以C/C++编写的可执行程序为例进行分析 一只Demo 首先是一只Demo,是我们本次分析对象的源码 #include <stdio.h>void if_demo(int v) {if (v > 5)pri…

读书笔记:索引组织表(IOT):让数据库查询飞起来的黑科技

我们的文章会在微信公众号IT民工的龙马人生和博客网站( www.htz.pw )同步更新 ,欢迎关注收藏,也欢迎大家转载,但是请在文章开始地方标注文章出处,谢谢! 由于博客中有大量代码,通过页面浏览效果更佳。本文为个人学…

AI 自动化智能体训练营

课程背景与解决的问题 你是否也有这样的困扰? 每天被大量重复劳动占据时间? 报表、PPT、文案写得慢,效率低? 想用 AI 提高效率,却不知道从哪入手? 想做副业/创业,但缺乏技术与工具? 👉 这门训练营,将带你从…

ROMA-iOS适配深色模式总结

一、背景深色模式在低光环境下(如夜间使用)可以显著减少屏幕发出的蓝光,降低眼睛疲劳,减轻视觉压力。深色背景配合浅色文字能提供更好的对比度和可读性,减少眩光,让内容更易于阅读。深色模式还可以显著节省电量,…

本地(或自下载)浏览器插件 安装指南

1 首先准备好安装包 通过不用渠道下载所要安装插件的压缩包 2 安装流程 第一步 解压 解压压缩包至文件夹中,请确保您的电脑上已安装解压工具,否则会解压失败 1)mac系统中,双击压缩包即可完成解压。 2)win系统解压…

Docker是什么?最全Docker使用教程(小白到高手) - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

408学习之c语言(结构体) - 教程

408学习之c语言(结构体) - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&q…

路由查看命令

路由查看命令多网卡,软路由设置route print //查看当前路由表route print -4 //查看当前IPv4路由表网络目标,网络掩码,网关,跃点数route print //查看当前路由表route print -4 //查看当前IPv4路由表route delete …