能控制手机屏幕的开源agent多模态工具

之前探索了能控制电脑桌面的开源agent工具。

https://blog.csdn.net/liliang199/article/details/156018145

这里进一步探索能控制手机屏幕的开源agent多模态工具。

1 模拟工具

以下是几款可以实现移动端模拟操作的开源工具。

其中,Open-AutoGLM和Airtest功能较为强大和主流,

1.1 Open-AutoGLM

AI驱动,自然语言交互,多模态理解,面向开发者的高级自动化、智能任务助理

基于视觉语言模型理解屏幕,通过ADB执行操作,可解析用户指令并自动规划任务流程

https://github.com/zai-org/Open-AutoGLM

1.2 Airtest

跨平台,基于图像识别,提供IDE,游戏和App的UI自动化测试、简易脚本录制与回放

通过图像匹配定位UI元素,模拟点击、滑动等操作,支持生成测试报告

https://github.com/AirtestProject/Airtest

1.3 mcp-android-emulator

与AI助手(如Claude)深度集成 作为MCP服务器,将ADB操作(截图、点击、输入等)

通过AI助手直接控制安卓设备进行探索或测试,可以封装为AI可调用的工具

https://github.com/Anjos2/mcp-android-emulator

1.4 Mobile-Env

学术研究导向,强化学习平台,主要用于学术研究、开发与评估交互式AI代理

为训练AI代理与移动应用交互而设计,提供标准化的环境和任务集

https://github.com/stefanbschneider/mobile-env

2 选择工具

可以根据主要目的来选择适合的移动端模拟工具,目标是实现高度智能的自动化任务。

如果用自然语言描述复杂操作流程,应优先选择Open-AutoGLM。

如果主要进行UI自动化测试,如回归测试、兼容性测试,Airtest及其图形化IDE会更简单直接。

如果是探索AI模型控制手机,则选mcp-android-emulator,它能通过对话指挥AI助手操作设备。

如果是学术研究、训练AI模型,则选Mobile-Env,它提供了现成的强化学习实验平台。

在Android平台,则需要配置Android Debug Bridge (ADB) 环境,准备安卓真机或模拟器。

reference

---

能控制计算机桌面的多模态AI agent

https://blog.csdn.net/liliang199/article/details/156018145

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155031.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM 内存分区

目录一、JVM内存分区1.程序计数器2.栈3.堆4.方法区(元空间)5.字符串常量池二、对象创建过程1.类加载检查2.分配内存3.初始化0值4.设置对象头5.执行init()方法(构造方法)一、JVM内存分区 Java虚拟机(Java Virtual Mach…

书匠策AI:颠覆你的课程论文写作体验,从“小白”到“大神”只需一步

每当期末季来临,无数大学生面对课程论文题目感到茫然无措。书匠策AI科研工具中的课程论文功能,正成为学术界悄然兴起的一股智能革命。一、课程论文的困境与数字化转变深夜,电脑屏幕的冷光照亮了一张疲惫的脸。王明是某大学社会学专业的大二学…

统一电能质量变换器(UPQC)Matlab/Simulink仿真:IP-IQ检测与电压电流补偿...

统一电能质量变换器(UPQC)Matlab/simulink仿真,ip-iq检测,电压电流补偿,软件版本matlab2016最近在实验室折腾统一电能质量变换器(UPQC)的仿真,发现Matlab2016的Simulink真是个好东西…

植物大战僵尸修改器下载安装教程(2026最新版|全流程图文详解)

一、前言:修改器能解决哪些核心问题 《植物大战僵尸》作为一款经典塔防游戏,即使多年后依然拥有大量忠实玩家。但在反复体验过程中,部分用户会遇到以下实际痛点: 后期关卡难度较高,测试阵型成本过大 阳光、冷却时间等…

洞察食材,管理健康:智能冰箱引领个性化饮食新时代

在全民健康意识觉醒与智能家居技术迭代的双重驱动下,智能冰箱已彻底摆脱单纯食品储存设备的定位,逐步演进为家庭健康管理的核心节点。目前智能冰箱的竞争焦点已从基础的保鲜、远程控制功能,转向以技术赋能深层健康价值的方向,通过…

南芯烧录软件使用

界面如下:连接前先检查硬件:保证D D- 对应 SDA SCL引脚 GND对GND HV对应Vcc,需要注意,有时候会出现cc1口可以但是cc2口不行的情况接着在connect ic选择指定ic,这里需要注意有时候选择的芯片会和实际使用的芯片不同,比…

救命神器8个AI论文平台,本科生毕业论文救星!

救命神器8个AI论文平台,本科生毕业论文救星! 论文写作的“隐形助手”:AI 工具如何改变你的毕业之路 在当今信息爆炸的时代,高校学生尤其是本科生,面对毕业论文的压力日益增大。从选题、开题到撰写、查重,每…

精密的舞步:探秘十字滑台的工业灵魂

精密的舞步:探秘十字滑台的工业灵魂在自动化制造的舞台上,十字滑台如同一位精准的舞者,以微米级的精度演绎着机械芭蕾。作为工业设备的核心运动部件,其精妙的设计背后蕴藏着力学与控制理论的深度交融。一、结构精粹:刚…

西门子PLC博图与优傲UR机器人的Profinet通讯实战

西门子plc博图与优傲UR机器人进行Profinet通讯,s7-1200/1500 与UR机器人通讯,实际应用案例使用中,可提供GSD配置文件,设置说明书,和博图plc程序,目前版本为v15或以上,程序只提供配置好的内容配置…

新手友好的锁相环学习电路:从理论到实践

锁相环学习电路,有教程 对新手非常友好,一看就懂 [1],输出频率800MHz或者1GHz, 采用Ring_VCO的结构 [2],输入参考频率20MHz [3],分频器是40-50分频 4,电荷泵电流20uA 5,工艺是smic 5…

【干货收藏】智能体执行一半就终止?大模型上下文窗口超长问题深度解析

文章讨论了大模型应用中智能体因上下文管理不当导致的异常终止问题。作者发现智能体在第二次思考时因上下文窗口超长而正常终止,根本原因是历史记录未做好管理。在Langchain技术体系中,作者提出创建TrimmedInMemorySaver类解决方案,自动过滤思…

梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷

深夜,梁文锋署名的DeepSeek新论文又来了。这一次,他们提出全新的Engram模块,解决了Transformer的记忆难题,让模型容量不再靠堆参数! 刚刚 ,DeepSeek新论文发布了,梁文锋署名! 这一…

易语言开发从入门到精通:答疑解惑·踩坑避坑·优化提升·常用资源

易语言开发从入门到精通:答疑解惑踩坑避坑优化提升常用资源 🧭🛠️📚 1.25.1 学习目标 🎯 作为《易语言开发从入门到精通》的全书查漏补缺进阶实战辅助章,本章将聚焦前24章读者在实际开发、学习、部署过程中…

【开题答辩全过程】以 山河大学奖学金评定系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

【必藏】AI Agent完全指南:从ChatGPT到能思考、会行动的智能体革命

本文深入解析了AI Agent的核心概念,从ChatGPT的局限性出发,阐明AgentLLM行动能力的本质。详细介绍了Agent的三大核心组件:LLM(大脑)、Tools(工具/手脚)和Agent Loop(控制循环)。通过OpenCode实例展示了不同Agent类型及其权限控制机制&#xf…

【开题答辩全过程】以 基于安卓的医疗健康查询系统为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

径流水土流失监测设备

水土流失是生态保护的重要课题,无论是山区流域、矿区复垦区,还是梯田、坡地种植区,精准掌握径流量、含沙量等核心数据,都是开展水土流失治理、评估治理效果的关键前提!传统水土流失监测依赖人工采样、现场测量&#xf…

必藏!一文搞懂Agent开发的三大设计范式:ReAct、Plan Execute与Multi-Agent

本文深入解析了Agent开发的三大设计范式:ReAct将推理与行动交织,适合需实时决策的任务;Plan & Execute先规划后执行,适合步骤明确的复杂任务;Multi-Agent通过多角色协作处理超复杂任务。开发者可根据任务特性选择合…

人工智能究竟是如何思考的

大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路,而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题:人工智能真的在思考吗?大型语言模型展现…

MAC 地址

MAC 地址 —mac地址基础知识总结 一、什么是 MAC 地址? MAC 地址 网卡的“物理身份证” 工作在 数据链路层(OSI 第 2 层)用来在 同一个局域网内唯一标识设备和 IP 不一样,IP 会变,MAC 基本不变二、MAC 地址长什么样&a…