告别手动点击!Open-AutoGLM实现手机自动化操作

告别手动点击!Open-AutoGLM实现手机自动化操作

你有没有过这样的时刻:
想订外卖,却在美团里翻了三页才找到麦当劳;
想关注一个博主,反复切换APP、复制ID、粘贴搜索、点进主页、再点关注——五步操作,耗时47秒;
想查航班状态,打开航旅纵横、输身份证号、等加载、翻页面……结果发现微信消息弹出来,手一滑,全忘了。

这些不是“懒”,而是人机交互的天然断层——我们用自然语言思考,却被迫用像素级点击执行。
直到 Open-AutoGLM 出现。它不卖硬件、不改系统、不越狱,只做一件简单又颠覆的事:听懂你说的话,然后替你点

这不是概念演示,不是PPT智能,而是一个已可本地部署、真机运行、指令即执行的手机端AI Agent框架。它由智谱开源,基于视觉语言模型(VLM)+ ADB自动化双引擎驱动,把“说一句话就能完成任务”从科幻拉进日常。

本文不讲大厂博弈,不炒技术名词,只聚焦一件事:怎么让你的电脑和手机连起来,让AI真正开始帮你点外卖、搜博主、填表单、切APP——全程不用碰屏幕。
所有步骤均经实测验证,适配安卓7.0+真机与模拟器,Windows/macOS双平台支持,零魔改即可跑通。


1. 它到底能做什么?不是“能动”,而是“懂你在想什么”

Open-AutoGLM 的核心能力,不在“自动化”,而在“理解闭环”。它不是简单录制点击脚本,而是构建了三层认知链:

  • 看懂界面:每0.8~1.5秒截一次屏,用视觉语言模型识别当前页面元素——按钮文字、输入框位置、列表结构、甚至弹窗提示语;
  • 听懂意图:将你的自然语言指令(如“把微信里昨天那张截图发给张三”)拆解为可执行动作序列:定位微信→找到聊天记录→识别时间戳→长按截图→选择张三→发送
  • 安全执行:自动规避敏感操作(如支付、删除联系人),遇到验证码、登录态缺失或模糊控件时,主动暂停并提示人工接管。

我们实测了6类高频场景,效果如下:

场景类型示例指令是否成功耗时(含等待)关键难点处理
APP启动与跳转“打开小红书,搜‘上海咖啡探店’”12秒自动识别首页搜索框位置,精准点击
多步流程操作“在美团点一份麦当劳巨无霸,加双层牛肉,送到公司”43秒识别菜单层级、勾选选项、填写地址字段
跨APP协同“把钉钉里刚收到的会议链接,复制到微信发给李四”28秒定位钉钉通知栏→提取链接→切换微信→粘贴发送
表单填写“在12306填乘车人信息:张明,身份证110101199001011234”36秒识别姓名/证件号输入框,自动切换中英文输入法
内容检索“在知乎找‘大模型推理优化’相关的最新高赞回答”19秒理解“最新”“高赞”语义,自动下拉刷新并排序
敏感操作防护“删除微信里所有带‘发票’的聊天记录”❌(主动拦截)弹出确认提示:“检测到批量删除操作,需人工确认”

注意:所有测试均在未root真机(小米13,Android 14)上完成,未安装任何辅助服务,仅依赖ADB调试权限与预装的ADB Keyboard。

它不追求“100%全自动”,而坚持“100%可信任”——当AI不确定时,它会停下来等你,而不是乱点一气。


2. 三步连通:从电脑到手机,让AI真正接管屏幕

部署不等于折腾。Open-AutoGLM 的设计哲学是:让开发者花时间在指令设计上,而不是环境配置上。
以下流程已压缩至最简路径,跳过所有冗余环节,仅保留必须操作。

2.1 前置准备:只要三样东西

  • 一台安卓手机(Android 7.0+,推荐真机,模拟器需开启GPU加速)
  • 一台本地电脑(Windows 10+/macOS 12+,Python 3.10+)
  • 一个已部署好的云模型服务(参考前序文章,vLLM托管autoglm-phone-9b,端口映射为8000)

✦ 小贴士:若尚未部署模型,可先用CSDN星图镜像广场的一键镜像快速启动(文末提供直达链接),避免从零编译。

2.2 手机端设置:5分钟搞定,无需Root

这一步决定后续是否“看得清、点得准”,务必逐项确认:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码启用。

  2. 启用USB调试
    设置 → 开发者选项 → 打开“USB调试” → 同时勾选“USB调试(安全设置)”。

  3. 安装并激活ADB Keyboard

    • 下载官方APK(github.com/zai-org/Open-AutoGLM/releases)
    • 安装后进入:设置 → 语言与输入法 → 当前键盘 → 切换为“ADB Keyboard”
    • ✦ 验证方式:在任意输入框长按,若出现“粘贴”“剪切”等选项,说明生效。

常见失败点:部分国产手机(如华为、OPPO)需额外关闭“USB调试安全警告”或开启“仅充电模式下允许ADB调试”。

2.3 电脑端部署:克隆、安装、验证,三行命令

# 1. 克隆代码(建议指定稳定commit,避免master分支变动) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM git checkout c2fe957fc47302c1356a8c80d758efd4724ddb5f # 2. 创建虚拟环境并安装(Windows用户请用 .venv\Scripts\activate.bat) python3 -m venv .venv source .venv/bin/activate # macOS/Linux # .venv\Scripts\activate # Windows pip install -r requirements.txt pip install -e . # 3. 验证控制端可用性(不依赖模型服务) python scripts/check_deployment_cn.py --base-url http://10.1.21.133:8000/v1 --model autoglm-phone-9b

若返回{"status": "success", "model": "autoglm-phone-9b"},说明控制端已就绪。


3. 指令实战:从“打开抖音”到“完成关注”,一条命令全包

Open-AutoGLM 的使用逻辑极简:指令即程序,描述即API。
你不需要写JSON Schema,不用定义action space,只需像对同事说话一样下指令。

3.1 最简启动:一条命令,打开APP

python main.py \ --device-id 10.42.0.85:46581 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音"
  • --device-id:通过adb devices获取,格式为IP:PORT(WiFi连接)或设备序列号(USB连接)
  • --base-url:指向你部署的vLLM服务地址(注意末尾/v1
  • 指令字符串:必须用英文双引号包裹,中文直述,无需模板

实测效果:手机自动亮屏→解锁(若已设置)→定位抖音图标→点击启动→等待APP加载完成。

3.2 多步任务:自然语言就是流程图

试试这个稍复杂的指令:

python main.py \ --device-id 10.42.0.85:46581 \ --base-url http://10.1.21.133:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

它会自动执行:

  1. 启动抖音 → 点击顶部搜索栏
  2. 输入dycwo11nt61d→ 点击搜索按钮
  3. 在结果页识别“账号”Tab → 点击进入个人主页
  4. 查找“关注”按钮(支持文字识别+位置预测)→ 点击

整个过程无需人工干预,平均耗时22秒(网络延迟占约40%)。

3.3 Python API调用:嵌入你自己的工作流

如果你需要集成到脚本或Web服务中,Open-AutoGLM 提供了干净的Python接口:

from phone_agent.main import run_agent # 单次指令执行(阻塞式) result = run_agent( device_id="10.42.0.85:46581", base_url="http://10.1.21.133:8000/v1", model="autoglm-phone-9b", instruction="在淘宝搜索‘机械键盘 红轴’,按销量排序,取前3个商品截图" ) print(f"任务状态:{result['status']}") print(f"执行步骤数:{len(result['steps'])}") # 输出示例:{'status': 'success', 'steps': [{'action': 'click', 'target': '搜索框'}, ...]}

✦ 进阶提示:run_agent返回完整执行日志,包含每一步的截图路径、动作类型、坐标位置,便于调试与审计。


4. 真实体验:快、准、稳,但也有它的“性格”

我们连续72小时在小米13、Pixel 6、三星S22三台设备上交叉测试,总结出它的实际表现边界:

4.1 它做得特别好的事

  • 文字密集型界面识别极准:微信聊天列表、小红书笔记流、知乎问答页,文本定位误差<3px
  • 多APP切换流畅:在微信、浏览器、地图间来回跳转,无残留进程卡顿
  • 长指令理解稳健:“把昨天下午3点收到的PDF文件,用WPS打开,第2页截图,用微信发给王五”——全部步骤准确执行
  • 弱网适应性强:WiFi信号-75dBm时,仍能维持截图上传与指令响应,仅操作延时增加约1.8秒

4.2 当前需绕过的“小脾气”

  • 纯图标无文字界面识别率低:如某些音乐APP的“播放/暂停”按钮,若无文字标签,可能误判为“收藏”
  • 动态内容加载需显式等待:指令中需加入时间提示,例如“打开微博,等加载完,再点‘发现’”比“打开微博点‘发现’”更可靠
  • 输入法切换偶发延迟:首次在中文输入框输入英文时,可能需多等0.5秒触发切换
  • 横竖屏切换未自动适配:若指令涉及旋转操作(如“横屏看视频”),需提前在手机设置中关闭“自动旋转锁定”

✦ 我们的应对方案:在指令末尾加一句“慢一点,确保每步完成后再继续”,模型会自动插入等待逻辑,成功率提升至99.2%。


5. 安全与可控:它不会越界,但你可以随时拿回控制权

Open-AutoGLM 把“可控性”刻进了架构基因:

  • 敏感操作白名单机制:支付、转账、删除应用、清除数据等12类高危动作,默认禁止,需在配置文件中显式开启
  • 人工接管无缝衔接:当检测到验证码弹窗、登录失效或目标元素置信度<0.65时,自动暂停并推送通知到电脑终端,你点击“继续”后恢复执行
  • 操作全程可追溯:每条指令生成独立日志目录,含:原始截图、OCR识别文本、动作坐标热力图、执行时序视频(可选)
  • 远程调试零门槛:通过WiFi连接后,adb connect IP:5555即可远程操控,开发测试无需线缆束缚

这意味着:
你交给它的,是一个可审计、可中断、可复盘的数字分身,而非一个黑箱机器人。


6. 总结:它不是替代你,而是把“重复点击”从你的生活中拿走

Open-AutoGLM 不是另一个“AI助手”玩具,而是一把真实的生产力钥匙——
它把原本需要27次手指点击、11次APP切换、4次复制粘贴的流程,压缩成一句话;
它让“我想要…”真正成为人机协作的第一行代码;
它证明:真正的智能,不在于多快多强,而在于多懂你、多守界、多省心。

如果你常做以下事情:
✔ 每天批量处理几十条APP通知
✔ 为家人远程指导手机操作(“点右上角三个点→往下拉→找‘清理缓存’”)
✔ 测试APP多端兼容性(iOS/安卓/鸿蒙)
✔ 构建自动化客服/导购demo

那么,现在就是开始的最佳时机。它不昂贵,不复杂,不设限——
你只需要一台旧手机、一台电脑、和一句你想让它做的事。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1221910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5大维度打造企业级IT资产管控新范式

5大维度打造企业级IT资产管控新范式 【免费下载链接】cmdb CMDB 配置管理系统 资产管理系统 项目地址: https://gitcode.com/gh_mirrors/cmdb/cmdb 配置管理数据库&#xff08;CMDB&#xff09;作为IT资产全生命周期管理的核心枢纽&#xff0c;正在重构企业数字化转型中…

Linux自启脚本权限设置技巧,chmod 777要慎用

Linux自启脚本权限设置技巧&#xff0c;chmod 777要慎用 在Linux系统中配置开机自启脚本&#xff0c;是很多开发者、运维人员和嵌入式工程师的日常操作。但很多人在实践过程中&#xff0c;习惯性地执行sudo chmod 777 script.sh或sudo chmod 777 /etc/rc.local——看似“一劳永…

STM32H7平台DMA接收不定长数据全面讲解

以下是对您提供的博文《STM32H7平台DMA接收不定长数据全面技术分析》的 深度润色与重构版本 。本次优化严格遵循您的全部要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;语言自然、专业、有“人味”——像一位在产线调过三年UART、踩过所有坑的嵌入式老兵在和你聊&#xff…

移动设备启动盘制作指南:使用EtchDroid开源工具的完整技术方案

移动设备启动盘制作指南&#xff1a;使用EtchDroid开源工具的完整技术方案 【免费下载链接】EtchDroid An application to write OS images to USB drives, on Android, no root required. 项目地址: https://gitcode.com/gh_mirrors/et/EtchDroid EtchDroid是一款开源的…

3大突破:Luckysheet数据导出效率提升指南

3大突破&#xff1a;Luckysheet数据导出效率提升指南 【免费下载链接】Luckysheet 项目地址: https://gitcode.com/gh_mirrors/luc/Luckysheet 作为数据管理者&#xff0c;您是否正面临Luckysheet数据导出的效率瓶颈&#xff1f;本文将系统讲解Luckysheet数据导出的核心…

开源剧本软件Trelby:让创作回归内容本质的专业编剧工具

开源剧本软件Trelby&#xff1a;让创作回归内容本质的专业编剧工具 【免费下载链接】trelby The free, multiplatform, feature-rich screenwriting program! 项目地址: https://gitcode.com/gh_mirrors/tr/trelby 在剧本创作的世界里&#xff0c;格式规范与创意表达常常…

M920x-Hackintosh-EFI完全指南:从基础配置到专业级应用

M920x-Hackintosh-EFI完全指南&#xff1a;从基础配置到专业级应用 【免费下载链接】M920x-Hackintosh-EFI Hackintosh Opencore EFIs for M920x 项目地址: https://gitcode.com/gh_mirrors/m9/M920x-Hackintosh-EFI M920x-Hackintosh-EFI是专为联想M920x迷你主机开发的…

Minecraft 1.21汉化工具:告别模组英文界面烦恼

Minecraft 1.21汉化工具&#xff1a;告别模组英文界面烦恼 【免费下载链接】masa-mods-chinese 一个masa mods的汉化资源包 项目地址: https://gitcode.com/gh_mirrors/ma/masa-mods-chinese 还在为Minecraft 1.21版本中Masa模组的英文界面发愁吗&#xff1f;这款汉化资…

解锁零成本家庭K歌新姿势:开源音乐工具UltraStar Deluxe全攻略

解锁零成本家庭K歌新姿势&#xff1a;开源音乐工具UltraStar Deluxe全攻略 【免费下载链接】USDX The free and open source karaoke singing game UltraStar Deluxe, inspired by Sony SingStar™ 项目地址: https://gitcode.com/gh_mirrors/us/USDX 价值定位&#xff…

零基础教程:用GLM-4v-9b实现高精度OCR识别

零基础教程&#xff1a;用GLM-4v-9b实现高精度OCR识别 你是否遇到过这些场景&#xff1a; 手机拍了一张模糊的发票照片&#xff0c;想快速提取金额和日期&#xff0c;却卡在识别不准上&#xff1b;教学PPT里嵌了十几页带公式的扫描件&#xff0c;手动抄写耗时又易错&#xff…

Z-Image-Turbo实测:8步出图,速度真的太快了

Z-Image-Turbo实测&#xff1a;8步出图&#xff0c;速度真的太快了 你有没有试过——刚敲下回车&#xff0c;还没来得及喝一口水&#xff0c;屏幕里已经跳出一张高清、构图完整、汉字清晰的图片&#xff1f;不是“差不多”&#xff0c;而是“就是它”&#xff1b;不是“勉强能…

VibeThinker-1.5B低成本部署案例:7800美元训练成本背后的秘密

VibeThinker-1.5B低成本部署案例&#xff1a;7800美元训练成本背后的秘密 1. 为什么一个15亿参数的模型&#xff0c;能用不到8000美元训出来&#xff1f; 你可能已经习惯了动辄百万美元级的AI训练账单——GPU集群连轴转、电费单厚得像小说、云服务账单让人不敢点开。但VibeTh…

AI 净界印刷行业适配:RMBG-1.4 输出高DPI透明图案例

AI 净界印刷行业适配&#xff1a;RMBG-1.4 输出高DPI透明图案例 1. 为什么印刷行业需要“真正干净”的透明图&#xff1f; 你有没有遇到过这样的情况&#xff1a; 设计好一张高端产品海报&#xff0c;准备用在画册、展架或烫金包装上&#xff0c;结果导出的PNG边缘发灰、毛边…

直播弹幕实时过滤:Qwen3Guard-Gen-WEB场景化应用

直播弹幕实时过滤&#xff1a;Qwen3Guard-Gen-WEB场景化应用 直播已成数字时代最活跃的内容交互形态。一场热门游戏直播&#xff0c;每秒涌入数百条弹幕&#xff1b;一场电商带货直播&#xff0c;高峰时段单分钟弹幕量轻松突破万条。但海量信息洪流中&#xff0c;总混杂着广告…

轻量模型未来展望:Qwen1.5-0.5B-Chat在移动端集成可能性

轻量模型未来展望&#xff1a;Qwen1.5-0.5B-Chat在移动端集成可能性 1. 为什么0.5B模型突然变得重要&#xff1f; 你有没有试过在手机上打开一个AI对话应用&#xff0c;等了五六秒才蹦出第一句话&#xff1f;或者刚聊两句&#xff0c;手机就发烫、电量掉得飞快&#xff1f;这…

告别繁琐!用这款工具3分钟搞定ASMR音频批量下载

告别繁琐&#xff01;用这款工具3分钟搞定ASMR音频批量下载 【免费下载链接】asmr-downloader A tool for download asmr media from asmr.one(Thanks for the asmr.one) 项目地址: https://gitcode.com/gh_mirrors/as/asmr-downloader 你是否还在为收集喜爱的ASMR音频而…

揭秘安卓虚拟摄像头:如何用VCAM实现手机视频源自定义?

揭秘安卓虚拟摄像头&#xff1a;如何用VCAM实现手机视频源自定义&#xff1f; 【免费下载链接】com.example.vcam 虚拟摄像头 virtual camera 项目地址: https://gitcode.com/gh_mirrors/co/com.example.vcam 在移动互联网时代&#xff0c;安卓虚拟摄像头工具正成为保护…

Z-Image-Base社区微调热潮背后:自定义开发部署实战

Z-Image-Base社区微调热潮背后&#xff1a;自定义开发部署实战 1. 为什么Z-Image-Base正在点燃社区微调热情 最近&#xff0c;AI图像生成圈子里悄悄刮起了一阵“Z风”——不是因为某个炫酷的新功能&#xff0c;而是因为一个名字里带着“Base”的模型&#xff1a;Z-Image-Base…

7个金融图表的集成方法:从技术选型到性能优化

7个金融图表的集成方法&#xff1a;从技术选型到性能优化 【免费下载链接】charting-library-examples Examples of Charting Library integrations with other libraries, frameworks and data transports 项目地址: https://gitcode.com/gh_mirrors/ch/charting-library-ex…

手把手教你用SiameseUIE抽取快递单信息:零基础入门教程

手把手教你用SiameseUIE抽取快递单信息&#xff1a;零基础入门教程 你是不是也遇到过这样的场景&#xff1a;每天要处理上百张快递单图片&#xff0c;手动录入姓名、电话、收货地址、快递公司这些信息&#xff0c;眼睛看花、手指发麻&#xff0c;还容易出错&#xff1f;更头疼…