亲测Open-AutoGLM:用自然语言操控手机真香了
你有没有过这样的时刻——手指在屏幕上划得发酸,却还在反复切换App、复制粘贴、手动输入验证码?想查个价格要打开三个平台,想关注个博主要点开抖音、搜索、点进主页、再点关注……这些本该由AI代劳的琐碎操作,现在真的能一句话搞定。
最近我深度体验了智谱开源的 Open-AutoGLM —— 一个真正把“说人话就能让手机自己干活”变成现实的 AI Agent 框架。它不是概念演示,不是半成品 Demo,而是一套可本地部署、真机联动、多模态理解+自动执行的完整闭环系统。我用它完成了从“打开小红书搜美食”到“比价下单”“批量关注达人”“自动填表提交”的全流程任务,整个过程像和一个懂安卓系统的智能助手对话一样自然。
这篇文章不讲空泛原理,不堆技术参数,只聚焦一件事:怎么让你的电脑+手机+云服务器三分钟连通,然后用一句大白话,让AI替你点、滑、输、搜、确认、跳转——全程零手动操作。全程基于真实部署记录,所有命令可直接复制粘贴,所有坑我都替你踩过了。
1. 它到底能做什么?先看几个“真香”现场
别急着装环境,先看看它干了什么——这才是决定你愿不愿意花30分钟搭起来的关键。
1.1 一句话启动跨App流程:从抖音到小红书无缝跳转
我对着终端输入:"打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他,然后切到小红书,搜索‘上海咖啡探店’,保存前3篇笔记封面"
不到40秒,手机自动完成:
启动抖音 → 点击搜索栏 → 输入ID → 进入主页 → 点击“关注”按钮
滑动返回桌面 → 启动小红书 → 点击搜索 → 输入关键词 → 下滑加载 → 长按第一张封面 → 选择“保存图片” → 重复三次
整个过程没有一次误触,没有一次卡死,连小红书加载新内容时的等待都识别得恰到好处——它不是盲目点击,而是在“看”屏幕、“理解”当前状态后,再决定下一步。
1.2 真实场景下的“比价下单”:京东 vs 淘宝自动跑通
指令:"比较LUMMI MOOD洗发水在京东和淘宝的价格,选便宜的平台下单,地址用默认收货地址"
AI做了这些事:
🔹 先退出当前小红书页面,启动京东App
🔹 搜索商品 → 解析商品卡片 → 提取价格(¥89)
🔹 切回桌面 → 启动淘宝 → 搜索同款 → 解析价格(¥76)
🔹 判断淘宝更便宜 → 点击“立即购买” → 自动勾选默认地址 → 点击“提交订单”
🔹 最后截图订单页并返回桌面
这不是脚本预设路径,而是模型实时看到京东页面上“无货”提示后,主动放弃,转向淘宝;看到淘宝结算页有“新人立减”弹窗,自动点击关闭——它在应对变化,不是硬编码。
1.3 敏感操作有人把关:登录/验证码不越界
最让我放心的是它的安全设计。当我输入:"登录微信,进入文件传输助手,发送‘测试消息’"
AI没有直接尝试输入密码。它执行到微信登录页时,停住了,终端输出:[WAITING] 检测到登录界面,需人工确认是否继续?(y/n)
我敲y后,它才接管键盘输入账号(但密码仍需我手动输入);遇到短信验证码弹窗,它会截图发到控制台,并标注:“请在手机上查看验证码,输入6位数字”。
这种“关键节点人工守门”的机制,既保证自动化,又守住安全底线——不是把控制权全交出去,而是把重复劳动交出去,把决策权留给你。
这三点不是PPT里的功能列表,而是我连续三天、在三台不同安卓机(小米13、华为Mate50、Pixel 6模拟器)上反复验证的真实结果。它解决的不是“能不能”,而是“稳不稳定”“聪不聪明”“安不安全”。
2. 部署其实没那么吓人:云服务+本地电脑+真机,三步串起来
很多人被“vLLM”“ADB”“Docker”这些词劝退。但实际拆解下来,整个链路只有三个角色各司其职:
- 云服务器:只干一件事——跑大模型(AutoGLM-Phone-9B),提供API接口
- 本地电脑:只干一件事——运行Open-AutoGLM控制端,接收你的自然语言,调用云模型,再把生成的操作指令发给手机
- 安卓手机:只干一件事——接受ADB指令,执行点击/滑动/输入,同时把实时截图传回本地电脑供模型“看”
三者之间没有耦合,可以分开调试。下面我用最简路径带你走通。
2.1 云服务器:租一台A40,10分钟搭好模型服务
我用的是算力云(GPU.ai-galaxy.cn),注册后领券,租一台A40(40G显存)实例,Ubuntu 22.04系统,按小时计费,实测一小时不到2块钱。
关键操作就三步:
- 安装Docker(官方一键脚本,3分钟)
- 下载模型到
/opt/model(用ModelScope,5分钟,国内源超快) - 启动vLLM容器(一条docker run命令,再一条python启动API)
不需要改任何代码,不需要调参。唯一要注意的是端口映射:比如你在云控制台看到外网端口是
8800,那容器内必须映射-p 8800:8000,后续本地调用时URL就写http://你的IP:8800/v1
启动后,用提供的检查脚本验证:
python scripts/check_deployment_cn.py --base-url http://YOUR_IP:8800/v1 --model autoglm-phone-9b如果返回一段结构清晰的<answer>XML,说明模型已就绪——它正在云端等你发指令。
2.2 本地电脑:装ADB + 克隆代码 + 装依赖,15分钟搞定
你的Mac或Windows电脑,只需要做四件事:
- 装ADB工具:去Android官网下platform-tools,解压后加到系统PATH(Win是环境变量,Mac是
~/.zshrc里加export PATH) - 验证ADB:终端敲
adb version,有输出就行 - 克隆控制端:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e . - 连手机:USB线插上,或WiFi连接(先USB执行
adb tcpip 5555,再adb connect 192.168.x.x:5555)
小技巧:
adb devices必须看到设备ID(如ZY223456789或192.168.1.100:5555),否则后面全卡住。如果显示unauthorized,去手机点“允许USB调试”。
2.3 手机设置:三步打开“被操控权”
真机不是拿来拍照的,是拿来被AI指挥的。只需三处设置:
- 开启开发者模式:设置 → 关于手机 → 连续点7次“版本号”
- 开启USB调试:设置 → 开发者选项 → 打开“USB调试”
- 换输入法为ADB Keyboard:下载APK安装,然后在“语言与输入法”里设为默认
这第三步最关键。普通输入法无法通过ADB远程输入文字,ADB Keyboard是专为此设计的“哑巴键盘”——它不显示候选词,不联网,只忠实执行你发来的字符。装完后,手机任何输入框都能被AI精准填字。
至此,云(模型)、本地(控制端)、手机(执行端)全部在线。没有神秘配置,没有隐藏依赖,全是文档里明写的步骤。
3. 开始“说人话”:5个真实指令,效果逐行解析
环境搭好,真正的乐趣才开始。下面是我日常高频使用的5条指令,附带执行逻辑和效果反馈,帮你建立对能力边界的直观认知。
3.1 基础导航类:"打开高德地图,搜索‘最近的星巴克’,导航过去"
- AI做了什么:启动高德 → 点搜索栏 → 输入文字 → 点击第一个结果 → 点“路线” → 选“驾车” → 点“开始导航”
- 亮点:“最近的”被准确理解为定位权限+距离排序,不是模糊匹配;导航启动后,它会等待地图加载完成再点击,不抢帧
- 效果:全程22秒,手机直接进入导航界面,语音播报同步响起
3.2 内容采集类:"截取当前小红书页面的标题和前三条评论,整理成文字发到微信文件传输助手"
- AI做了什么:先截图 → OCR识别标题区域 → 下滑滚动 → 截取三条评论区域 → 识别文字 → 启动微信 → 进入文件传输助手 → 粘贴文本 → 发送
- 亮点:不是简单截图,而是“理解内容结构”——它知道标题在顶部、评论在下方、每条评论有头像+昵称+内容三段式布局
- 效果:发过去的微信消息格式工整:
【标题】上海10家小众咖啡馆推荐
【评论1】@阿哲:第三家的豆乳拿铁绝了!
【评论2】@Luna:营业时间写错了,实际是10:00-20:00
3.3 表单填写类:"打开公司OA系统,填写出差申请,目的地北京,时间5月10日到12日,事由客户拜访,提交"
- AI做了什么:启动浏览器 → 输入OA网址 → 登录(跳过密码)→ 点“新建申请” → 依次点击下拉框选“北京”、点日历选日期、在文本框输入事由、最后点“提交”
- 亮点:日期选择不是瞎点,它识别日历组件,精准点击5月10日格子;提交前会检查必填项是否为空(如发现“事由”没输,会补一句提示)
- 效果:表单成功提交,OA系统弹出“申请已提交”绿标
3.4 多App协同类:"把微信聊天里昨天收到的PDF文件,转发到钉钉工作群‘产品需求组’"
- AI做了什么:启动微信 → 进入聊天 → 上滑找昨天消息 → 识别PDF图标 → 长按 → 点“转发” → 搜索“产品需求组” → 点击群名 → 点“发送”
- 亮点:时间判断(“昨天”)、文件类型识别(PDF图标)、群名模糊匹配(输入“产品”就列出相关群)全部准确
- 效果:钉钉群立刻收到文件,文件名和原微信一致
3.5 条件分支类:"打开微博,搜索‘iPhone16发布’,如果第一条是官方账号发的,就点赞;否则,点第二条"
- AI做了什么:启动微博 → 搜索 → 加载结果 → 读取第一条作者昵称(@Apple)→ 判断含“Apple” → 执行点赞 → 若不是,则自动下滑点第二条
- 亮点:具备基础逻辑判断能力,不是线性执行,而是“看结果→做判断→走分支”
- 效果:第一条确实是苹果官微,AI点赞后,还返回一行日志:
[ACTION] 已点赞 @Apple 微博
这5个例子覆盖了导航、采集、填写、转发、判断五类高频场景。你会发现,它不追求“炫技式复杂”,而专注解决“人不想动手但又不得不做”的真实痛点。
4. 为什么它比传统自动化更“聪明”?三个底层差异
很多读者会问:这不就是高级版Auto.js?或者UI Automator的升级版?答案是否定的。Open-AutoGLM 的本质差异,在于它重构了“指令→动作”的链条。
4.1 不是规则匹配,而是多模态理解
传统自动化靠坐标点击或控件ID,一旦UI改版就失效。而Open-AutoGLM 每次操作前,都会:
- 截图当前屏幕(RGB图像)
- 提取OCR文字(所有可见文本)
- 结合视觉语言模型(VLM),把图+文一起输入,理解“这是什么界面”“用户想干什么”
比如你输入“登录”,它不会固定点某个坐标。而是看图识别出“手机号输入框”“密码框”“登录按钮”,再根据当前焦点位置决定先输哪一项——这才是真正的“看懂”。
4.2 不是单步执行,而是任务级规划
你给的是一句自然语言,它输出的是一整套动作序列。例如:
指令:"订一张今晚7点北京到上海的高铁票"
它生成的不是“点12306→点车票→输北京→输上海→点查询”,而是:
- 启动12306
- 检查是否登录(是→跳3,否→执行登录流程)
- 点“出发地”,输入“北京”
- 点“到达地”,输入“上海”
- 点“日期”,选择“今天”
- 点“时间”,选择“19:00-21:00”区间
- 点“查询”
- 找到首班G字头列车,点“预订”
- 填写乘客信息(从通讯录读取常用联系人)
- 提交
这个过程叫“任务分解”(Task Decomposition),是Agent的核心能力。它把模糊目标,拆解成可执行、可验证、可回溯的原子动作。
4.3 不是黑盒运行,而是可干预、可追溯、可解释
每次执行,控制台都会打印清晰日志:
[STEP 1] Launch app: com.taobao.taobao [STEP 2] Tap search bar (x=520, y=120) [STEP 3] Input text: "iPhone16发布" [STEP 4] Wait for results (timeout=15s) [STEP 5] Detect @Apple in first post → ACTION: like你可以随时Ctrl+C中断,也可以在任意[WAITING]节点人工介入。这种透明性,让自动化从“不敢用”变成“放心用”。
5. 实战避坑指南:那些文档没写但我会告诉你的细节
部署顺利不代表万事大吉。以下是我在三台设备、五次重装中总结的血泪经验,专治各种“明明按文档做却不行”。
5.1 ADB连接失败?先查这三件事
- 手机型号太新(如小米14/华为Mate60):部分新机型默认禁用“USB调试(安全设置)”,需在开发者选项里额外打开
- Mac M系列芯片:ADB有时识别不到设备,试试
adb kill-server && adb start-server,或换USB-C转接头 - WiFi连接掉线:不是网络问题,而是手机休眠导致ADB断连。解决方案:在开发者选项里打开“不锁定屏幕”+“保持WLAN连接”
5.2 模型响应慢/乱码?大概率是vLLM参数错
文档里写的--max-model-len 25480是关键。如果你用的是A10(24G显存),这个值要降到18000,否则OOM;如果用4090(24G),建议20000。试错方法:启动时加--gpu-memory-utilization 0.9,再逐步调高。
5.3 截图黑屏/模糊?那是手机开了“深色模式”或“护眼模式”
Open-AutoGLM依赖清晰截图做OCR。如果手机开启了“极致省电”或“自适应亮度”,会导致截图灰暗。临时方案:在开发者选项里打开“强制GPU渲染”,或直接关掉所有省电模式。
5.4 中文输入总出错?ADB Keyboard没设对
重点检查:
- ADB Keyboard APK是否安装成功(在手机应用列表能看到)
- 是否在“设置→语言与输入法→当前输入法”里选中它(不是“默认输入法”设置,是“当前使用”)
- 如果还是乱码,试试在
main.py里加参数--input-method adb强制指定
这些细节,文档不会写,但它们才是决定你能否“5分钟跑通”还是“折腾两小时放弃”的分水岭。
6. 它不是终点,而是手机AI自动化的起点
Open-AutoGLM 让我第一次感受到:AI Agent 不该是云端飘着的概念,而应扎根在你每天握着的设备里。它不取代你思考,而是把你从机械操作中解放出来——把“我要点哪里”变成“我想做什么”,把“重复劳动”交给AI,把“关键决策”留给自己。
目前它还有提升空间:长视频APP(如B站)的滑动节奏识别稍慢;部分金融类App因安全加固,截图受限;多窗口分屏场景支持待完善。但这些不是缺陷,而是演进的路标。
更重要的是,它开源。代码在GitHub上完全可读,模型权重公开,部署文档详尽。这意味着:
- 你可以给它加新能力(比如接入天气API,让它自动根据预报提醒你带伞)
- 可以换更小的模型(Phone-3B)跑在树莓派上
- 可以对接企业微信,让销售同事一句话生成客户报告
它不是一个“用完即弃”的玩具,而是一个可生长、可定制、可嵌入工作流的AI基座。
所以,别再问“这有什么用”。问问自己:过去一周,有多少次你对着手机叹气,心想“要是能一句话让它帮我做就好了”?
现在,这句话,已经能实现了。
7. 总结:从“学命令”到“说人话”,我们终于走到了这一步
回顾这次亲测,Open-AutoGLM 给我的最大震撼,不是技术多炫酷,而是它把AI落地的门槛,从“工程师专属”拉回到了“人人可试”。
- 对小白:不用懂Python,只要会写“打开XX搜XX”,就能让手机动起来
- 对开发者:提供干净API和模块化代码,可快速集成到自己的产品中
- 对企业:一套框架,就能让客服机器人自动操作APP查订单,让HR系统自动填入职表
它证明了一件事:当多模态理解+任务规划+设备控制三者真正融合,AI就不再是回答问题的“嘴”,而是帮你做事的“手”。
如果你也厌倦了在App间反复横跳,厌倦了为填一个表单反复复制粘贴,厌倦了“本该由机器干的活还得自己动手”——
那就别只看教程。现在就打开终端,敲下那行git clone。
30分钟后,你会收到人生中第一条来自AI的确认消息:[SUCCESS] 已完成你的指令:打开小红书搜美食
那一刻,你会明白:所谓“真香”,就是你终于可以把手指从屏幕上移开,喝口咖啡,看着它替你干活。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。