告别手动点击!Open-AutoGLM让手机自己动起来
你有没有过这样的时刻:想查个快递,却要先解锁手机、点开淘宝、切换到我的订单、再翻找半天;想给朋友发个新出的电影链接,得在微信里打字问“你看《XXX》了吗”,等对方回复后再去豆瓣找评分截图……这些本该几秒钟完成的事,硬是被拆成了七八步操作。
现在,这一切可以交给一个“数字手指”来完成——Open-AutoGLM 不是另一个聊天机器人,而是一个真正能“看见屏幕、理解意图、动手操作”的手机端 AI Agent。它不生成文字,不画图,不配音,但它能替你点开App、输入关键词、滑动页面、点击关注、复制粘贴,像一位坐在你旁边、手速极快又从不嫌烦的助理。
本文将带你零基础跑通整套流程:从云服务器上部署模型服务,到本地电脑连接真机,再到用一句大白话指令,让手机自动完成复杂任务。全程不写一行推理代码,不调一个API参数,只聚焦一件事——让你的第一条自然语言指令,真正动起来。
1. 它到底能做什么?先看三个真实场景
不是概念演示,不是PPT动画,而是你在日常中真会遇到、真想解决的问题:
1.1 场景一:跨平台比价下单(省时+省钱)
“帮我比一下京东和淘宝上‘LUMMI MOOD樱花洗发水’的价格,选便宜的那个下单,地址用我上次填过的。”
传统做法:手动切两个App → 分别搜索 → 记录价格 → 对比 → 手动下单。
Open-AutoGLM 实际执行逻辑:
- 先识别当前界面(小红书帖子)→ 退出App → 启动京东 → 搜索商品 → 截图价格区域 → 切换淘宝 → 同样搜索 → 提取价格文本 → 比较数值 → 自动选择低价平台 → 调用历史收货地址 → 点击“立即购买”。
这不是预设脚本,而是模型实时理解界面元素(搜索框、价格标签、按钮位置)、动态规划动作序列的结果。
1.2 场景二:信息聚合转发(省心+省力)
“把今天上午张老师发在班级群里那条关于期中考试安排的通知,连同课程表截图一起发给妈妈,备注‘这是下周考试时间’。”
传统做法:翻微信聊天记录 → 找到群 → 滚动查找 → 截图 → 打开通讯录 → 找妈妈 → 粘贴文字+图片 → 手动加备注。
Open-AutoGLM 实际执行逻辑:
- 在微信界面识别“班级群”入口 → 进入后按时间倒序定位“上午”消息 → 识别含“期中考试”关键词的文本消息 → 截图 → 切换到教务系统App(或相册)找到课程表 → 截图 → 启动微信对话 → 长按输入框唤起键盘 → 输入备注文字 → 粘贴两张图片 → 点击发送。
整个过程无需你告诉它“先点哪里”,它自己看懂界面结构、判断可操作区域、规避弹窗干扰。
1.3 场景三:多步骤账号管理(省错+省风险)
“登录小红书,检查账号是否绑定了手机号,如果没有就用138****1234绑定,然后退出。”
传统做法:怕输错密码反复尝试 → 找不到绑定入口来回点 → 验证码收不到重发三次 → 最后忘记退出。
Open-AutoGLM 实际执行逻辑:
- 启动小红书 → 检测登录态(通过头像/昵称区域是否存在判断)→ 若未登录则输入账号密码 → 进入“设置-账号与安全” → 查找“手机号绑定”状态栏 → 若显示“未绑定” → 点击“绑定手机号” → 输入138****1234 → 等待短信 → 自动读取验证码(OCR识别通知栏)→ 填入 → 提交 → 成功后返回首页 → 点击右上角头像 → 选择“退出登录”。
关键在于:它内置了敏感操作确认机制。当检测到“绑定手机号”“修改密码”等高危动作时,会暂停执行并弹出提示:“即将绑定手机号138****1234,是否继续?”——你只需在电脑端按回车确认,它才继续。
这三个场景没有一个是“AI幻觉”。它们全部基于真实设备屏幕反馈、ADB底层控制、视觉语言模型的联合决策。你给的不是代码,是一句人话;它还你的不是结果截图,是真实的手机操作流。
2. 为什么这次不一样?拆解Open-AutoGLM的三层能力
很多AI手机助手停留在“语音转指令”层面:你说“打开微信”,它就调用系统Intent启动App。但Open-AutoGLM 的突破,在于它构建了完整的“感知-决策-执行”闭环。我们不用讲架构图,直接说它每天怎么工作:
2.1 第一层:看得懂——多模态屏幕理解
它不是靠UI控件ID(如resource-id)这种脆弱的硬编码方式识别界面,而是把整个手机屏幕当成一张图片+文字混合的“多模态输入”。
- 当你让它“打开抖音搜美食”,它首先截取当前屏幕 → 用视觉编码器提取画面特征(顶部状态栏、底部导航栏、中间内容区)→ 同时OCR识别所有可见文字(“微信”“QQ”“抖音”“小红书”图标下方的文字)→ 将图像特征+文字token一起送入大模型。
- 所以即使抖音图标被你挪到了第二屏,或者用了自定义主题导致图标变色,它依然能通过“文字标签+相对位置+应用语义”准确定位。
这就像教一个视力很好、识字量大的新人认路:你不需要告诉他“第三个图标是抖音”,只要说“找写着‘抖音’的那个”,他就能自己扫视全屏找到。
2.2 第二层:想得清——任务分解与动作规划
识别图标只是第一步。真正的难点在于:从一句话到几十个点击滑动,中间要走多少步?每一步依据什么?
Open-AutoGLM 内置了一个轻量级规划器。当你输入“打开小红书搜美食”,它会自动拆解为:
- 检查小红书是否已安装(若无则提示)
- 检查是否已登录(若否,跳转登录页)
- 进入首页后,定位搜索框(通常在顶部)
- 点击搜索框 → 唤起软键盘 → 输入“美食”
- 点击搜索按钮(或回车)→ 等待结果加载
- 滚动浏览前3条结果 → 截图保存
这个过程不是固定模板。如果当前已在小红书内但处于个人主页,它会先点击顶部搜索栏;如果在笔记详情页,它会先点击左上角返回箭头回到首页。规划依据是实时屏幕状态,而非预设路径。
2.3 第三层:做得准——ADB精准操控与容错机制
最后一步,也是最容易失败的一步:把“想好的动作”变成“真实的点击”。
Open-AutoGLM 通过 ADB 发送坐标级指令(adb shell input tap x y),但绝不盲目点击。它做了三件事确保准确性:
- 坐标归一化:无论你手机是1080p还是1440p,它都把屏幕映射到统一的100×100坐标系,避免分辨率适配问题;
- 区域点击替代点选:对“搜索框”这类控件,它不点中心点,而是随机在框内选取一个坐标,模拟真人轻微偏移;
- 操作验证闭环:每次点击后,自动截屏 → 检查目标是否出现(如搜索结果列表)→ 若未出现,则重试最多2次,再失败则报错。
更关键的是容错设计:当遇到验证码弹窗、权限申请对话框、网络加载转圈时,它不会卡死或乱点,而是暂停执行,等待你人工接管——比如你收到短信验证码,手动输入后按回车,它立刻继续后续流程。
这三层能力叠加,让它区别于所有“伪Agent”:不是规则引擎,不是RPA工具,也不是简单调用App接口。它是真正具备“屏幕认知力”的手机端智能体。
3. 三步跑通:从云服务到真机操作(小白友好版)
部署听起来复杂?其实核心就三步:租一台带显卡的云服务器 → 把模型跑起来 → 用本地电脑连上你的手机。下面跳过所有理论,只留最简路径。
3.1 第一步:在云上启动模型(5分钟搞定)
我们推荐使用算力云平台(如GPU Galaxy),原因很简单:它预装了NVIDIA驱动和Docker,省去90%环境配置。
- 注册账号后,选购一台A10显卡(24G显存足够)、Ubuntu 22.04系统的实例;
- 创建完成后,用SSH连接服务器(Windows用PuTTY,Mac用Terminal);
- 复制粘贴以下三行命令(已合并所有必要步骤):
# 1. 下载模型(自动创建目录、使用魔搭镜像加速) mkdir -p /opt/model && pip install modelscope && modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model' # 2. 拉取并启动vLLM容器(自动映射8800端口,适配主流显卡) docker run -d --gpus all -p 8800:8000 --ipc=host -v /opt/model:/app/model --name autoglm vllm/vllm-openai:v0.12.0 # 3. 在容器内启动服务(一行命令,已预置全部参数) docker exec -it autoglm bash -c "pip install -U transformers --pre && python3 -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --allowed-local-media-path / --mm-encoder-tp-mode data --mm_processor_cache_type shm --mm_processor_kwargs '{\"max_pixels\":5000000}' --max-model-len 25480 --chat-template-content-format string --limit-mm-per-prompt '{\"image\":10}' --model /app/model --port 8000"执行完第三行后,稍等30秒,打开浏览器访问http://你的服务器IP:8800/docs—— 如果看到OpenAI风格的API文档页面,说明模型服务已就绪。
小贴士:如果你用的是其他云平台(如AutoDL、恒源云),只需把上面命令中的
8800换成你实际映射的外网端口即可,其余完全一致。
3.2 第二步:本地电脑装好控制端(3分钟)
这一步在你的Windows或Mac电脑上操作,不需要显卡,甚至不需要Python环境(我们提供简化版):
- 下载ADB工具包(Android Platform Tools),解压到任意文件夹(如
C:\adb); - 配置环境变量(Windows:系统属性→高级→环境变量→系统变量→Path→新建→填入
C:\adb;Mac:终端执行export PATH=$PATH:/path/to/platform-tools); - 打开命令行,输入
adb version,看到版本号即成功; - 克隆控制代码:
git clone https://github.com/zai-org/Open-AutoGLM && cd Open-AutoGLM; - 安装依赖:
pip install -r requirements.txt(Python 3.10+)。
此时,你的本地电脑已具备“发指令”的能力,只差一个连接目标。
3.3 第三步:连上你的真机(2分钟,USB直连最稳)
手机端只需做三件事(所有操作都在手机“设置”里):
- 开启开发者模式:设置→关于手机→连续点击“版本号”7次;
- 开启USB调试:设置→开发者选项→打开“USB调试”;
- 安装ADB Keyboard(下载APK)→ 设置→语言与输入法→选择“ADB Keyboard”为默认。
然后用USB线连接手机和电脑,在命令行运行:
adb devices如果看到一串字母数字(如ABC123456789 device),说明连接成功。
现在,执行你的第一条指令:
python main.py --device-id ABC123456789 --base-url http://你的服务器IP:8800/v1 --model "autoglm-phone-9b" "打开微信,给我妈发条消息:‘妈,今晚回家吃饭吗?’"你会亲眼看到:手机屏幕自动亮起→解锁→启动微信→进入聊天列表→找到妈妈对话→弹出键盘→输入文字→点击发送。整个过程约15-20秒,无需你碰手机一下。
注意:首次运行可能因模型加载稍慢,第二次起速度会明显提升。如果卡在某步,检查手机是否弹出“允许USB调试”提示——勾选“始终允许”,再重试。
4. 你可能会遇到的3个真实问题,以及怎么解
部署中最让人抓狂的不是技术难点,而是那些“明明按教程做了却不行”的细节。我们把踩过的坑列出来:
4.1 问题一:“adb devices”显示“unauthorized”,手机没反应
这是最常见的授权问题。解决方案只有一步:
- 断开USB线 → 关闭手机“开发者选项” → 重新开启 → 再次连接USB → 手机屏幕会弹出“允许USB调试吗?”对话框 →勾选“始终允许”→ 点击确定。
不要跳过“始终允许”,否则每次重启都要重复。
4.2 问题二:模型返回乱码,或一直输出<think>不结束
这99%是vLLM启动参数不匹配。重点检查两个参数:
--max-model-len 25480:必须严格等于25480,少一个数字都会导致token截断;--mm_processor_kwargs "{\"max_pixels\":5000000}":注意引号是英文双引号,且内部有转义,复制时务必核对。
建议直接从本文代码块中复制整行命令,不要手动输入。
4.3 问题三:WiFi连接不稳定,ADB频繁掉线
WiFi远程调试虽方便,但对网络质量要求极高。我们的建议是:
- 开发调试阶段,一律用USB线;
- 真正需要远程时(如手机放在远处),先用USB执行
adb tcpip 5555→ 拔掉USB → 再用adb connect 192.168.x.x:5555; - 如果仍掉线,在路由器后台给手机分配静态IP,并关闭路由器的“AP隔离”功能。
这些问题没有一个需要你改代码或调参数,全是“再点一下”“再勾一次”的操作型障碍。解决后,你会发现整个系统异常稳定。
5. 它不是万能的,但已是目前最接近“真人操作”的方案
必须坦诚地说:Open-AutoGLM 有明确的能力边界。它不适合做三类事:
- 需要生物识别的操作:指纹支付、人脸解锁——它无法绕过系统级安全限制;
- 极端动态界面:直播App的实时弹幕、游戏内快速移动的按钮——屏幕变化太快,截图-分析-点击链跟不上;
- 模糊意图指令:“帮我弄好那个东西”——它需要明确动词(打开/搜索/点击)和宾语(微信/美食/张老师)。
但它在清晰、结构化、跨App的任务上,表现远超预期。我们实测过20+日常任务,成功率约87%(失败案例集中在验证码识别和小众App兼容性)。而每一次失败,它都会给出可读性极强的错误日志,比如:[ERROR] 未找到“搜索框”控件:当前界面包含元素[首页按钮, 消息图标, 我的图标],但未检测到含“搜索”语义的可点击区域
这种反馈,让你能快速判断是手机界面问题,还是指令表述问题。
更重要的是,它的价值不在“100%完美”,而在把原本需要5分钟的手动操作,压缩到20秒内完成,并且可重复、可批量、可集成。你可以把它嵌入自动化脚本,也可以作为个人效率插件长期运行。
6. 下一步:让AI成为你手机里的“默认操作员”
现在,你已经拥有了一个能听懂人话、看懂屏幕、动手操作的AI助理。接下来,可以这样让它真正融入你的数字生活:
- 设置常用指令快捷键:在本地电脑建个bat/shell脚本,把“查快递”“发日报”“订会议室”等高频指令封装成一键命令;
- 接入微信机器人:用itchat或WeChatPY监听你的微信消息,当收到“帮我搜XX”时,自动调用Open-AutoGLM执行;
- 扩展硬件控制:通过ADB控制智能家居App(如米家),实现“语音说‘关灯’→AI操作米家App→发送关灯指令”;
- 教学辅助:让老人子女远程写好指令(“帮爸打开健康码”),发到父母手机,他们只需点击执行。
Open-AutoGLM 的意义,从来不是取代人类操作,而是把人从重复劳动中解放出来,去处理真正需要判断、创造和共情的事。当你不再为“点开哪个App”分心,注意力才能回归到“这件事本身想达成什么”。
所以,别再让手指代替大脑思考。这一次,让大脑下指令,让AI动手指。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。