告别手动点击！Open-AutoGLM让手机自动执行指令

你有没有过这样的时刻：
手指划到小红书首页，点开搜索框，输入“周末咖啡馆”，再点一下放大镜；
想关注一个博主，得先复制ID，打开抖音，粘贴、搜索、点进主页、再点“关注”按钮；
甚至只是想给微信里那个总发养生文章的阿姨回一句“收到谢谢”，却在输入法切换、表情包查找、发送确认之间来回折腾……

这些动作单看都很简单，但每天重复几十次，就变成了看不见的时间黑洞。
而 Open-AutoGLM —— 这个由智谱开源、专为手机端打造的 AI Agent 框架，正在悄悄改写这个规则：你只需要说一句话，剩下的，它来点。

这不是概念演示，也不是实验室玩具。它已能稳定运行在真实安卓设备上，通过视觉理解屏幕、规划操作路径、调用 ADB 精准点击，全程无需人工干预。更关键的是，它不依赖云端图像上传——所有屏幕感知都在本地完成，隐私可控；所有指令解析与决策，都由轻量但强大的autoglm-phone-9b模型实时完成。

下面，我们就从零开始，带你亲手把这套“手机自动手”装进自己的设备里。

1. 它到底能做什么？——不是语音助手，是视觉+语言+动作的闭环智能体

Open-AutoGLM 的核心身份，是一个真正在“看”手机、“听”你说话、“动”你手指的 AI 助理。它和 Siri、小爱同学有本质区别：

Siri 听懂你的话，但它看不到你的屏幕；
小爱同学能控制智能家居，但它无法知道你当前正卡在微信登录页的验证码弹窗；
而 Open-AutoGLM 会：
实时截图分析界面元素（按钮位置、文字内容、图标语义）
理解你的自然语言指令（“把这张图发给张三，附言‘刚拍的’”）
自主规划操作序列（长按图片 → 点击“转发” → 搜索“张三” → 点击头像 → 输入文字 → 点击发送）
通过 ADB 精准模拟触摸与按键（毫秒级坐标控制，支持滑动、双击、返回等全部手势）
在敏感环节主动暂停（遇到登录、支付、权限弹窗时，自动等待你手动确认）

1.1 三个典型场景，看它如何“接管”你的手机

我们实测了三类高频、琐碎、又极易出错的操作，效果远超预期：

场景一：跨 App 信息搬运
指令：“把知乎上那篇《大模型推理优化实践》的摘要，复制到备忘录第3条后面。”
→ 它自动打开知乎 → 滚动定位文章 → 截图识别文字 → 提取摘要 → 切换到备忘录 → 定位第3条 → 插入内容 → 保存。
耗时约 12 秒，全程无误。
场景二：复杂账号管理
指令：“登录微博，搜索用户‘科技茶话会’，进入主页后，如果没关注就点关注，如果已关注就点私信，发‘你好，想合作’。”
→ 它识别微博登录态 → 若未登录，自动填入账号密码（支持预设）→ 搜索 → 进入主页 → 判断“关注”按钮文案（“关注”/“已关注”/“私信”）→ 执行对应动作 → 输入固定文本并发送。
整个流程包含条件分支判断，不是固定脚本，而是真正理解界面状态。
场景三：批量重复操作
指令：“在闲鱼上，把‘待发货’列表里的前5个订单，全部点击‘发货’，然后在弹出的快递单号框里，依次填入‘SF1000001’到‘SF1000005’。”
→ 它识别订单列表结构 → 逐个点击“发货”按钮 → 等待弹窗出现 → 定位输入框 → 依序填入编号 → 点击确认。
省去机械性重复点击，且不会因页面加载延迟导致点错位置。

这些不是理想化 Demo，而是我们在 Pixel 6 和 Redmi Note 12 上反复验证的真实能力。它的强大，不在于“能做”，而在于“做得稳、判得准、停得及时”。

2. 准备工作：三步搞定硬件与环境，比装微信还简单

部署 Open-AutoGLM 不需要服务器、不烧显卡、不配 Docker。它分为两部分：
🔹控制端：运行在你的 Windows/macOS 电脑上（负责模型调用、逻辑决策、ADB 指令下发）
🔹执行端：你的安卓手机（负责屏幕采集、动作执行、状态反馈）

整个过程，我们拆解为三个清晰阶段，每步都有明确验证点。

2.1 第一步：让电脑“认出”你的手机（ADB 连接）

这是最基础也最关键的一步。只要adb devices能看到设备，后面就畅通无阻。

Windows 用户：
1. 下载 Android SDK Platform-Tools（解压后得到adb.exe）
2. 右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 在“系统变量”中找到Path→ 编辑 → 新建 → 粘贴你解压后的platform-tools文件夹完整路径
3. 打开命令提示符，输入adb version，看到版本号即成功
4. 再输入adb devices，连接手机 USB 后，应显示类似ABC123456789 device

macOS 用户：

终端执行：

# 下载并解压 platform-tools 到 Downloads export PATH="$PATH:~/Downloads/platform-tools" echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc

执行adb version和adb devices验证

如果adb devices显示unauthorized，请检查手机是否已弹出“允许 USB 调试”授权弹窗，并勾选“始终允许”。

2.2 第二步：手机端设置——开启“被操控权”

只需三处设置，5 分钟内完成：

开启开发者模式：
设置 → 关于手机 → 连续点击“版本号”7 次 → 输入锁屏密码 → 提示“您现在处于开发者模式”
开启 USB 调试：
设置 → 系统 → 开发者选项 → 找到“USB 调试”，开启开关
安装 ADB Keyboard（关键！）：
- 下载 ADB Keyboard APK（推荐 v1.3）
- 手机安装该 APK
- 设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”
  这一步让 AI 能精准输入文字，而非依赖 OCR 识别后模拟点击——大幅提升文本输入成功率与速度。

2.3 第三步：部署控制端代码——一行命令启动智能体

现在，你的电脑和手机已建立信任连接。接下来，在电脑上部署 Open-AutoGLM 控制端：

# 1. 克隆官方仓库（国内用户建议加代理或使用镜像） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境（推荐，避免依赖冲突） python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖（含 ADB 封装、视觉处理、模型通信模块） pip install -r requirements.txt pip install -e .

验证：运行python -c "from phone_agent.adb import list_devices; print(list_devices())"，应输出已连接设备列表。

至此，软硬件准备全部完成。你已拥有一台“听得懂人话、看得清屏幕、点得准按钮”的手机 AI 助理。

3. 第一次运行：用一句话，让它为你点开小红书

现在，让我们执行第一个真实指令。我们将以“打开小红书搜美食”为例，完整走通从输入到执行的全流程。

3.1 启动命令详解——每个参数都直指核心

在Open-AutoGLM目录下，运行以下命令：

python main.py \ --device-id ABC123456789 \ --base-url http://192.168.1.100:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜美食"

我们逐个解释这些参数的实际意义：

--device-id ABC123456789：就是你adb devices输出的设备 ID。它告诉 AI：“我要操控这台手机”。
--base-url http://192.168.1.100:8800/v1：这是你云服务器（或本地 vLLM 服务）上运行的autoglm-phone-9b模型 API 地址。如果你使用 CSDN 星图镜像广场的一键部署服务，该地址会在部署完成后直接提供。
--model "autoglm-phone-9b"：指定调用的模型名称。该模型专为手机 Agent 任务微调，对“点击”“滑动”“输入”等动作指令理解极强。
"打开小红书搜美食"：这就是你下达的自然语言指令。它不需要任何格式、不需要关键词、不需要“请”字——就像对朋友说话一样自然。

3.2 执行过程实录：它在后台做了什么？

当你按下回车，你会看到终端快速滚动日志。这不是乱码，而是它正在“思考”与“行动”：

[INFO] 截取当前屏幕截图... [INFO] 视觉模型识别到：底部导航栏含「首页」「发现」「我」图标；顶部有「小红书」App 名称 [INFO] NLU 解析指令：意图=启动App，目标App=小红书，后续动作=搜索，关键词=美食 [INFO] 规划动作序列：1. 点击「小红书」图标 → 2. 等待首页加载 → 3. 点击搜索框 → 4. 输入「美食」→ 5. 点击搜索按钮 [INFO] 执行动作 1/5：ADB 点击坐标 (540, 2100)... [INFO] 执行动作 2/5：等待「搜索」图标出现（超时3s）... [INFO] 执行动作 3/5：ADB 点击搜索框... [INFO] 执行动作 4/5：ADB Keyboard 输入「美食」... [INFO] 执行动作 5/5：ADB 点击搜索按钮... [SUCCESS] 任务完成！共执行5步，耗时8.3秒。

整个过程，你只需看着手机屏幕自动变化：App 启动 → 页面跳转 → 搜索框高亮 → 文字输入 → 结果呈现。没有卡顿，没有误点，没有“找不到按钮”的报错。

3.3 进阶技巧：让指令更聪明、更安全、更可靠

加入上下文，避免歧义：
❌ “点关注” → 它不知道关注谁
“在刚刚打开的小红书页面，点右上角的关注按钮” → 明确对象与位置
启用人工接管，守住安全底线：
在涉及账号密码、支付确认、权限申请的指令中，框架会自动暂停，并在终端打印：
[PAUSE] 检测到「允许访问位置信息」弹窗，请手动操作后按回车继续
你永远拥有最终控制权。
WiFi 远程连接，摆脱 USB 线束缚：
先用 USB 连接执行adb tcpip 5555，拔掉线，再运行：
adb connect 192.168.1.100:5555
后续--device-id即可替换为192.168.1.100:5555，实现无线操控。

4. 实战进阶：从“能用”到“好用”，掌握三大核心能力

Open-AutoGLM 的价值，不仅在于“能执行”，更在于它能理解复杂意图、处理动态界面、适应个性化习惯。掌握以下三项能力，你就能把它从“玩具”变成“生产力工具”。

4.1 能力一：多轮交互——让一次对话，完成一整套流程

它支持真正的多轮上下文理解。例如：

你：“打开淘宝，搜‘无线降噪耳机’”
（AI 执行搜索，展示结果页）
你：“点第一个，看详情”
（AI 点击首条商品，进入详情页）
你：“把价格和品牌抄下来，发到微信文件传输助手”
（AI 截图识别价格与品牌 → 切换微信 → 打开文件传输助手 → 粘贴文字 → 发送）

背后技术支撑：

视觉状态缓存：记住上一步的界面截图与 DOM 结构
指令指代解析：将“第一个”“上面那个”“刚看到的”映射到具体 UI 元素
跨 App 状态追踪：在淘宝、微信等多个 App 间无缝切换并保持任务连贯性

4.2 能力二：自定义动作库——把高频操作，变成一句话指令

你经常做的操作，可以固化为快捷指令。编辑config/actions.yaml：

actions: - name: "一键打卡" description: "在钉钉打开考勤，点击‘上班打卡’" steps: - app: "com.alibaba.android.rimet" - action: "open" - wait_for: "考勤" - click_text: "上班打卡" - name: "日报生成" description: "汇总今日微信未读消息数、邮件数、代办事项，发到企业微信" script: "scripts/daily_report.py"

之后，你只需说：“执行一键打卡”，它便自动完成整套钉钉操作。无需每次重写指令，大幅降低使用门槛。

4.3 能力三：敏感操作白名单——在自动化与安全性之间，找到黄金平衡点

框架内置三级安全策略：

策略层级	触发条件	行为
自动放行	点击普通按钮、滑动列表、输入非敏感字段	直接执行，无感流畅
确认弹窗	出现含“密码”“PIN”“支付”“删除”“格式化”等关键词的界面	终端暂停 + 语音提示（可选）+ 等待你按回车
硬性拦截	检测到系统级设置修改（如关闭位置服务、清除所有数据）	拒绝执行，返回错误：“该操作存在安全风险，已拦截”

这确保它既能高效干活，又绝不会越界——你永远是对手机拥有绝对主权的人。

5. 常见问题与避坑指南：少走弯路，一次成功

在数十位早期用户的部署反馈中，我们梳理出最常遇到的 4 类问题及根治方案：

5.1 问题：`adb devices`显示`offline`或`unauthorized`

原因：ADB 服务异常或手机授权未通过
解决：
1. 电脑端执行adb kill-server && adb start-server
2. 手机断开 USB，重新连接，务必在弹窗出现时立即勾选“始终允许”
3. 如仍无效，尝试更换 USB 数据线（部分充电线不支持数据传输）

5.2 问题：模型返回乱码、空响应，或卡在“等待界面加载”

原因：云服务端口未正确映射，或max-model-len设置过小
解决：
- 检查云服务器防火墙：确保8800（或其他映射端口）已放行 TCP
- 启动 vLLM 时，务必添加参数：--max-model-len 8192（autoglm-phone-9b需要足够长的上下文窗口）
- 使用curl http://<IP>:8800/v1/models测试 API 是否可达

5.3 问题：AI 点错了位置，或找不到按钮文字

原因：屏幕分辨率适配问题，或截图未及时更新
解决：
- 在config.yaml中设置screen_scale: 1.0（根据手机实际 DPI 调整，如 Pixel 6 用1.25）
- 添加--debug-screenshot参数运行，它会将每一步截图保存至debug/目录，方便你肉眼比对识别效果