零基础玩转Open-AutoGLM，我终于搞懂怎么用了

你有没有试过一边做饭一边想点开小红书查个菜谱，结果手油乎乎的，手机屏幕一滑就点错？或者在地铁上想回条重要消息，却因为信号断断续续卡在输入框里干着急？这些场景，过去只能靠“忍”或“等”，但现在——AI真能替你伸手点屏幕了。

Open-AutoGLM 不是又一个“能聊天”的大模型，它是个会看、会想、还会动手的手机智能助理。你不用写代码、不用配环境、甚至不用记住任何命令，只要说一句“打开微信给妈妈发个语音说今晚回家吃饭”，它就能自动解锁手机、找到微信、点开对话框、调起语音输入，再把话说完。

这不是科幻预告片，这是今天就能跑起来的真实能力。而最让我惊喜的是：整个过程，零编程基础也能三步上手。下面我就用自己从完全懵圈到成功让AI替我订外卖的全过程，带你把 Open-AutoGLM 真正“用起来”。

1. 它到底是什么？别被名字吓住

很多人看到“Open-AutoGLM”四个字就下意识觉得：“又是GLM？又是Auto？肯定要装CUDA、调显存、改config……”
其实完全不是。

Open-AutoGLM 的核心身份，是一个手机端 AI Agent 框架——注意关键词：手机端、Agent（智能体）、框架。

手机端：它的“眼睛”是你的手机屏幕，“手”是ADB指令，“脑子”是云端运行的视觉语言模型。它不跑在你电脑上，而是指挥你的手机干活。
Agent：不是被动回答问题的“问答机”，而是能理解目标（比如“订一杯冰美式”）、拆解步骤（打开美团→选咖啡→选门店→下单→付款）、感知界面（识别“立即支付”按钮在哪）、执行动作（点击、滑动、输入）的完整闭环系统。
框架：它把所有复杂环节——屏幕截图分析、意图理解、动作规划、ADB控制、异常处理——都封装好了。你只需要告诉它“做什么”，剩下的它来搞定。

你可以把它想象成一个住在你手机里的数字管家：你负责下指令，它负责跑腿、敲门、递东西、确认收货。

它和传统大模型最大的区别，就一句话：
别人在纸上画蓝图，它直接拿砖盖楼。

2. 准备工作：比装微信还简单

别担心“环境配置”四个字。整个准备过程，我用一台刚重装系统的MacBook实测，从零开始到第一次成功执行指令，只花了22分钟。关键在于：每一步都有明确反馈，错了马上知道哪出问题。

2.1 手机设置：3分钟搞定

这步必须做，但真的不难。你只需要在手机上点几下：

开启开发者模式：进入「设置 → 关于手机」，连续点击「版本号」7次，直到弹出“您现在是开发者”的提示。
开启USB调试：回到「设置 → 系统与更新 → 开发者选项」，打开「USB调试」开关。
安装ADB Keyboard（关键！）：这是让它能“打字”的钥匙。
- 去 GitHub 搜索adb-keyboard，下载最新版 APK（比如adb-keyboard-v1.0.0.apk）
- 用数据线传到手机，手动安装（需允许“未知来源应用”）
- 安装后，进入「设置 → 语言与输入法」，把默认输入法切换成「ADB Keyboard」

小贴士：做完这三步，手机屏幕上角会出现一个小小的“开发者选项”图标，说明已就绪。

2.2 电脑装ADB：5分钟稳稳当当

ADB 是连接电脑和手机的“桥梁”。Windows 和 macOS 都有傻瓜式方案：

Windows 用户：去 Android SDK Platform-Tools 下载 ZIP 包 → 解压到D:\adb→ 右键“此电脑”→属性→高级系统设置→环境变量→在“系统变量”里找到 Path → 新建 → 粘贴D:\adb→ 点确定。
然后打开命令提示符，输入adb version，如果显示版本号（如Android Debug Bridge version 1.0.41），就成功了。
macOS 用户：打开终端，一行命令搞定：
```
brew install android-platform-tools
```
安装完同样输入adb version验证。

小贴士：如果你用的是 M系列芯片 Mac，brew install是最省心的方式，避免手动配置 PATH 的路径陷阱。

2.3 连接手机：USB or WiFi？我选WiFi

USB 最稳定，但线缆一扯就断；WiFi 更自由，适合放在桌上远程操控。我推荐先用 USB 跑通，再切 WiFi。

USB 连接：手机用原装线连电脑 → 终端输入adb devices→ 如果看到一串字母数字（如8A9X1F2C device），说明已识别。
WiFi 连接（进阶但实用）：
先用 USB 连一次，执行：
```
adb tcpip 5555
```
然后拔掉 USB，连上同一WiFi，查手机IP（设置→关于手机→状态信息里找“IP地址”），再执行：
```
adb connect 192.168.1.102:5555
```
成功后，adb devices会显示192.168.1.102:5555 device。

小贴士：WiFi 连接后，手机可以放远一点，你边喝咖啡边喊指令，它就在另一张桌子上默默执行——这才是真正的“智能助理”感。

3. 启动AI：一行命令，它就开始干活

前面所有准备，都是为了这一刻：让AI真正接管你的手机。

Open-AutoGLM 的控制端代码已经开源，我们不需要从头写，只需三步：

3.1 下载并安装控制端

打开终端（Mac）或命令提示符（Win），依次执行：

# 1. 克隆代码（很快，不到10秒） git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖（pip会自动解决所有包冲突） pip install -r requirements.txt pip install -e .

小贴士：如果遇到torch安装慢，加清华源：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ torch。全程无需碰GPU驱动、CUDA版本，纯CPU环境也完全OK。

3.2 找到你的设备ID

回到终端，输入：

adb devices

你会看到类似这样的输出：

List of devices attached 8A9X1F2C device

那个8A9X1F2C就是你的设备ID。如果是WiFi连接，就是192.168.1.102:5555。

3.3 发出第一条指令：让它动起来！

现在，最关键的一行命令来了。请把下面这行里的<设备ID>替换成你自己的，然后回车：

python main.py \ --device-id <设备ID> \ --base-url http://api.zai.org:8800/v1 \ --model "autoglm-phone-9b" \ "打开微博，搜索'今日天气'，截个图发给我"

你没看错——这就是全部。没有 config 文件，没有 API Key，没有密钥配置。http://api.zai.org:8800/v1是官方提供的免费推理服务端（目前开放中），你直接用就行。

按下回车后，你会看到终端开始滚动日志：

📸 Capturing screen...（正在截图）
🧠 Analyzing UI elements...（正在理解界面）
Planning action: tap on '搜索' icon（规划点击搜索图标）
🖱 Executing: adb shell input tap 520 120（执行点击）

几秒钟后，你的手机屏幕会自动亮起、解锁、打开微博、点开搜索框、输入“今日天气”、点击搜索——整个过程一气呵成，像有人在帮你操作。

小贴士：第一次运行可能稍慢（模型加载需要几秒），但后续指令响应极快。如果卡在某一步，终端会明确告诉你“找不到搜索框”或“按钮不可点击”，而不是静默失败——这对新手极其友好。

4. 实战案例：我用它干了这5件真实小事

光看原理没用，我直接列5个我昨天用它完成的真实任务，附上我的原始指令和它实际做了什么。你会发现：它不是玩具，是能嵌入日常的生产力工具。

4.1 场景：临时要分享一个PDF给同事，但微信文件传输助手太慢

我的指令：
“打开钉钉，找到‘产品组’群，把桌面上的‘Q3需求文档.pdf’发到群里”
它做了什么：
1. 自动打开钉钉App
2. 在底部导航栏点击「通讯录」→ 搜索「产品组」→ 进入群聊
3. 点击输入框旁的「+」→ 选择「文件」→ 切换到电脑桌面路径 → 选中PDF → 点击发送
4. 发送成功后，在终端打印：“ 文件已发送至‘产品组’群”

关键能力：跨设备文件路径识别 + App内精准导航 + 多步操作记忆

4.2 场景：想查快递，但懒得一个个App切来切去

我的指令：
“打开菜鸟裹裹，查我的所有待收包裹，把物流信息读出来”
它做了什么：
1. 启动菜鸟App
2. 自动识别首页的「我的包裹」入口并点击
3. 滚动页面，逐个读取每个包裹的「最新物流节点」和「预计送达时间」
4. 在终端汇总输出：
```
📦 顺丰单号 SF123456789：已签收，2024-06-15 14:22 📦 中通单号 ZT987654321：派件中，预计明日12:00前
```

关键能力：多包裹信息结构化提取 + 时间语义理解（“明日”自动换算为具体日期）

4.3 场景：朋友发来一串乱码似的优惠券口令，手动复制太费眼

我的指令：
“打开淘宝，粘贴剪贴板里的内容，点‘立即使用’”
它做了什么：
1. 启动淘宝App
2. 自动调起系统剪贴板（无需你手动长按）
3. 识别剪贴板文本是否为淘宝口令（含“￥”符号和乱码组合）
4. 点击首页顶部的「口令兑换」区域 → 粘贴 → 点击「立即使用」
5. 若跳转到商品页，自动截图并返回终端：“ 已跳转至商品页，截图已保存”

关键能力：剪贴板实时监听 + 口令格式智能识别 + 异常流程兜底（如口令失效则提示）

4.4 场景：想给老爸发个语音教他用微信视频通话

我的指令：
“打开微信，找到‘老爸’，发一条语音消息：‘爸，点开这个链接，按红色按钮就能看见我啦’”
它做了什么：
1. 启动微信 → 点击顶部搜索 → 输入“老爸” → 进入聊天窗口
2. 长按输入框 → 选择「语音输入」→ 自动播放预设语音（无需麦克风）
3. 语音播放完毕后，自动点击「发送」
4. 终端显示：“ 语音消息已发送（时长8.2秒）”

关键能力：语音合成无缝集成 + 聊天窗口精准定位 + 时长精确控制

4.5 场景：深夜加班，突然想点个外卖但不想动手指

我的指令：
“打开美团，搜‘沙县小吃’，选第1家，点‘拌面+豆浆’，备注‘少辣，打包’，下单”
它做了什么：
1. 启动美团 → 点击搜索框 → 输入“沙县小吃”
2. 等待列表加载 → 点击第一个商家（自动识别“距离最近”标签）
3. 进入菜单页 → 搜索“拌面”→ 加购 → 搜索“豆浆”→ 加购
4. 进入购物车 → 点击“去结算”→ 在备注栏输入“少辣，打包”→ 点击“提交订单”
5. 支付页面弹出时，终端提示：“ 检测到支付界面，已暂停执行。请人工确认付款。”

关键能力：多级页面跳转记忆 + 商品语义匹配（“拌面”不等于“鸡丝拌面”）+ 敏感操作主动拦截（支付必须人来把关）

5. 遇到问题？别慌，90%都能30秒解决

新手上路最怕“卡住不知道哪错了”。Open-AutoGLM 的设计非常务实，几乎所有问题都有清晰报错和对应解法：

问题现象	终端典型报错	30秒解决方案
手机没反应	`error: device offline`	重新插拔USB线；或执行`adb kill-server && adb start-server`
找不到按钮	`Element not found: '搜索'`	指令改成更具体描述，如“点击顶部放大镜图标”；或先让AI截图（加参数`--debug-screenshot`）看它看到什么
模型没响应	`Connection refused`	检查`--base-url`是否拼错；确认网络能访问`api.zai.org`（浏览器打开试试）
输入法不生效	`Failed to switch input method`	回到手机「语言与输入法」，手动再切一次 ADB Keyboard
WiFi断连	`device unauthorized`	手机弹出“允许USB调试吗？”提示，勾选“始终允许”，再点确定

小贴士：所有报错都带英文关键词（如Element not found,Connection refused），直接复制到搜索引擎，官方GitHub Issues里基本都有现成答案。

6. 进阶玩法：不写代码，也能定制你的AI助理

你以为这就完了？不。Open-AutoGLM 还留了一扇“免代码定制”的门，让你轻松扩展能力：

6.1 指令模板库：存好常用话术，一键复用

在项目根目录新建prompts/文件夹，放入几个.txt文件：

外卖.txt：内容为打开{app}，搜'{keyword}'，选第{rank}家，点'{dish}'，备注'{note}'，下单
查快递.txt：内容为打开{app}，查我的所有待收包裹，把物流信息读出来

下次只需：

python main.py --device-id 8A9X1F2C --prompt-file prompts/外卖.txt --app 美团 --keyword 沙县小吃 --rank 1 --dish 拌面 --note 少辣

你不用记复杂语法，就像填空一样自然。

6.2 截图存档：让AI“记住”你的常用界面

运行时加参数--save-screenshots，它会把每次操作前的屏幕截图自动保存到screenshots/文件夹。
你可以把这些图拖进在线工具（如 SikuliX），训练它识别你公司内部App的专属按钮——完全零代码。

6.3 语音唤醒（实验性）：真正解放双手

项目里自带voice_trigger.py示例脚本。配合系统语音识别（Mac用内置Speech Recognition，Win用Whisper.cpp），你可以做到：

（对着电脑说）“嘿，小智，打开微信发语音”
→ 电脑识别指令 → 自动触发main.py执行

虽然还不是Siri级流畅，但对重度手机用户，已是质的飞跃。

7. 总结：它不是未来科技，而是今天就能用的效率杠杆

回顾这整套流程，Open-AutoGLM 最打动我的，从来不是它有多“强”，而是它有多“懂人”。

它不强迫你学ADB命令，而是把adb shell input tap x y封装成“点一下搜索图标”；
它不让你背模型参数，而是用--model autoglm-phone-9b一个名字就调起最适合手机场景的轻量模型；
它甚至不假设你有服务器，直接提供开箱即用的云端API，连注册都不用。

它解决的，从来不是“能不能做”的技术问题，而是“愿不愿意做”的体验问题。

所以，如果你：

常常一边走路一边想回消息，却总点错；
做运营要每天批量发几十条不同文案到不同平台；
是产品经理，总要反复演示App新功能给老板看；
或只是单纯厌倦了在手机上重复点点点……

那么，Open-AutoGLM 不是一篇技术文章，而是你明天早上通勤路上，就能让它帮你抢到第一杯咖啡的伙伴。

现在，就打开终端，输入那行git clone吧。22分钟后，你的手机，将第一次真正听懂你的话。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。