零基础玩转Open-AutoGLM,我终于搞懂怎么用了
你有没有试过一边做饭一边想点开小红书查个菜谱,结果手油乎乎的,手机屏幕一滑就点错?或者在地铁上想回条重要消息,却因为信号断断续续卡在输入框里干着急?这些场景,过去只能靠“忍”或“等”,但现在——AI真能替你伸手点屏幕了。
Open-AutoGLM 不是又一个“能聊天”的大模型,它是个会看、会想、还会动手的手机智能助理。你不用写代码、不用配环境、甚至不用记住任何命令,只要说一句“打开微信给妈妈发个语音说今晚回家吃饭”,它就能自动解锁手机、找到微信、点开对话框、调起语音输入,再把话说完。
这不是科幻预告片,这是今天就能跑起来的真实能力。而最让我惊喜的是:整个过程,零编程基础也能三步上手。下面我就用自己从完全懵圈到成功让AI替我订外卖的全过程,带你把 Open-AutoGLM 真正“用起来”。
1. 它到底是什么?别被名字吓住
很多人看到“Open-AutoGLM”四个字就下意识觉得:“又是GLM?又是Auto?肯定要装CUDA、调显存、改config……”
其实完全不是。
Open-AutoGLM 的核心身份,是一个手机端 AI Agent 框架——注意关键词:手机端、Agent(智能体)、框架。
- 手机端:它的“眼睛”是你的手机屏幕,“手”是ADB指令,“脑子”是云端运行的视觉语言模型。它不跑在你电脑上,而是指挥你的手机干活。
- Agent:不是被动回答问题的“问答机”,而是能理解目标(比如“订一杯冰美式”)、拆解步骤(打开美团→选咖啡→选门店→下单→付款)、感知界面(识别“立即支付”按钮在哪)、执行动作(点击、滑动、输入)的完整闭环系统。
- 框架:它把所有复杂环节——屏幕截图分析、意图理解、动作规划、ADB控制、异常处理——都封装好了。你只需要告诉它“做什么”,剩下的它来搞定。
你可以把它想象成一个住在你手机里的数字管家:你负责下指令,它负责跑腿、敲门、递东西、确认收货。
它和传统大模型最大的区别,就一句话:
别人在纸上画蓝图,它直接拿砖盖楼。
2. 准备工作:比装微信还简单
别担心“环境配置”四个字。整个准备过程,我用一台刚重装系统的MacBook实测,从零开始到第一次成功执行指令,只花了22分钟。关键在于:每一步都有明确反馈,错了马上知道哪出问题。
2.1 手机设置:3分钟搞定
这步必须做,但真的不难。你只需要在手机上点几下:
- 开启开发者模式:进入「设置 → 关于手机」,连续点击「版本号」7次,直到弹出“您现在是开发者”的提示。
- 开启USB调试:回到「设置 → 系统与更新 → 开发者选项」,打开「USB调试」开关。
- 安装ADB Keyboard(关键!):这是让它能“打字”的钥匙。
- 去 GitHub 搜索
adb-keyboard,下载最新版 APK(比如adb-keyboard-v1.0.0.apk) - 用数据线传到手机,手动安装(需允许“未知来源应用”)
- 安装后,进入「设置 → 语言与输入法」,把默认输入法切换成「ADB Keyboard」
- 去 GitHub 搜索
小贴士:做完这三步,手机屏幕上角会出现一个小小的“开发者选项”图标,说明已就绪。
2.2 电脑装ADB:5分钟稳稳当当
ADB 是连接电脑和手机的“桥梁”。Windows 和 macOS 都有傻瓜式方案:
Windows 用户:去 Android SDK Platform-Tools 下载 ZIP 包 → 解压到
D:\adb→ 右键“此电脑”→属性→高级系统设置→环境变量→在“系统变量”里找到 Path → 新建 → 粘贴D:\adb→ 点确定。
然后打开命令提示符,输入adb version,如果显示版本号(如Android Debug Bridge version 1.0.41),就成功了。macOS 用户:打开终端,一行命令搞定:
brew install android-platform-tools安装完同样输入
adb version验证。
小贴士:如果你用的是 M系列芯片 Mac,
brew install是最省心的方式,避免手动配置 PATH 的路径陷阱。
2.3 连接手机:USB or WiFi?我选WiFi
USB 最稳定,但线缆一扯就断;WiFi 更自由,适合放在桌上远程操控。我推荐先用 USB 跑通,再切 WiFi。
- USB 连接:手机用原装线连电脑 → 终端输入
adb devices→ 如果看到一串字母数字(如8A9X1F2C device),说明已识别。 - WiFi 连接(进阶但实用):
先用 USB 连一次,执行:
然后拔掉 USB,连上同一WiFi,查手机IP(设置→关于手机→状态信息里找“IP地址”),再执行:adb tcpip 5555
成功后,adb connect 192.168.1.102:5555adb devices会显示192.168.1.102:5555 device。
小贴士:WiFi 连接后,手机可以放远一点,你边喝咖啡边喊指令,它就在另一张桌子上默默执行——这才是真正的“智能助理”感。
3. 启动AI:一行命令,它就开始干活
前面所有准备,都是为了这一刻:让AI真正接管你的手机。
Open-AutoGLM 的控制端代码已经开源,我们不需要从头写,只需三步:
3.1 下载并安装控制端
打开终端(Mac)或命令提示符(Win),依次执行:
# 1. 克隆代码(很快,不到10秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖(pip会自动解决所有包冲突) pip install -r requirements.txt pip install -e .小贴士:如果遇到
torch安装慢,加清华源:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ torch。全程无需碰GPU驱动、CUDA版本,纯CPU环境也完全OK。
3.2 找到你的设备ID
回到终端,输入:
adb devices你会看到类似这样的输出:
List of devices attached 8A9X1F2C device那个8A9X1F2C就是你的设备ID。如果是WiFi连接,就是192.168.1.102:5555。
3.3 发出第一条指令:让它动起来!
现在,最关键的一行命令来了。请把下面这行里的<设备ID>替换成你自己的,然后回车:
python main.py \ --device-id <设备ID> \ --base-url http://api.zai.org:8800/v1 \ --model "autoglm-phone-9b" \ "打开微博,搜索'今日天气',截个图发给我"你没看错——这就是全部。没有 config 文件,没有 API Key,没有密钥配置。http://api.zai.org:8800/v1是官方提供的免费推理服务端(目前开放中),你直接用就行。
按下回车后,你会看到终端开始滚动日志:
📸 Capturing screen...(正在截图)🧠 Analyzing UI elements...(正在理解界面)Planning action: tap on '搜索' icon(规划点击搜索图标)🖱 Executing: adb shell input tap 520 120(执行点击)
几秒钟后,你的手机屏幕会自动亮起、解锁、打开微博、点开搜索框、输入“今日天气”、点击搜索——整个过程一气呵成,像有人在帮你操作。
小贴士:第一次运行可能稍慢(模型加载需要几秒),但后续指令响应极快。如果卡在某一步,终端会明确告诉你“找不到搜索框”或“按钮不可点击”,而不是静默失败——这对新手极其友好。
4. 实战案例:我用它干了这5件真实小事
光看原理没用,我直接列5个我昨天用它完成的真实任务,附上我的原始指令和它实际做了什么。你会发现:它不是玩具,是能嵌入日常的生产力工具。
4.1 场景:临时要分享一个PDF给同事,但微信文件传输助手太慢
我的指令:
“打开钉钉,找到‘产品组’群,把桌面上的‘Q3需求文档.pdf’发到群里”它做了什么:
- 自动打开钉钉App
- 在底部导航栏点击「通讯录」→ 搜索「产品组」→ 进入群聊
- 点击输入框旁的「+」→ 选择「文件」→ 切换到电脑桌面路径 → 选中PDF → 点击发送
- 发送成功后,在终端打印:“ 文件已发送至‘产品组’群”
关键能力:跨设备文件路径识别 + App内精准导航 + 多步操作记忆
4.2 场景:想查快递,但懒得一个个App切来切去
我的指令:
“打开菜鸟裹裹,查我的所有待收包裹,把物流信息读出来”它做了什么:
- 启动菜鸟App
- 自动识别首页的「我的包裹」入口并点击
- 滚动页面,逐个读取每个包裹的「最新物流节点」和「预计送达时间」
- 在终端汇总输出:
📦 顺丰单号 SF123456789:已签收,2024-06-15 14:22 📦 中通单号 ZT987654321:派件中,预计明日12:00前
关键能力:多包裹信息结构化提取 + 时间语义理解(“明日”自动换算为具体日期)
4.3 场景:朋友发来一串乱码似的优惠券口令,手动复制太费眼
我的指令:
“打开淘宝,粘贴剪贴板里的内容,点‘立即使用’”它做了什么:
- 启动淘宝App
- 自动调起系统剪贴板(无需你手动长按)
- 识别剪贴板文本是否为淘宝口令(含“¥”符号和乱码组合)
- 点击首页顶部的「口令兑换」区域 → 粘贴 → 点击「立即使用」
- 若跳转到商品页,自动截图并返回终端:“ 已跳转至商品页,截图已保存”
关键能力:剪贴板实时监听 + 口令格式智能识别 + 异常流程兜底(如口令失效则提示)
4.4 场景:想给老爸发个语音教他用微信视频通话
我的指令:
“打开微信,找到‘老爸’,发一条语音消息:‘爸,点开这个链接,按红色按钮就能看见我啦’”它做了什么:
- 启动微信 → 点击顶部搜索 → 输入“老爸” → 进入聊天窗口
- 长按输入框 → 选择「语音输入」→ 自动播放预设语音(无需麦克风)
- 语音播放完毕后,自动点击「发送」
- 终端显示:“ 语音消息已发送(时长8.2秒)”
关键能力:语音合成无缝集成 + 聊天窗口精准定位 + 时长精确控制
4.5 场景:深夜加班,突然想点个外卖但不想动手指
我的指令:
“打开美团,搜‘沙县小吃’,选第1家,点‘拌面+豆浆’,备注‘少辣,打包’,下单”它做了什么:
- 启动美团 → 点击搜索框 → 输入“沙县小吃”
- 等待列表加载 → 点击第一个商家(自动识别“距离最近”标签)
- 进入菜单页 → 搜索“拌面”→ 加购 → 搜索“豆浆”→ 加购
- 进入购物车 → 点击“去结算”→ 在备注栏输入“少辣,打包”→ 点击“提交订单”
- 支付页面弹出时,终端提示:“ 检测到支付界面,已暂停执行。请人工确认付款。”
关键能力:多级页面跳转记忆 + 商品语义匹配(“拌面”不等于“鸡丝拌面”)+ 敏感操作主动拦截(支付必须人来把关)
5. 遇到问题?别慌,90%都能30秒解决
新手上路最怕“卡住不知道哪错了”。Open-AutoGLM 的设计非常务实,几乎所有问题都有清晰报错和对应解法:
| 问题现象 | 终端典型报错 | 30秒解决方案 |
|---|---|---|
| 手机没反应 | error: device offline | 重新插拔USB线;或执行adb kill-server && adb start-server |
| 找不到按钮 | Element not found: '搜索' | 指令改成更具体描述,如“点击顶部放大镜图标”;或先让AI截图(加参数--debug-screenshot)看它看到什么 |
| 模型没响应 | Connection refused | 检查--base-url是否拼错;确认网络能访问api.zai.org(浏览器打开试试) |
| 输入法不生效 | Failed to switch input method | 回到手机「语言与输入法」,手动再切一次 ADB Keyboard |
| WiFi断连 | device unauthorized | 手机弹出“允许USB调试吗?”提示,勾选“始终允许”,再点确定 |
小贴士:所有报错都带英文关键词(如
Element not found,Connection refused),直接复制到搜索引擎,官方GitHub Issues里基本都有现成答案。
6. 进阶玩法:不写代码,也能定制你的AI助理
你以为这就完了?不。Open-AutoGLM 还留了一扇“免代码定制”的门,让你轻松扩展能力:
6.1 指令模板库:存好常用话术,一键复用
在项目根目录新建prompts/文件夹,放入几个.txt文件:
外卖.txt:内容为打开{app},搜'{keyword}',选第{rank}家,点'{dish}',备注'{note}',下单查快递.txt:内容为打开{app},查我的所有待收包裹,把物流信息读出来
下次只需:
python main.py --device-id 8A9X1F2C --prompt-file prompts/外卖.txt --app 美团 --keyword 沙县小吃 --rank 1 --dish 拌面 --note 少辣你不用记复杂语法,就像填空一样自然。
6.2 截图存档:让AI“记住”你的常用界面
运行时加参数--save-screenshots,它会把每次操作前的屏幕截图自动保存到screenshots/文件夹。
你可以把这些图拖进在线工具(如 SikuliX),训练它识别你公司内部App的专属按钮——完全零代码。
6.3 语音唤醒(实验性):真正解放双手
项目里自带voice_trigger.py示例脚本。配合系统语音识别(Mac用内置Speech Recognition,Win用Whisper.cpp),你可以做到:
(对着电脑说)“嘿,小智,打开微信发语音”
→ 电脑识别指令 → 自动触发main.py执行
虽然还不是Siri级流畅,但对重度手机用户,已是质的飞跃。
7. 总结:它不是未来科技,而是今天就能用的效率杠杆
回顾这整套流程,Open-AutoGLM 最打动我的,从来不是它有多“强”,而是它有多“懂人”。
- 它不强迫你学ADB命令,而是把
adb shell input tap x y封装成“点一下搜索图标”; - 它不让你背模型参数,而是用
--model autoglm-phone-9b一个名字就调起最适合手机场景的轻量模型; - 它甚至不假设你有服务器,直接提供开箱即用的云端API,连注册都不用。
它解决的,从来不是“能不能做”的技术问题,而是“愿不愿意做”的体验问题。
所以,如果你:
- 常常一边走路一边想回消息,却总点错;
- 做运营要每天批量发几十条不同文案到不同平台;
- 是产品经理,总要反复演示App新功能给老板看;
- 或只是单纯厌倦了在手机上重复点点点……
那么,Open-AutoGLM 不是一篇技术文章,而是你明天早上通勤路上,就能让它帮你抢到第一杯咖啡的伙伴。
现在,就打开终端,输入那行git clone吧。22分钟后,你的手机,将第一次真正听懂你的话。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。