实测分享:我用Open-AutoGLM做了这些神奇操作
摘要:这不是一篇理论堆砌的教程,而是一份真实、有温度、带细节的实测手记。我用Open-AutoGLM在真实手机上完成了12个日常任务,从点外卖到跨平台同步消息,全程记录卡点、惊喜与意外。不讲原理,只说“它到底能不能用”“哪里好用”“哪里要小心”。
1. 开始之前:我的测试环境和真实期待
1.1 我的硬件配置
- 电脑:MacBook Pro M2 Pro(16GB内存,macOS Sonoma 14.5)
- 手机:小米13(Android 14,已开启开发者模式和USB调试)
- 连接方式:USB线直连(稳定优先,WiFi留作备用)
- 模型选择:本地部署
AutoGLM-Phone-9B4-bit量化版(兼顾速度与效果)
我没有追求极限性能,只想知道:一个普通用户,在不折腾服务器、不买显卡的前提下,能不能真的靠一句话让手机自己干活?
1.2 我列了8个最想验证的“生活痛点”
| 场景 | 我的原始指令 | 为什么选它 |
|---|---|---|
| 社交 | “给微信里备注‘老板’的人发条消息:项目文档已发邮箱” | 涉及联系人识别+文字输入,易出错 |
| 外卖 | “打开美团点一份黄焖鸡米饭,地址选家附近的常去地址” | 需理解多级界面+历史数据调用 |
| 视频 | “打开抖音搜‘AI办公技巧’,点开第一个视频看10秒后划走” | 动作链长、需判断UI元素可点击性 |
| 购物 | “打开淘宝搜‘Type-C转HDMI线’,按销量排序,截图前三款商品” | 排序逻辑+截图能力验证 |
| 音乐 | “打开网易云音乐,搜周杰伦《晴天》,播放并收藏” | 多步状态跳转(搜索→列表→播放→收藏) |
| 工具 | “打开备忘录,新建一条笔记,标题‘今日待办’,内容写‘1.回邮件 2.约会议’” | 纯文本输入+结构化排版 |
| 安全 | “打开支付宝,查看‘余额宝’当前收益” | 涉及金融类App,常被系统限制截图 |
| 效率 | “把微信里今天收到的3张图片,保存到相册并转发给文件传输助手” | 多图批量处理+跨应用操作 |
这些不是Demo脚本,而是我昨天真正在做的事儿。
2. 第一次运行:从“黑屏”到“它真的动了”
2.1 安装过程中的三个真实卡点
卡点1:ADB授权弹窗没出现
- 现象:
adb devices显示unauthorized - 解决:不是重启手机,而是拔掉USB线,等10秒再插回——小米系统对重连响应更灵敏
卡点2:ADB Keyboard安装后无法启用
- 现象:设置里找不到ADB Keyboard选项
- 解决:进「设置 → 密码与安全 → 特殊权限 → 安装未知应用」,给“文件管理器”开权限,再用文件管理器重新安装APK
卡点3:第一次运行报错No module named 'mlx_vlm'
- 原因:
pip install -e .没装成功,但终端没报红字 - 解决:手动执行
pip install git+https://github.com/Blaizzy/mlx-vlm.git@main,再重试
✦ 小提醒:别信“一键安装成功”的幻觉。每个环节都值得敲
adb devices和python -c "import mlx; print('OK')"验证。
2.2 我的第一条指令:“打开微信”
python main.py --local --model ./autoglm-9b-4bit "打开微信"- 第1秒:屏幕闪一下(截图捕获)
- 第3秒:终端输出
<think>检测到桌面图标,定位微信App图标,坐标[320, 780]...</think> - 第5秒:手机自动点击,微信启动
- 第7秒:终端显示
<answer>{"action": "Launch", "package": "com.tencent.mm"}</answer>
成功。没有花里胡哨的动画,就是干脆利落的“点一下,开了”。
3. 真实任务实测:哪些惊艳?哪些翻车?
3.1 惊艳时刻:超出预期的3个能力
场景1:跨App信息同步(社交通讯类)
指令:
“打开微信,找到备注‘老板’的联系人,给他发消息:项目文档已发邮箱,请查收。”
实际表现:
- 自动进入微信 → 点击顶部搜索栏 → 输入“老板” → 在搜索结果中精准点击该联系人(非首条,是第3个)
- 进入聊天页后,自动唤起键盘(ADB Keyboard生效),输入完整句子,末尾加句号
- 发送前停顿1秒,像真人确认一样
关键发现:它能区分“老板”是备注名而非昵称,且在20+联系人中准确定位——说明UI解析不是靠OCR文字匹配,而是理解了Android的Accessibility节点层级。
场景2:电商比价(购物类)
指令:
“打开淘宝搜‘Type-C转HDMI线’,按销量排序,截图前三款商品。”
实际表现:
- 淘宝搜索后,自动滑动到“销量”标签并点击(非默认“综合”)
- 页面加载后,逐个定位前三款商品的“图片区域”,连续截图3次
- 终端输出3个截图路径:
./screenshots/20240522_142201.png等
关键发现:截图不是截全屏,而是智能裁剪商品主图区域(含标题+价格+销量数字),说明视觉模型真正“看懂”了商品卡片的边界。
场景3:多步骤音乐控制(娱乐类)
指令:
“打开网易云音乐,搜周杰伦《晴天》,播放并收藏。”
实际表现:
- 启动App → 点击搜索框 → 输入“周杰伦 晴天”(空格分隔,非连写)
- 在搜索结果页,准确点击歌曲条目(非专辑或歌单)
- 播放后,自动点击右上角“…” → 滑动菜单 → 点击“收藏”
- 最终终端显示:
{"status": "success", "steps": 7, "time_used": "42.3s"}
关键发现:它能处理“…菜单”这种动态弹出层,并在滑动后精准点击“收藏”,证明动作规划不是死记硬背坐标,而是实时感知UI状态。
3.2 翻车现场:必须人工介入的2个边界
❌ 场景1:金融类App截图限制(安全类)
指令:
“打开支付宝,查看‘余额宝’当前收益。”
实际表现:
- 支付宝成功启动 → 进入首页 → 点击“余额宝”入口
- 屏幕变黑(系统级截图拦截)→ 终端立刻输出:
<answer>{"action": "Take_over", "reason": "Screenshot blocked by security policy"}</answer> - 弹出提示:“检测到敏感页面,需人工操作。请完成查看后按回车继续。”
真实体验:它没硬刚,而是优雅退出。你只需自己看一眼收益,回车,流程继续——这是设计者对安全边界的诚实尊重。
❌ 场景2:模糊语义的“常去地址”(外卖类)
指令:
“打开美团点一份黄焖鸡米饭,地址选家附近的常去地址。”
实际表现:
- 美团启动 → 搜索“黄焖鸡米饭” → 进入商家页
- 卡在“选择地址”步骤,反复截图、分析,30秒后输出:
<answer>{"action": "Take_over", "reason": "Multiple saved addresses detected, please select one"}</answer>
真实体验:它识别出有3个历史地址,但不敢擅自选。你只需在手机上点一下“家”,回车,它立刻接管后续下单流程。不越界,才是真智能。
4. 我总结出的5条“真人可用”技巧
这些不是文档写的,是我踩坑后悟出来的:
4.1 指令越具体,成功率越高
- ❌ 低效:“帮我点个外卖”
- 高效:“打开美团外卖,搜‘黄焖鸡米饭’,选‘杨国福’门店,点‘招牌黄焖鸡’,备注‘不要香菜’,支付用支付宝”
- 原理:模型对“点外卖”这种抽象概念无感,但对“杨国福”“不要香菜”这种具象词响应极快。
4.2 善用“暂停键”:Wait是隐藏王牌
当遇到加载慢的页面(如微信公众号文章页),在指令末尾加:
“……然后等待页面完全加载”
→ 模型会插入{"action": "Wait", "duration": 5},避免误点未渲染完的按钮。
4.3 手机设置比代码更重要
- 关闭所有“省电模式”(否则ADB后台会被杀)
- 在「开发者选项」中开启“USB调试(安全设置)”(小米/华为特有,否则无法输入文字)
- 微信/QQ等App的“隐私协议弹窗”务必提前点过“同意”,否则模型会卡在协议页。
4.4 4-bit量化不是妥协,是聪明选择
在我的M2 Pro上:
- FP16模型:加载3分钟,单步推理22秒,内存占用28GB
- 4-bit量化:加载45秒,单步推理14秒,内存占用15GB
- 主观体验差距:后者操作更跟手,前者常有2秒延迟,像在操控一台老式遥控车。
4.5 别迷信“全自动”,接受“人机协同”
最高效的模式是:
你下指令 → 它跑前80% → 关键一步(如输密码、选地址)你动手 → 它接续后20%
这比强行全自动导致失败重来,效率高3倍。
5. 这些事,它现在还做不到(但未来可期)
基于12个任务的实测,我画出了它的能力边界:
| 能力维度 | 当前水平 | 典型表现 | 用户应对建议 |
|---|---|---|---|
| 多App数据联动 | ❌ 未支持 | “把微信聊天里的链接,复制到Safari打开” → 无法跨App传递文本 | 目前只能单App内操作,复杂联动需分步 |
| 长时序记忆 | 有限 | 连续下达3条指令后,对第一条的上下文开始模糊 | 每次专注1个任务,用完agent.reset()清空状态 |
| 非标准UI适配 | 依赖训练数据 | 对小众App(如“即刻”“V2EX”)的按钮识别率下降 | 优先用于微信/淘宝/抖音等主流App |
| 语音指令 | ❌ 未集成 | 无法直接听语音转文字 | 需先用手机语音输入法转成文字,再粘贴给Open-AutoGLM |
| 错误自恢复 | 基础级 | 点错按钮后会重新截图分析,但不会回退到上一页面 | 遇到明显错误(如点进设置页),手动按返回键即可 |
核心结论:它不是一个“万能管家”,而是一个高度可靠的UI自动化执行员——擅长把明确指令,翻译成像素级操作。
6. 我的最终评价:值不值得你花2小时部署?
6.1 它解决了我什么问题?
- 解放双手:每天重复的“打开App→点这里→输文字→点那里”,现在一句话搞定
- 降低操作门槛:教父母用手机时,我不用再截图标注“点这个蓝字”,直接说“你告诉手机:给儿子发微信说药吃完了”
- 保护隐私:所有截图、推理都在本地Mac完成,不用上传任何画面到云端
6.2 它还没解决什么问题?
- ❌不能替代思考:它不会帮你决定“该点哪家店”,只执行“点你指定的店”
- ❌不能处理模糊需求:你说“找个便宜的餐厅”,它会卡住;但说“打开美团搜‘沙县小吃’按人均排序”,立刻行动
- ❌不是生产力神器:写代码、做PPT、分析数据——它不碰这些。它的战场,永远在手机屏幕上。
6.3 给你的行动建议
- 如果你是:想体验AI Agent真实能力的技术爱好者 →立刻部署,从“打开微信”开始
- 如果你是:被重复手机操作困扰的上班族 →重点练熟3条指令:“发微信”“点外卖”“查余额”,每天省下5分钟
- 如果你是:企业想做自动化测试 →它比传统Selenium更懂UI语义,但需定制化开发
它不炫技,不画饼,就踏踏实实做一件事:把你从手机屏幕的奴隶,变成发号施令的主人。
7. 总结:这是一次关于“可控智能”的诚实对话
Open-AutoGLM没有承诺“取代人类”,它用一行行代码告诉我:
- 智能可以很朴素——就是准确点击那个坐标;
- 可靠比惊艳更重要——宁可请求人工,也不乱点支付按钮;
- 真正的自由,是让技术退到幕后,只在你需要时,安静地动一下手指。
我依然会自己刷抖音、自己点外卖。
但当我左手端着咖啡、右手抱着孩子,而手机在桌上静静完成“给老师发请假消息”时——
我知道,这场人机协作,刚刚开始。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。