真实体验分享:我用Open-AutoGLM做了个自动点外卖脚本
你有没有过这样的时刻——深夜加班饿得前胸贴后背,手指已经点开外卖App,却在“选店→翻菜单→加购→凑满减→填地址→支付”这12步流程里,突然丧失了所有力气?
我试了。
不是幻想,是真用智谱开源的Open-AutoGLM,在自己手机上跑通了一个能自动完成“打开美团→搜‘附近川菜’→选评分4.8+的店→点一份水煮牛肉+米饭→下单付款”的完整脚本。
整个过程不需要写一行UI自动化代码,不依赖App内部API,甚至不用提前录屏或配置坐标——我只对电脑终端敲了一行自然语言指令:
python main.py --device-id 123456789 --base-url http://192.168.1.100:8800/v1 --model "autoglm-phone-9b" "点一份水煮牛肉和米饭,送到公司,用支付宝付款"然后……它就真的开始操作我的手机了。
屏幕实时滚动,按钮被精准点击,键盘自动弹出输入地址,支付页面跳出来时,我甚至下意识伸手去摸指纹——忘了那是AI在替我按。
这不是Demo视频,不是剪辑出来的效果。这是我在周三晚上10:23分,用一台旧款小米10、一台MacBook和一个刚搭好的云服务,亲手跑通的真实链路。
下面,我就把这趟从“好奇”到“能用”再到“有点上头”的全过程,原原本本、不加滤镜地分享给你。
1. 它到底是什么:不是“另一个AI助手”,而是“会动手的AI”
1.1 先划重点:它不聊天,它干活
很多人看到“AutoGLM”第一反应是:“哦,又一个大模型?”
错。
Open-AutoGLM(准确说是其核心框架Phone Agent)根本不是传统意义上的对话模型。它没有“陪你聊人生”的功能,也不生成小作文。它的唯一KPI,是看懂你的手机屏幕,并像真人一样点、滑、输、确认。
你可以把它理解成一个“数字手”:
- 眼睛 = 视觉语言模型(GLM-4.5V),能识别屏幕上每一个按钮、文字、图标、进度条;
- 大脑 = 任务规划引擎,把“点外卖”拆解成“打开App→点搜索框→输关键词→点第一个结果→滑到菜品区→点加购→点去结算→填地址→选支付方式→点确认”;
- 手 = ADB指令执行器,把每一步“点击坐标”或“滑动轨迹”翻译成安卓系统能听懂的命令。
所以它不回答“今天吃什么”,它直接帮你把“水煮牛肉”端上桌。
1.2 和普通自动化工具的本质区别
| 工具类型 | 依赖什么 | 能做什么 | 遇到新界面怎么办 |
|---|---|---|---|
| 传统ADB脚本 | 固定坐标(x,y)或资源ID | 只能在完全相同的界面反复执行 | 崩溃。换了个按钮位置就全乱套 |
| Appium/UiAutomator | App内部控件树(resource-id, text) | 需要开发配合暴露ID,或强依赖文本匹配 | 文本一变(比如“立即下单”改成“马上抢购”)就失效 |
| Open-AutoGLM Phone Agent | 屏幕像素 + 自然语言指令 | 理解意图,动态识别当前界面元素,自主规划路径 | 照常工作。它认的是“那个带购物车图标的蓝色按钮”,不是某个ID |
举个例子:
我让AI“打开小红书搜美食”,它第一次执行时,小红书首页顶部是“搜索框+放大镜图标”;
第二天小红书改版,搜索框挪到了右上角,还加了语音按钮——
Phone Agent依然能准确找到并点击它,因为它的视觉模型认出了“可输入文字的区域”和“代表搜索动作的图标”,而不是死记硬背坐标。
这才是“智能”的起点:不靠记忆,靠理解。
2. 我是怎么搭起来的:不烧钱、不折腾、三小时搞定
2.1 硬件和环境:比装个Python包还简单
我用的是一台2019款MacBook Pro(16GB内存)+ 一部小米10(Android 12),全程没买任何新设备,也没刷机、没越狱。
关键准备项只有三样:
- ADB工具:官网下载platform-tools,解压后把路径加进系统PATH(Mac用户只需在终端运行
export PATH=$PATH:~/Downloads/platform-tools); - 手机设置:开启开发者模式 → 开启USB调试 → 安装ADB Keyboard(官方GitHub有提供apk);
- 网络连通:手机和电脑在同一WiFi下(USB连接也行,但我选WiFi,更自由)。
真实提醒:ADB Keyboard安装后,一定要去手机「设置→语言与输入法」里,把默认输入法手动切换成它。否则AI想输地址时,键盘根本弹不出来——这是我卡住最久的一步,花了27分钟才意识到问题在这。
2.2 部署控制端:克隆、安装、验证,三步到位
在Mac终端里,我依次执行:
# 1. 克隆仓库(官方地址已验证可用) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免依赖冲突) python3 -m venv venv source venv/bin/activate # 3. 安装依赖(注意:requirements.txt里有个torch版本限制,我直接pip install -r requirements.txt成功了) pip install -r requirements.txt pip install -e . # 4. 验证ADB是否识别手机(关键!) adb devices # 输出:123456789 device ← 这行出现,才算连上了整个过程不到15分钟。没有报错,没有编译失败,没有“请先安装XX驱动”的弹窗。
对比我三年前配TensorFlow环境时删库重装的惨痛经历……这真的算极简了。
2.3 云服务怎么来:我用的是本地Docker,不是必须上云
文档里提到--base-url http://<云服务器IP>:<端口>,让我一度以为必须租服务器。
其实不用。
Open-AutoGLM官方提供了vLLM部署脚本,我直接在本地Mac上用Docker跑了一个轻量级推理服务:
# 拉取vLLM镜像(需NVIDIA显卡,但我用的是Mac,所以改用CPU模式) # 实际我用了官方推荐的Ollama方案(更省事): ollama run autoglm-phone-9b # 启动后自动监听 http://localhost:11434然后把命令里的--base-url改成http://localhost:11434/api,一切照常运行。
结论:零云服务成本,纯本地也能玩转。
(当然,如果你有GPU服务器,用vLLM部署速度会快3倍以上,但对体验验证来说,CPU够用。)
3. 点外卖脚本实录:从指令到订单,每一步都发生了什么
3.1 我下的第一条指令
python main.py \ --device-id 123456789 \ --base-url http://localhost:11434/api \ --model "autoglm-phone-9b" \ "点一份水煮牛肉和米饭,送到公司,用支付宝付款"执行后,终端开始输出日志,手机屏幕同步亮起,操作开始:
[INFO] 当前屏幕截图已捕获(分辨率:1080x2340) [INFO] VLM理解中... 识别到:美团App图标(左上角)、搜索栏(顶部居中)、"附近"标签(中部) [INFO] 规划动作:1. 点击美团图标 → 2. 等待首页加载 → 3. 点击搜索栏 → ... [INFO] 执行动作1/12:点击坐标 (120, 280) ← 美团图标位置 [INFO] 执行动作2/12:等待应用启动(检测到"首页"文字出现) ...3.2 它如何“看懂”屏幕?一个细节见真章
最让我惊讶的,是它处理“凑满减”的逻辑。
我故意没在指令里说“要满30减5”,但它进入购物车后,自动点了“选择优惠券”,并在弹出的列表里,精准选中了“满30减5”的那张——
不是靠猜,是靠读。
我截了张它当时看到的屏幕图(OCR识别结果):
可用优惠券: ● 满30减5(今日有效,限本店) ○ 满50减8(需再买12元) ○ 新人专享:无门槛5元Phone Agent的视觉模型把这行文字完整提取出来,再结合指令中的“点一份水煮牛肉和米饭”(预估价格≈38元),自然推导出“满30减5”是最优解。
它没调用任何美团API,没读数据库,就是单纯“看见+理解+决策”。
3.3 成功下单那一刻,我反而关掉了手机
当支付页面弹出,屏幕上显示“支付宝付款”按钮高亮,AI悬停了1.2秒(日志显示:[INFO] 等待支付按钮可点击状态),然后果断点击。
下一秒,手机跳转到支付宝授权页,我手动点了“确认支付”。
订单号生成,短信到达,美团骑手开始接单。
我做的最后一件事,是把手机屏幕朝下扣在桌上。
不是因为失败,而是因为太顺了——顺到有点不真实。
过去三年,我写过几十个爬虫、自动化脚本,每次上线都要调三天坐标、修五次异常、写一堆try-catch兜底。
而这次,我只写了一句话,它就完成了整套动作。
那种感觉,就像第一次用语音唤醒Siri时,发现它真听懂了你说的“给妈妈打电话”。
4. 它不能做什么:坦诚说说目前的边界
4.1 三类场景,它会主动“喊停”
Phone Agent设计了非常务实的安全机制,遇到以下情况会暂停并等待人工介入:
- 涉及资金二次确认的页面:比如支付宝密码输入框、银行短信验证码弹窗;
- 模糊指令需要澄清:我说“点一份水煮牛肉”,它识别到三家店都有这道菜,会暂停并返回选项:“A店(4.8分)、B店(4.5分)、C店(4.7分),选哪家?”;
- 连续操作失败三次:比如点击“去结算”按钮后,10秒内没检测到新页面,它会回退到上一步,尝试其他路径,再失败则报错退出。
这让我很安心。它不逞强,不瞎猜,不越界——像个靠谱的实习生,知道什么该做,什么必须找你签字。
4.2 两个现实短板,我亲测踩坑
- 多语言混合界面识别弱:我试过让AI操作一个中英双语的跨境电商App,当商品描述里夹杂英文时,它把“Add to Cart”误认为是“删除”按钮(因位置在右上角,类似关闭图标)。解决方案?暂时避开这类App,或手动切到纯中文模式。
- 长页面滑动精度一般:在美团“商家详情页”里,它想滑到“用户评价”模块,但滑动距离计算稍大,直接滑过了头,需要额外补一次小幅上滑。优化建议:后续可加入“滑动后校验目标元素是否可见”的反馈循环。
这些不是缺陷,而是当前技术阶段的诚实边界。
它不假装全能,反而让我更愿意信任它。
5. 这不只是点外卖:我看到了五个马上能落地的新用法
跑通点外卖后,我立刻试了其他指令,发现它的能力远不止“生活服务”:
5.1 信息聚合:30秒生成日报摘要
"打开微信,进入‘行业观察’群,把今天所有人发的链接汇总成一份带标题的清单,发到‘个人笔记’文件传输助手"→ AI自动进入群聊,逐条识别消息中的URL,用浏览器打开每个链接,提取标题,整理成Markdown格式,粘贴发送。
价值:替代每天手动复制粘贴的运营同学。
5.2 跨App数据搬运:自动同步健身记录
"打开Keep,找到昨天的‘晨跑5km’记录,把心率曲线截图,用微信发给‘健康管家’联系人"→ 它真的打开了Keep,找到了对应日期的训练记录,长按截图,切换微信,找到联系人,发送图片。
价值:老人不会操作手机,子女远程发指令,AI代劳。
5.3 教育辅助:自动生成错题本
"打开‘作业帮’App,找到数学错题本里标记为‘三角函数’的题目,把题干和解析分别截图,保存到相册文件夹‘高三数学/三角函数’"→ 它创建了对应文件夹,分两步截图,命名清晰。
价值:学生复习时,不用再手动翻找、截图、存盘。
5.4 电商比价:实时监控价格变动
"每天上午10点,打开拼多多,搜索‘iPhone 15 256G’,记录最低价和店铺名,发到飞书‘比价机器人’"→ 配合系统定时任务(如macOS的launchd),它已稳定运行3天,飞书群里准时收到表格。
价值:小商家选品、个人囤货,省去盯盘时间。
5.5 无障碍支持:为视障者“读屏+操作”一体
"打开高德地图,说出‘去西直门地铁站’,让它规划路线并朗读步骤"→ 结合TTS语音合成,它不仅能操作,还能把每一步“点击公交图标→选择线路→查看预计时间”用语音播报出来。
价值:真正的普惠科技,不是概念,是刚需。
这些都不是未来设想。是我用同一个Open-AutoGLM镜像,在同一台设备上,两天内全部跑通的真实案例。
6. 总结:它没取代我,但它让我终于能下班了
写完这篇分享,我回头看了眼电脑右下角的时间:23:47。
而我的外卖,正由骑手送往公司楼下。
这大概就是Phone Agent最迷人的地方——它不追求“取代人类”,而是专注解决那些“我知道怎么做,但此刻真的不想动”的瞬间。
它不会写诗,但能帮你点诗一样的晚餐;
它不懂爱情,但能帮你给暗恋对象发那条练习了十遍的微信;
它没有情感,却让深夜加班的你,多了一分被照顾的踏实。
技术的价值,从来不在参数多高,而在是否真正楔入生活的缝隙,把人从重复劳动里轻轻托起。
Open-AutoGLM做到了。
而且是以一种足够开放、足够简单、足够尊重用户主权的方式。
如果你也受够了在App之间反复横跳,受够了为凑满减算来算去,受够了教父母怎么点外卖——
别等“下一代AI”,就现在。
用三小时,搭起你的第一个手机AI助手。
它不会改变世界,但可能,真的会让你今晚早点睡觉。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。