亲测Open-AutoGLM:一句话自动点外卖、刷抖音太惊艳了

亲测Open-AutoGLM:一句话自动点外卖、刷抖音太惊艳了

你有没有想过,手机能像科幻电影里那样——你只说一句“帮我订份火锅”,它就自己打开美团、搜索、比价、下单、付款?不是语音助手那种简单跳转,而是真正看懂屏幕、思考步骤、动手操作的“数字分身”。

最近我实测了智谱开源的Open-AutoGLM,一个专为安卓手机打造的AI智能体框架。它不依赖云端APP、不走API调用,而是通过“看屏幕+想步骤+点手机”三步闭环,把你的普通安卓机变成能自主干活的AI助理。更让我惊讶的是:不用写代码、不配环境变量、连ADB都帮你封装好了——真的一句话就能让手机动起来。

这不是概念演示,是我在红米K60上跑通的真实体验。下面这篇内容,是我从零开始部署、调试、反复试错后整理出的最简路径+避坑指南+真实效果记录。全文没有一行废话,所有命令可直接复制粘贴,所有截图我都替你脑补清楚了。


1. 它到底是什么?别被名字吓住

1.1 一句话说清本质

Open-AutoGLM 不是另一个聊天机器人,而是一个能“看见”你手机屏幕、理解界面元素、并像真人一样点击滑动的AI代理。它的核心能力有三层:

  • 看得见:每秒截一张图,用视觉语言模型识别当前界面上的按钮、文字、图标(比如“美团”App图标、“搜索框”、“立即支付”按钮)
  • 想得清:把你的自然语言指令(如“打开抖音搜dycwo11nt61d并关注”)拆解成可执行动作序列(打开抖音→点搜索栏→输入ID→点头像→点关注)
  • 做得准:通过ADB(Android调试桥)向手机发送精准操作指令,模拟真实手指点击、长按、滑动、输入

关键区别:它不调用APP内部接口,也不需要APP开放权限;只要界面可见,它就能操作——这正是它能支持50+主流APP的根本原因。

1.2 和普通语音助手有啥不同?

对比项小爱同学/小艺/SiriOpen-AutoGLM
操作深度只能启动APP、拨打电话、设闹钟等系统级指令能在APP内完成多步任务(如:进淘宝→搜耳机→选参数→加购→结算)
理解方式依赖APP预设的语音指令白名单直接“看图说话”,无需APP适配,新APP上线当天就能用
执行精度“打开微信” → 启动微信首页“给妈妈发‘我到家了’” → 自动点开微信→找到妈妈对话→输入文字→点击发送
隐私安全语音上传云端识别全流程本地运行,截图、推理、操作均不离开你的电脑和手机

一句话总结:它是你手机的“数字手”,而不是“传声筒”。


2. 零基础部署:30分钟搞定,连Mac用户都无压力

别被“ADB”“vLLM”“多模态”这些词吓退。我测试过,Windows/Mac新手按以下步骤,30分钟内必跑通第一个指令。全程不需要改配置文件、不编译源码、不碰CUDA参数。

2.1 前置准备:4样东西,缺一不可

物品最低要求我的实测配置为什么重要
电脑Windows 10+/macOS 12+,8GB内存MacBook Pro M1, 16GB内存运行AI模型和控制端
安卓手机Android 7.0+,已解锁开发者模式红米K60(Android 13)必须开启USB调试才能被控制
数据线支持数据传输的USB-C线原装线WiFi连接虽可选,但首次调试强烈建议用USB
网络能访问GitHub、Hugging Face或ModelScope国内用户推荐用ModelScope镜像模型文件约18GB,国内源下载快10倍

提示:手机不用root!只需在“设置→关于手机→版本号”连点7次开启开发者模式,再打开“USB调试”即可。

2.2 一步到位安装ADB(Windows/Mac通用)

很多人卡在这步。其实现在有更傻瓜的方式——用官方平台工具包,不用配环境变量

Windows用户:
  1. 下载 Android Platform Tools(选windows.zip
  2. 解压到D:\adb(路径越短越好,避免空格)
  3. 打开命令提示符(Win+R → 输入cmd),执行:
D:\adb\platform-tools\adb version

看到Android Debug Bridge version 1.0.41即成功。

Mac用户:
  1. 下载macos.zip,解压到~/Downloads/platform-tools
  2. 打开终端,执行:
export PATH="$PATH:$(pwd)/platform-tools" adb version

成功标志:显示版本号,且adb devices命令能识别设备。

小技巧:Mac用户可将export PATH=...这行加到~/.zshrc,重启终端永久生效。

2.3 手机端关键设置:ADB Keyboard必须装

这是中文输入的命门!没有它,AI能点开微信,但输不了“我到家了”。

  1. 下载 ADBKeyboard.apk(GitHub官方发布)
  2. 电脑端执行:
adb install ADBKeyboard.apk
  1. 手机设置:
    • 进入“设置→系统→语言与输入法→虚拟键盘”
    • 找到“ADB Keyboard”,启用它
    • 返回上一级,点“默认键盘”,选中ADB Keyboard

注意:部分手机(如华为)需在“更多安全设置”里关闭“输入法校验”,否则无法切换。

2.4 一键部署Open-AutoGLM(核心步骤)

现在进入最简路径——我们跳过手动下载大模型、配置vLLM服务这些重活,直接用社区打包好的轻量方案。

第一步:克隆项目(含预置简化脚本)
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM
第二步:安装依赖(仅需2条命令)
pip install -r requirements.txt pip install -e .
第三步:连接手机(USB直连,最稳)
adb devices

如果输出类似:

List of devices attached 8B2Y0XXXXXXX device

说明手机已连上。记下那一串字符(设备ID),后面要用。

首次连接手机会弹窗问“是否允许USB调试”,务必点“允许”!

第四步:运行第一句指令(见证奇迹)
python main.py \ --device-id 8B2Y0XXXXXXX \ --base-url https://api.zhipu.ai/v1 \ --model "autoglm-phone-9b" \ "打开设置"

实测效果:我的手机立刻亮屏、解锁、打开“设置”App首页。整个过程约8秒,控制台实时打印:

💭 思考过程: 当前在桌面,需要打开设置应用 执行动作: {"action": "Launch", "app": "设置"}

恭喜!你已拥有第一个能动手的AI助理。


3. 真实场景实测:点外卖、刷抖音、发微信,全记录

理论再好不如亲眼所见。以下是我用同一台红米K60、同一套环境,实测的3个高频场景。所有指令均为自然语言,未做任何关键词优化,结果全部成功。

3.1 场景一:一句话点外卖(美团)

指令:

python main.py --device-id 8B2Y0XXXXXXX --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "打开美团,搜‘海底捞’,选评分最高的那家,点‘立即预订’"

实际过程:

  1. 自动打开美团App(耗时2秒)
  2. 点击顶部搜索框 → 弹出软键盘 → 输入“海底捞”(ADB Keyboard精准输入)
  3. 点击搜索结果第一条(显示“海底捞·国贸店 4.8分”)
  4. 页面下滑,找到“立即预订”按钮并点击
  5. 跳转至预订页,自动填写“用餐时间:今天19:00”(AI根据上下文推断)

耗时:23秒|成功率:100%(共测5次,全部完成到预订页)

关键观察:AI识别出了“4.8分”这个数字,并主动选择最高分店铺,而非默认第一条。

3.2 场景二:刷抖音关注博主(真·全自动)

指令:

python main.py --device-id 8B2Y0XXXXXXX --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "打开抖音,搜索抖音号dycwo11nt61d,进入主页,点关注"

实际过程:

  1. 打开抖音 → 点击底部“放大镜”图标
  2. 在搜索框输入dycwo11nt61d(注意:不是昵称,是纯ID)
  3. 点击搜索结果中带“抖音号”标签的头像(AI准确区分了昵称和ID)
  4. 进入主页后,识别右上角“关注”按钮(非“私信”或“分享”)并点击

耗时:18秒|成功率:100%(测试中曾因网络抖动失败1次,重试即成功)

验证点:AI没有误点“粉丝”或“作品”Tab,精准定位关注按钮。

3.3 场景三:微信发消息(带上下文理解)

指令:

python main.py --device-id 8B2Y0XXXXXXX --base-url https://api.zhipu.ai/v1 --model "autoglm-phone-9b" "打开微信,给妈妈发消息‘我到家了,饭很好吃’"

实际过程:

  1. 打开微信 → 底部导航栏点“微信”Tab(非“通讯录”)
  2. 在聊天列表顶部搜索框输入“妈妈” → 点击匹配联系人
  3. 进入对话页 → 点击输入框 → ADB Keyboard输入完整句子
  4. 点击“发送”按钮(非回车键,AI识别了按钮图标)

耗时:15秒|成功率:100%(5次全成功)

惊喜点:当“妈妈”不在最近聊天列表时,AI自动触发搜索,而非盲目滚动查找。


4. 进阶玩法:不写代码也能玩转的3个技巧

你可能觉得“点外卖”已经够酷了?其实Open-AutoGLM的潜力远不止于此。以下是我不用改一行代码就实现的实用技巧:

4.1 技巧一:WiFi无线控制,彻底摆脱数据线

USB线总要插拔,而WiFi控制让AI真正“随叫随到”。

操作步骤(手机端):

  1. 手机“设置→开发者选项→无线调试” → 开启
  2. 点击“无线调试”,记下IP和端口(如192.168.31.123:5555

操作步骤(电脑端):

adb connect 192.168.31.123:5555 adb devices # 应显示 device

后续指令照常运行,只需把--device-id换成IP:

python main.py --device-id 192.168.31.123:5555 --base-url ... "打开小红书搜咖啡"

实测:iPhone用户可用“Scrcpy”投屏+ADB over WiFi组合,同样生效。

4.2 技巧二:敏感操作人工接管,安全不妥协

涉及支付、删除、隐私的操作,AI会主动暂停,等你拍板。

实测指令:

python main.py --device-id 8B2Y0XXXXXXX --base-url ... "打开美团,点‘我的订单’,取消最新一笔订单"

过程:

  • AI执行到“长按订单卡片”后,控制台弹出:
    需要确认: 即将取消订单‘海底捞国贸店’,金额285元,是否继续?(y/n):
  • 我输入y,AI继续点击“取消订单”→“确认取消”

安全设计:所有支付、删除、账号操作均内置确认环节,杜绝误触风险。

4.3 技巧三:批量任务脚本,解放双手

用Python API写个5行脚本,让AI帮你干重复活。

示例:每天早8点自动刷10条抖音

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig import time config = ModelConfig(base_url="https://api.zhipu.ai/v1", model_name="autoglm-phone-9b") agent = PhoneAgent(model_config=config) for i in range(10): agent.run("打开抖音,向上滑动一次") time.sleep(3) # 看完一条

保存为daily_douyin.py,用系统定时任务每天运行——从此刷抖音不用动手。


5. 常见问题速查:90%的问题,3步解决

实测过程中,我踩过所有典型坑。以下是最常遇到的3个问题及一招见效的解法

5.1 问题:adb devices显示unauthorized或空白

原因:手机未授权电脑调试权限
解法:

  1. 手机屏幕查看是否弹出“允许USB调试”提示
  2. 若已关闭,重新拔插USB线,务必点“允许”
  3. 终端执行adb kill-server && adb start-server重启服务

5.2 问题:AI点错了位置,或输入框打不开

原因:ADB Keyboard未设为默认输入法
解法:

  1. 手机“设置→语言与输入法→虚拟键盘”
  2. 确认“ADB Keyboard”右侧开关为蓝色(开启)
  3. 点击“默认键盘” → 选择“ADB Keyboard”

验证:在任意输入框长按,应出现“选择输入法”菜单,且ADB Keyboard排第一。

5.3 问题:指令执行一半卡住,控制台无响应

原因:网络请求超时(尤其国内直连Hugging Face)
解法(国内用户必做):

  1. 修改main.py第28行,将base-url换成国内加速地址:
    --base-url https://openautoglm-api.zhipuai.cn/v1
  2. 或使用ModelScope镜像(速度提升5倍):
    git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

6. 总结:这不是玩具,是生产力革命的起点

当我第一次看着手机自己点开抖音、搜ID、点关注,那一刻的感觉不是“哇好酷”,而是“原来这事真的能落地”。Open-AutoGLM的价值,不在于它多炫技,而在于它把AI从“回答问题”推进到了“解决问题”的阶段。

  • 对普通用户:它让“科技小白”也能享受自动化红利——点外卖、追更新、回消息,一句话的事。
  • 对开发者:它提供了清晰的抽象层(PhoneAgent.run()),让你专注业务逻辑,而非ADB细节。
  • 对产品经理:它验证了一个方向:多模态AI + 真实操作闭环 = 下一代人机交互范式

当然,它还有成长空间:目前仅支持安卓,iOS需越狱;复杂表单识别偶有偏差;长视频加载时AI会等待超时。但开源的意义,就是让这些问题被千万双眼睛看见、修复、超越。

如果你也厌倦了在手机上重复点点点,不妨今晚就花30分钟,把它装进你的设备。真正的AI助理,不该活在PPT里,而该在你掌心,随时待命。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1207538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Open-AutoGLM学习助手部署:单词打卡自动完成实战案例

Open-AutoGLM学习助手部署:单词打卡自动完成实战案例 1. 为什么需要一个“会看屏幕、能点手机”的AI学习助手? 你有没有过这样的经历:每天打开背单词App,机械地点击“已掌握”“再复习”“跳过”,手指点到发酸&#…

看完就想试!Glyph打造的AI读图应用效果太震撼

看完就想试!Glyph打造的AI读图应用效果太震撼 1. 这不是普通“看图说话”,而是真正理解图像里的文字逻辑 你有没有遇到过这样的场景:拍了一张超市货架的照片,想快速知道所有商品价格和促销信息;或者收到一张扫描的合…

IQuest-Coder-V1实战案例:智能编程助手搭建,效率提升300%

IQuest-Coder-V1实战案例:智能编程助手搭建,效率提升300% 你有没有过这样的经历:写一段接口联调代码,反复查文档、试参数、改报错,一小时过去只跑了三次请求;或者在LeetCode卡在一道动态规划题上&#xff…

麦橘超然影视预演案例:分镜图自动生成系统搭建

麦橘超然影视预演案例:分镜图自动生成系统搭建 1. 为什么影视预演需要“分镜图自动生成”? 你有没有遇到过这样的场景:导演刚讲完一场戏,美术组还在手绘分镜,编剧在改第三版对白,制片却已经催着要确认拍摄…

拖拽上传太方便!这些快捷操作你知道吗

拖拽上传太方便!这些快捷操作你知道吗 你有没有试过——正编辑着一张照片,突然想快速转成卡通风格,结果在各种文件夹里翻找半天,再点开上传窗口、层层点击、等待加载……最后发现:光是上传这一步,就耗掉了…

亲测gpt-oss-20b-WEBUI,AI对话系统实战体验分享

亲测gpt-oss-20b-WEBUI,AI对话系统实战体验分享 最近在本地部署了一套开箱即用的AI对话系统——gpt-oss-20b-WEBUI镜像。它不像需要手动配置环境、调试依赖的原始模型仓库,而是一个真正“点开即用”的网页版推理平台。我用双卡RTX 4090D实测了整整三天&…

ESP32 IDF入门指南:如何烧录固件并查看日志输出

以下是对您提供的博文内容进行深度润色与结构重构后的专业级技术文章。整体风格更贴近一位资深嵌入式工程师在技术博客中自然、流畅、有温度的分享,彻底去除AI腔调和模板化表达,强化逻辑递进、实战细节与教学引导性,同时严格遵循您提出的全部…

如何用Z-Image-Turbo提升设计效率?真实案例分享

如何用Z-Image-Turbo提升设计效率?真实案例分享 你有没有过这样的经历: 客户临时要三版不同风格的电商主图, deadline是两小时后; 设计师反复修改构图,却卡在“灯笼该提多高”“汉服袖口褶皱要不要更自然”这种细节上&…

Paraformer-large边缘设备部署:Jetson Nano适配挑战

Paraformer-large边缘设备部署:Jetson Nano适配挑战 在语音识别落地场景中,我们常面临一个现实矛盾:工业级模型(如Paraformer-large)精度高、鲁棒性强,但计算开销大;而边缘设备(如J…

如何在Orange Pi 5 Plus运行EmuELEC:实战案例

以下是对您提供的博文内容进行 深度润色与结构重构后的技术文章 。我以一位长期深耕嵌入式Linux游戏终端开发的工程师视角,彻底重写了全文:去除AI腔调、打破模板化章节、强化逻辑流与实战感,将“原理—适配—调试—延伸”自然融合为一篇有温…

WildCard老用户速看,余额可以进行兑换ChatGPT 会员,不操作可亏大了!

WildCard给大家发了一封邮件,邮件内容大致的意思是:之前WildCard的老虎可以换ChatGPT Plus会员。 ! 怎么兑换,方法很简单! 点击下面的链接,进入WildAI页面,使用自己之前的账号登陆&#xff0c…

开源代码模型新标杆:IQuest-Coder-V1训练范式解析指南

开源代码模型新标杆:IQuest-Coder-V1训练范式解析指南 你有没有试过让一个大模型真正“理解”一段代码在项目中是怎么一步步变出来的?不是只看最终版本,而是像资深工程师那样,读懂每一次提交背后的设计权衡、修复逻辑和演进脉络&…

NewBie-image-Exp0.1推理卡顿?CUDA 12.1算力优化实战指南

NewBie-image-Exp0.1推理卡顿?CUDA 12.1算力优化实战指南 你是否也遇到过这样的情况:刚拉取完NewBie-image-Exp0.1镜像,满怀期待地执行python test.py,结果等了快两分钟才出图?终端里GPU利用率忽高忽低,显…

YOLOv11与Wandb集成:实验跟踪与可视化部署实战

YOLOv11与Wandb集成:实验跟踪与可视化部署实战 YOLOv11并不是官方发布的模型版本——截至目前,Ultralytics官方最新稳定版为YOLOv8,后续迭代以YOLOv9、YOLOv10等非连续命名方式演进,而“YOLOv11”在主流开源社区和论文中并无对应…

Java SpringBoot+Vue3+MyBatis spring boot纺织品企业财务管理系统系统源码|前后端分离+MySQL数据库

💡实话实说:有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着信息技术的快速发展,传统纺织品企业的财务管理模式逐渐暴露出效率低下、数据孤岛、人工操作误差等问题。纺织品行业作为劳动密集型…

基于SpringBoot+Vue的医院后台管理系统管理系统设计与实现【Java+MySQL+MyBatis完整源码】

💡实话实说:有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着医疗行业的快速发展,信息化管理成为提升医院运营效率和服务质量的关键手段。传统的医院管理模式依赖人工操作,存在数据…

Java Web + 疫情隔离管理系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

💡实话实说:有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 近年来,全球范围内的疫情反复爆发,对公共卫生管理提出了严峻挑战。传统的疫情隔离管理多依赖人工登记和纸质记录&#xff0…

Java Web 图书电子商务网站系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

💡实话实说:有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着互联网技术的快速发展,电子商务已成为现代商业活动的重要组成部分。图书电子商务网站作为传统图书销售模式的数字化延伸&#xff0…

【毕业设计】SpringBoot+Vue+MySQL 社区医院管理系统平台源码+数据库+论文+部署文档

💡实话实说:有自己的项目库存,不需要找别人拿货再加价,所以能给到超低价格。摘要 随着信息技术的快速发展,医疗行业的信息化管理需求日益增长。社区医院作为基层医疗服务的重要载体,承担着居民健康管理、疾…

BERT如何支持多MASK?批量预测功能部署教程详解

BERT如何支持多MASK?批量预测功能部署教程详解 1. 什么是BERT智能语义填空服务 你有没有试过这样一句话:“他做事总是很[MASK],让人放心。” 只看半句,你大概率能猜出那个空该填“靠谱”“稳重”还是“认真”——人靠的是语感和…