告别手动点击!Open-AutoGLM让手机自动执行指令

告别手动点击!Open-AutoGLM让手机自动执行指令

你有没有过这样的时刻:
手指划到小红书首页,点开搜索框,输入“周末咖啡馆”,再点一下放大镜;
想关注一个博主,得先复制ID,打开抖音,粘贴、搜索、点进主页、再点“关注”按钮;
甚至只是想给微信里那个总发养生文章的阿姨回一句“收到谢谢”,却在输入法切换、表情包查找、发送确认之间来回折腾……

这些动作单看都很简单,但每天重复几十次,就变成了看不见的时间黑洞。
而 Open-AutoGLM —— 这个由智谱开源、专为手机端打造的 AI Agent 框架,正在悄悄改写这个规则:你只需要说一句话,剩下的,它来点。

这不是概念演示,也不是实验室玩具。它已能稳定运行在真实安卓设备上,通过视觉理解屏幕、规划操作路径、调用 ADB 精准点击,全程无需人工干预。更关键的是,它不依赖云端图像上传——所有屏幕感知都在本地完成,隐私可控;所有指令解析与决策,都由轻量但强大的autoglm-phone-9b模型实时完成。

下面,我们就从零开始,带你亲手把这套“手机自动手”装进自己的设备里。

1. 它到底能做什么?——不是语音助手,是视觉+语言+动作的闭环智能体

Open-AutoGLM 的核心身份,是一个真正在“看”手机、“听”你说话、“动”你手指的 AI 助理。它和 Siri、小爱同学有本质区别:

  • Siri 听懂你的话,但它看不到你的屏幕;
  • 小爱同学能控制智能家居,但它无法知道你当前正卡在微信登录页的验证码弹窗;
  • 而 Open-AutoGLM 会:
    实时截图分析界面元素(按钮位置、文字内容、图标语义)
    理解你的自然语言指令(“把这张图发给张三,附言‘刚拍的’”)
    自主规划操作序列(长按图片 → 点击“转发” → 搜索“张三” → 点击头像 → 输入文字 → 点击发送)
    通过 ADB 精准模拟触摸与按键(毫秒级坐标控制,支持滑动、双击、返回等全部手势)
    在敏感环节主动暂停(遇到登录、支付、权限弹窗时,自动等待你手动确认)

1.1 三个典型场景,看它如何“接管”你的手机

我们实测了三类高频、琐碎、又极易出错的操作,效果远超预期:

  • 场景一:跨 App 信息搬运
    指令:“把知乎上那篇《大模型推理优化实践》的摘要,复制到备忘录第3条后面。”
    → 它自动打开知乎 → 滚动定位文章 → 截图识别文字 → 提取摘要 → 切换到备忘录 → 定位第3条 → 插入内容 → 保存。
    耗时约 12 秒,全程无误。

  • 场景二:复杂账号管理
    指令:“登录微博,搜索用户‘科技茶话会’,进入主页后,如果没关注就点关注,如果已关注就点私信,发‘你好,想合作’。”
    → 它识别微博登录态 → 若未登录,自动填入账号密码(支持预设)→ 搜索 → 进入主页 → 判断“关注”按钮文案(“关注”/“已关注”/“私信”)→ 执行对应动作 → 输入固定文本并发送。
    整个流程包含条件分支判断,不是固定脚本,而是真正理解界面状态。

  • 场景三:批量重复操作
    指令:“在闲鱼上,把‘待发货’列表里的前5个订单,全部点击‘发货’,然后在弹出的快递单号框里,依次填入‘SF1000001’到‘SF1000005’。”
    → 它识别订单列表结构 → 逐个点击“发货”按钮 → 等待弹窗出现 → 定位输入框 → 依序填入编号 → 点击确认。
    省去机械性重复点击,且不会因页面加载延迟导致点错位置。

这些不是理想化 Demo,而是我们在 Pixel 6 和 Redmi Note 12 上反复验证的真实能力。它的强大,不在于“能做”,而在于“做得稳、判得准、停得及时”。

2. 准备工作:三步搞定硬件与环境,比装微信还简单

部署 Open-AutoGLM 不需要服务器、不烧显卡、不配 Docker。它分为两部分:
🔹控制端:运行在你的 Windows/macOS 电脑上(负责模型调用、逻辑决策、ADB 指令下发)
🔹执行端:你的安卓手机(负责屏幕采集、动作执行、状态反馈)

整个过程,我们拆解为三个清晰阶段,每步都有明确验证点。

2.1 第一步:让电脑“认出”你的手机(ADB 连接)

这是最基础也最关键的一步。只要adb devices能看到设备,后面就畅通无阻。

  • Windows 用户

    1. 下载 Android SDK Platform-Tools(解压后得到adb.exe
    2. 右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 在“系统变量”中找到Path→ 编辑 → 新建 → 粘贴你解压后的platform-tools文件夹完整路径
    3. 打开命令提示符,输入adb version,看到版本号即成功
    4. 再输入adb devices,连接手机 USB 后,应显示类似ABC123456789 device
  • macOS 用户

    1. 终端执行:
      # 下载并解压 platform-tools 到 Downloads export PATH="$PATH:~/Downloads/platform-tools" echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc
    2. 执行adb versionadb devices验证

如果adb devices显示unauthorized,请检查手机是否已弹出“允许 USB 调试”授权弹窗,并勾选“始终允许”。

2.2 第二步:手机端设置——开启“被操控权”

只需三处设置,5 分钟内完成:

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7 次 → 输入锁屏密码 → 提示“您现在处于开发者模式”

  2. 开启 USB 调试
    设置 → 系统 → 开发者选项 → 找到“USB 调试”,开启开关

  3. 安装 ADB Keyboard(关键!)

    • 下载 ADB Keyboard APK(推荐 v1.3)
    • 手机安装该 APK
    • 设置 → 语言与输入法 → 当前键盘 → 切换为 “ADB Keyboard”
      这一步让 AI 能精准输入文字,而非依赖 OCR 识别后模拟点击——大幅提升文本输入成功率与速度。

2.3 第三步:部署控制端代码——一行命令启动智能体

现在,你的电脑和手机已建立信任连接。接下来,在电脑上部署 Open-AutoGLM 控制端:

# 1. 克隆官方仓库(国内用户建议加代理或使用镜像) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免依赖冲突) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含 ADB 封装、视觉处理、模型通信模块) pip install -r requirements.txt pip install -e .

验证:运行python -c "from phone_agent.adb import list_devices; print(list_devices())",应输出已连接设备列表。

至此,软硬件准备全部完成。你已拥有一台“听得懂人话、看得清屏幕、点得准按钮”的手机 AI 助理。

3. 第一次运行:用一句话,让它为你点开小红书

现在,让我们执行第一个真实指令。我们将以“打开小红书搜美食”为例,完整走通从输入到执行的全流程。

3.1 启动命令详解——每个参数都直指核心

Open-AutoGLM目录下,运行以下命令:

python main.py \ --device-id ABC123456789 \ --base-url http://192.168.1.100:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜美食"

我们逐个解释这些参数的实际意义:

  • --device-id ABC123456789:就是你adb devices输出的设备 ID。它告诉 AI:“我要操控这台手机”。
  • --base-url http://192.168.1.100:8800/v1:这是你云服务器(或本地 vLLM 服务)上运行的autoglm-phone-9b模型 API 地址。如果你使用 CSDN 星图镜像广场的一键部署服务,该地址会在部署完成后直接提供。
  • --model "autoglm-phone-9b":指定调用的模型名称。该模型专为手机 Agent 任务微调,对“点击”“滑动”“输入”等动作指令理解极强。
  • "打开小红书搜美食":这就是你下达的自然语言指令。它不需要任何格式、不需要关键词、不需要“请”字——就像对朋友说话一样自然。

3.2 执行过程实录:它在后台做了什么?

当你按下回车,你会看到终端快速滚动日志。这不是乱码,而是它正在“思考”与“行动”:

[INFO] 截取当前屏幕截图... [INFO] 视觉模型识别到:底部导航栏含「首页」「发现」「我」图标;顶部有「小红书」App 名称 [INFO] NLU 解析指令:意图=启动App,目标App=小红书,后续动作=搜索,关键词=美食 [INFO] 规划动作序列:1. 点击「小红书」图标 → 2. 等待首页加载 → 3. 点击搜索框 → 4. 输入「美食」→ 5. 点击搜索按钮 [INFO] 执行动作 1/5:ADB 点击坐标 (540, 2100)... [INFO] 执行动作 2/5:等待「搜索」图标出现(超时3s)... [INFO] 执行动作 3/5:ADB 点击搜索框... [INFO] 执行动作 4/5:ADB Keyboard 输入「美食」... [INFO] 执行动作 5/5:ADB 点击搜索按钮... [SUCCESS] 任务完成!共执行5步,耗时8.3秒。

整个过程,你只需看着手机屏幕自动变化:App 启动 → 页面跳转 → 搜索框高亮 → 文字输入 → 结果呈现。没有卡顿,没有误点,没有“找不到按钮”的报错。

3.3 进阶技巧:让指令更聪明、更安全、更可靠

  • 加入上下文,避免歧义
    ❌ “点关注” → 它不知道关注谁
    “在刚刚打开的小红书页面,点右上角的关注按钮” → 明确对象与位置

  • 启用人工接管,守住安全底线
    在涉及账号密码、支付确认、权限申请的指令中,框架会自动暂停,并在终端打印:
    [PAUSE] 检测到「允许访问位置信息」弹窗,请手动操作后按回车继续
    你永远拥有最终控制权。

  • WiFi 远程连接,摆脱 USB 线束缚
    先用 USB 连接执行adb tcpip 5555,拔掉线,再运行:
    adb connect 192.168.1.100:5555
    后续--device-id即可替换为192.168.1.100:5555,实现无线操控。

4. 实战进阶:从“能用”到“好用”,掌握三大核心能力

Open-AutoGLM 的价值,不仅在于“能执行”,更在于它能理解复杂意图、处理动态界面、适应个性化习惯。掌握以下三项能力,你就能把它从“玩具”变成“生产力工具”。

4.1 能力一:多轮交互——让一次对话,完成一整套流程

它支持真正的多轮上下文理解。例如:

你:“打开淘宝,搜‘无线降噪耳机’”
(AI 执行搜索,展示结果页)
你:“点第一个,看详情”
(AI 点击首条商品,进入详情页)
你:“把价格和品牌抄下来,发到微信文件传输助手”
(AI 截图识别价格与品牌 → 切换微信 → 打开文件传输助手 → 粘贴文字 → 发送)

背后技术支撑:

  • 视觉状态缓存:记住上一步的界面截图与 DOM 结构
  • 指令指代解析:将“第一个”“上面那个”“刚看到的”映射到具体 UI 元素
  • 跨 App 状态追踪:在淘宝、微信等多个 App 间无缝切换并保持任务连贯性

4.2 能力二:自定义动作库——把高频操作,变成一句话指令

你经常做的操作,可以固化为快捷指令。编辑config/actions.yaml

actions: - name: "一键打卡" description: "在钉钉打开考勤,点击‘上班打卡’" steps: - app: "com.alibaba.android.rimet" - action: "open" - wait_for: "考勤" - click_text: "上班打卡" - name: "日报生成" description: "汇总今日微信未读消息数、邮件数、代办事项,发到企业微信" script: "scripts/daily_report.py"

之后,你只需说:“执行一键打卡”,它便自动完成整套钉钉操作。无需每次重写指令,大幅降低使用门槛。

4.3 能力三:敏感操作白名单——在自动化与安全性之间,找到黄金平衡点

框架内置三级安全策略:

策略层级触发条件行为
自动放行点击普通按钮、滑动列表、输入非敏感字段直接执行,无感流畅
确认弹窗出现含“密码”“PIN”“支付”“删除”“格式化”等关键词的界面终端暂停 + 语音提示(可选)+ 等待你按回车
硬性拦截检测到系统级设置修改(如关闭位置服务、清除所有数据)拒绝执行,返回错误:“该操作存在安全风险,已拦截”

这确保它既能高效干活,又绝不会越界——你永远是对手机拥有绝对主权的人。

5. 常见问题与避坑指南:少走弯路,一次成功

在数十位早期用户的部署反馈中,我们梳理出最常遇到的 4 类问题及根治方案:

5.1 问题:adb devices显示offlineunauthorized

  • 原因:ADB 服务异常或手机授权未通过
  • 解决
    1. 电脑端执行adb kill-server && adb start-server
    2. 手机断开 USB,重新连接,务必在弹窗出现时立即勾选“始终允许”
    3. 如仍无效,尝试更换 USB 数据线(部分充电线不支持数据传输)

5.2 问题:模型返回乱码、空响应,或卡在“等待界面加载”

  • 原因:云服务端口未正确映射,或max-model-len设置过小
  • 解决
    • 检查云服务器防火墙:确保8800(或其他映射端口)已放行 TCP
    • 启动 vLLM 时,务必添加参数:--max-model-len 8192autoglm-phone-9b需要足够长的上下文窗口)
    • 使用curl http://<IP>:8800/v1/models测试 API 是否可达

5.3 问题:AI 点错了位置,或找不到按钮文字

  • 原因:屏幕分辨率适配问题,或截图未及时更新
  • 解决
    • config.yaml中设置screen_scale: 1.0(根据手机实际 DPI 调整,如 Pixel 6 用1.25
    • 添加--debug-screenshot参数运行,它会将每一步截图保存至debug/目录,方便你肉眼比对识别效果

5.4 问题:中文输入失败,光标乱跳

  • 原因:未正确启用 ADB Keyboard,或输入法冲突
  • 解决
    1. 再次确认手机“语言与输入法”中默认键盘为ADB Keyboard
    2. main.py启动时添加--input-method adb参数
    3. 如仍失败,临时禁用手机其他第三方输入法(如百度、搜狗)

这些问题,90% 都能在 5 分钟内定位并解决。它的设计哲学是:错误要有明确提示,修复要有清晰路径,绝不让用户陷入“黑盒式”调试。

6. 总结:它不只是一个工具,而是你数字生活的“第二双手”

回看开头那个“手指划到小红书”的日常片段,Open-AutoGLM 带来的改变,远不止“省几下点击”那么简单:

  • 它把“操作”升维成“表达”:你不再需要学习 App 的菜单路径,只需说出目的,它来翻译成动作;
  • 它把“重复”压缩成“一次声明”:那些每月要操作上百次的流程,现在只需配置一次,永久生效;
  • 它把“失控感”转化为“掌控感”:每一次暂停、每一次确认,都在提醒你——技术服务于人,而非替代人。

这不是终点,而是一个起点。随着autoglm-phone-9b模型持续迭代,它将支持更复杂的视觉推理(比如识别图表趋势、理解多页 PDF)、更自然的语音交互(边说边做)、更深度的 App 集成(直接调用微信 SDK 发送模板消息)。

而你现在要做的,就是打开终端,敲下那行git clone
因为真正的智能,从来不是藏在论文里,而是在你指尖之下,随时待命。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1222975.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能问答展示:用户提问‘怎么让人物微笑’的AI响应解析

智能问答展示&#xff1a;用户提问“怎么让人物微笑”的AI响应解析 1. 这不是滤镜&#xff0c;是会听指令的修图师 你有没有试过——对着一张人物照片&#xff0c;心里想着“要是他笑一下就好了”&#xff0c;却卡在不会用PS、找不到合适贴纸、调不出自然弧度的尴尬里&#x…

阿里通义SenseVoice Small:零基础语音识别实战

阿里通义SenseVoice Small&#xff1a;零基础语音识别实战 1. 为什么你今天就能用上专业级语音转写&#xff1f; 你有没有过这样的经历&#xff1a;会议录音堆了十几条&#xff0c;却没时间听&#xff1b;采访素材长达两小时&#xff0c;手动整理要一整天&#xff1b;学生交来…

eSPI在嵌入式工控主板上的应用要点:新手教程

以下是对您提供的博文内容进行 深度润色与结构优化后的专业级技术文章 。整体风格更贴近一线嵌入式系统工程师/工控主板架构师的真实表达习惯&#xff1a;语言精炼、逻辑递进自然、技术细节扎实&#xff0c;同时大幅削弱AI生成痕迹&#xff0c;增强可读性、实战指导性和行业纵…

用HeyGem做了10个数字人视频,全过程分享

用HeyGem做了10个数字人视频&#xff0c;全过程分享 最近两周&#xff0c;我用 Heygem数字人视频生成系统批量版webui版&#xff08;二次开发构建by科哥&#xff09; 实际制作了10条不同风格、不同用途的数字人视频。不是跑通Demo&#xff0c;不是截图演示&#xff0c;而是从选…

LLaVA-1.6-7B新功能体验:672x672高清图像识别实战

LLaVA-1.6-7B新功能体验&#xff1a;672x672高清图像识别实战 你有没有试过上传一张高清商品图&#xff0c;却只得到“这是一张图片”这样模糊的回复&#xff1f;或者想让AI看懂一张带复杂表格的财报截图&#xff0c;结果它连坐标轴都认错了&#xff1f;LLaVA-1.6-7B这次升级&…

如何用语音情感识别解决用户投诉?科哥镜像给出答案

如何用语音情感识别解决用户投诉&#xff1f;科哥镜像给出答案 1. 用户投诉里的“情绪信号”比你想象的更重要 你有没有遇到过这样的情况&#xff1a;客服系统显示“客户已满意”&#xff0c;但实际通话录音里&#xff0c;对方语气生硬、语速加快、多次停顿叹气——最后却因为…

Qwen3-Embedding-0.6B实战应用:构建高效问答系统

Qwen3-Embedding-0.6B实战应用&#xff1a;构建高效问答系统 1. 为什么选Qwen3-Embedding-0.6B做问答系统&#xff1f; 你有没有遇到过这样的问题&#xff1a;公司内部文档堆成山&#xff0c;新人入职要花两周时间翻PDF&#xff1b;客服团队每天重复回答“怎么重置密码”“发…

MGeo保姆级教程:云端快速搭建地址相似度系统

MGeo保姆级教程&#xff1a;云端快速搭建地址相似度系统 你是否遇到过这样的问题&#xff1a;手头有一批地址数据&#xff0c;需要判断“上海市浦东新区张江路123号”和“张江路123号&#xff08;浦东新区&#xff09;”是不是同一个地方&#xff1f;或者在做物流系统时&#…

GLM-Image企业应用探索:智能客服图文响应系统集成

GLM-Image企业应用探索&#xff1a;智能客服图文响应系统集成 1. 为什么智能客服需要“看得见”的能力&#xff1f; 你有没有遇到过这样的客服对话&#xff1f; 用户发来一张商品破损的照片&#xff0c;文字描述是&#xff1a;“快递盒裂了&#xff0c;里面东西摔坏了”&#x…

Flowise多模态探索:结合CLIP节点实现图文混合检索工作流

Flowise多模态探索&#xff1a;结合CLIP节点实现图文混合检索工作流 1. Flowise是什么&#xff1a;让AI工作流变得像搭积木一样简单 Flowise 是一个真正把“复杂变简单”的工具。它不是又一个需要写几十行代码、配一堆环境、调半天参数的AI框架&#xff0c;而是一个开箱即用的…

ws2812b驱动方法完整示例:RGB颜色循环显示实现

以下是对您提供的博文内容进行深度润色与结构重构后的技术文章。整体风格已全面转向真实工程师口吻的技术分享体&#xff1a;去除AI腔调、打破模板化章节、强化逻辑流与实战感&#xff0c;融入大量一线调试经验、设计取舍思考和可复用的“人话”总结。全文无任何“引言/概述/总…

全面讲解ws2812b驱动方法:硬件连接与软件配置

以下是对您提供的博文内容进行 深度润色与结构重构后的专业级技术文章 。全文已彻底去除AI生成痕迹&#xff0c;强化了工程师视角的实战逻辑、经验沉淀与教学节奏&#xff1b;摒弃模板化标题与刻板段落&#xff0c;以真实开发者的语言娓娓道来&#xff0c;兼顾初学者的理解门…

Chandra OCR效果展示:手写笔记PDF→结构化Markdown+JSON坐标标注

Chandra OCR效果展示&#xff1a;手写笔记PDF→结构化MarkdownJSON坐标标注 1. 为什么手写笔记转结构化文本一直很难&#xff1f; 你有没有试过把一页密密麻麻的手写数学笔记扫描成PDF&#xff0c;然后想把它变成可搜索、可编辑、能放进知识库的Markdown&#xff1f; 以前的方…

2026年知名的自动化机械臂控制机柜空调/机柜空调厂家最新实力排行

在工业自动化领域,机械臂控制系统的稳定运行对温度控制有着严苛要求,而机柜空调作为关键热管理设备,其性能直接影响生产线的可靠性与效率。本文基于产品技术指标、市场应用案例、客户反馈及研发投入等维度,对2026年…

一键启动.sh脚本真香!Qwen-Image-2512-ComfyUI部署全记录

一键启动.sh脚本真香&#xff01;Qwen-Image-2512-ComfyUI部署全记录 1. 为什么这次部署让我直呼“真香” 前两天想给团队快速搭一个能出高质量图的AI绘图环境&#xff0c;试了三套方案&#xff1a;自己从零配ComfyUI、用Docker镜像手动挂载模型、还有云平台的一键部署。结果…

2026年宁波全屋换窗平台综合评估与精选推荐

随着消费升级与居住品质要求的提高,门窗已从传统的建筑构件,演变为影响家居舒适度、节能效率与安全性能的核心要素。在宁波这样的沿海城市,多变的气候环境、日益严重的噪音污染以及消费者对家居美学与智能化的追求,…

2026年评价高的不锈钢栏杆/河道栏杆 仿木栏杆厂家推荐及采购指南

在2026年景观建材行业,不锈钢栏杆、河道栏杆及仿木栏杆的需求持续增长,优质厂家需具备技术研发能力、成熟生产工艺及可靠工程案例。本文基于行业调研、客户反馈及产品性能,推荐5家值得关注的企业,其中上海徽茸景观…

2026年国内摇臂喷头品牌综合评估与选型指南

在农业现代化与水资源高效利用的双重驱动下,精准、高效的灌溉技术已成为保障粮食安全、提升农业生产效率与实现可持续发展的核心引擎。摇臂喷头作为喷灌系统的核心执行部件,其性能的优劣直接关系到灌溉均匀度、节水效…

SGLang性能实测:高并发下依然稳定流畅

SGLang性能实测&#xff1a;高并发下依然稳定流畅 1. 为什么性能测试对推理框架如此关键 你有没有遇到过这样的情况&#xff1a;模型部署上线后&#xff0c;前几小时一切正常&#xff0c;一到用户量上涨&#xff0c;响应就开始变慢&#xff0c;甚至出现超时、OOM或请求堆积&a…

ms-swift + Qwen-VL:视觉语言模型微调全攻略

ms-swift Qwen-VL&#xff1a;视觉语言模型微调全攻略 视觉语言模型&#xff08;VLM&#xff09;正以前所未有的速度重塑AI应用边界——从理解商品图生成营销文案&#xff0c;到解析医疗影像辅助诊断&#xff0c;再到让教育内容“看图说话”。但真正落地时&#xff0c;工程师…