未来已来!Open-AutoGLM开启手机自动化新时代

未来已来!Open-AutoGLM开启手机自动化新时代

1. 背景与技术演进

近年来,AI Agent 的发展正从“对话助手”向“行动执行者”跃迁。传统大模型擅长理解与生成语言,但无法直接与物理或数字环境交互。而 Open-AutoGLM 的出现,标志着 AI 开始具备操作真实设备的能力——它能通过自然语言指令驱动安卓手机完成复杂任务。

这一能力并非凭空而来。早在豆包手机引发热议之前,学术界已有大量关于“视觉-动作”闭环系统的研究。这类系统统称为Phone Agent,其核心目标是让 AI 具备“看懂屏幕、理解意图、规划路径、执行操作”的全流程能力。Open-AutoGLM 正是智谱基于 AutoGLM 架构推出的开源实现,首次将这一能力开放给开发者和普通用户。

与商业产品不同,Open-AutoGLM 不依赖定制硬件,而是通过 ADB(Android Debug Bridge)连接标准安卓设备,在通用计算平台上运行多模态模型进行决策控制。这种设计使得任何拥有电脑和安卓手机的用户都能快速搭建属于自己的“AI 手机助理”。

2. 系统架构与工作原理

2.1 整体架构解析

Open-AutoGLM 是一个典型的三层架构系统:

  • 感知层:利用视觉语言模型(VLM)对手机屏幕截图进行语义理解。
  • 决策层:结合用户指令与当前界面状态,生成可执行的操作序列。
  • 执行层:通过 ADB 发送底层命令,完成点击、滑动、输入等动作。

整个流程形成一个闭环反馈系统:每一步操作后都会重新截图并传入模型判断是否达成目标,若未完成则继续规划下一步。

[用户指令] ↓ [自然语言 → 意图解析] ↓ [ADB 截图 → 屏幕图像] ↓ [视觉语言模型 VLM 理解界面元素] ↓ [动作规划器生成操作序列] ↓ [ADB 执行 Tap / Swipe / Type ...] ↑___________↓ [等待响应 → 新截图 → 再次推理]

该机制赋予了系统强大的泛化能力,能够应对弹窗广告、UI 变更等非预期情况,远超传统脚本工具如按键精灵。

2.2 多模态理解的关键技术

系统的核心在于其使用的9B 参数量视觉语言模型 autoglm-phone-9b。该模型在训练阶段融合了大量“图文+动作”配对数据,即每张屏幕截图都标注了对应的操作标签(如Tap(坐标)Type("搜索关键词")),从而建立起从视觉信息到行为决策的映射关系。

例如,当模型看到如下界面:

[屏幕截图:美团首页,“附近美食”按钮高亮]

并接收到指令:“找一家评分高的火锅店”,模型会自动识别出“附近美食”为关键入口,并输出动作:

{"action": "Tap", "x": 540, "y": 800}

这种端到端的学习方式避免了规则引擎的硬编码限制,使 AI 能够适应不同 App 的 UI 风格和布局变化。

2.3 安全机制与人工接管

考虑到自动化操作可能涉及敏感场景(如登录、支付),系统内置了Take_over 机制。一旦检测到验证码输入框、密码字段或支付确认页,AI 将主动暂停执行,提示用户介入处理。

此外,所有操作均需显式授权,且可通过远程调试接口实时监控执行过程,确保透明可控。

3. 实践部署指南

3.1 环境准备

硬件要求
  • 控制端:Windows 或 macOS 电脑(建议 Python 3.10+)
  • 设备端:Android 7.0+ 手机或模拟器
  • 连接方式:USB 数据线 或 同一局域网 WiFi
软件依赖
  • ADB 工具包(来自 Android SDK Platform Tools)
  • Git(用于克隆仓库)
  • Python 包管理工具(pip)
ADB 配置步骤

Windows 用户

  1. 下载 Platform Tools 并解压。
  2. 将解压路径添加至系统环境变量PATH
  3. 打开命令行,输入adb version验证安装成功。

macOS 用户

export PATH=${PATH}:~/Downloads/platform-tools adb version

3.2 手机端设置

  1. 开启开发者模式
    进入“设置 → 关于手机”,连续点击“版本号”5次。

  2. 启用 USB 调试
    返回“设置 → 开发者选项”,勾选“USB 调试”。

  3. 安装 ADB Keyboard

    • 下载 ADBKeyboard.apk
    • 安装后进入“语言与输入法”设置,将其设为默认输入法。

此举允许 AI 通过 ADB 命令直接向应用输入文字,无需手动打字。

3.3 部署控制端代码

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

3.4 设备连接方式

USB 连接
adb devices

输出应包含设备 ID 和device状态。

WiFi 无线连接

首次需使用 USB 连接启动 TCP/IP 模式:

adb tcpip 5555 adb disconnect adb connect 192.168.x.x:5555

此后可在同一网络下无线控制手机。

3.5 启动 AI 代理

命令行方式运行
python main.py \ --device-id <your-device-id-or-ip:5555> \ --base-url http://<server-ip>:<port>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备标识
  • --base-url:云端推理服务地址(支持自建 vLLM/SGLang 服务)
  • 最终字符串:自然语言指令
Python API 调用示例
from phone_agent.adb import ADBConnection, list_devices conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备 IP ip = conn.get_device_ip() print(f"设备 IP: {ip}")

此接口适用于集成到更大规模的自动化平台中。

4. 应用场景与性能表现

4.1 支持的应用范围

目前 Open-AutoGLM 已适配主流安卓应用,涵盖多个生活场景:

分类支持应用
社交通讯微信、QQ、微博
电商购物淘宝、京东、拼多多
美食外卖美团、饿了么、肯德基
出行旅游携程、12306、滴滴出行
视频娱乐bilibili、抖音、爱奇艺
音乐音频网易云音乐、QQ音乐、喜马拉雅
生活服务大众点评、高德地图、百度地图
内容社区小红书、知乎、豆瓣

4.2 实测任务表现

以下为实测三个典型任务的表现:

  1. “打开高德地图找一家最近的火锅店”

    • 成功识别地图图标 → 启动应用 → 输入“火锅” → 排序距离最近 → 显示结果
    • 耗时约 110 秒
  2. “点一杯最便宜的瑞幸咖啡”

    • 进入美团 → 搜索“瑞幸” → 筛选价格最低饮品 → 加购 → 停止于结算页(需人工支付)
    • 耗时约 135 秒
  3. “找一篇西安一日游攻略”

    • 打开小红书 → 搜索关键词 → 浏览笔记列表 → 点击点赞最高的文章
    • 耗时约 98 秒

所有任务均顺利完成,期间遇到两次弹窗广告,AI 均能正确识别并关闭。

4.3 与传统脚本对比优势

维度按键精灵类脚本Open-AutoGLM
泛化性固定坐标,UI 变动即失效基于语义理解,适应多种界面风格
异常处理无法应对弹窗、加载失败等情况可动态调整路径,具备容错能力
开发成本每个流程需单独编写脚本自然语言驱动,零代码配置
可维护性修改 UI 后需重写脚本模型自动适应,无需人工干预

5. 本地化部署与高级用法

5.1 模型本地推理支持

除调用云端 API 外,Open-AutoGLM 支持本地部署模型,提升隐私安全性。官方推荐两种推理框架:

  • vLLM:高性能批处理推理引擎,适合 GPU 服务器
  • SGLang:轻量级推理框架,支持流式输出

⚠️ 注意:目前这两个框架对 macOS 支持有限,建议在 Linux 服务器上部署。

5.2 敏感操作保护策略

系统采用分级安全机制:

  • 对涉及账号、支付的操作自动触发Take_over
  • 所有操作日志可追溯
  • 支持设置白名单应用,限制自动化范围

5.3 远程调试与开发支持

通过 WiFi 连接,开发者可在办公室远程调试家中设备,极大提升开发效率。配合 CICD 流程,可实现自动化测试流水线。

6. 总结

Open-AutoGLM 的发布,意味着普通人也能构建属于自己的“AI 手机代理”。它不仅复现了豆包手机的核心功能,更以开源形式推动了整个 Phone Agent 领域的发展。

尽管当前仍存在一些局限——如执行速度不如人类熟练操作、无法捕捉“临时起意”的消费冲动——但它已在重复性任务自动化方面展现出巨大价值。未来随着模型轻量化和边缘计算能力提升,这类 Agent 完全有可能集成进手机操作系统本身,成为下一代智能终端的标准组件。

更重要的是,Open-AutoGLM 提供了一个清晰的技术范式:以视觉语言模型为大脑,以 ADB 为手脚,以自然语言为指令接口,构建真正意义上的“数字劳动力”。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1180110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FSMN-VAD服务启动失败?检查这五个关键点

FSMN-VAD服务启动失败&#xff1f;检查这五个关键点 在部署基于 ModelScope 的 FSMN-VAD 离线语音端点检测服务时&#xff0c;尽管流程看似简单&#xff0c;但实际操作中仍可能遇到服务无法正常启动的问题。本文将结合常见错误场景&#xff0c;系统性地梳理 五个最关键的排查方…

跨国公司员工管理:AI工坊统一生成全球分支机构证件照

跨国公司员工管理&#xff1a;AI工坊统一生成全球分支机构证件照 1. 引言 1.1 业务场景描述 在全球化运营的跨国企业中&#xff0c;人力资源管理面临诸多挑战&#xff0c;其中之一便是员工证件照的标准化采集。无论是入职档案、门禁系统、工牌制作还是内部通讯录更新&#x…

Altium Designer中Gerber导出核心要点一文说清

Altium Designer中Gerber导出核心要点一文说清&#xff1a;从设计到制造的无缝衔接 为什么一次正确的Gerber输出能省下整整一周&#xff1f; 在硬件开发的冲刺阶段&#xff0c;最怕什么&#xff1f;不是原理图改了三次&#xff0c;也不是Layout布线返工——而是 打样回来的板…

开源可商用小模型推荐:Qwen2.5-0.5B+弹性算力部署指南

开源可商用小模型推荐&#xff1a;Qwen2.5-0.5B弹性算力部署指南 1. 引言&#xff1a;边缘智能时代的小模型需求 随着AI应用场景向终端设备延伸&#xff0c;对轻量化、低延迟、高能效的推理模型需求日益增长。传统大模型虽性能强大&#xff0c;但受限于显存占用和算力要求&am…

HY-MT1.5-1.8B模型性能基准:不同硬件平台的对比测试

HY-MT1.5-1.8B模型性能基准&#xff1a;不同硬件平台的对比测试 1. 引言 1.1 背景与技术趋势 随着多语言交流需求的快速增长&#xff0c;神经机器翻译&#xff08;NMT&#xff09;正从传统的云端集中式部署向终端侧轻量化运行演进。尤其是在移动设备、边缘计算和低带宽场景中…

基于SAM3大模型镜像的开放词汇分割实践|附Gradio交互部署

基于SAM3大模型镜像的开放词汇分割实践&#xff5c;附Gradio交互部署 在计算机视觉领域&#xff0c;图像语义理解正从封闭类别识别迈向开放词汇&#xff08;Open-Vocabulary&#xff09;感知的新阶段。传统分割模型受限于预定义类别&#xff0c;难以应对“穿红帽子的小孩”或“…

2025年多语言检索趋势:Qwen3-Embedding-4B落地实战指南

2025年多语言检索趋势&#xff1a;Qwen3-Embedding-4B落地实战指南 1. 引言&#xff1a;通义千问3-Embedding-4B——面向未来的文本向量化引擎 随着全球信息交互的加速&#xff0c;多语言语义理解与长文本处理能力已成为构建下一代知识库系统的核心需求。在这一背景下&#x…

FFmpeg 下载 HLS 流媒体笔记

基本命令 ffmpeg -i "m3u8地址" -c copy output.mp4参数说明参数 说明-i "URL" 输入源(m3u8 播放列表地址)-c copy 直接复制流,不重新编码(速度快,无损质量)output.mp4 输出文件名工作原理m…

Llama3-8B vs 通义千问2.5-7B-Instruct:英文任务性能全面对比

Llama3-8B vs 通义千问2.5-7B-Instruct&#xff1a;英文任务性能全面对比 1. 模型背景与选型动机 在当前开源大模型快速迭代的背景下&#xff0c;7B–8B 参数量级已成为兼顾推理效率与语言能力的“黄金区间”。Meta 发布的 Llama3-8B 和阿里云推出的 通义千问 Qwen2.5-7B-Inst…

HY-MT1.5-1.8B量化实战:云端GPU快速测试不同精度效果

HY-MT1.5-1.8B量化实战&#xff1a;云端GPU快速测试不同精度效果 你是不是也遇到过这样的问题&#xff1a;手头有个嵌入式设备要部署翻译模型&#xff0c;但本地调试太慢、资源有限&#xff0c;调参像“盲人摸象”&#xff1f;尤其是面对像 HY-MT1.5-1.8B 这种主打“端侧部署”…

基于滑膜控制器的分数阶非线性悬架模型simulink建模与仿真

1.课题概述 基于滑膜控制器的分数阶非线性悬架模型simulink建模与仿真。通过simulink搭建含分数阶的悬架非线性仿真模型。仿真分析轮胎动载荷的幅频特性,电机垂直加速度的幅频特性,悬架动扰度的幅频特性,车身垂直加…

开源AI模型部署新趋势:DeepSeek-R1蒸馏技术实战解析

开源AI模型部署新趋势&#xff1a;DeepSeek-R1蒸馏技术实战解析 1. 引言 1.1 技术背景与行业痛点 随着大语言模型&#xff08;LLM&#xff09;在自然语言理解、代码生成和数学推理等任务中的广泛应用&#xff0c;如何在有限算力条件下实现高性能推理成为工程落地的关键挑战。…

TensorFlow-v2.15一文详解:tf.Variable与@tf.function使用技巧

TensorFlow-v2.15一文详解&#xff1a;tf.Variable与tf.function使用技巧 1. 引言&#xff1a;TensorFlow 2.15 的核心特性与开发价值 TensorFlow 是由 Google Brain 团队开发的开源机器学习框架&#xff0c;广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台&#…

医疗文献分析:Extract-Kit-1.0应用实例

医疗文献分析&#xff1a;Extract-Kit-1.0应用实例 1. 技术背景与应用场景 随着医学研究的快速发展&#xff0c;大量科研成果以PDF格式发表在各类期刊中。这些文档通常包含复杂的版式结构&#xff0c;如表格、公式、图表和多栏排版&#xff0c;传统文本提取方法难以准确还原其…

一键启动多语言语音理解,SenseVoiceSmall实战入门指南

一键启动多语言语音理解&#xff0c;SenseVoiceSmall实战入门指南 1. 引言&#xff1a;为什么需要富文本语音理解&#xff1f; 在传统的语音识别场景中&#xff0c;系统通常只关注“说了什么”&#xff08;What was said&#xff09;&#xff0c;而忽略了“怎么说的”&#x…

社交媒体内容审核:图片旋转判断过滤违规内容

社交媒体内容审核&#xff1a;图片旋转判断过滤违规内容 1. 引言 在社交媒体平台的内容审核系统中&#xff0c;图像类违规内容的识别一直是技术难点之一。除了常见的敏感图像检测、文字OCR识别外&#xff0c;图片方向异常&#xff08;如逆时针旋转90、180或270&#xff09;常…

unet person image cartoon compound界面汉化:中英文切换功能实现思路

unet person image cartoon compound界面汉化&#xff1a;中英文切换功能实现思路 1. 功能概述 本工具基于阿里达摩院 ModelScope 的 DCT-Net 模型&#xff0c;支持将真人照片转换为卡通风格。在原有功能基础上&#xff0c;本文重点介绍如何为该 WebUI 界面添加中英文切换功能…

解决大图卡顿问题:lama修复系统性能调优建议

解决大图卡顿问题&#xff1a;lama修复系统性能调优建议 1. 问题背景与挑战分析 1.1 大图处理的现实痛点 在使用 fft npainting lama 图像修复系统进行图片重绘和物品移除时&#xff0c;用户普遍反馈当图像分辨率超过2000px后&#xff0c;系统响应明显变慢&#xff0c;甚至出…

Windows苹果触控板精准驱动:解锁原生级手势体验完整教程

Windows苹果触控板精准驱动&#xff1a;解锁原生级手势体验完整教程 【免费下载链接】mac-precision-touchpad Windows Precision Touchpad Driver Implementation for Apple MacBook / Magic Trackpad 项目地址: https://gitcode.com/gh_mirrors/ma/mac-precision-touchpad …

Fun-ASR+K8s部署指南:云端弹性伸缩实战

Fun-ASRK8s部署指南&#xff1a;云端弹性伸缩实战 你是否遇到过这样的场景&#xff1a;公司要办一场大型线上发布会&#xff0c;预计会有上万人同时接入语音直播&#xff0c;需要实时生成字幕和会议纪要。但平时的ASR&#xff08;自动语音识别&#xff09;服务压力不大&#x…