Open-AutoGLM一文详解:视觉语言模型+ADB控制手机操作流程

Open-AutoGLM一文详解:视觉语言模型+ADB控制手机操作流程

1. Open-AutoGLM – 智谱开源的手机端AI Agent框架

你有没有想过,让AI像真人一样“看”懂手机屏幕,并自动帮你完成点击、滑动、输入、搜索等一系列操作?现在,这不再是科幻。Open-AutoGLM 就是这样一个由智谱开源的手机端 AI Agent 框架,它把视觉语言模型(VLM)和安卓设备控制能力结合在一起,真正实现了“用一句话,让AI替你操作手机”。

这个项目的核心思想很直接:让AI具备“眼睛”和“手”

  • “眼睛”是视觉语言模型,能理解屏幕上显示的内容——按钮在哪、当前是什么App、有没有弹窗;
  • “手”是 ADB(Android Debug Bridge),通过命令行就能模拟点击、滑动、输入文字等操作。

用户只需要说一句:“打开小红书搜美食”,系统就会自动分析这句话的意图,截图识别当前界面,判断下一步该点哪里,然后一步步执行,直到任务完成。整个过程无需手动干预,就像有个“数字分身”在替你玩手机。

更关键的是,Open-AutoGLM 不只是一个概念验证。它已经开源,支持真机部署,甚至可以通过 WiFi 远程连接设备,非常适合开发者、自动化测试人员,或者想打造个人智能助理的技术爱好者。

2. AutoGLM-Phone:多模态理解 + 自动化执行

2.1 核心架构解析

AutoGLM-Phone 是 Open-AutoGLM 的核心引擎,它的运行流程可以拆解为四个关键步骤:

  1. 自然语言指令输入
    用户输入一句日常口语,比如:“帮我登录微信,然后发消息给张三说‘今天晚上聚餐’。”

  2. 意图解析与任务规划
    模型首先理解这句话的目标是什么——需要登录、找到联系人、发送消息。然后拆解成一系列可执行的子任务:打开微信 → 点击登录 → 输入账号密码 → 找到张三 → 输入文本 → 发送。

  3. 屏幕感知(视觉理解)
    每执行一步前,系统会通过 ADB 截图当前手机屏幕,将图像和历史上下文一起输入视觉语言模型。模型会“看”清界面上有哪些元素,比如“登录按钮在右下角”、“密码框已聚焦”、“聊天列表第3个是张三”。

  4. 动作生成与执行
    基于理解结果,模型输出具体的 ADB 操作指令,如tap(800, 1200)表示点击坐标,input("hello")表示输入文字。这些指令通过 ADB 发送到手机,完成实际操作。

整个过程是循环进行的:执行 → 截图 → 理解 → 再执行,直到任务完成或遇到阻塞(如验证码)。

2.2 安全机制与人工接管

完全自动化的操作听起来很酷,但也存在风险。比如误触支付按钮、自动授权敏感权限等。为此,Open-AutoGLM 设计了两层防护:

  • 敏感操作确认机制
    当检测到可能涉及隐私或资金的操作(如“付款”、“删除账号”),系统会暂停并提示用户确认是否继续。

  • 人工接管支持
    在需要输入验证码、人脸识别等AI无法处理的场景,流程会自动暂停,等待用户手动完成,之后再由AI继续后续步骤。

这种“AI主控 + 人类监督”的模式,既保证了自动化效率,又守住了安全底线。

2.3 支持远程调试与网络控制

传统 ADB 调试依赖 USB 数据线,使用不便。Open-AutoGLM 支持通过 WiFi 进行远程连接,这意味着:

  • 手机可以放在固定位置,无需插电脑;
  • 多台设备可集中管理;
  • 开发者可以在任何有网络的地方调试 AI 代理行为。

这对于构建家庭自动化、远程客服助手等场景非常实用。

3. 客户端与真机连接(本地电脑配置)

要让 Open-AutoGLM 正常工作,你需要在本地电脑上配置控制端,负责与手机通信并调用云端的 AI 模型。以下是详细准备步骤。

3.1 硬件与环境准备

确保你的开发环境满足以下条件:

  • 操作系统:Windows 或 macOS(Linux 同样支持)
  • Python 版本:建议 Python 3.10 或更高版本
  • 安卓设备:Android 7.0 及以上系统的手机或模拟器
  • ADB 工具:Android SDK Platform Tools
ADB 安装与配置

Windows 用户

  1. 下载 Android SDK Platform Tools 并解压。
  2. Win + R,输入sysdm.cpl,打开“系统属性”。
  3. 进入“高级” → “环境变量”。
  4. 在“系统变量”中找到Path,点击“编辑” → “新建”,添加 ADB 解压目录路径(如C:\platform-tools)。
  5. 打开命令提示符,输入:
    adb version
    如果返回版本号,说明配置成功。

macOS 用户

打开终端,执行以下命令(假设 ADB 解压在~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行命令添加到~/.zshrc~/.bash_profile中,避免每次重启终端都要重新设置。

验证方式相同:

adb version

3.2 手机端设置

为了让电脑能控制手机,需开启开发者权限并安装专用输入法。

  1. 开启开发者模式
    进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

  2. 开启 USB 调试
    返回设置主菜单 → “开发者选项” → 打开“USB 调试”。

  3. 安装 ADB Keyboard(关键!)
    这是一个特殊的输入法,允许通过 ADB 命令向手机输入文字,解决纯自动化无法打字的问题。

    • 下载 ADB Keyboard APK 并安装。
    • 进入“设置” → “语言与输入法” → “默认键盘” → 切换为ADB Keyboard

注意:如果不安装并启用 ADB Keyboard,AI 将无法自动输入文字,很多任务会失败。

3.3 部署控制端代码(Open-AutoGLM)

在本地电脑上克隆并安装 Open-AutoGLM 控制端:

# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .

安装完成后,你就拥有了本地的控制中心,接下来只需连接设备即可开始使用。

4. 设备连接方式:USB 与 WiFi 远程连接

Open-AutoGLM 支持两种设备连接方式:USB 和 WiFi。推荐先用 USB 调试,稳定后再切换到无线模式。

4.1 USB 连接方式

  1. 使用数据线将手机连接电脑。
  2. 手机弹出“允许USB调试?”提示时,点击“允许”。
  3. 在终端运行:
    adb devices
    输出应类似:
    List of devices attached 1234567890abc device
    其中1234567890abc就是你的设备 ID。

4.2 WiFi 远程连接方式

如果你希望摆脱数据线,可以使用 ADB over TCP/IP。

  1. 先用 USB 连接手机,确保adb devices能识别。
  2. 在终端执行:
    adb tcpip 5555
    这会启动 ADB 的 TCP 服务,监听 5555 端口。
  3. 断开 USB 数据线。
  4. 查找手机的局域网 IP 地址(可在“设置”→“WLAN”中查看)。
  5. 执行连接命令:
    adb connect 192.168.x.x:5555
    替换192.168.x.x为你的手机 IP。
  6. 再次运行adb devices,确认设备状态为device

提示:WiFi 连接受网络稳定性影响较大,若频繁掉线,建议优先使用 USB。

5. 启动 AI 代理:执行自然语言指令

一切准备就绪,现在可以正式让 AI 接管手机了。

5.1 命令行方式启动

Open-AutoGLM项目目录下运行:

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备标识,如1234567890abc192.168.1.100:5555
  • --base-url:指向你部署的 vLLM 服务地址,例如http://1.2.3.4:8800/v1
  • --model:指定使用的模型名称,目前支持autoglm-phone-9b
  • 最后的字符串:你要下达的自然语言指令

执行后,你会看到 AI 开始截图、分析界面、生成操作步骤,并逐步在手机上执行。整个过程无需干预,直到关注成功或遇到异常。

5.2 Python API 方式远程控制

除了命令行,你还可以在自己的 Python 脚本中集成 Open-AutoGLM 的控制能力。

from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn = ADBConnection() # 连接远程设备(WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # (可选)为 USB 设备启用 TCP/IP 模式 success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式适合将 Open-AutoGLM 集成到更大的自动化系统中,比如批量测试 App、构建个人数字助理等。

6. 常见问题排查与优化建议

在实际使用中,可能会遇到一些常见问题。以下是高频故障及解决方案。

6.1 连接失败或被拒绝

  • 现象adb connect失败,提示“unable to connect”
  • 原因:云服务器防火墙未开放对应端口
  • 解决
    • 检查云服务商(如阿里云、腾讯云)的安全组规则,放行5555和模型服务端口(如8800
    • 确保路由器未阻止 ADB 流量

6.2 ADB 频繁掉线

  • 现象:执行中途断开,需重新连接
  • 原因:WiFi 信号不稳定,或手机休眠导致 ADB 断开
  • 解决
    • 使用 USB 连接更稳定
    • 在开发者选项中关闭“USB 调试超时”或“休眠时断开 ADB”
    • 保持手机亮屏或设置“永不休眠”

6.3 模型无响应或输出乱码

  • 现象:AI 不执行操作,或生成无效指令
  • 原因:vLLM 服务未正确启动,或显存不足
  • 解决
    • 检查 vLLM 启动命令是否包含正确的--max-model-len--gpu-memory-utilization
    • 确保模型权重路径正确,且 GPU 显存 ≥ 16GB(推荐 24GB)
    • 查看服务日志是否有 OOM(内存溢出)错误

6.4 文字输入失败

  • 现象:需要输入内容时,屏幕无反应
  • 原因:未安装或未启用 ADB Keyboard
  • 解决
    • 确认已安装 ADB Keyboard APK
    • 在“语言与输入法”中将其设为默认输入法
    • 可通过adb shell settings get secure default_input_method验证

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1192937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

突破百度网盘限速:百度网盘解析工具终极指南

突破百度网盘限速&#xff1a;百度网盘解析工具终极指南 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的非会员下载速度而苦恼吗&#xff1f;这款百度网盘解析…

SGLang实战体验:复杂任务调度原来这么简单

SGLang实战体验&#xff1a;复杂任务调度原来这么简单 你有没有遇到过这样的情况&#xff1f;想让大模型完成一个稍微复杂的任务&#xff0c;比如先分析用户问题、再调用API、最后生成结构化结果&#xff0c;写起代码来却像在搭积木&#xff0c;一层套一层&#xff0c;逻辑混乱…

用YOLO11做的AI检测项目,结果太惊喜

用YOLO11做的AI检测项目&#xff0c;结果太惊喜 最近尝试了一个基于 YOLO11 的目标检测项目&#xff0c;从环境搭建到模型训练&#xff0c;整个过程出乎意料地顺利。更让人兴奋的是&#xff0c;最终的检测效果不仅速度快&#xff0c;准确率也远超预期。如果你正在寻找一个高效…

热门的显微硬度计制造厂家怎么联系?2026年最新推荐

在材料科学和工业检测领域,显微硬度计是评估材料微观力学性能的关键设备。选择优质的显微硬度计制造厂家需综合考虑技术积累、产品精度、售后服务及市场口碑等多重因素。经过对行业技术参数、用户反馈及市场占有率的综…

百度网盘下载加速:3步实现10倍速度提升的完整指南

百度网盘下载加速&#xff1a;3步实现10倍速度提升的完整指南 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘下载速度慢而烦恼吗&#xff1f;今天我要分享一个…

2026年评价高的金相分析公司怎么选?最新口碑排行

在2026年选择金相分析公司时,应重点考察企业的技术积累、实力、产品覆盖范围、服务响应速度以及行业口碑。经过对国内金相设备市场的深入调研,我们发现技术数量、产品线完整性、售后服务效率是区分企业实力的关键指标…

用cv_resnet18_ocr-detection做了个文档扫描项目,全过程分享

用cv_resnet18_ocr-detection做了个文档扫描项目&#xff0c;全过程分享 1. 项目背景与目标 最近在做一个文档数字化的小项目&#xff0c;核心需求是把纸质文件、合同、发票这些材料拍照后自动提取文字区域&#xff0c;方便后续做OCR识别和归档。市面上虽然有不少现成的OCR工…

Qwen3-1.7B法律咨询助手开发:律所真实部署案例分享

Qwen3-1.7B法律咨询助手开发&#xff1a;律所真实部署案例分享 在人工智能加速渗透专业服务领域的今天&#xff0c;法律行业也开始探索大模型带来的变革可能。本文将分享一个真实的律所技术升级案例——如何基于Qwen3-1.7B构建轻量级法律咨询助手&#xff0c;并实现本地化快速…

Qwen3-Embedding-0.6B应用场景揭秘:这些领域都能用

Qwen3-Embedding-0.6B应用场景揭秘&#xff1a;这些领域都能用 1. Qwen3-Embedding-0.6B 是什么&#xff1f;为什么值得关注&#xff1f; 你有没有遇到过这样的问题&#xff1a;用户搜索“怎么还花呗”&#xff0c;系统却找不到“如何归还蚂蚁花呗”这篇帮助文档&#xff1f;…

LeagueAkari终极指南:一键查询战绩、智能自动选择的完整教程

LeagueAkari终极指南&#xff1a;一键查询战绩、智能自动选择的完整教程 【免费下载链接】LeagueAkari ✨兴趣使然的&#xff0c;功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari 还…

终极指南:轻松掌握Dell G15散热管理,告别高温困扰

终极指南&#xff1a;轻松掌握Dell G15散热管理&#xff0c;告别高温困扰 【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 还在为Dell G15笔记本玩游戏时温度过…

XUnity.AutoTranslator:Unity游戏智能翻译的终极解决方案

XUnity.AutoTranslator&#xff1a;Unity游戏智能翻译的终极解决方案 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator XUnity.AutoTranslator是一款专为Unity游戏设计的高级翻译插件&#xff0c;通过创新的…

百度网盘下载太慢怎么办?5分钟教你实现10倍加速

百度网盘下载太慢怎么办&#xff1f;5分钟教你实现10倍加速 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘那蜗牛般的下载速度抓狂吗&#xff1f;每次看到几十…

从0开始学视觉推理,Glyph镜像保姆级使用教程

从0开始学视觉推理&#xff0c;Glyph镜像保姆级使用教程 1. 你也能玩转视觉推理&#xff1a;Glyph到底是什么&#xff1f; 你有没有想过&#xff0c;AI不仅能“读”文字&#xff0c;还能“看懂”图文混合的内容&#xff1f;比如一张带说明的PPT、一份扫描的合同、甚至社交媒体…

百度网盘下载加速终极指南:告别限速烦恼

百度网盘下载加速终极指南&#xff1a;告别限速烦恼 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的龟速下载而抓狂吗&#xff1f;&#x1f92f; 每次看着那缓…

ScreenTranslator完整使用教程:免费开源屏幕翻译工具让语言学习更简单

ScreenTranslator完整使用教程&#xff1a;免费开源屏幕翻译工具让语言学习更简单 【免费下载链接】ScreenTranslator Screen capture, OCR and translation tool. 项目地址: https://gitcode.com/gh_mirrors/sc/ScreenTranslator 还在为外语内容阅读困难而烦恼吗&#…

Z-Image-Turbo真实体验:中文提示词渲染清晰不乱码

Z-Image-Turbo真实体验&#xff1a;中文提示词渲染清晰不乱码 你有没有遇到过这种情况&#xff1a;满怀期待地输入“春节灯笼上写着‘福’字”&#xff0c;结果生成的图片里汉字歪歪扭扭、像乱码一样&#xff1f;或者想做个带中文标语的海报&#xff0c;AI却只给你一堆拼音符号…

百度网盘智能提取码解析工具:零基础快速上手完整教程

百度网盘智能提取码解析工具&#xff1a;零基础快速上手完整教程 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘分享链接的提取码而烦恼吗&#xff1f;当你点击一个期待已久的资源链接&#xff0c;却被提取码验…

热门的油门踏板电刷供应商哪家便宜?2026年推荐

在汽车零部件供应链中,油门踏板电刷作为关键部件之一,其性能直接影响车辆操控的精准性和耐久性。选择一家高性价比的供应商,需综合考虑技术实力、生产规模、行业口碑及价格竞争力。本文基于市场调研,推荐5家具备不…

新手必看!Live Avatar数字人部署避坑指南,少走90%弯路

新手必看&#xff01;Live Avatar数字人部署避坑指南&#xff0c;少走90%弯路 1. 为什么你第一次运行就失败了&#xff1f;——真实踩坑现场复盘 刚下载完Live Avatar镜像&#xff0c;满怀期待地敲下./run_4gpu_tpp.sh&#xff0c;结果终端弹出一长串红色报错&#xff1a;CUD…