Open-AutoGLM步骤详解:从克隆仓库到首次运行全记录

Open-AutoGLM步骤详解:从克隆仓库到首次运行全记录

1. 背景与核心价值

1.1 Open-AutoGLM:智谱开源的手机端AI Agent框架

Open-AutoGLM 是由智谱AI推出的开源项目,旨在构建一个可在移动端运行的AI智能体(Agent)框架。该框架基于视觉语言模型(VLM),结合Android Debug Bridge(ADB)实现对安卓设备的自动化控制。其核心目标是让AI具备“看懂屏幕、理解意图、自动操作”的能力,从而成为真正意义上的手机端AI助手。

与传统自动化脚本不同,Open-AutoGLM 不依赖固定UI路径或硬编码规则,而是通过多模态感知实时解析屏幕内容,并结合大模型的推理能力动态规划操作路径。这种“感知-决策-执行”闭环使得系统能够适应界面变化、处理复杂交互流程,极大提升了自动化任务的泛化能力和实用性。

1.2 AutoGLM-Phone 的技术定位

AutoGLM-Phone 是 Open-AutoGLM 框架的核心实现之一,专为手机场景设计。它利用视觉语言模型理解当前屏幕状态(如按钮位置、文本信息、布局结构),并通过自然语言指令驱动整个操作流程。例如用户输入“打开小红书搜索美食”,系统将自动完成以下动作:

  • 解析语义意图:识别“打开应用”、“关键词搜索”等子任务;
  • 屏幕感知:截图并分析当前界面元素;
  • 动作规划:决定点击、滑动、输入等操作序列;
  • 执行控制:通过 ADB 发送指令操控设备;
  • 反馈验证:确认操作结果是否符合预期。

此外,系统还内置了安全机制,在涉及敏感操作(如支付、权限授权)时会暂停并提示人工确认,支持在验证码、登录弹窗等不可控场景下进行人工接管。同时提供远程调试能力,可通过WiFi连接设备,便于开发测试和部署管理。


2. 环境准备与依赖配置

2.1 硬件与软件要求

要成功部署 Open-AutoGLM 控制端并在真机上运行AI代理,需满足以下基础环境条件:

类别要求
操作系统Windows 10+ 或 macOS 12+
Python版本建议使用 Python 3.10 或更高版本
安卓设备Android 7.0 及以上版本的手机或模拟器
ADB工具必须安装并正确配置环境变量
网络环境若使用远程连接,需确保本地电脑与云服务器/手机处于同一局域网

注意:推荐使用虚拟环境(如venvconda)隔离项目依赖,避免与其他Python项目产生冲突。

2.2 ADB 工具安装与配置

ADB(Android Debug Bridge)是连接和控制安卓设备的关键工具。以下是不同平台下的配置方法。

Windows 平台配置步骤
  1. 下载 Android SDK Platform Tools 并解压。
  2. 将解压后的文件夹路径添加至系统环境变量:
    • Win + R输入sysdm.cpl→ “高级” → “环境变量”
    • 在“系统变量”中找到Path,点击“编辑”
    • 添加 platform-tools 所在目录路径(如C:\platform-tools
  3. 验证安装:
adb version

若输出类似Android Debug Bridge version 1.xx.xx则表示配置成功。

macOS 平台配置方式

打开终端,执行以下命令(假设 platform-tools 解压在 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

为永久生效,可将上述命令写入 shell 配置文件(如.zshrc.bash_profile):

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

再次运行adb version进行验证。


3. 手机端设置与连接准备

3.1 开启开发者选项与USB调试

在安卓设备上启用调试功能是建立 ADB 连接的前提。

  1. 进入设置 → 关于手机,连续点击“版本号”7次,直到提示“您已进入开发者模式”。
  2. 返回设置主菜单,进入开发者选项
  3. 启用USB调试(部分厂商还需开启“USB安装”、“USB调试(安全设置)”等附加选项)。

提示:某些品牌(如小米、华为)可能需要额外授权,请根据提示允许电脑调试权限。

3.2 安装 ADB Keyboard 输入法

由于自动化过程中可能需要文本输入(如搜索框、登录名),而标准ADB无法直接调用软键盘,因此需安装专用输入法:

  1. 访问 ADB Keyboard GitHub Release 页面 下载最新版 APK。
  2. 将 APK 文件传输到手机并安装。
  3. 进入设置 → 语言与输入法 → 默认键盘,选择ADB Keyboard作为当前输入法。

启用后,可通过 ADB 命令发送文本:

adb shell am broadcast -a ADB_INPUT_TEXT --es msg "hello world"

这将直接输入指定内容,无需手动点击。


4. 部署控制端代码与依赖安装

4.1 克隆 Open-AutoGLM 仓库

在本地电脑创建工作目录并拉取源码:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

该项目包含完整的客户端逻辑、ADB封装模块以及与云端模型通信的接口。

4.2 安装 Python 依赖

建议先创建虚拟环境:

python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows

然后安装项目依赖:

pip install -r requirements.txt pip install -e .

其中-e .表示以可编辑模式安装当前包,便于后续修改调试。

常见问题:若出现torch安装失败,请访问 PyTorch官网 获取适配你系统的安装命令。


5. 设备连接方式详解

5.1 USB 连接模式(推荐用于调试)

使用数据线将手机连接至电脑,执行:

adb devices

正常情况下输出如下:

List of devices attached ABCDEF1234567890 device

若显示unauthorized,请检查手机是否弹出“允许USB调试?”对话框,并点击“允许”。

5.2 WiFi 远程连接模式(适合无线部署)

当希望脱离数据线、实现远程控制时,可使用 ADB over TCP/IP。

步骤一:通过USB启用TCP模式
adb tcpip 5555

此命令将设备监听在 5555 端口,等待网络连接。

步骤二:断开USB,使用IP连接

获取手机局域网IP地址(可在设置 → WLAN → 当前网络详情中查看),然后执行:

adb connect 192.168.x.x:5555

连接成功后,再次运行adb devices应能看到设备ID及tcpip标记。

优势:支持跨房间、跨设备远程调试;可用于无人值守自动化任务。


6. 启动 AI 代理并执行任务

6.1 命令行方式启动主程序

一切准备就绪后,即可启动 AI 代理并下发自然语言指令。

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-id通过adb devices获取的设备标识符,支持物理ID或IP:端口格式
--base-url指向运行 vLLM 或其他推理服务的公网地址,格式为http://IP:PORT/v1
--model指定使用的模型名称,必须与后端注册的模型一致
最后字符串用户输入的自然语言指令,支持中文长句描述
示例完整命令(替换实际值):
python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://47.98.123.45:8800/v1 \ --model autoglm-phone-9b \ "帮我打开微信,进入设置,清除缓存"

6.2 使用 Python API 实现远程连接管理

对于集成到其他系统或批量控制多个设备的场景,可使用内置的 Python 接口。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 在USB设备上启用TCP/IP(方便后续无线调试) success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开指定设备 conn.disconnect("192.168.1.100:5555")

该API提供了更细粒度的控制能力,适用于自动化测试平台、远程运维系统等工程化场景。


7. 常见问题与排查建议

7.1 连接类问题

问题现象可能原因解决方案
adb devices无设备显示USB调试未开启、驱动异常检查开发者选项,重插数据线,尝试更换线缆
显示unauthorized未授权电脑调试手机端确认“允许USB调试”弹窗
adb connect失败网络不通、端口未开放确保在同一局域网,关闭防火墙或开放5555端口

7.2 模型服务相关问题

问题现象可能原因解决方案
请求超时或返回空响应云服务器防火墙拦截检查安全组规则,放行对应端口(如8800)
返回乱码或格式错误vLLM 启动参数不匹配确认--max-model-len--dtype等参数与模型兼容
模型响应极慢GPU显存不足或batch过大调整--gpu-memory-utilization至0.8以下

7.3 安全与稳定性建议

  • 敏感操作防护:系统默认会在涉及支付、删除、权限变更等操作前暂停,等待人工确认。
  • 人工接管机制:遇到验证码、滑块验证、登录弹窗等情况,可通过日志提示手动介入。
  • 定期重启ADB服务:长时间运行可能导致 ADB 进程卡死,建议定时执行adb kill-server && adb start-server

8. 总结

Open-AutoGLM 提供了一个完整且可扩展的手机端AI Agent实现方案,融合了视觉语言模型的强大理解力与 ADB 的精确控制能力。本文详细记录了从环境搭建、代码部署、设备连接到最终运行的全流程,涵盖 USB 与 WiFi 两种连接模式,并提供了命令行与 Python API 两种调用方式。

通过本指南,开发者可以快速上手该项目,将其应用于自动化测试、辅助操作、无障碍服务、远程运维等多个实际场景。未来随着多模态模型能力的持续提升,此类AI代理有望进一步逼近“通用手机助手”的理想形态。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1175720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenCode团队协作:多人开发中的AI应用

OpenCode团队协作&#xff1a;多人开发中的AI应用 1. 引言 在现代软件开发中&#xff0c;团队协作的效率直接决定了项目的交付速度与质量。随着大语言模型&#xff08;LLM&#xff09;技术的成熟&#xff0c;AI 编程助手正从“个人提效工具”向“团队智能中枢”演进。OpenCod…

企业效率提升300%?Open-AutoGLM自动化任务落地实践

企业效率提升300%&#xff1f;Open-AutoGLM自动化任务落地实践 1. 引言&#xff1a;从自然语言到自动执行的智能跃迁 在移动办公和数字生活日益复杂的今天&#xff0c;用户每天需要在手机上重复大量操作&#xff1a;打开App、搜索内容、填写表单、切换账号……这些看似简单的…

基于Spark的大数据日志分析系统设计与实现

博主介绍&#xff1a; ✌我是阿龙&#xff0c;一名专注于Java技术领域的程序员&#xff0c;全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师&#xff0c;我在计算机毕业设计开发方面积累了丰富的经验。同时&#xff0c;我也是掘金、华为云、阿里云、InfoQ等平台…

Hunyuan模型能商用吗?Apache许可商业落地指南

Hunyuan模型能商用吗&#xff1f;Apache许可商业落地指南 1. 引言&#xff1a;企业级翻译需求与Hunyuan的定位 在跨国业务拓展、内容本地化和多语言客户服务等场景中&#xff0c;高质量的机器翻译能力已成为企业数字化基础设施的重要组成部分。传统云服务API虽便捷&#xff0…

Hunyuan-MT-7B-WEBUI文化保护:助力少数民族语言数字化传承

Hunyuan-MT-7B-WEBUI文化保护&#xff1a;助力少数民族语言数字化传承 1. 引言 随着全球化进程的加速&#xff0c;语言多样性正面临前所未有的挑战。据联合国教科文组织统计&#xff0c;全球约有40%的语言处于濒危状态&#xff0c;其中少数民族语言尤为脆弱。语言不仅是交流工…

实战OpenCode:用Qwen3-4B快速实现智能代码补全

实战OpenCode&#xff1a;用Qwen3-4B快速实现智能代码补全 在AI编程助手日益普及的今天&#xff0c;开发者对响应速度、模型灵活性和隐私安全的要求越来越高。OpenCode 作为一款终端优先、支持多模型、可完全离线运行的开源 AI 编程框架&#xff0c;凭借其轻量架构与强大扩展能…

手把手教你完成USB转485驱动程序Windows平台下载

从零搞定USB转485通信&#xff1a;驱动安装、硬件识别与实战调试全解析 你有没有遇到过这样的场景&#xff1f;手握一块USB转485模块&#xff0c;连上电脑后设备管理器里却只显示“未知设备”&#xff1b;或者明明识别了COM口&#xff0c;但用串口助手发数据就是没反应。更头疼…

bge-large-zh-v1.5性能优化:提升embedding服务效率的7个技巧

bge-large-zh-v1.5性能优化&#xff1a;提升embedding服务效率的7个技巧 随着大模型应用在语义理解、检索增强生成&#xff08;RAG&#xff09;和向量数据库构建等场景中的广泛落地&#xff0c;高效稳定的Embedding服务成为系统性能的关键瓶颈之一。bge-large-zh-v1.5作为一款…

AI智能文档扫描仪环境部署:Python+OpenCV免配置快速启动

AI智能文档扫描仪环境部署&#xff1a;PythonOpenCV免配置快速启动 1. 引言 1.1 业务场景描述 在日常办公、学习或财务报销中&#xff0c;我们经常需要将纸质文档、发票、合同或白板笔记转换为电子版。传统方式依赖专业扫描仪或手动裁剪照片&#xff0c;效率低且效果差。而市…

自动驾驶感知模块搭建:用YOLOv13镜像快速验证

自动驾驶感知模块搭建&#xff1a;用YOLOv13镜像快速验证 1. 引言 1.1 业务场景描述 在自动驾驶系统中&#xff0c;感知模块是实现环境理解的核心组件。其主要任务是从摄像头、激光雷达等传感器数据中识别和定位行人、车辆、交通标志等关键目标&#xff0c;为后续的决策与控…

Qwen3-VL-2B-Instruct缓存机制优化:减少重复计算教程

Qwen3-VL-2B-Instruct缓存机制优化&#xff1a;减少重复计算教程 1. 引言 1.1 业务场景描述 在多轮对话、视觉代理任务和长上下文推理等实际应用中&#xff0c;Qwen3-VL-2B-Instruct 模型需要频繁处理相似或重复的输入内容。例如&#xff0c;在 GUI 操作代理场景中&#xff…

verl版本管理:模型与代码同步更新的最佳实践

verl版本管理&#xff1a;模型与代码同步更新的最佳实践 1. verl 介绍 verl 是一个灵活、高效且可用于生产环境的强化学习&#xff08;RL&#xff09;训练框架&#xff0c;专为大型语言模型&#xff08;LLMs&#xff09;的后训练设计。它由字节跳动火山引擎团队开源&#xff…

TurboDiffusion最佳实践:高效提示词编写模板与技巧

TurboDiffusion最佳实践&#xff1a;高效提示词编写模板与技巧 1. 引言 1.1 视频生成的技术演进与挑战 近年来&#xff0c;文生视频&#xff08;Text-to-Video, T2V&#xff09;和图生视频&#xff08;Image-to-Video, I2V&#xff09;技术迅速发展&#xff0c;成为AI内容创…

Qwen3-VL-WEB调度系统:任务队列与优先级管理实战

Qwen3-VL-WEB调度系统&#xff1a;任务队列与优先级管理实战 1. 引言&#xff1a;Qwen3-VL-WEB 的核心定位与业务挑战 随着多模态大模型在视觉理解、图文生成和交互式推理等场景的广泛应用&#xff0c;如何高效调度高并发的网页端推理请求成为工程落地的关键瓶颈。Qwen3-VL-W…

ES客户端在多租户架构中的集成策略解析

如何让 ES 客户端在多租户系统中既安全又高效&#xff1f;一线架构师的实战拆解 你有没有遇到过这样的场景&#xff1a; 一个 SaaS 平台上线不到半年&#xff0c;租户数量从几十涨到上千&#xff0c;日志查询接口突然频繁超时。排查发现&#xff0c;某个“大客户”一口气查了三…

混元翻译模型部署:HY-MT1.5-1.8B容器化方案

混元翻译模型部署&#xff1a;HY-MT1.5-1.8B容器化方案 1. 引言 随着多语言交流需求的不断增长&#xff0c;高质量、低延迟的翻译服务已成为智能应用的核心能力之一。混元翻译模型&#xff08;Hunyuan Machine Translation, HY-MT&#xff09;系列在多个国际评测中表现出色&a…

GLM-4.6V-Flash-WEB媒体行业:新闻图片自动生成标题系统

GLM-4.6V-Flash-WEB媒体行业&#xff1a;新闻图片自动生成标题系统 1. 技术背景与应用场景 随着数字媒体内容的爆炸式增长&#xff0c;新闻机构每天需要处理海量的图像素材。传统的人工撰写图片标题方式效率低、成本高&#xff0c;难以满足实时性要求。自动化图像描述生成&am…

视觉AI商业化落地:Qwen3-VL-2B实战案例解析

视觉AI商业化落地&#xff1a;Qwen3-VL-2B实战案例解析 1. 引言&#xff1a;视觉AI的商业价值与技术演进 随着人工智能从纯文本交互向多模态理解演进&#xff0c;视觉语言模型&#xff08;Vision-Language Model, VLM&#xff09;正成为企业智能化升级的关键技术。传统客服、…

usb_burning_tool刷机工具界面功能通俗解释

深入拆解usb_burning_tool刷机工具&#xff1a;从界面小白到实战高手 你有没有遇到过这样的场景&#xff1f;手里的电视盒子突然开不了机&#xff0c;ADB连不上&#xff0c;Recovery也进不去&#xff0c;只能干瞪眼看着它变“砖”&#xff1f;或者你在做固件升级时反复失败&…

PDF-Extract-Kit在金融报表分析中的应用场景全解析

PDF-Extract-Kit在金融报表分析中的应用场景全解析 1. 引言&#xff1a;金融报表处理的挑战与技术演进 在金融行业&#xff0c;年报、季报、财务附注等文档通常以PDF格式发布。这些文件包含大量结构化信息&#xff0c;如财务报表、指标数据、公式推导和文本说明。然而&#x…