新手必学:Open-AutoGLM五步快速上手法

新手必学:Open-AutoGLM五步快速上手法

1. 引言:让手机拥有“贾维斯”般的智能助手

随着多模态大模型的发展,AI 正从“对话工具”向“自主执行者”演进。Open-AutoGLM是由智谱AI开源的手机端 AI Agent 框架,基于 AutoGLM-Phone 构建,能够通过自然语言指令驱动真实安卓设备完成复杂操作。

你只需说一句:“打开小红书搜索美食”,系统就能自动解析意图、理解当前屏幕内容、规划点击路径,并通过 ADB 实际操控手机完成任务。整个过程无需手动干预,真正实现“动口不动手”。

本教程面向零基础用户,以清晰、可落地的方式拆解 Open-AutoGLM 的部署与使用流程,涵盖环境配置、模型启动、设备连接和实战运行五大核心步骤,帮助你快速打造属于自己的 AI 手机助理。


2. 第一步:准备开发环境与硬件

2.1 硬件要求

要顺利运行 Open-AutoGLM,需具备以下基本硬件:

  • 本地电脑:Windows 或 macOS 系统,建议内存 ≥16GB(若使用本地模型)
  • 安卓手机或模拟器:Android 7.0 及以上版本
  • USB 数据线:支持数据传输(非仅充电线)
  • 网络环境:稳定 WiFi,用于远程调试或云服务通信

提示:虽然可在 CPU 上运行,但推荐配备 NVIDIA 显卡(显存 ≥12GB)以获得流畅体验。

2.2 软件依赖安装

安装 Python 3.10+

确保已安装 Python 3.10 或更高版本:

python --version

如未安装,请前往 python.org 下载并勾选 “Add to PATH”。

配置 ADB 工具

ADB(Android Debug Bridge)是控制安卓设备的核心工具。

  1. 下载 platform-tools
  2. 解压后添加到系统环境变量PATH
    • Windows:此电脑 → 属性 → 高级系统设置 → 环境变量 → Path → 新建
    • macOS:在终端执行:
      export PATH=$PATH:~/Downloads/platform-tools
  3. 验证安装:
    adb version

输出类似Android Debug Bridge version X.X.X表示成功。


3. 第二步:配置手机端权限与输入法

3.1 开启开发者选项与 USB 调试

  1. 进入手机“设置” → “关于手机”
  2. 连续点击“版本号”7次,直到提示“您已进入开发者模式”
  3. 返回设置主界面 → “开发者选项” → 启用“USB 调试”

连接手机至电脑时,会弹出授权提示,请务必点击“允许”。

3.2 安装 ADB Keyboard 输入法

由于 AI 需要输入中文文本,必须安装专用输入法ADB Keyboard

  1. 下载 ADBKeyboard.apk(GitHub 开源项目)
  2. 使用命令行安装:
    adb install ADBKeyboard.apk
  3. 在手机中启用该输入法:
    • 设置 → 语言与输入法 → 虚拟键盘 → 管理键盘 → 启用 ADB Keyboard
  4. 将其设为默认输入法

注意:若无法切换输入法,尝试重启手机后再设置。


4. 第三步:部署控制端代码与依赖

4.1 克隆 Open-AutoGLM 项目

在本地电脑执行以下命令获取控制端代码:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装 Python 依赖

项目依赖较多,包括 ADB 控制库、vLLM 推理框架等。

pip install -r requirements.txt pip install -e .

建议使用虚拟环境(如 conda 或 venv),避免依赖冲突。


5. 第四步:连接设备并验证通信

5.1 USB 连接方式(推荐初学者)

  1. 使用 USB 线连接手机与电脑
  2. 手机端确认“允许 USB 调试”
  3. 在终端运行:
    adb devices
    输出应包含设备 ID 和device状态,例如:
    List of devices attached 1234567890abc device

5.2 WiFi 远程连接(进阶用法)

适用于无线调试场景:

# 先通过 USB 启动 TCP/IP 模式 adb tcpip 5555 # 断开 USB,使用 IP 连接 adb connect 192.168.x.x:5555

可通过adb shell ifconfig wlan0获取手机 IP 地址。


6. 第五步:启动模型服务并运行 AI 助理

6.1 下载并启动 AutoGLM-Phone-9B 模型

AutoGLM 使用一个约 18GB 的多模态视觉语言模型来理解屏幕截图和用户指令。

方法一:Hugging Face 下载(国际用户)
git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B
方法二:ModelScope 镜像(国内用户推荐)
git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
启动 vLLM 模型服务

创建脚本start_model.sh(Linux/macOS)或.bat文件(Windows):

python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --port 8000 \ --served-model-name autoglm-phone-9b \ --max-model-len 25480 \ --allowed-local-media-path / \ --limit-mm-per-prompt '{"image":10}'

运行后看到Uvicorn running on http://0.0.0.0:8000即表示服务启动成功。


6.2 执行第一条自然语言指令

Open-AutoGLM根目录下运行:

python main.py \ --device-id 1234567890abc \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

参数说明:

  • --device-id:来自adb devices的设备标识
  • --base-url:模型服务地址(本地为http://localhost:8000/v1
  • 最后字符串为你的自然语言指令

如果一切正常,你会看到如下输出:

💭 思考过程: 当前位于桌面,需要找到“设置”应用图标 🎯 执行动作: {"action": "Launch", "app": "设置"}

同时手机将自动打开“设置”应用。


7. 实战案例:让 AI 帮你点外卖、刷抖音

7.1 点餐任务:美团搜索附近川菜馆

python main.py \ --device-id <your-device-id> \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开美团,搜索附近评分最高的川菜馆"

AI 将依次执行:

  1. 打开美团 App
  2. 截图分析首页布局
  3. 点击“美食”分类
  4. 搜索“川菜”
  5. 按评分排序并展示结果

7.2 社交任务:关注指定抖音账号

python main.py \ --device-id <your-device-id> \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号 dycwo11nt61d 的博主并关注他"

系统将自动完成搜索框定位、文字输入、列表查找、点击关注等全流程操作。


8. 安全机制与人工接管设计

8.1 敏感操作确认机制

为防止误操作造成损失,Open-AutoGLM 内置了敏感行为拦截机制。当检测到以下操作时,会暂停执行并请求人工确认:

  • 支付行为(如微信付款、支付宝下单)
  • 删除数据(卸载应用、删除聊天记录)
  • 输入密码或验证码
  • 修改系统设置(恢复出厂设置、关闭安全锁)

你可以自定义确认回调函数,在 Python API 中实现交互式决策:

def confirm_action(message): print(f"\n⚠️ 危险操作提醒: {message}") return input("继续执行?(y/n): ").lower() == 'y' agent = PhoneAgent( model_config=model_config, confirmation_callback=confirm_action )

9. 常见问题排查指南

问题现象可能原因解决方案
adb devices无设备显示USB调试未开启或驱动异常重新开启开发者选项,更换数据线
模型启动失败显存不足或 CUDA 未安装尝试降低max-model-len,或使用 CPU 模式
中文无法输入ADB Keyboard 未启用检查是否设为默认输入法
AI 识别错误屏幕分辨率过高或 UI 复杂缩放界面或简化操作路径
连接频繁断开WiFi 不稳定改用 USB 连接

特别提醒:首次运行建议从简单任务开始(如“打开微信”),逐步熟悉 AI 的行为逻辑。


10. 总结

通过本文介绍的五个关键步骤——环境准备、手机配置、代码部署、设备连接、模型调用——你已经掌握了 Open-AutoGLM 的完整入门流程。

这个开源框架不仅展示了多模态 AI 在真实设备上的强大能力,也为自动化测试、无障碍辅助、数字员工等领域提供了极具潜力的技术原型。

未来,随着模型精度提升和生态扩展,我们有望看到更多基于 AutoGLM 的个性化应用场景涌现。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1180134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 返回值注解全解析:从语法到实战,让代码更具可读性

目录&#x1f4cc; 引言&#xff1a;为什么我们需要返回值注解&#xff1f;&#x1f9f1; 一、返回值注解的基础语法1.1 核心语法格式1.2 基础示例&#xff1a;内置类型注解1.3 关键特性&#xff1a;注解不影响运行时&#x1f9e9; 二、进阶用法&#xff1a;复杂类型的返回值注…

BAAI/bge-m3快速验证:30分钟搭建RAG召回评估系统

BAAI/bge-m3快速验证&#xff1a;30分钟搭建RAG召回评估系统 1. 引言 1.1 业务场景描述 在构建检索增强生成&#xff08;RAG&#xff09;系统时&#xff0c;一个核心挑战是如何准确评估检索模块的召回质量。传统基于关键词匹配的方法难以捕捉语义层面的相关性&#xff0c;导…

为什么SenseVoiceSmall部署总失败?GPU适配问题解决指南

为什么SenseVoiceSmall部署总失败&#xff1f;GPU适配问题解决指南 1. 引言&#xff1a;多语言语音理解的工程挑战 随着语音AI技术的发展&#xff0c;传统“语音转文字”已无法满足复杂场景下的语义理解需求。阿里巴巴达摩院推出的 SenseVoiceSmall 模型&#xff0c;作为一款…

SGLang推理延迟优化:批处理配置实战案例

SGLang推理延迟优化&#xff1a;批处理配置实战案例 1. 引言 1.1 业务场景描述 在大模型应用落地过程中&#xff0c;推理服务的延迟与吞吐量是决定用户体验和系统成本的核心指标。尤其是在多轮对话、结构化输出、任务编排等复杂场景下&#xff0c;传统LLM推理框架往往面临高…

Glyph+VLM=超强长文本理解能力

GlyphVLM超强长文本理解能力 1. 技术背景与核心价值 随着大语言模型&#xff08;LLM&#xff09;在各类自然语言任务中展现出强大能力&#xff0c;长上下文理解已成为衡量模型智能水平的关键指标。然而&#xff0c;传统基于token的上下文窗口扩展方式面临计算复杂度高、显存占…

工业机器人通信中断:USB转串口驱动排查指南

工业机器人通信中断&#xff1f;一文搞懂USB转串口驱动失效的根源与实战修复 一个让产线停摆的“小问题”&#xff1a;插上设备却找不到COM口 深夜&#xff0c;自动化车间报警灯闪烁——SCARA机器人突然停止点胶动作&#xff0c;HMI界面显示“通信超时”。现场工程师迅速赶到…

20250118 之所思 - 人生如梦

20250118 之所思今天做的好的事情:1. 英语的学习今天终于回归正轨了,从上一部书抄写完到今天已经三周了,今天终于重新开始了一周一章的节奏。 -- 一定要坚持,否则前功尽弃,学习与收获的复利曲线一定要清晰,坚持到…

GLM-TTS方言保护:濒危方言数字化存档实践

GLM-TTS方言保护&#xff1a;濒危方言数字化存档实践 1. 引言&#xff1a;AI技术助力方言保护的现实意义 1.1 方言面临的生存危机 在全球化和城市化进程加速的背景下&#xff0c;大量地方语言正面临前所未有的消亡风险。据联合国教科文组织统计&#xff0c;全球约有40%的语言…

Hunyuan-MT-7B-WEBUI电商平台:跨境买家咨询自动回复机器人

Hunyuan-MT-7B-WEBUI电商平台&#xff1a;跨境买家咨询自动回复机器人 1. 背景与应用场景 随着跨境电商的快速发展&#xff0c;平台每天需要处理来自全球不同语言背景买家的大量咨询。传统的人工客服模式在响应速度、人力成本和多语言支持方面面临巨大挑战。尤其在面对小语种…

YOLO-v5入门必看:Jupyter环境下目标检测代码实例详解

YOLO-v5入门必看&#xff1a;Jupyter环境下目标检测代码实例详解 1. 技术背景与学习目标 YOLO&#xff08;You Only Look Once&#xff09;是一种流行的物体检测和图像分割模型&#xff0c;由华盛顿大学的Joseph Redmon 和Ali Farhadi 开发。 YOLO 于2015 年推出&#xff0c;…

Glyph部署实战:Kubernetes集群部署的YAML配置示例

Glyph部署实战&#xff1a;Kubernetes集群部署的YAML配置示例 1. 引言 1.1 Glyph-视觉推理 在大模型处理长文本上下文的场景中&#xff0c;传统基于Token的上下文扩展方法面临计算开销大、显存占用高、推理延迟显著等问题。为突破这一瓶颈&#xff0c;智谱AI提出了Glyph——…

YOLOv8部署总报错?独立引擎零依赖解决方案实战指南

YOLOv8部署总报错&#xff1f;独立引擎零依赖解决方案实战指南 1. 引言&#xff1a;为何YOLOv8部署常遇问题&#xff1f; 在工业级目标检测应用中&#xff0c;YOLOv8 凭借其卓越的推理速度与高精度表现&#xff0c;已成为众多开发者的首选模型。然而&#xff0c;在实际部署过程…

Grade 7 Math (Poker)

上面那题目说真的&#xff0c;我都不想说了&#xff0c;乱七八糟的初中数学扑克问题&#xff0c;分析题基于以上的测算&#xff0c;只能得到初步的结算&#xff0c;7张牌从1到7的结果&#xff1a;有a张扑克&#xff0c;翻动b张&#xff0c;b < a&#xff1b;1&#xff09;什…

Python 高阶函数必学:map () 函数原理、实战与避坑指南

目录[TOC](目录)引言一、map()函数的官方定义与核心作用二、map()函数的完整语法&#xff08;两种核心格式&#xff09;✅ 语法格式1&#xff1a;处理单个可迭代对象【最常用】✅ 语法格式2&#xff1a;处理多个可迭代对象【进阶用法】三、基础实战案例&#xff1a;一个例子看懂…

通义千问2.5显存优化:FlashAttention-2集成部署案例

通义千问2.5显存优化&#xff1a;FlashAttention-2集成部署案例 1. 引言 1.1 业务场景描述 随着大语言模型在企业级应用中的广泛落地&#xff0c;如何在有限硬件资源下高效部署高性能模型成为关键挑战。通义千问 2.5-7B-Instruct 作为一款定位“中等体量、全能型、可商用”的…

UTF-8 BOM \ufeff U+FEFF

AI 复制文件或者操作文件经常出来的问题&#xff0c;导致项目代码乱码&#xff01;&#xff01;&#xff01;错误信息中的 非法字符: \ufeff 表明&#xff0c;你的 Java 源文件开头包含了一个 UFEFF&#xff08;零宽空格&#xff09;字符&#xff0c;这是 UTF-8 BOM 编码的标志…

Qwen3-Embedding-0.6B调用报错?Python接口避坑指南一文详解

Qwen3-Embedding-0.6B调用报错&#xff1f;Python接口避坑指南一文详解 1. 背景与问题定位 在当前大模型应用快速落地的背景下&#xff0c;文本嵌入&#xff08;Text Embedding&#xff09;作为信息检索、语义匹配和向量化搜索的核心技术&#xff0c;正被广泛应用于推荐系统、…

知识图谱(七)之数据处理

一数据标注回顾1.1整体思路现在我们有txt和txtroiginal.txt里面是标注数据,txtoriginal里面是原始数据,数据如下:txt:txtoriginal:根据标注数据和标签类型构建字典这是标签类型:遍历原始数据,通过索引和标签的字典,给想引得位置打上标签.通过索引查字典,如果能查到则将对应的va…

Z-Image-Turbo实战分享:构建多语言AI绘画平台的经验

Z-Image-Turbo实战分享&#xff1a;构建多语言AI绘画平台的经验 1. 背景与选型动因 随着AIGC技术的快速发展&#xff0c;文生图模型在创意设计、内容生成和跨语言表达等场景中展现出巨大潜力。然而&#xff0c;许多开源模型在生成速度、显存占用和多语言支持方面存在明显短板…

5分钟部署Glyph视觉推理,让大模型‘看懂’百万token文本

5分钟部署Glyph视觉推理&#xff0c;让大模型‘看懂’百万token文本 1. 上下文瓶颈&#xff1a;大模型的隐形天花板 在大语言模型&#xff08;LLM&#xff09;快速演进的今天&#xff0c;上下文长度&#xff08;Context Length&#xff09;已成为衡量模型能力的关键指标之一。…