5分钟部署Open-AutoGLM，手机AI助手一键上手

你有没有想过，让AI帮你操作手机？不是简单的语音唤醒，而是真正“看懂”屏幕、理解界面、自动点击滑动，像真人一样完成复杂任务。比如你说一句：“打开小红书搜美食”，它就能自己启动App、输入关键词、浏览结果——整个过程无需你动手。

这听起来像科幻，但今天已经可以实现。Open-AutoGLM就是这样一个开源项目，由智谱推出，基于视觉语言模型（VLM）打造的手机端AI Agent框架。它能通过ADB连接安卓设备，用多模态方式感知屏幕内容，并根据你的自然语言指令自动规划和执行操作流程。

更关键的是：5分钟内就能部署完成，小白也能轻松上手。本文将带你从零开始，一步步搭建属于你自己的手机AI助手，无需深度技术背景，只要跟着做，马上就能看到效果。

1. 什么是Open-AutoGLM？

Open-AutoGLM 是一个基于 AutoGLM 构建的手机智能助理框架，核心是Phone Agent模块。它的运作原理非常直观：

看：通过截图获取当前手机屏幕画面
懂：利用视觉语言模型理解界面上的文字、按钮、布局
想：结合用户指令，推理出下一步该做什么（点击哪里、输入什么）
做：通过 ADB 发送指令，模拟真实操作

整个过程就像一个“数字打工人”，替你在手机上完成重复性任务。

它能做什么？

你可以让它：

打开某个App并搜索指定内容
自动填写表单、发送消息
在多个应用间跳转执行组合任务
远程控制家里的备用机或测试设备

而且系统内置了安全机制，在涉及登录、支付、验证码等敏感场景时，会暂停并提示人工接管，避免误操作。

2. 准备工作：软硬件清单

在开始之前，先确认你具备以下条件：

2.1 硬件要求

一台运行 Windows 或 macOS 的电脑（本地开发机）
一部 Android 7.0 及以上版本的手机（真机或模拟器均可）

2.2 软件环境

Python 3.10 或更高版本
Git（用于克隆代码仓库）
ADB 工具（Android Debug Bridge）

为什么需要这些？
Python 是项目运行的基础环境
Git 用来下载 Open-AutoGLM 的源码
ADB 是连接和控制安卓设备的核心工具，相当于“桥梁”

3. 配置ADB：打通电脑与手机的通道

ADB 是整个系统的关键环节。没有它，AI 再聪明也“碰不到”手机。

3.1 安装ADB工具

Windows 用户

前往 Android SDK Platform Tools 下载压缩包
解压到任意目录，例如C:\platform-tools
添加环境变量：
- 按下Win + R，输入sysdm.cpl回车
- 点击“高级” → “环境变量”
- 在“系统变量”中找到Path，点击编辑 → 新建 → 输入你的 ADB 路径（如C:\platform-tools）
打开命令行，输入：
```
adb version
```
如果显示版本号，说明安装成功。

macOS 用户

打开终端，执行以下命令（假设你把 platform-tools 放在 Downloads 文件夹）：

export PATH=${PATH}:~/Downloads/platform-tools

同样用adb version验证是否生效。

小贴士：如果你经常使用 ADB，建议将这条export命令写入.zshrc或.bash_profile，避免每次都要手动添加。

3.2 手机端设置

为了让电脑能控制手机，你需要开启开发者权限：

进入手机“设置” → “关于手机” → 连续点击“版本号”7次，直到提示“您已进入开发者模式”
返回设置主界面 → “开发者选项” → 开启“USB调试”
安装ADB Keyboard输入法：
- 下载 ADB Keyboard APK
- 安装后，在“语言与输入法”中将其设为默认输入法

为什么要装 ADB Keyboard？
因为 AI 需要向输入框中打字，而普通虚拟键盘无法被程序控制。ADB Keyboard 允许我们通过命令直接发送文本，实现自动化输入。

4. 部署控制端：本地运行AI代理

现在轮到主角登场了。

4.1 克隆项目代码

打开终端或命令行工具，执行：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖

确保你使用的是 Python 3.10+ 环境，然后安装所需库：

pip install -r requirements.txt pip install -e .

-e .表示以可编辑模式安装，方便后续修改代码。

5. 连接设备：USB还是WiFi？

有两种方式连接手机，推荐新手先用 USB，稳定又简单。

5.1 USB连接方式

用数据线将手机连上电脑
手机会弹出“允许USB调试？”的提示，勾选“始终允许”并确认

在终端输入：

adb devices

正常情况下会输出类似：

List of devices attached 1234567890ABCDEF device

这个1234567890ABCDEF就是你设备的 ID，后面要用到。

5.2 WiFi远程连接（进阶）

如果你希望摆脱数据线，可以用 WiFi 连接。

注意：首次必须通过 USB 设置一次。

步骤如下：

# 第一步：通过USB启用TCP/IP模式 adb tcpip 5555 # 断开USB线 # 第二步：通过WiFi IP连接（需在同一局域网） adb connect 192.168.x.x:5555

其中192.168.x.x是你手机的局域网IP地址，可在“设置→WLAN→当前网络详情”中查看。

连接成功后，再运行adb devices，会看到设备状态为connected。

6. 启动AI代理：让手机“活”起来

一切准备就绪，现在可以召唤AI了！

6.1 前提：模型服务已启动

Open-AutoGLM 本身只是一个“客户端”，真正的“大脑”是部署在服务器上的大模型。你需要先在一个有GPU的机器上启动模型服务。

常用方案是使用 vLLM 搭建 OpenAI 兼容接口，命令如下：

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

启动成功后，服务地址通常是http://<服务器IP>:8000/v1。

6.2 本地调用AI执行任务

回到你的本地电脑，在 Open-AutoGLM 目录下运行：

python main.py \ --device-id 1234567890ABCDEF \ --base-url http://192.168.1.100:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明：

--device-id：来自adb devices的设备ID
--base-url：替换为你的模型服务器公网IP和端口
最后的字符串：你要下达的自然语言指令

执行后，你会看到AI开始行动：

截图获取当前屏幕
分析界面元素
决策下一步动作（如“点击搜索框”）
通过ADB发送操作指令

整个过程就像有人在替你操作手机。

6.3 使用Python API进行集成

如果你想把AI助手嵌入到自己的程序中，也可以使用 Python API：

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://192.168.1.100:8000/v1", model_name="autoglm-phone-9b", ) # 创建代理实例 agent = PhoneAgent(model_config=model_config) # 下达指令 result = agent.run("打开美团搜索附近的火锅店") print(result)

这种方式适合做批量任务、定时操作或与其他系统联动。