手机AI自动化实战：Open-AutoGLM轻松实现跨App操作

随着大模型技术的演进，AI Agent 正在从“对话助手”向“行动执行者”转变。Open-AutoGLM 作为智谱 AI 开源的手机端 AI 智能体框架，首次实现了基于自然语言指令对安卓设备进行全自动、跨应用的操作。用户只需一句话，如“打开小红书搜索美食并收藏”，系统即可自动解析意图、理解当前界面、规划操作路径，并通过 ADB 完成点击、滑动、输入等动作。

本文将围绕 Open-AutoGLM 的核心能力与工程实践，详细介绍其部署流程、控制机制和实际应用场景，帮助开发者快速构建属于自己的手机自动化智能体。

1. 技术背景与核心价值

1.1 传统自动化方案的局限

传统的手机自动化工具（如 Auto.js、Tasker）依赖于脚本编写或固定规则，存在以下问题：

开发门槛高：需要掌握 JavaScript 或特定 DSL。
泛化能力差：一旦 UI 变动，脚本即失效。
无法理解语义：难以处理“找最近的咖啡店”这类模糊指令。

而 Open-AutoGLM 基于视觉语言模型（VLM），结合多模态感知与任务规划能力，从根本上解决了上述痛点。

1.2 Open-AutoGLM 的技术突破

Open-AutoGLM 的核心技术架构包含三大模块：

视觉感知层：通过截图获取屏幕图像，利用 VLM 理解界面元素及其语义。
意图理解与任务规划层：将自然语言指令转化为可执行的动作序列。
执行控制层：通过 ADB 发送点击、滑动、输入等底层指令。

该框架支持： - 跨 App 流程自动化（如：从小红书跳转到美团下单） - 动态界面适配（不同品牌手机 UI 差异不影响识别） - 敏感操作人工确认机制 - 支持远程 WiFi 控制，便于调试与部署

这种“感知—决策—执行”的闭环设计，使得 AI 能像人类一样“看懂”手机屏幕并完成复杂任务。

2. 系统部署全流程

2.1 服务端环境准备

Open-AutoGLM 的推理模型运行在云端服务器上，推荐使用具备高性能 GPU 的算力平台（如 A40/A100 显卡），以确保 9B 参数量模型的稳定加载。

硬件建议配置：

GPU：NVIDIA A40 / A100（40G 显存）
内存：≥64GB
存储：≥100GB SSD（用于存放模型文件）

操作系统选择 Ubuntu 22.04 LTS，便于后续 Docker 部署。

2.2 安装 Docker 与容器运行时

首先安装最新版 Docker Engine：

sudo apt-get update sudo apt-get install ca-certificates curl gnupg sudo install -m 0755 -d /etc/apt/keyrings curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /etc/apt/keyrings/docker.asc echo \ "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \ $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \ sudo tee /etc/apt/sources.list.d/docker.list > /dev/null sudo apt-get update sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

为加速镜像拉取，建议配置国内镜像源：

{ "registry-mirrors": [ "https://docker.m.daocloud.io", "https://noohub.ru" ] }

保存至/etc/docker/daemon.json后重启服务：

sudo systemctl restart docker

2.3 配置 NVIDIA 容器支持

确保宿主机已安装 NVIDIA 驱动：

nvidia-smi

若输出显卡信息，则继续安装nvidia-container-toolkit：

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker

2.4 下载模型并启动 vLLM 推理服务

创建模型存储目录并使用 ModelScope 下载：

mkdir -p /opt/model pip install modelscope modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model'

拉取 vLLM 官方镜像并启动容器：

docker pull vllm/vllm-openai:v0.12.0 docker run -it \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0

进入容器后安装必要依赖并启动 API 服务：

pip install -U transformers --pre python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model /app/model \ --port 8000

服务启动后可通过测试脚本验证是否正常工作：

python scripts/check_deployment_cn.py --base-url http://<server_ip>:8800/v1 --model autoglm-phone-9b

预期输出应包含结构化的<think>和<answer>标签，表示模型能够正确解析任务逻辑。

3. 本地客户端连接与控制

3.1 硬件与环境准备

在本地电脑（Windows/macOS）完成以下准备：

Python 3.10+
Android 平台工具（Platform Tools）
Android 7.0+ 设备或模拟器

下载 Android Platform Tools 并配置环境变量。

Windows 配置示例：

解压后将路径添加至系统PATH
打开命令行执行adb version验证安装

macOS 配置方法：

export PATH=${PATH}:~/Downloads/platform-tools

3.2 手机端设置

开启开发者模式：
设置 → 关于手机 → 连续点击“版本号”7次
启用 USB 调试：
设置 → 开发者选项 → 开启“USB 调试”
安装 ADB Keyboard：
下载 ADBKeyboard.apk
安装后，在“语言与输入法”中设为默认输入法

此输入法允许通过 ADB 发送文本内容，解决部分应用禁止模拟输入的问题。

3.3 部署 Open-AutoGLM 控制端

克隆项目仓库并安装依赖：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

3.4 设备连接方式

USB 连接（推荐用于调试）

adb devices

输出应显示设备 ID 和device状态。

WiFi 远程连接（适合长期运行）

先通过 USB 启用 TCP/IP 模式：

adb tcpip 5555

断开 USB，使用 IP 地址连接：

adb connect 192.168.x.x:5555

可通过adb shell ifconfig wlan0获取设备 IP。

4. 启动 AI 代理并执行任务

4.1 命令行方式运行任务

在项目根目录下执行：

python main.py \ --device-id <your_device_id_or_ip:5555> \ --base-url http://<cloud_server_ip>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为：dycwo11nt61d 的博主并关注他！"

参数说明： ---device-id：来自adb devices的设备标识 ---base-url：云服务器公网 IP + 映射端口（如http://1.2.3.4:8800/v1） - 最终字符串：用户的自然语言指令

AI 将自动完成以下步骤： 1. 启动抖音 App 2. 定位搜索框并点击 3. 输入指定抖音号 4. 查找目标用户卡片 5. 点击“关注”按钮

4.2 使用 Python API 实现远程控制

对于集成到其他系统中的场景，可使用 SDK 方式调用：

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出所有连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备 IP（WiFi 模式下） ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

该接口可用于构建 Web 控制台、定时任务调度器等高级功能。

5. 实际应用场景与优化建议

5.1 典型应用案例

场景	自然语言指令
跨平台比价下单	“比较京东和淘宝上 LUMMI MOOD 洗发水的价格，选便宜的买一瓶”
社交媒体运营	“打开微博发布一条带图动态：今天天气真好！”
日常生活辅助	“查一下明天早上 8 点有没有空会议室，并预约一个小时”

这些任务涉及多个 App 切换、条件判断和动态响应，传统脚本难以胜任，而 Open-AutoGLM 可轻松应对。