一键部署PhoneAgent,Open-AutoGLM让手机自动化落地

一键部署PhoneAgent,Open-AutoGLM让手机自动化落地

1. 技术背景与核心价值

随着移动设备在日常生活和工作中的深度渗透,用户对高效、智能的手机操作方式提出了更高要求。传统手动操作模式在面对重复性任务(如比价购物、信息收集)或复杂流程(如跨应用数据流转)时效率低下。在此背景下,AI驱动的手机自动化代理(Phone Agent)应运而生

Open-AutoGLM 是由智谱AI开源的一套面向移动端的AI智能体框架,其核心目标是“为每个人解锁AI手机”。该系统基于视觉语言模型(VLM),结合Android Debug Bridge(ADB)技术,实现了从自然语言指令到手机操作执行的端到端自动化。用户只需输入类似“打开小红书搜索美食”的语句,系统即可自动解析意图、理解当前屏幕内容、规划操作路径并完成点击、滑动、输入等动作。

这一技术突破了传统自动化脚本的局限性——无需预先编写固定逻辑,具备动态感知与决策能力,尤其适用于界面频繁更新的应用场景。同时,系统内置敏感操作确认机制和人工接管支持,在提升便利性的同时保障了安全性。


2. 系统架构与工作原理

2.1 整体架构设计

Open-AutoGLM 的整体架构可分为三个核心模块:控制端(Client)、设备端(Device)与模型服务端(Model Server),三者通过标准协议进行通信,形成闭环控制流。

  • 控制端:运行于本地PC或开发机,负责接收用户指令、调用模型服务、生成操作计划,并通过ADB向设备发送具体命令。
  • 设备端:安卓手机或模拟器,需开启开发者权限,接受ADB控制,执行实际的UI交互动作。
  • 模型服务端:承载视觉语言模型(如AutoGLM-Phone-9B),提供多模态理解与任务规划能力,可通过云服务或本地部署接入。

数据流向如下:

用户指令 → 控制端 → 模型服务端(意图理解 + 屏幕分析 + 动作规划) ↑ ↓ 设备状态 ← ADB ← 设备端(截图 + UI树获取)

2.2 多模态感知与决策机制

系统的关键创新在于其以视觉为中心的多模态理解能力。每次执行前,控制端会通过ADB抓取设备当前屏幕图像及UI层次结构(Accessibility Tree),并将二者作为上下文输入给视觉语言模型。

模型基于以下信息进行推理: - 当前屏幕截图(图像模态) - UI元素标签与布局结构(文本/结构模态) - 用户历史指令与上下文记忆(语言模态)

例如,当用户发出“在抖音关注某博主”指令时,模型首先识别当前是否已进入抖音App;若未启动,则规划“拉起应用”步骤;随后根据屏幕中可点击按钮的文字或图标判断下一步操作(如搜索框、关注按钮),最终生成一系列原子化动作指令序列。

2.3 安全与可控性设计

为防止误操作导致隐私泄露或财产损失,系统引入双重安全机制:

  1. 敏感操作拦截:对涉及支付、账号登录、权限申请等高风险行为,系统默认暂停执行并提示用户确认。
  2. 人工接管接口:在验证码输入、滑块验证等AI难以处理的场景下,允许用户临时介入完成关键步骤后继续交还控制权。

此外,系统支持Verbose模式输出详细日志,包括每一步的思考过程、置信度评分和候选动作列表,极大提升了调试透明度。


3. 快速部署实践指南

3.1 环境准备

硬件与软件要求
  • 操作系统:Windows 10+ 或 macOS 12+
  • Python版本:建议使用 Python 3.10 或更高版本
  • 安卓设备:Android 7.0 及以上版本的真实手机或模拟器
  • 网络环境:确保电脑与手机处于同一局域网(用于WiFi连接)
ADB工具安装与配置

ADB(Android Debug Bridge)是实现设备控制的核心组件。

Windows配置步骤: 1. 下载 Android SDK Platform Tools 并解压。 2. 将解压目录添加至系统PATH环境变量: -Win + R输入sysdm.cpl- 进入“高级”→“环境变量” - 在“系统变量”中找到Path,点击“编辑”,新增ADB所在路径 3. 验证安装:

adb version

预期输出包含版本号信息。

macOS配置方法

# 假设platform-tools解压至Downloads目录 export PATH=${PATH}:~/Downloads/platform-tools # 可将此行加入 ~/.zshrc 或 ~/.bash_profile 实现永久生效

3.2 手机端设置

  1. 开启开发者选项
  2. 进入“设置” → “关于手机” → 连续点击“版本号”7次,直至提示“您已开启开发者模式”。

  3. 启用USB调试

  4. 返回“设置”主菜单 → “开发者选项” → 开启“USB调试”。

  5. 安装ADB Keyboard(推荐)

  6. 下载 ADB Keyboard APK 并安装。
  7. 进入“设置” → “语言与输入法” → “虚拟键盘” → 选择“ADB Keyboard”为默认输入法。
  8. 此插件允许通过ADB发送中文字符,解决部分自动化输入乱码问题。

3.3 部署控制端代码

在本地机器上克隆并安装Open-AutoGLM控制端:

# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

注意requirements.txt中包含两类依赖——运行时依赖与模型部署依赖。若仅作为客户端使用,无需安装vLLM/SGLang等推理引擎。


4. 设备连接与AI代理启动

4.1 设备连接方式

USB连接(推荐初学者使用)
  1. 使用数据线将手机连接电脑。
  2. 手机弹出“允许USB调试?”对话框时,点击“确定”。
  3. 执行命令检查连接状态:
adb devices

输出示例:

List of devices attached ABCDEF12 device

表示设备已成功识别。

WiFi无线连接(适合远程调试)
  1. 先通过USB连接设备,执行:
adb tcpip 5555
  1. 断开USB线,获取手机IP地址(可在“设置-关于手机-状态信息”中查看)。
  2. 使用TCP/IP连接:
adb connect 192.168.x.x:5555
  1. 再次运行adb devices确认连接成功。

4.2 启动AI代理服务

方式一:命令行直接运行
python main.py \ --device-id ABCDEF12 \ --base-url http://your-server-ip:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明: ---device-id:通过adb devices获取的设备标识符 ---base-url:模型服务的OpenAI兼容API地址(本地为http://localhost:8000/v1) ---model:指定使用的模型名称 - 最后字符串为用户自然语言指令

方式二:Python API集成调用

适用于嵌入现有系统或批量任务调度:

from phone_agent.adb import ADBConnection, list_devices from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 初始化ADB连接管理器 conn = ADBConnection() success, msg = conn.connect("192.168.1.100:5555") print(f"连接状态: {msg}") # 列出所有连接设备 devices = list_devices() for dev in devices: print(f"{dev.device_id} - {dev.connection_type.value}") # 配置模型连接 model_config = ModelConfig( base_url="http://your-server-ip:8000/v1", model_name="autoglm-phone-9b" ) # 创建PhoneAgent实例 agent = PhoneAgent(model_config=model_config) # 执行任务 result = agent.run("打开美团搜索附近的火锅店") print(result) # 断开连接 conn.disconnect("192.168.1.100:5555")

5. 模型服务部署方案对比

维度第三方模型服务(推荐)自建模型服务
易用性⭐⭐⭐⭐⭐
无需GPU资源,即开即用
⭐⭐☆
需高性能GPU服务器
成本按调用量计费(如BigModel API)一次性投入高(显存≥24GB)
延迟中等(公网传输)低(局域网内)
数据隐私依赖服务商合规性完全自主可控
支持语言中英文双语模型可用可自定义微调

推荐第三方接入方式

# 使用智谱BigModel服务 python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your-bigmodel-api-key" \ "打开微信给文件传输助手发消息" # 使用魔搭ModelScope服务 python main.py \ --base-url https://api-inference.modelscope.cn/v1 \ --model "ZhipuAI/AutoGLM-Phone-9B" \ --apikey "your-modelscope-api-key" \ "打开淘宝搜索无线耳机"

自建模型服务(vLLM部署示例)

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

部署完成后,可通过以下脚本验证服务可用性:

python scripts/check_deployment_cn.py \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b

6. 应用场景与实践案例

6.1 日常生活自动化

  • 指令:“打开美团搜附近的火锅店,按评分排序”
  • 执行流程
  • 启动美团App
  • 定位搜索框并输入“火锅”
  • 触发搜索并等待结果加载
  • 点击“评分最高”筛选项
  • 输出前五家店铺名称与评分

6.2 跨平台购物比价

  • 指令:“比较这款洗发水在京东和淘宝的价格”
  • 实现要点
  • 分步执行:先在京东搜索 → 记录价格 → 回桌面 → 打开淘宝 → 搜索同款 → 比较 → 输出结论
  • 利用上下文记忆保持商品一致性

6.3 社交媒体运营辅助

  • 指令:“打开小红书发布一条动态:今天天气真好!”
  • 挑战应对
  • 识别“+”号按钮或“发布”入口
  • 输入中文内容(依赖ADB Keyboard)
  • 处理图片上传弹窗(可设置自动跳过)

6.4 浏览器与视频娱乐控制

  • 英文指令:“Open Chrome and search for AI news”
  • 多语言支持:通过--lang en参数切换提示词语言,适配国际应用

7. 常见问题与优化建议

7.1 典型问题排查

问题现象可能原因解决方案
ADB无法识别设备驱动未安装或USB模式错误更换数据线,尝试“文件传输”模式
模型响应慢或超时网络延迟或显存不足检查带宽,调整--max-model-len参数
文字输入乱码默认输入法不支持ADB安装并启用ADB Keyboard
操作失败但无报错UI变化导致元素定位失效启用Verbose模式查看决策依据

7.2 性能优化建议

  1. 降低图像分辨率:在不影响识别精度前提下,裁剪或缩放截图以减少传输耗时。
  2. 缓存机制:对静态页面(如首页)建立UI模板库,减少重复推理。
  3. 异步处理:对于长链任务,采用状态机模式分段执行,避免单次请求超时。
  4. 模型微调:针对特定企业应用(如内部OA系统),可基于AutoGLM进行领域适配训练。

8. 总结

Open-AutoGLM 作为首个开源的手机端AI Agent框架,标志着通用型终端智能体技术迈入实用化阶段。它不仅展示了视觉语言模型在真实设备控制上的强大潜力,更为开发者提供了可扩展、可定制的自动化解决方案。

本文系统介绍了其架构原理、部署流程、连接方式、API调用及典型应用场景,并对比了不同模型服务部署方案的优劣。无论是个人用户希望解放双手完成日常任务,还是企业级客户寻求RPA移动端延伸,Open-AutoGLM 都提供了一个极具前景的技术起点。

未来,随着多模态模型轻量化、边缘计算能力增强以及安卓系统原生AI接口开放,此类Phone Agent有望进一步融入操作系统底层,成为下一代智能交互范式的核心组成部分。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1165648.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab simulink电机foc观测器模型,采用龙贝格观测器+PLL进行无传感器控制

matlab simulink电机foc观测器模型,采用龙贝格观测器PLL进行无传感器控制,其利用 PMSM 数学模型构造观测器模型,根据输出的偏差反馈信号来修正状态变量。 当观测的电流实现与实际电流跟随时,利用估算的反电势进行pll计算转子位置…

BGE-M3实战:技术文档智能搜索

BGE-M3实战:技术文档智能搜索 1. 引言 在企业级知识管理场景中,技术文档的高效检索是提升研发效率的关键环节。传统的关键词匹配方法难以应对语义多样性和上下文复杂性,而单一的嵌入模型又往往无法兼顾不同检索需求。BGE-M3 作为由 FlagAI …

三菱Fx3U三轴定位控制程序:包含脉冲同步运行、多种运行模式、梯形图与St语言混合编程及动态码...

三菱Fx3U三轴定位控制程序,其中两轴为脉冲输出同步运行360度转盘,3轴为工作台丝杆。 1.本程序结构清晰,有公共程序,原点回归,手动点动运行,手动微动运行。 报警程序,参数初始化程序等。 2.自动程…

Vetur项目工程化搭建:从依赖安装到运行

从零搭建一个现代化 Vue 开发环境:Vetur 工程化实战指南 你有没有遇到过这样的场景?刚接手一个 Vue 项目,打开 .vue 文件时模板没有补全、 /components 路径标红、改完代码热更新卡顿三秒……明明装了 Vetur 插件,为什么“智能…

探索考虑需求响应的调频模型在Simulink中的实现

调频模型simulink 考虑需求响应的调频模型,将需求响应参与调频的过程分为两阶段,第一阶段主要用来快速求解频率最低点,第二阶段用来求解频率稳定值,有具体的对应参考资料 在电力系统领域,频率稳定至关重要,…

蹲在自家菜园子里盯着蔫了吧唧的黄瓜苗,我突然意识到传统农业该升级了。摸出兜里的STM32F103C8T6开发板,咱们今天来折腾个能自动伺候植物的智慧大棚

基于物联网技术的智慧农业温棚系统,由STM32F103c8t6,温湿度传感器,烟雾传感器,光照传感器,蜂鸣器模块,电机模块组成。 搭配阿里云平台,4G上阿里云,手机App。 电子资料(代…

PaddlePaddle-v3.3迁移指南:从其他框架平滑过渡的操作步骤

PaddlePaddle-v3.3迁移指南:从其他框架平滑过渡的操作步骤 1. 引言 1.1 技术背景与迁移需求 随着深度学习技术的快速发展,越来越多的企业和开发者面临从传统框架(如 TensorFlow、PyTorch)向更高效、易用且国产化支持更强的框架…

Live Avatar提示词工程:高质量prompt编写模板分享

Live Avatar提示词工程:高质量prompt编写模板分享 1. 技术背景与应用价值 近年来,数字人技术在虚拟主播、在线教育、智能客服等领域展现出巨大潜力。阿里联合高校推出的Live Avatar项目,作为开源的高质量数字人生成模型,为开发者…

时间序列预测模型大盘点:从经典到进阶

[matlab]10种经典的时间序列预测模型 本文演示了 10 种不同的经典时间序列预测方法,它们是 1) 自回归 (AR) 2) 移动平均线 3) 自回归移动平均线 4) 自回归积分移动平均线 (ARIMA) 5) 季节性自回归积分移动平均线 (SARIMA) 6) 具有外生回归量的季节性自回归综合移动平…

STM32步进电机S型加减速程序源码与分析

stm32步进电机S型加减速程序源码与详细分析,步进电机在许多自动化设备中都有着广泛应用,而实现其平稳的启动、运行和停止至关重要,S型加减速控制算法就能很好地满足这一需求。今天咱就来唠唠基于STM32的步进电机S型加减速程序。 1. 原理简述 …

STM32步进电机S型加减速算法源码及详细分析(适用于stm32f103)

stm32步进电机加减速代码 stm32f103 stm32步进电机S型加减速程序源码与详细分析,资料为算法实现以及算法的相关讲解,例程中有stm32f103步进电机S型加减速的完整工程代码,对步进电机s型加减速控制很有帮助。搞电机控制的朋友应该都懂&#xf…

Qwen2.5-0.5B-Instruct快速上手:三步完成本地部署

Qwen2.5-0.5B-Instruct快速上手:三步完成本地部署 1. 引言 随着大模型技术的普及,越来越多开发者希望在本地或边缘设备上部署轻量级AI对话系统。Qwen/Qwen2.5-0.5B-Instruct 作为通义千问系列中最小、最快的指令微调模型,为这一需求提供了理…

Wan2.2从零开始:手把手教你在云端生成第一条AI视频

Wan2.2从零开始:手把手教你在云端生成第一条AI视频 你是不是也曾经看着别人用AI生成的旅行短片,心里羡慕得不行?那些画面流畅、配乐动听、仿佛专业团队制作的视频,其实背后并不神秘。今天我要带你用最简单的方式,在完…

MinerU图表理解教程:从图片到结构化数据的转换步骤

MinerU图表理解教程:从图片到结构化数据的转换步骤 1. 引言 在现代办公与科研场景中,大量的信息以非结构化的形式存在于PDF文档、PPT幻灯片、扫描件和学术论文中。如何高效地从中提取出可编辑、可分析的结构化数据,成为提升工作效率的关键挑…

MCN机构内容生产提速秘诀:Z-Image-Turbo自动化流

MCN机构内容生产提速秘诀:Z-Image-Turbo自动化流 1. 背景与挑战:MCN内容生产的效率瓶颈 在当前短视频和社交媒体主导的传播环境下,MCN机构面临前所未有的内容产出压力。一个中等规模的MCN团队每天需要为多个账号生成数十条图文或视频素材&a…

零基础搭建OpenAI开源模型,gpt-oss-20b镜像保姆级教程

零基础搭建OpenAI开源模型,gpt-oss-20b镜像保姆级教程 1. 引言:为什么选择 gpt-oss-20b? 随着大模型技术的快速发展,本地部署高性能语言模型已成为开发者和研究者的重要需求。OpenAI 近期发布的 gpt-oss-20b 是其自 GPT-2 以来首…

IQuest-Coder-V1医疗系统实战:病历处理模块生成部署

IQuest-Coder-V1医疗系统实战:病历处理模块生成部署 1. 引言:AI驱动医疗系统的代码自动化需求 随着医疗信息化进程的加速,电子病历(EMR)系统的开发与维护面临日益复杂的工程挑战。传统开发模式中,病历结构…

Wan2.2视频生成极速体验:云端GPU 5分钟出片,新用户1元特惠

Wan2.2视频生成极速体验:云端GPU 5分钟出片,新用户1元特惠 你有没有遇到过这样的情况:明天就是家长会,老师突然通知要提交一段孩子成长的视频,可你连剪辑软件都没打开过?别慌,今天我要分享一个…

基于非对称纳什谈判的多微网电能共享运行优化策略(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞&#x1…

Z-Image-Turbo + ComfyUI:高分辨率绘图工作流

Z-Image-Turbo ComfyUI:高分辨率绘图工作流 在AI图像生成技术快速演进的当下,用户对“高质量”与“高效率”的双重需求日益凸显。尤其是在中文内容创作、电商设计、数字营销等场景中,亟需一种既能生成照片级真实感图像,又能兼顾…