AutoGLM-Phone如何评估执行成功率?指标监控部署指南

AutoGLM-Phone如何评估执行成功率?指标监控部署指南

Open-AutoGLM 是智谱开源的一款面向手机端的 AI Agent 框架,旨在通过多模态理解与自动化操作能力,让大模型真正“动手”完成用户指令。其核心项目 AutoGLM-Phone 和基于它构建的 Phone Agent,正在重新定义人机交互方式——你只需说一句话,AI 就能替你在手机上完成一系列复杂操作。

1. AutoGLM-Phone:让AI真正“会用手机”

AutoGLM-Phone 是一个基于视觉语言模型(VLM)的 AI 手机智能助理框架。它不仅能“看懂”屏幕上的内容,还能通过 ADB(Android Debug Bridge)自动操控设备。用户只需要输入一句自然语言指令,比如“打开小红书搜索美食”,系统就能自动解析意图、识别当前界面元素、规划操作路径,并一步步执行点击、滑动、输入等动作,全程无需人工干预。

这一能力的背后,是多模态感知 + 推理决策 + 自动化控制的深度融合。视觉语言模型负责理解屏幕截图中的文字、图标和布局;任务规划模块将高层语义转化为可执行的操作序列;ADB 则作为“手”,精准模拟用户的触控行为。

更进一步,Phone Agent 在 AutoGLM-Phone 基础上增强了安全机制与远程调试能力。系统内置敏感操作确认机制,在涉及支付、删除或权限变更时会暂停并提示用户确认。同时支持在登录验证、验证码输入等需要人类介入的场景中临时接管流程,确保任务既智能又可控。

此外,Phone Agent 提供完整的远程 ADB 调试支持,可通过 WiFi 或局域网连接设备,实现跨空间的远程控制与开发调试,极大提升了实验灵活性和部署便利性。

2. 本地控制端部署全流程

要让 AutoGLM-Phone 真正运行起来,你需要在本地电脑配置控制端,连接真机或模拟器,并调用云端部署的 AI 模型服务。以下是详细部署步骤。

2.1 硬件与环境准备

  • 操作系统:Windows 或 macOS
  • Python 版本:建议使用 Python 3.10 及以上版本
  • 安卓设备:Android 7.0+ 的真实手机或 Android 模拟器
  • ADB 工具:用于设备通信的核心工具包
ADB 安装与环境配置

Windows 用户

  1. 下载 Android SDK Platform Tools 并解压。
  2. 使用Win + R输入sysdm.cpl,进入“系统属性” → “高级” → “环境变量”。
  3. 在“系统变量”中找到Path,点击编辑,添加 platform-tools 的解压路径(如C:\platform-tools)。
  4. 打开命令行,输入adb version,若显示版本信息则说明配置成功。

macOS 用户

在终端中执行以下命令(假设文件解压至~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

为永久生效,可将该行写入~/.zshrc~/.bash_profile文件。

2.2 手机端设置

  1. 开启开发者模式
    进入“设置” → “关于手机” → 连续点击“版本号”5~7次,直到提示“您已进入开发者模式”。

  2. 启用 USB 调试
    返回“设置”主菜单 → “开发者选项” → 开启“USB 调试”。

  3. 安装 ADB Keyboard(关键!)

    • 下载并安装 ADB Keyboard APK。
    • 进入“设置” → “语言与输入法” → “默认键盘” → 切换为“ADB Keyboard”。
    • 此步骤至关重要,否则 AI 无法向应用输入文字(如搜索框、账号密码等)。

2.3 部署控制端代码(Open-AutoGLM)

在本地电脑克隆并安装 Open-AutoGLM 控制端:

# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .

注意pip install -e .会以可编辑模式安装包,便于后续调试修改。

2.4 设备连接方式

确保手机通过 USB 连接电脑,或处于同一局域网内。

USB 连接方式
adb devices

正常输出应类似:

List of devices attached ABCDEF123 device

如果显示unauthorized,请在手机上确认是否允许该电脑调试。

WiFi 远程连接方式

首次需通过 USB 启用 TCP/IP 模式:

# 启用 ADB over TCP/IP adb tcpip 5555 # 断开 USB 后,使用 IP 地址连接 adb connect 192.168.x.x:5555

连接成功后即可拔掉数据线,实现无线控制。

3. 启动 AI 代理:下达第一条指令

一切就绪后,就可以启动 AI 代理,让它接管手机操作。

3.1 命令行方式运行

Open-AutoGLM根目录下执行:

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器IP>:<映射端口>/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices的设备标识,如ABCDEF123192.168.1.100:5555
  • --base-url:指向你云端 vLLM 服务的地址,例如http://47.98.123.45:8800/v1
  • --model:指定使用的模型名称,目前主要为autoglm-phone-9b
  • 最后的字符串:你要下达的自然语言指令

执行后,你会看到 AI 自动截屏、分析界面、生成操作计划,并逐步执行点击、跳转、搜索、关注等动作。

3.2 使用 Python API 实现远程连接管理

除了命令行,你也可以通过编程方式集成到自己的系统中:

from phone_agent.adb import ADBConnection, list_devices # 创建 ADB 连接管理器 conn = ADBConnection() # 连接远程设备(WiFi) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 查看所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 在 USB 设备上启用 TCP/IP(方便后续无线调试) success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这种方式适合构建自动化测试平台、远程运维系统或批量任务调度器。

4. 如何评估 AutoGLM-Phone 的执行成功率?

当 AI 开始替你操作手机,一个核心问题浮现:它到底做得好不好?

执行成功率是衡量 AI Agent 能力的关键指标。但在实际应用中,不能仅凭“有没有完成任务”来判断。我们需要建立一套细粒度、可观测、可复现的评估体系。

4.1 执行成功率的定义维度

我们通常从三个层面定义“成功”:

维度定义示例
任务级成功率是否最终达成用户目标“关注指定博主”是否完成
步骤级准确率每一步操作是否正确是否点到了正确的按钮
意图理解准确率是否正确解析了用户指令把“搜美食”误认为“发消息”即失败

其中,任务级成功率是最核心的业务指标,但难以实时量化;而步骤级准确率更适合用于训练优化和日志回放分析

4.2 关键监控指标设计

为了全面评估系统表现,建议监控以下几类指标:

(1)任务执行状态统计
  • 成功完成数
  • 中途失败数
  • 超时未完成数
  • 人工干预次数

可通过日志标记每个任务的status字段进行汇总。

(2)单步操作置信度

每次模型输出操作时,附带一个置信度分数(0~1),反映其对当前决策的信心程度。低置信度往往预示风险操作。

{ "step": 3, "action": "click", "element": "搜索按钮", "confidence": 0.68, "screenshot": "step_3.png" }

长期收集可分析哪些界面容易导致低置信,进而优化提示词或微调模型。

(3)操作延迟与响应时间
  • 截图上传耗时
  • 模型推理时间
  • ADB 指令执行延迟
  • 整体任务完成时间

这些数据可用于性能瓶颈分析,尤其是在高并发场景下。

(4)错误类型分类

对失败案例进行归因分类,常见类型包括:

  • 界面识别错误:把“取消”识别成“确定”
  • 操作越界:尝试点击不存在的元素
  • 死循环:反复执行相同动作无进展
  • 网络中断:ADB 断连或模型服务不可达
  • 权限阻塞:未授权弹窗阻止后续操作

定期回顾错误日志,有助于持续改进系统鲁棒性。

4.3 日志与可视化建议

建议开启详细日志记录,保存每一步的:

  • 时间戳
  • 屏幕截图
  • 模型输入输出
  • 执行动作
  • 置信度评分

结合 ELK 或 Grafana 等工具,可搭建简易监控面板,实现实时观察任务流、成功率趋势、平均耗时等关键指标。

5. 常见问题排查与优化建议

在实际部署过程中,可能会遇到一些典型问题,以下是解决方案汇总。

5.1 连接类问题

问题现象可能原因解决方案
adb devices无设备ADB 未安装或路径未配置重新安装并检查环境变量
显示unauthorized未授权调试在手机上点击“允许USB调试”
connect refused防火墙拦截检查云服务器安全组是否开放对应端口
WiFi 连接不稳定路由器信号差改用 USB 连接,或优化网络环境

5.2 模型与推理问题

问题现象可能原因解决方案
模型无响应vLLM 服务未启动或参数错误检查--host 0.0.0.0和端口映射
输出乱码或格式错误tokenizer 不匹配确保使用官方推荐的模型权重与分词器
推理速度慢显存不足或 max-model-len 设置过大调整 batch size 或升级 GPU

5.3 操作执行问题

问题现象可能原因解决方案
无法输入文字ADB Keyboard 未设为默认输入法进入设置手动切换
点击位置偏移分辨率适配问题检查设备 DPI 与模型训练数据是否一致
误触返回键界面理解偏差添加上下文记忆机制或强化提示词

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1193866.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026年中国短视频制作公司推荐:基于数据闭环与合规场景全面评价

摘要 在数字营销浪潮中,短视频已成为品牌构建认知、驱动增长不可或缺的核心渠道。然而,面对瞬息万变的平台算法、日益挑剔的用户审美以及复杂的投放逻辑,企业决策者普遍陷入选择困境:是自建团队承担高昂的试错成本…

2025烟台半马

2025烟台半马9/4 7km 7:19 9/10 9km 7:16 9/18 10km 7:15 9/23 12km 7:06 9/26 14km 6:58 9/30 16km 7:27 10/3 16km 7:25 10/7 16km 7:23 10/11 18km 7:17 10/15 6km 6:51 10/19 21km 6:51 一个半月。从7km到半马 7公…

5分钟搭建百度参数DC=Y114PC=解析器原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 在快马平台上快速创建一个百度搜索参数解析器原型。输入任意包含DCY114&PC的URL&#xff0c;自动提取并高亮显示参数部分&#xff0c;提供简单的解释说明。要求界面简洁&#…

企业级应用首选!YOLOv13镜像助力产线缺陷检测

企业级应用首选&#xff01;YOLOv13镜像助力产线缺陷检测 在现代智能制造的质检环节中&#xff0c;每一块PCB板、每一个金属零件、每一瓶药品包装都必须经过毫秒级的视觉筛查。传统人工检测不仅效率低、成本高&#xff0c;还容易因疲劳导致漏检。而AI驱动的自动化缺陷检测系统…

浏览器文件格式转换工具:简单、安全、高效的文本与数据处理助手

在数字化办公与日常工作中&#xff0c;我们经常需要处理不同格式的文件。无论是整理文本内容、导出数据表格&#xff0c;还是进行简单的格式转换&#xff0c;找到一个便捷、安全、高效的工具尤为重要。今天&#xff0c;我们为您介绍一款完全在浏览器中运行的文件格式转换工具&a…

Python + LLM 搞钱实战:全自动“网络问答接单”流水线,一周跑出第一笔收入

标签: #Python #LLM #SideHustle #Automation #RPA #PassiveIncome 📉 前言:为什么这能搞钱? 传统的“网络答主”每天只能写 3-5 个高质量回答,耗时耗力。 而 AI 的出现,将生产成本降低到了几乎为零。 搞钱公式: 我们要做的,就是用 Python 把“流量”这一项拉满。 …

AI 加速开源贡献:自动匹配 Issue,一键生成高质量 PR(含测试与文档)

标签: #OpenSource #GitHub #AI #LangChain #Automation #DevTools 📉 前言:开源贡献的“三座大山” Issue 迷海:GitHub 上有数百万个 Issue,哪一个适合我?(既不能太难,又不能太无聊)。 上下文缺失:拿到一个 Bug,要在几万行代码里找到是哪一行逻辑错了,这通常需要…

中小企业预算有限?Live Avatar云服务按需租用方案

中小企业预算有限&#xff1f;Live Avatar云服务按需租用方案 1. Live Avatar&#xff1a;开源数字人技术的新选择 你有没有想过&#xff0c;一家只有几个人的小公司&#xff0c;也能拥有自己的“虚拟主播”&#xff1f;不是那种僵硬的动画形象&#xff0c;而是能说话、会表情…

本地部署AI在医疗影像分析中的实际应用案例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个医疗影像分析系统&#xff0c;要求&#xff1a;1. 支持DICOM格式影像的本地AI分析&#xff1b;2. 实现肺部CT图像的结节检测功能&#xff1b;3. 提供可视化分析报告生成&a…

FSMN VAD输出目录设置:结果文件存储位置调整

FSMN VAD输出目录设置&#xff1a;结果文件存储位置调整 1. 引言 你是否在使用FSMN VAD语音活动检测系统时&#xff0c;发现处理结果默认保存在某个固定路径&#xff0c;而你想把它们集中管理到自己的项目目录&#xff1f;或者你在做批量音频分析时&#xff0c;希望每个任务的…

Qwen-Image-Edit-2511真实测评:几何推理能力大幅提升

Qwen-Image-Edit-2511真实测评&#xff1a;几何推理能力大幅提升 在图像编辑类AI模型快速迭代的当下&#xff0c;Qwen-Image-Edit系列凭借其对细节控制和语义理解的持续优化&#xff0c;逐渐成为工业设计、建筑可视化与创意修图领域的重要工具。最新发布的Qwen-Image-Edit-251…

GPT-OSS-20B广告创意:文案生成系统实战部署

GPT-OSS-20B广告创意&#xff1a;文案生成系统实战部署 1. 让AI帮你写广告文案&#xff1a;GPT-OSS-20B实战价值 你有没有遇到过这样的情况&#xff1a;产品明明不错&#xff0c;但就是不知道怎么把卖点说清楚&#xff1f;写个朋友圈文案都要憋半小时&#xff0c;电商详情页更…

智能内容访问技术实战指南

智能内容访问技术实战指南 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 在数字信息时代&#xff0c;内容付费墙已成为获取优质信息的常见障碍。本文为您提供一套完整的智能内容访问…

Speech Seaco Paraformer实战案例:播客内容自动标签生成

Speech Seaco Paraformer实战案例&#xff1a;播客内容自动标签生成 1. 引言&#xff1a;为什么播客需要自动标签&#xff1f; 你有没有这样的经历&#xff1f;收藏了一堆优质中文播客&#xff0c;结果过几天就忘了哪期讲了什么。点开一听&#xff0c;前五分钟还在寒暄&#…

用PyTorch-2.x-Universal-Dev-v1.0做NLP项目,全程零报错体验分享

用PyTorch-2.x-Universal-Dev-v1.0做NLP项目&#xff0c;全程零报错体验分享 1. 为什么这个镜像让NLP开发变得如此轻松&#xff1f; 你有没有经历过这样的场景&#xff1a;刚准备开始一个NLP项目&#xff0c;结果光是环境配置就花了大半天&#xff1f;torch版本不兼容、trans…

Hunyuan-MT-7B-WEBUI体验分享:推理服务稳定不崩溃

Hunyuan-MT-7B-WEBUI体验分享&#xff1a;推理服务稳定不崩溃 在AI技术快速渗透各行各业的今天&#xff0c;语言不应成为获取先进工具的障碍。然而现实是&#xff0c;大多数前沿AI应用仍以英文为主导界面&#xff0c;非英语用户往往需要一边查词典一边操作&#xff0c;效率低下…

【VSCode全局搜索失效终极指南】:9大原因深度剖析与高效解决方案

第一章&#xff1a;VSCode全局搜索失效现象概述Visual Studio Code&#xff08;简称 VSCode&#xff09;作为广受欢迎的轻量级代码编辑器&#xff0c;其全局搜索功能&#xff08;CtrlShiftF&#xff09;是开发者日常开发中高频使用的工具之一。然而&#xff0c;在实际使用过程中…

智能内容解锁工具:三种用户类型的完美解决方案

智能内容解锁工具&#xff1a;三种用户类型的完美解决方案 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 在信息获取日益重要的今天&#xff0c;智能内容解锁工具成为突破付费墙限制…

【VSCode高效搜索技巧】:如何快速排除特定文件夹提升开发效率

第一章&#xff1a;VSCode搜索功能的核心价值Visual Studio Code&#xff08;VSCode&#xff09;作为现代开发者的首选编辑器之一&#xff0c;其强大的搜索功能在提升编码效率方面发挥着关键作用。无论是定位项目中的特定代码片段&#xff0c;还是批量替换跨文件的变量名&#…

智能内容解锁工具:彻底突破付费限制的终极方案

智能内容解锁工具&#xff1a;彻底突破付费限制的终极方案 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 你是否经常在浏览网页时被付费墙挡住去路&#xff1f;面对那些诱人的标题和…