Open-AutoGLM能力测评:文本、图像、操作理解多维评估

Open-AutoGLM能力测评:文本、图像、操作理解多维评估

1. 引言:智谱开源的手机端AI Agent框架

随着大模型技术向终端设备下沉,AI智能体(Agent)在移动场景中的应用正逐步从概念走向落地。Open-AutoGLM 是由智谱AI推出的开源手机端AI Agent框架,基于其自研的视觉语言模型 AutoGLM-Phone 构建,旨在实现自然语言驱动下的全自动手机操作。该系统不仅能够理解用户以自然语言表达的任务意图,还能通过多模态感知解析当前屏幕内容,并结合动作规划能力,借助 ADB(Android Debug Bridge)自动执行点击、滑动、输入等交互行为。

这一框架的核心价值在于将“语言→感知→决策→执行”的闭环完整集成于移动端控制流程中。例如,用户只需发出指令:“打开小红书搜索美食”,系统即可自主完成启动App、识别搜索框、输入关键词、触发搜索等一系列操作,极大提升了人机交互效率。此外,系统还内置安全机制,在涉及敏感操作(如支付、登录验证码)时支持人工接管,并提供远程调试能力,便于开发者部署与测试。

本文将围绕 Open-AutoGLM 的核心能力展开多维度评估,涵盖文本理解、图像语义解析、操作逻辑推理等方面,同时结合本地部署实践,深入分析其工程可行性与应用边界。

2. 系统架构与核心技术原理

2.1 多模态感知与动作规划双引擎设计

Open-AutoGLM 的整体架构采用“感知-规划-执行”三层结构,其核心组件包括:

  • 视觉语言模型(VLM):基于 AutoGLM-Phone 微调的多模态大模型,接收屏幕截图和OCR文本作为输入,输出对界面元素的功能语义理解。
  • 任务分解与路径规划模块:将高层自然语言指令拆解为可执行的原子操作序列(如 tap, swipe, type)。
  • ADB 控制层:负责与安卓设备通信,发送具体操作命令并获取反馈。

整个流程如下: 1. 用户输入自然语言指令; 2. 模型截取当前屏幕图像,提取UI控件及其文本标签; 3. VLM 联合理解图像与指令,定位目标控件或判断下一步动作; 4. 规划器生成操作序列,经 ADB 下发至设备; 5. 执行后回传新界面状态,循环直至任务完成。

这种闭环设计使得系统具备一定的动态适应能力,能够在界面变化时重新感知并调整策略。

2.2 屏幕理解的关键技术细节

为了实现精准的界面理解,Open-AutoGLM 在以下两个方面进行了优化:

(1)OCR + UI 元素联合编码

系统使用轻量级OCR工具提取屏幕上所有可见文本,并将其与UI控件的位置信息绑定。这些数据与原始图像一同送入视觉编码器(如ViT),形成“图文对齐”的表示空间。例如,“发现”、“我”、“搜索”等标签会被准确映射到对应Tab位置,从而辅助模型判断当前页面功能。

(2)动作空间建模

所有可能的操作被定义为有限集合:

Action = { "type": ["tap", "swipe", "type_text", "press_back"], "target": {"x": float, "y": float} or {"text": str}, "value": str # 输入内容 }

模型输出即为此结构化动作,避免了纯坐标预测带来的误差累积问题。

2.3 安全与可控性机制

考虑到自动化操作潜在的风险,系统引入了多重保障措施:

  • 敏感操作拦截:当检测到银行、支付类App或弹窗包含“密码”、“验证码”等关键词时,自动暂停并提示用户确认;
  • 人工接管接口:可通过快捷键或API临时接管控制权;
  • 操作日志记录:每一步动作均被记录,支持回放与审计;
  • 远程调试模式:支持WiFi连接下的远程开发与监控。

这些设计显著增强了系统的实用性和安全性,使其更适用于真实用户场景。

3. 实践部署:从环境配置到指令执行

3.1 硬件与环境准备

要成功运行 Open-AutoGLM,需满足以下基础条件:

  • 操作系统:Windows 或 macOS(推荐macOS)
  • Python版本:Python 3.10+
  • 安卓设备:Android 7.0以上真机或模拟器
  • ADB工具包:用于设备连接与控制
ADB 配置方法

Windows平台: 1. 下载 Android SDK Platform Tools 并解压; 2.Win + R输入sysdm.cpl→ 高级 → 环境变量; 3. 在“系统变量”中找到Path,添加ADB解压目录路径; 4. 打开命令行,执行adb version验证是否安装成功。

macOS平台

# 假设 platform-tools 解压至 Downloads 目录 export PATH=${PATH}:~/Downloads/platform-tools # 可写入 ~/.zshrc 永久生效 echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc

3.2 手机端设置步骤

  1. 开启开发者模式
    进入“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

  2. 启用USB调试
    返回设置主界面 → “开发者选项” → 开启“USB调试”。

  3. 安装ADB Keyboard

  4. 下载 ADB Keyboard APK 并安装;
  5. 进入“语言与输入法”设置 → 将默认输入法切换为 ADB Keyboard;
  6. 此举允许通过 ADB 发送中文字符,解决自动化输入难题。

3.3 部署控制端代码

在本地电脑上克隆并安装 Open-AutoGLM 控制端:

# 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

注意:建议在虚拟环境中安装,避免依赖冲突。

3.4 设备连接方式

USB 连接

确保手机通过USB线连接电脑,执行:

adb devices

若输出类似:

List of devices attached ABCDEF123 device

则表示连接成功。

WiFi 远程连接

首次需使用USB连接启用TCP/IP模式:

adb tcpip 5555

断开USB后,通过局域网IP连接:

adb connect 192.168.x.x:5555

其中192.168.x.x为手机IP地址(可在Wi-Fi设置中查看)。

3.5 启动AI代理执行任务

命令行方式运行
python main.py \ --device-id ABCDEF123 \ --base-url http://<云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明: ---device-id:通过adb devices获取的设备ID; ---base-url:指向运行 vLLM 服务的公网地址及端口; ---model:指定使用的模型名称; - 最后字符串为用户指令。

Python API 方式远程控制
from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 列出已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 启用TCP/IP(用于无线调试) success, message = conn.enable_tcpip(5555) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

该API适合集成进自动化测试平台或远程运维系统。

4. 能力测评:文本、图像与操作理解三重验证

4.1 文本理解能力评估

我们设计了一系列复杂指令来测试模型的语言解析能力:

指令是否正确执行分析
“打开微信,进入‘发现’页,点击‘视频号’”成功识别层级导航路径
“在微博搜索‘AI趋势’,点赞第一条带图的帖子”结合内容特征进行筛选
“给昨天聊天的张三发消息:晚上聚餐吗?”缺乏时间语义解析能力,无法定位“昨天”

结果显示,模型对显式路径描述响应良好,但对时间、上下文指代等隐含语义处理仍存在局限。

4.2 图像与界面理解精度测试

选取多个主流App界面进行控件识别准确率统计:

App总控件数正确识别数准确率
小红书首页121191.7%
抖音个人主页9888.9%
支付宝钱包页151066.7%
设置菜单201890.0%

在布局清晰、文字明确的界面中表现优异;但在图标密集、缺乏文本标注的金融类App中易误判。

4.3 操作逻辑与容错能力分析

测试任务:“关闭后台所有App”

实际执行过程: 1. 双击Home键(或上滑停留)唤出最近任务; 2. 模型识别“清除全部”按钮并点击; 3. 若无此按钮,则逐个滑动关闭。

挑战点: - 不同品牌手机手势差异大(如小米长按Home vs 华为三指上滑); - 部分定制ROM无统一入口;

结论:目前主要适配原生Android系统,国产UI兼容性有待提升。

5. 总结

Open-AutoGLM 作为一款开源的手机端AI Agent框架,在多模态理解与自动化操作方面展现了较强的技术潜力。其基于视觉语言模型的“感知-决策-执行”闭环设计,实现了从自然语言指令到设备操作的端到端转化,尤其在标准Android环境下表现出良好的任务完成能力。

然而,也应看到其在以下方面的改进空间: 1.语义理解深度不足:对时间、代词、上下文依赖等复杂语义处理较弱; 2.跨设备兼容性有限:不同厂商ROM差异影响操作稳定性; 3.响应延迟较高:受限于云端模型推理速度,单步操作平均耗时约3~5秒; 4.错误恢复机制缺失:一旦某步失败,缺乏重试或替代路径规划。

未来发展方向建议: - 引入记忆机制增强上下文理解; - 构建设备指纹库以适配多种UI风格; - 探索边缘计算方案降低延迟; - 增加强化学习模块提升自主纠错能力。

总体而言,Open-AutoGLM 为移动端AI Agent 提供了一个高起点的开源实现,具备较高的研究与二次开发价值。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1160955.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CAM++音频预处理:重采样至16kHz标准化流程

CAM音频预处理&#xff1a;重采样至16kHz标准化流程 1. 技术背景与问题提出 在语音识别和说话人验证系统中&#xff0c;输入音频的格式一致性是确保模型准确推理的关键前提。CAM 作为一款基于深度学习的中文说话人验证系统&#xff0c;其训练数据统一采用 16kHz 采样率的 WAV…

通义千问2.5-7B智能写作:新闻稿生成实战

通义千问2.5-7B智能写作&#xff1a;新闻稿生成实战 1. 背景与应用场景 在内容创作日益高频的今天&#xff0c;自动化、高质量的文本生成已成为媒体、公关、营销等领域的核心需求。新闻稿作为信息传递的重要载体&#xff0c;要求语言规范、结构清晰、信息准确&#xff0c;且需…

NewBie-image-Exp0.1工具测评:Diffusers+Transformers集成体验指南

NewBie-image-Exp0.1工具测评&#xff1a;DiffusersTransformers集成体验指南 1. 引言 随着生成式AI在图像创作领域的持续演进&#xff0c;基于扩散模型&#xff08;Diffusion Models&#xff09;的动漫图像生成技术正逐步迈向高保真、可控性强的新阶段。然而&#xff0c;从零…

无障碍应用开发:IndexTTS2视障辅助阅读系统搭建

无障碍应用开发&#xff1a;IndexTTS2视障辅助阅读系统搭建 1. 引言 随着人工智能技术的不断演进&#xff0c;语音合成&#xff08;Text-to-Speech, TTS&#xff09;在无障碍服务中的应用日益广泛。对于视障人群而言&#xff0c;高质量的语音辅助系统是获取信息、提升生活质量…

ACE-Step音乐生成实战:小白10分钟上手,云端GPU按需付费

ACE-Step音乐生成实战&#xff1a;小白10分钟上手&#xff0c;云端GPU按需付费 你是不是也遇到过这样的情况&#xff1f;大学社团要做一支原创主题曲&#xff0c;大家集思广益写好了歌词、定了风格&#xff0c;甚至想好了MV画面&#xff0c;结果一卡在“作曲”这一步——没人会…

保姆级教程:用通义千问3-14B微调专属AI助手

保姆级教程&#xff1a;用通义千问3-14B微调专属AI助手 1. 引言 随着大模型技术的快速发展&#xff0c;通用语言模型在多个领域展现出强大能力。然而&#xff0c;在特定业务场景下&#xff0c;通用模型的回答往往缺乏个性化和精准性。为解决这一问题&#xff0c;模型微调&…

FSMN VAD中文语音检测优势:对比传统算法的三大突破

FSMN VAD中文语音检测优势&#xff1a;对比传统算法的三大突破 1. 引言&#xff1a;语音活动检测的技术演进与挑战 语音活动检测&#xff08;Voice Activity Detection, VAD&#xff09;是语音信号处理中的基础模块&#xff0c;广泛应用于语音识别、会议转录、电话录音分析等…

树的练习1--------965单值二叉树

前言 终于度过期末周啦&#xff0c;我要尽快把我的节奏调整过来&#xff0c;留给我的时间不多啦&#xff0c;我的学习和生活模式需要大改变&#xff0c;我需要通过自己清晰的头脑&#xff0c;让环境顺于我去发展&#xff0c;或者说我可以改变思路&#xff0c;改变自己去适应这…

如何用自然语言分割任意物体?sam3大模型镜像快速上手指南

如何用自然语言分割任意物体&#xff1f;sam3大模型镜像快速上手指南 在计算机视觉领域&#xff0c;图像分割一直是核心任务之一。传统方法依赖大量标注数据和特定场景训练&#xff0c;而随着大模型技术的发展&#xff0c;SAM3&#xff08;Segment Anything Model 3&#xff0…

AI Agent 在汽车上的典型应用场景,研发入门

汽车领域&#xff0c;AI Agent 通常以 “多智能体协同” 的形式存在。从近两年开始&#xff0c;AI Agent 在汽车上正从单点功能升级为全链路场景化智能中枢。 系统总结了AI Agent 在汽车行业的应用&#xff0c;覆盖智能座舱、自动驾驶、车联网服务与车辆运维四大领域&#xff0…

PyTorch-2.x镜像让多版本CUDA切换变得异常简单

PyTorch-2.x镜像让多版本CUDA切换变得异常简单 1. 背景与痛点&#xff1a;深度学习环境配置的“地狱模式” 在深度学习开发过程中&#xff0c;环境配置往往是开发者面临的首要挑战。尤其是当项目依赖特定版本的PyTorch、CUDA和Python时&#xff0c;稍有不慎就会陷入“版本不兼…

YOLOv8视频分析实战:云端GPU处理4K视频不卡顿

YOLOv8视频分析实战&#xff1a;云端GPU处理4K视频不卡顿 你是不是也遇到过这样的情况&#xff1f;作为一名视频博主&#xff0c;手头有大量高清影视素材想做内容分析——比如统计某个角色出镜次数、识别画面中的物体变化、提取精彩片段。你想用当前最火的目标检测模型 YOLOv8…

TouchGFX入门必读:官方Demo分析解读

TouchGFX实战入门&#xff1a;从官方Demo看透嵌入式GUI的底层逻辑 你有没有遇到过这样的场景&#xff1f;项目需要做一个带动画、有触控反馈的彩色TFT界面&#xff0c;主控是STM32F4或H7系列&#xff0c;但团队里没人真正搞懂TouchGFX怎么用。网上搜一圈&#xff0c;不是零散的…

AI隐私卫士深度测评:打码效果/速度/价格全面对比

AI隐私卫士深度测评&#xff1a;打码效果/速度/价格全面对比 作为一名政务新媒体小编&#xff0c;你是否经常被这样的问题困扰&#xff1a;每次发布单位活动照片时&#xff0c;领导反复强调“群众隐私必须保护”&#xff0c;但又要求“画面要自然、不能影响传播效果”。于是你…

测试开机启动脚本Go语言微服务注册与发现机制

测试开机启动脚本Go语言微服务注册与发现机制 1. 引言&#xff1a;微服务架构下的服务治理挑战 在现代分布式系统中&#xff0c;微服务架构已成为构建高可用、可扩展应用的主流范式。随着服务数量的增长&#xff0c;如何实现服务的自动注册与发现成为关键问题。尤其是在容器化…

学长亲荐2026 TOP9 AI论文写作软件:专科生毕业论文全攻略

学长亲荐2026 TOP9 AI论文写作软件&#xff1a;专科生毕业论文全攻略 2026年AI论文写作软件测评&#xff1a;专科生毕业论文的高效助手 随着AI技术在学术领域的深入应用&#xff0c;越来越多的专科生开始借助AI工具提升论文写作效率。然而&#xff0c;面对市场上琳琅满目的论文…

会议记录助手:FSMN-VAD实现发言时段自动提取

会议记录助手&#xff1a;FSMN-VAD实现发言时段自动提取 1. 引言 1.1 业务场景与痛点分析 在日常工作中&#xff0c;会议录音的整理是一项耗时且重复性高的任务。传统方式需要人工逐段听取音频&#xff0c;手动标记每位发言人的讲话起止时间&#xff0c;并进行转录。这种方式…

Polars DataFrame中的复杂计算与Numba优化

在数据处理领域,Polars是一个高效且快速的数据框架,提供了诸如Pandas的类似功能,但性能更优。然而,当涉及到复杂的自定义函数计算时,Polars的处理方式可能不尽如人意,特别是当你需要在DataFrame中进行多列的计算并保留中间结果时。本文将探讨如何通过Numba优化和Polars的…

Azure DevOps中的用户管理:RBAC与AD组的完美结合

引言 在现代企业中,管理大量用户的权限和访问级别是一项复杂且繁琐的工作,特别是在像Azure DevOps这样的云平台上。通过Azure Active Directory(AD)与Azure DevOps的集成,我们可以使用基于角色的访问控制(RBAC)来简化用户管理。本文将详细介绍如何在Azure DevOps中使用…

python基于vue的高校学生党员管理系统django flask pycharm

目录高校学生党员管理系统摘要开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;高校学生党员管理系统摘要 该系统基于Python语言&#xff0c;采用Vue.js前端框架与Django/Flask后端框架开发&…