Open-AutoGLM深度体验:视觉理解能力实测

Open-AutoGLM深度体验:视觉理解能力实测

1. 引言:从指令到执行的智能闭环

随着多模态大模型的发展,AI 正逐步突破“只能对话”的局限,向“能看会动”演进。Open-AutoGLM 是智谱 AI 开源的一款基于视觉语言模型(VLM)的手机端 AI Agent 框架,其核心目标是让 AI 能够像人类一样观察屏幕、理解界面、规划动作并自动执行操作

用户只需输入一句自然语言指令,如“打开小红书搜索美食”,系统即可通过 ADB 自动完成一系列点击、滑动和输入操作,实现真正意义上的“动口不动手”。这一能力的背后,依赖于三大关键技术:

  • 视觉理解:通过多模态模型解析手机截图,识别当前界面元素
  • 意图与规划:将用户指令转化为可执行的任务流
  • 自动化控制:利用 ADB 实现对设备的操作模拟

本文将围绕 Open-AutoGLM 的视觉理解能力进行深度实测,重点评估其在复杂 UI 场景下的感知准确性、语义理解能力和边界情况处理表现。


2. 技术架构与工作流程解析

2.1 系统整体架构

Open-AutoGLM 构建了一个完整的“感知—决策—执行”闭环系统,主要由以下模块组成:

  • ADB 控制层:负责设备连接、截图获取、触控指令下发
  • 视觉语言模型(VLM):接收屏幕图像 + 用户指令,输出结构化动作
  • 任务规划引擎:维护状态机,判断是否需要继续交互或终止
  • 安全确认机制:对支付、删除等敏感操作进行人工干预提示

整个流程如下:

用户指令 → 截图捕获 → 图文输入模型 → 动作预测 → ADB 执行 → 新界面 → 循环直至完成

2.2 视觉理解的核心机制

模型采用类似 Qwen-VL 或 LLaVA 的架构设计,具备强大的图文对齐能力。其输入为:

  • 图像输入:当前手机屏幕截图(通常为 720×1440 左右)
  • 文本输入:用户指令 + 历史上下文 + 系统 prompt

输出为 JSON 格式的动作指令,例如:

{"action": "Click", "element": "搜索框", "text": "美食"}

关键在于,模型不仅要“看到”按钮的位置,还要“理解”它的功能,并结合上下文做出合理决策。


3. 视觉理解能力实测方案

为了全面评估 Open-AutoGLM 的视觉理解性能,我们设计了五个典型测试场景,覆盖不同应用类型和界面复杂度。

3.1 测试环境配置

项目配置
设备Google Pixel 6 (Android 13)
运行方式本地部署(vLLM + AutoGLM-Phone-9B)
模型路径zai-org/AutoGLM-Phone-9B
推理框架vLLM 0.4.2
显卡NVIDIA RTX 3090 (24GB)
Python 版本3.10.12

所有测试均使用 WiFi ADB 连接,确保无线远程控制稳定性。

3.2 测试用例设计

编号应用指令关键挑战
T1小红书“打开小红书搜索‘露营装备推荐’”文本输入 + 多标签页切换
T2美团“找一家评分4.8以上的人均50元以下的川菜馆”数值条件理解 + 列表筛选
T3微信“给妈妈发消息:我到家了”联系人识别 + 输入法切换
T4淘宝“搜索蓝牙耳机,按销量排序”多步操作 + 排序控件定位
T5设置“关闭Wi-Fi和蓝牙”系统级设置入口识别

每个测试重复运行 3 次,记录成功率、错误类型及耗时。


4. 实测结果分析

4.1 各场景执行情况汇总

测试编号成功率平均步数主要问题
T1 小红书搜索3/3 ✅4
T2 美团找餐厅2/3 ⚠️6第一次误判价格范围
T3 微信发消息3/3 ✅3
T4 淘宝排序2/3 ⚠️5一次未识别“销量”按钮
T5 关闭设置3/3 ✅2

总体成功率为87%,表明模型在大多数常见任务中已具备较高可用性。

4.2 典型成功案例:T1 小红书搜索

用户指令

“打开小红书搜索‘露营装备推荐’”

模型思考过程输出

💭 当前界面:桌面 需要启动小红书 App 🎯 执行动作: {"action": "Launch", "app": "小红书"}

进入首页后:

💭 当前界面:小红书主页,底部有「首页」「消息」「发布」「我」四个标签 顶部有搜索框,提示“搜索内容与用户” 🎯 执行动作: {"action": "Click", "element": "搜索框"}

随后:

🎯 执行动作: {"action": "Type", "text": "露营装备推荐"} 🎯 执行动作: {"action": "Click", "element": "搜索"}

全程无需人工干预,准确率高,响应流畅。

4.3 边界案例分析:T2 美团数值理解偏差

首次失败原因分析

用户指令包含两个数值条件:“评分4.8以上”、“人均50元以下”。

但模型第一次执行时仅关注“川菜馆”关键词,忽略了价格过滤条件,在列表页直接选择第一家店铺打开。

根本原因推测

  • 模型对复合数值条件的权重分配不足
  • 当前界面未显示人均消费信息,导致无法有效筛选
  • 缺乏“先打开筛选面板”的推理链

后续改进策略

可通过优化 system prompt 提升模型对数值条件的重视程度,例如添加:

“当指令中出现价格、评分、距离等数值条件时,请优先调出筛选菜单进行设置。”

第二次和第三次测试中,加入该提示后任务顺利完成。

4.4 可视化理解能力评估

我们提取了几次关键操作中的截图与模型注意力热力图(通过 Grad-CAM 方法生成),发现模型具备较强的区域定位能力。

示例:淘宝“销量排序”按钮识别
  • 真实位置:位于商品列表上方,“综合”右侧的“销量”文字按钮
  • 模型注意力集中区域:准确聚焦于该按钮及其周边控件
  • 误识别情况:有一次将“筛选”按钮误认为“销量”,可能因两者样式相近

这说明模型不仅依赖文本标签,也学习到了一定的 UI 布局规律。


5. 视觉理解的关键优势与局限

5.1 核心优势总结

✅ 多模态语义对齐能力强

模型能够将“搜索框”这样的抽象概念与具体 UI 元素精准匹配,即使图标无文字标注也能识别。

✅ 上下文记忆能力良好

在跨页面操作中(如从小红书主页跳转至搜索结果页),模型能记住原始任务目标,不会中途偏离。

✅ 支持中文输入与复杂表达

无论是“帮我订个火锅”还是“找离我最近的充电桩”,都能被正确解析为可执行动作。

5.2 当前存在的局限性

❌ 对动态加载内容响应滞后

当页面存在懒加载或无限滚动时,模型可能在内容未完全展示前就做出判断,导致点击空白区域。

❌ 小字体或低对比度文本识别困难

部分应用(如某些银行App)使用灰色细体字提示信息,模型容易忽略这些关键字段。

❌ 多同名元素区分能力弱

若页面出现多个“立即购买”按钮,模型难以判断应点击哪一个,需依赖额外上下文。

❌ 不支持非标准控件

对于自定义绘制组件(如游戏内UI、WebView中的H5按钮),由于缺乏语义标签,识别成功率显著下降。


6. 工程优化建议与实践技巧

6.1 提升视觉理解稳定性的方法

方法一:增强 system prompt 引导

修改phone_agent/config/prompts.py中的系统提示词,强化对关键条件的关注:

SYSTEM_PROMPT = """ 你是一个手机操作专家,请严格按照以下原则行动: 1. 如果指令中包含价格、评分、时间等数值条件,必须先找到并设置筛选项 2. 在点击前确认目标元素可见且可交互 3. 若连续两次操作失败,尝试返回上一级重新开始 """
方法二:增加截图预处理

在传入模型前,可对截图进行增强处理:

  • 调整亮度与对比度,提升可读性
  • 添加边框标注,突出按钮区域
  • OCR 辅助提取文本,作为额外输入特征
方法三:引入动作验证机制

每次执行后增加“预期结果验证”步骤,例如:

if action == "Launch" and app == "小红书": expected_elements = ["搜索框", "首页", "消息"] if not check_elements_on_screen(expected_elements): retry()

6.2 敏感操作的安全控制

尽管 Open-AutoGLM 内置了确认机制,但在实际使用中仍建议启用自定义回调函数:

def safety_check(message: str) -> bool: sensitive_keywords = ["支付", "转账", "删除", "注销"] if any(kw in message for kw in sensitive_keywords): print(f"\n⚠️ 危险操作预警:{message}") return input("继续执行?(y/n): ").lower() == 'y' return True agent = PhoneAgent( model_config=model_config, confirmation_callback=safety_check )

这样可以在关键时刻阻止潜在风险行为。


7. 总结

Open-AutoGLM 展示了当前开源多模态 Agent 在移动端自动化领域的前沿水平。通过对视觉理解能力的实测,我们可以得出以下结论:

  • 在主流应用中,视觉理解准确率较高,能够可靠完成搜索、导航、发送消息等常见任务;
  • 对复合条件的理解仍有提升空间,特别是在涉及数值筛选或多选项判断时可能出现偏差;
  • 整体架构设计合理,形成了“观察→思考→执行”的闭环逻辑,具备良好的扩展性和安全性;
  • 工程落地可行性强,配合合理的 prompt 工程和异常处理机制,已可用于轻量级自动化场景。

未来随着模型迭代和训练数据丰富,预计其在复杂应用(如金融、政务类 App)中的表现将进一步提升。同时,图形化配置界面和更完善的调试工具也将降低开发者使用门槛。

Open-AutoGLM 不仅是一个技术demo,更是通向“通用手机助理”的重要一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1175209.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek-R1-Distill-Qwen-1.5B性能瓶颈?GPU利用率提升策略

DeepSeek-R1-Distill-Qwen-1.5B性能瓶颈?GPU利用率提升策略 1. 引言:模型部署中的性能挑战 在当前大模型推理服务的工程实践中,尽管模型能力日益强大,但实际部署过程中常面临GPU利用率低、响应延迟高、吞吐量不足等性能瓶颈。本…

基于微信小程序的四六级词汇学习平台【源码+文档+调试】

🔥🔥作者: 米罗老师 🔥🔥个人简介:混迹java圈十余年,精通Java、小程序、数据库等。 🔥🔥各类成品Java毕设 。javaweb,ssm,springboot等项目&#…

Fun-ASR常见报错解决方案:CUDA内存不足怎么办

Fun-ASR常见报错解决方案:CUDA内存不足怎么办 在使用 Fun-ASR 这类基于大模型的语音识别系统时,尤其是在本地部署并启用 GPU 加速的情况下,用户经常会遇到一个典型问题:CUDA out of memory(CUDA 内存不足)…

BAAI/bge-m3资源占用高?轻量化部署与内存优化策略

BAAI/bge-m3资源占用高?轻量化部署与内存优化策略 1. 背景与挑战:BAAI/bge-m3 的高资源消耗问题 随着大模型在语义理解、检索增强生成(RAG)等场景中的广泛应用,BAAI/bge-m3 作为当前开源领域表现最优异的多语言嵌入模…

Qwen3-Embedding-4B部署经验:生产环境常见问题解决

Qwen3-Embedding-4B部署经验:生产环境常见问题解决 1. 背景与技术选型 在当前大规模语义理解、检索增强生成(RAG)和多语言信息检索系统中,高质量的文本嵌入服务已成为核心基础设施。随着Qwen系列模型的持续演进,Qwen…

Youtu-2B文案创作实战:营销文案生成步骤详解

Youtu-2B文案创作实战:营销文案生成步骤详解 1. 引言:AI驱动的轻量级文案生成新选择 随着大语言模型在内容创作领域的广泛应用,企业对高效、低成本、可部署的AI解决方案需求日益增长。传统的大型语言模型虽然性能强大,但往往依赖…

YOLO26 改进 - 注意力机制 | DCAFE双坐标注意力:并行坐标注意力 + 双池化融合

前言 本文介绍了将双坐标注意力特征提取(DCAFE)模块与YOLO26相结合的方法。DCAFE模块采用“并行坐标注意力双池化融合”设计,通过平均池化和最大池化并行支路捕获特征,经通道自适应调整生成注意力权重,增强特征表达。…

Z-Image-Turbo快速上手:集成LangChain打造图文生成Agent

Z-Image-Turbo快速上手:集成LangChain打造图文生成Agent 1. 引言 1.1 背景与需求 随着多模态AI技术的快速发展,文生图(Text-to-Image)模型在创意设计、内容生成、广告制作等领域展现出巨大潜力。然而,许多开源模型存…

TensorFlow模型分析工具:GPU加速可视化不卡顿

TensorFlow模型分析工具:GPU加速可视化不卡顿 你有没有遇到过这种情况:训练一个大一点的深度学习模型,想用TensorBoard看看网络结构、损失曲线或者梯度分布,结果本地打开网页卡得像幻灯片?点一下刷新等十秒&#xff0…

担心黑盒模型?AI 印象派艺术工坊可解释性算法部署实战

担心黑盒模型?AI 印象派艺术工坊可解释性算法部署实战 1. 引言:为何我们需要“可解释”的图像风格迁移? 在当前人工智能广泛应用的背景下,图像风格迁移技术已从实验室走向大众应用。然而,大多数方案依赖深度神经网络…

DeepSeek-R1-Distill-Qwen-1.5B实战教程:Jupyter调用模型详细步骤

DeepSeek-R1-Distill-Qwen-1.5B实战教程:Jupyter调用模型详细步骤 1. 引言 1.1 学习目标 本文旨在为开发者提供一份完整的 DeepSeek-R1-Distill-Qwen-1.5B 模型本地部署与调用指南。通过本教程,您将掌握: 如何在本地或云端环境中加载并运…

IndexTTS-2-LLM性能瓶颈分析:CPU占用过高优化指南

IndexTTS-2-LLM性能瓶颈分析:CPU占用过高优化指南 1. 引言 1.1 场景背景与问题提出 随着大语言模型(LLM)在多模态生成领域的深入应用,语音合成技术正从传统的规则驱动向语义理解驱动演进。IndexTTS-2-LLM 作为融合 LLM 与声学建…

ArchiveMaster归档大师 v2.2.0:高效文件管理工具

ArchiveMaster 归档大师 v2.2.0 便携版是 Windows 平台热门文件管理工具,无需安装即可直接使用。它集成智能归档、批量处理、加密备份等核心功能,能高效解决文件整理繁琐、重复文件堆积等常见痛点,助力办公与日常批量文件处理更便捷高效&…

基于非合作博弈的风-光-氢微电网容量优化配置(Matlab代码实现)

👨‍🎓个人主页 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰&a…

如何提升Qwen3-1.7B响应速度?GPU加速部署实战

如何提升Qwen3-1.7B响应速度?GPU加速部署实战 1. 背景与挑战:大模型推理性能瓶颈 随着大语言模型在自然语言处理任务中的广泛应用,用户对模型响应速度的要求日益提高。Qwen3-1.7B作为通义千问系列中轻量级但功能强大的密集型语言模型&#…

2026年上海防水服务TOP5权威评测:精准治漏,守护建筑安全 - shruisheng

随着城市更新加速与极端天气频发,建筑渗漏问题已成为影响上海居民生活质量与建筑结构安全的核心隐患。面对市场上纷繁复杂的服务商,如何选择一家技术可靠、服务到位、质保有保障的专业企业,成为众多业主与项目管理方…

电商产品图批量抠图方案|基于CV-UNet大模型镜像高效落地

电商产品图批量抠图方案|基于CV-UNet大模型镜像高效落地 1. 引言:电商图像处理的痛点与自动化需求 在电商平台中,高质量的产品图是提升转化率的关键因素之一。为了实现统一的视觉风格和专业的展示效果,商家通常需要将商品从原始…

GESP认证C++编程真题解析 | 202409 四级

​欢迎大家订阅我的专栏:算法题解:C++与Python实现! 本专栏旨在帮助大家从基础到进阶 ,逐步提升编程能力,助力信息学竞赛备战! 专栏特色 1.经典算法练习:根据信息学竞赛大纲,精心挑选经典算法题目,提供清晰的…

Wan2.2部署方案:高可用视频生成服务的容灾设计

Wan2.2部署方案:高可用视频生成服务的容灾设计 1. 背景与挑战:构建稳定可靠的视频生成服务 随着AIGC技术在内容创作领域的深入应用,文本到视频(Text-to-Video)生成模型正逐步从实验性工具演变为实际生产环境中的关键…