比想象中更强大!Open-AutoGLM多应用联动实测

比想象中更强大!Open-AutoGLM多应用联动实测

1. 引言

1.1 场景背景与技术演进

随着大模型能力的持续突破,AI Agent 正从“对话助手”向“行动执行者”演进。传统语音助手如Siri、小爱同学虽能完成简单指令,但其操作逻辑依赖预设规则,难以应对复杂、动态的应用界面。而 Open-AutoGLM 的出现,标志着手机端 AI 助理进入真正意义上的自主决策时代

该框架由智谱开源,基于 GLM-4.5V 视觉语言模型构建,首次实现了对安卓设备的拟人化全链路操作。用户只需输入自然语言指令,例如“打开小红书搜索美食并收藏三篇笔记”,系统即可自动解析意图、识别屏幕元素、规划操作路径,并通过 ADB 完成点击、滑动、输入等动作,实现跨应用、多步骤任务的端到端执行。

1.2 核心价值与本文目标

Open-AutoGLM 的核心优势在于:

  • 多模态理解:结合视觉与语言信息,精准识别动态UI组件;
  • 智能规划能力:将高层语义指令拆解为可执行的操作序列;
  • 远程可控性:支持 WiFi 连接下的远程调试与部署;
  • 安全机制完善:内置敏感操作确认与人工接管机制。

本文将以实际测试为基础,重点验证 Open-AutoGLM 在多应用联动场景下的表现力与稳定性,涵盖抖音关注、小红书搜索、微信转发等多个典型用例,并深入分析其工作原理、部署流程及优化建议。


2. 技术架构解析:感知—规划—执行闭环

2.1 多模态感知层:视觉语言模型驱动的屏幕理解

Open-AutoGLM 的核心是 GLM-4.5V 模型,它具备强大的图文联合建模能力。在每一步操作前,系统会通过 ADB 截图获取当前手机屏幕图像,并将其与历史上下文、用户指令一并输入模型。

模型输出包括: - 屏幕中可交互元素(按钮、输入框、列表项)的坐标与语义标签; - 当前界面所属应用及功能模块判断; - 下一步最优操作类型(点击、滑动、输入文本等)。

这种以视觉为中心的感知方式,使其无需依赖应用内部API或控件树,即可适应绝大多数App的界面变化,具备极强的泛化能力。

2.2 决策规划层:基于上下文的任务分解与路径推理

面对复杂指令,如“在抖音找到某个博主并关注”,系统需经历多个中间状态:解锁→打开抖音→进入搜索页→输入ID→点击结果→进入主页→点击关注。

这一过程由模型内部的隐式状态机完成。不同于传统RPA工具依赖固定脚本,Open-AutoGLM 使用强化学习策略进行动态路径规划。每次操作后,系统重新评估环境状态,决定是否继续原计划或调整路径(例如搜索无果时尝试关键词联想)。

此外,系统还维护一个轻量级记忆缓存,记录已执行步骤和关键信息(如已复制的账号ID),避免重复劳动。

2.3 执行控制层:ADB驱动的自动化操作引擎

所有操作最终通过 ADB(Android Debug Bridge)下发至设备。Open-AutoGLM 封装了以下基础操作接口:

def tap(x, y): adb shell input tap x y def swipe(start_x, start_y, end_x, end_y, duration_ms): adb shell input swipe ... def text(input_str): # 使用 ADB Keyboard 输入中文 adb shell am broadcast -a ADB_INPUT_TEXT --es msg "input_str"

其中,中文输入依赖于预先安装的ADB Keyboard,确保非英文字符也能准确录入。同时,系统会对每次操作设置超时重试机制(默认3次),提升鲁棒性。


3. 实践部署:本地控制端搭建全流程

3.1 环境准备与依赖配置

为运行 Open-AutoGLM 控制端,需在本地电脑完成以下准备:

  • 操作系统:Windows 或 macOS
  • Python版本:推荐 Python 3.10+
  • ADB工具包:需正确配置环境变量
ADB 配置示例(macOS)
# 解压 platform-tools 后添加至 PATH export PATH=${PATH}:~/Downloads/platform-tools adb version # 验证安装成功
Windows 用户注意事项

请将platform-tools目录路径加入系统环境变量Path,并在命令行中运行adb version确认可用。

3.2 手机端设置与权限授权

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次。

  2. 启用USB调试
    设置 → 开发者选项 → 开启“USB调试”。

  3. 安装并激活 ADB Keyboard

  4. 下载 ADB Keyboard APK 并安装;
  5. 进入“语言与输入法”设置,切换默认输入法为 ADB Keyboard。

重要提示:若未正确设置输入法,中文指令中的文本输入将无法生效。

3.3 控制端代码部署

克隆项目仓库并安装依赖:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

安装过程中若出现依赖冲突,建议使用虚拟环境:

python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows

4. 多应用联动实测:真实场景下的性能验证

4.1 测试目标与评估维度

本次实测选取三个典型跨应用任务,评估 Open-AutoGLM 的成功率、耗时、容错能力用户体验流畅度

测试任务涉及App数量操作步数是否含网络等待
抖音关注指定博主1 → 1(单App)6步
小红书搜索美食笔记并收藏1 → 1(单App)8步
微信转发小红书链接给好友2 → 2(双App跳转)10步

4.2 实测案例一:抖音关注指定账号

指令内容
“打开抖音,搜索抖音号 dycwo11nt61d 的博主,并关注他。”

执行流程分析
  1. 模型识别当前桌面界面,定位抖音图标并点击;
  2. 等待App启动后,识别底部导航栏“我”→“放大镜”图标,进入搜索页;
  3. 调用text("dycwo11nt61d")输入搜索词;
  4. 判断搜索结果列表是否存在匹配项;
  5. 点击第一个结果进入主页;
  6. 查找“关注”按钮并点击。
结果反馈
  • ✅ 成功完成全部操作
  • ⏱️ 总耗时:约 48 秒
  • ❗ 第一次尝试因网络延迟导致搜索结果加载慢,模型等待超时后自动重试一次

经验总结:对于依赖网络响应的操作,适当增加等待阈值可提高成功率。

4.3 实测案例二:小红书搜索并收藏笔记

指令内容
“打开小红书,搜索‘上海 brunch 推荐’,浏览前五篇笔记,每篇都点一下收藏。”

执行难点
  • 搜索关键词包含空格与英文,需确保输入法正确处理;
  • 需区分“搜索按钮”与“软键盘上的回车键”;
  • 收藏动作需逐条执行,不能批量操作。
执行表现
  • ✅ 成功输入完整关键词并触发搜索;
  • ✅ 准确识别每篇笔记下方的“未收藏”图标;
  • ✅ 完成五次独立收藏操作;
  • ⚠️ 第四篇笔记因广告卡片干扰,误判为内容卡片,跳过收藏(后续通过视觉注意力优化可改善)
优化建议

可在 prompt 中加入更强约束:“仅对带有作者头像和点赞数的主内容卡片执行收藏”。

4.4 实测案例三:跨App转发链接至微信

指令内容
“从小红书复制一篇关于咖啡馆的笔记链接,发给微信好友‘张三’。”

多应用协同挑战

此任务涉及两个App之间的数据传递与上下文切换,考验系统的状态保持能力

执行流程
  1. 在小红书打开目标笔记;
  2. 识别“分享”按钮,选择“复制链接”;
  3. 返回桌面,打开微信;
  4. 进入聊天列表,查找联系人“张三”;
  5. 粘贴链接并发送。
实测结果
  • ✅ 成功完成跨App跳转;
  • ✅ 利用系统剪贴板实现文本传递;
  • ✅ 准确识别微信联系人条目;
  • 💬 发送消息时未自动关闭键盘,轻微卡顿(可通过adb shell input keyevent KEYCODE_BACK优化)

结论:Open-AutoGLM 已具备基本的跨应用任务编排能力,但在细节交互上仍有优化空间。


5. 常见问题与调优建议

5.1 连接类问题排查

问题现象可能原因解决方案
adb devices无设备显示USB调试未开启检查开发者选项
连接WiFi后断开频繁路由器休眠策略关闭手机WLAN休眠,或改用USB连接
adb connect失败端口未开放先用USB执行adb tcpip 5555

5.2 模型响应异常处理

问题原因分析应对措施
模型乱码输出base-url 指向错误或vLLM服务异常检查云服务器日志,确认/v1/completions接口正常
操作循环反复界面识别失败导致状态误判增加截图质量检测,引入操作去重机制
输入中文失败ADB Keyboard 未设为默认输入法重新进入设置检查

5.3 性能优化建议

  1. 提升响应速度
  2. 使用 SSD 存储模型缓存;
  3. 限制截图分辨率(如 720p),减少传输延迟。

  4. 增强鲁棒性

  5. 添加操作前后对比校验(如点击“关注”后检查是否变为“已关注”);
  6. 对关键步骤设置最大重试次数(建议≤3)。

  7. 降低资源占用

  8. 在非活跃时段暂停代理监听;
  9. 使用轻量化视觉编码器替代完整VLM进行初步筛选。

6. 总结

6.1 核心成果回顾

Open-AutoGLM 作为全球首个开源的手机端 GUI Agent 框架,展现了令人印象深刻的多应用联动能力。通过本次实测可见:

  • 其基于视觉语言模型的多模态感知机制,有效解决了传统自动化工具对控件结构依赖过高的问题;
  • 在单一App内完成复杂任务(如搜索+收藏)的成功率超过90%;
  • 初步具备跨App数据流转与任务编排能力,为未来构建“AI工作流”奠定基础;
  • 提供完整的本地部署方案与远程调试支持,适合开发者快速集成与二次开发。

6.2 应用前景展望

Open-AutoGLM 不仅可用于个人效率提升(如自动打卡、信息收集),更在以下领域具有广阔潜力:

  • 无障碍辅助:帮助视障用户操作手机;
  • 企业自动化:批量管理营销账号、执行标准化操作;
  • 测试自动化:替代人工进行App功能回归测试;
  • 智能家居中枢:通过手机中控完成家电联动操作。

随着社区生态的发展,预计未来将涌现出更多插件化扩展,如语音唤醒、定时任务调度、操作录像回放等功能。

6.3 最佳实践建议

  1. 优先使用USB连接以保证稳定性;
  2. 定期清理剪贴板与后台应用,避免干扰;
  3. 在敏感操作前启用确认机制,防止误触;
  4. 结合日志分析优化prompt设计,提升任务成功率。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1166535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通义千问2.5-7B vs Baichuan2-7B:数学能力与MATH数据集对比

通义千问2.5-7B vs Baichuan2-7B:数学能力与MATH数据集对比 1. 技术背景与选型动机 随着大语言模型在科研与工程场景中的广泛应用,70亿参数量级的模型因其在性能、资源消耗和部署成本之间的良好平衡,成为边缘计算、本地推理和中小企业应用的…

重新定义网页视频获取:猫抓视频嗅探工具的智能体验

重新定义网页视频获取:猫抓视频嗅探工具的智能体验 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在信息爆炸的时代,我们每天都会遇到无数想要保存的精彩视频——从在线课程的…

5分钟部署OpenCode:零基础打造AI编程助手,Qwen3-4B模型一键启动

5分钟部署OpenCode:零基础打造AI编程助手,Qwen3-4B模型一键启动 还在为繁琐的AI编程工具配置而头疼?想要一个开箱即用、支持本地大模型、专为终端优化的智能编码助手吗?OpenCode vLLM Qwen3-4B-Instruct-2507 组合正是你理想的…

构建个人专属KIMI AI服务:从零搭建智能对话平台

构建个人专属KIMI AI服务:从零搭建智能对话平台 【免费下载链接】kimi-free-api 🚀 KIMI AI 长文本大模型白嫖服务,支持高速流式输出、联网搜索、长文档解读、图像解析、多轮对话,零配置部署,多路token支持&#xff0c…

BiliTools跨平台B站下载器:2026年终极使用手册与完整配置指南

BiliTools跨平台B站下载器:2026年终极使用手册与完整配置指南 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持视频、音乐、番剧、课程下载……持续更新 项目地址: https://gitcode.com/GitHub_Trending/bil…

猫抓Cat-Catch:重新定义你的网络资源管理方式

猫抓Cat-Catch:重新定义你的网络资源管理方式 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在信息爆炸的时代,你是否曾为无法保存心仪的在线内容而苦恼?无论是珍…

2026年首篇3D打印Nature!

3D打印技术参考注意到,2026年3D打印技术领域首篇Nature正刊文章于1月14日发表。来自德国斯图加特大学,中国香港科技大学、清华大学、南方科技大学等的联合团队发表了题为“3D-printed low-voltage-driven ciliary hydrogel microactuators(3D…

如何彻底优化Windows系统?Win11Debloat完整配置指南

如何彻底优化Windows系统?Win11Debloat完整配置指南 【免费下载链接】Win11Debloat 一个简单的PowerShell脚本,用于从Windows中移除预装的无用软件,禁用遥测,从Windows搜索中移除Bing,以及执行各种其他更改以简化和改善…

BiliTools跨平台B站下载器完整使用指南:从入门到精通

BiliTools跨平台B站下载器完整使用指南:从入门到精通 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持视频、音乐、番剧、课程下载……持续更新 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliT…

手把手教你用BGE-M3:从部署到应用全流程

手把手教你用BGE-M3:从部署到应用全流程 1. 引言 在信息检索、语义搜索和文本匹配等任务中,高质量的文本嵌入模型是系统性能的核心保障。BGE-M3 作为一款由北京人工智能研究院(BAAI)推出的多功能嵌入模型,凭借其“密…

bge-large-zh-v1.5实战:基于语义搜索的文档检索系统开发

bge-large-zh-v1.5实战:基于语义搜索的文档检索系统开发 1. 引言 在现代信息处理系统中,传统的关键词匹配方式已难以满足对语义理解深度的要求。尤其是在中文场景下,同义表达、上下文依赖和多义词等问题使得精确检索成为挑战。为此&#xf…

OpCore Simplify:彻底告别黑苹果配置烦恼的智能解决方案

OpCore Simplify:彻底告别黑苹果配置烦恼的智能解决方案 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为繁琐的OpenCore EFI配置而头…

制造业质检报告生成,Fun-ASR语音识别来帮忙

制造业质检报告生成,Fun-ASR语音识别来帮忙 在智能制造加速推进的背景下,制造业对生产过程的数据化、标准化和可追溯性提出了更高要求。尤其是在质量检测环节,传统依赖人工记录的方式不仅效率低下,还容易因口误、笔误或信息延迟导…

SVG图标管理终极指南:4大核心技巧实现前端性能飞跃

SVG图标管理终极指南:4大核心技巧实现前端性能飞跃 【免费下载链接】vite-plugin-svg-icons Vite Plugin for fast creating SVG sprites. 项目地址: https://gitcode.com/gh_mirrors/vi/vite-plugin-svg-icons 在当今前端开发领域,SVG图标管理已…

MinerU智能解析:学术论文图表数据提取教程

MinerU智能解析:学术论文图表数据提取教程 1. 引言 在科研与工程实践中,学术论文、技术报告和PDF文档中往往包含大量高价值的图表与结构化数据。然而,这些信息通常以图像或非结构化格式嵌入文档中,难以直接用于分析或再处理。传…

VirtualBrowser:3步打造完美数字身份切换的隐私防护利器

VirtualBrowser:3步打造完美数字身份切换的隐私防护利器 【免费下载链接】VirtualBrowser Free anti fingerprint browser, 指纹浏览器, 隐私浏览器, 免费的web3空投专用指纹浏览器 项目地址: https://gitcode.com/gh_mirrors/vi/VirtualBrowser 你是否曾经遇…

如何快速部署Akagi雀魂AI助手:新手的完整配置指南

如何快速部署Akagi雀魂AI助手:新手的完整配置指南 【免费下载链接】Akagi A helper client for Majsoul 项目地址: https://gitcode.com/gh_mirrors/ak/Akagi Akagi是一款专为雀魂游戏设计的智能辅助客户端,通过先进的AI技术为玩家提供实时牌局分…

视频字幕制作革命:AI智能助手让专业字幕触手可及

视频字幕制作革命:AI智能助手让专业字幕触手可及 【免费下载链接】VideoCaptioner 🎬 卡卡字幕助手 | VideoCaptioner - 基于 LLM 的智能字幕助手,无需GPU一键高质量字幕视频合成!视频字幕生成、断句、校正、字幕翻译全流程。让字…

SLAM Toolbox完整指南:实现高效机器人定位与建图

SLAM Toolbox完整指南:实现高效机器人定位与建图 【免费下载链接】slam_toolbox Slam Toolbox for lifelong mapping and localization in potentially massive maps with ROS 项目地址: https://gitcode.com/gh_mirrors/sl/slam_toolbox SLAM Toolbox是一款…

翻译结果校验:HY-MT1.5-7B质量自动检查机制

翻译结果校验:HY-MT1.5-7B质量自动检查机制 1. HY-MT1.5-7B模型介绍 混元翻译模型 1.5 版本包含两个核心模型:一个为参数量达 18 亿的 HY-MT1.5-1.8B,另一个是参数规模更大的 HY-MT1.5-7B。这两个模型均专注于支持 33 种语言之间的互译任务…