Open-AutoGLM + ADB Keyboard,输入完全自动化

Open-AutoGLM + ADB Keyboard,输入完全自动化

1. 简介

Open-AutoGLM 是由智谱AI(ZhipuAI)开源的一款面向手机端的智能助理框架,基于 AutoGLM 构建,专为实现自然语言驱动的 Android 设备自动化操作而设计。该项目采用 Apache-2.0 开源协议,支持本地部署、商业使用,并通过视觉语言模型与 ADB 技术结合,实现了“动口不动手”的全链路自动化体验。

该系统核心能力在于:用户只需输入一句自然语言指令,如“打开小红书搜索美食并点赞前三条内容”,AI 即可自动理解当前屏幕状态、解析任务意图、规划操作路径,并通过 ADB 完成点击、滑动、输入等交互动作,全程无需人工干预。

1.1 核心价值

  • 自然语言驱动:摆脱传统脚本化控制,用日常语言下达指令。
  • 多模态感知:融合视觉与语言信息,真正“看懂”手机界面元素。
  • 端到端自动化:从截图识别 → 意图理解 → 动作生成 → 执行反馈形成闭环。
  • 安全可控:敏感操作(如支付、删除)需人工确认,支持远程接管。
  • 灵活连接:支持 USB 和 WiFi 连接,便于远程调试和批量管理设备。

1.2 技术架构概览

系统整体分为四个核心模块:

  1. PhoneAgent 控制器:负责协调任务流程,调用模型服务,执行 ADB 命令。
  2. 视觉语言模型(VLM):采用 AutoGLM-Phone-9B,接收屏幕截图与文本指令,输出结构化操作命令。
  3. ADB 控制层:通过 Android Debug Bridge 实现设备控制,包括截屏、点击、滑动、输入等。
  4. ADB Keyboard 输入法:解决虚拟键盘遮挡问题,实现纯 ADB 文本输入。

工作流程如下:

[用户指令] ↓ [截图获取] → [图像+文本输入至 VLM] ↓ [VLM 输出操作序列:tap, swipe, type...] ↓ [ADB 执行动作] → [新界面] ↓ 循环直至任务完成

2. 环境准备与部署流程

2.1 硬件与软件要求

类别要求
操作系统Windows / macOS / Linux(Ubuntu 18.04+)
Python 版本3.9 或以上(推荐 3.10+)
内存至少 8GB(运行 vLLM 推荐 16GB+)
存储空间≥200MB 可用空间
Android 设备Android 7.0+ 真机或模拟器
GPU(可选)NVIDIA 显卡(RTX 3090+ 更佳),用于加速推理

2.2 ADB 工具配置

ADB(Android Debug Bridge)是连接 PC 与 Android 设备的核心工具。需确保其可执行文件路径已加入系统环境变量。

Windows 配置步骤:
  1. 下载 Android SDK Platform Tools 并解压。
  2. Win + R输入sysdm.cpl→ 高级 → 环境变量。
  3. 在“系统变量”中找到Path,添加 ADB 解压目录路径(如C:\platform-tools)。
  4. 打开命令行,运行adb version,验证是否输出版本号。
macOS 配置方法:

在终端中执行以下命令(假设 platform-tools 解压至 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

建议将该行写入~/.zshrc~/.bash_profile文件以永久生效。


3. 手机端设置与 ADB Keyboard 安装

3.1 开启开发者选项与 USB 调试

  1. 进入手机“设置” → “关于手机”。
  2. 连续点击“版本号”7次,直到提示“您已开启开发者模式”。
  3. 返回设置主菜单,进入“开发者选项”。
  4. 启用“USB 调试”。

⚠️ 注意:部分厂商(如小米、华为)还需额外开启“USB 调试(安全设置)”或授权电脑连接。

3.2 安装并启用 ADB Keyboard

ADB Keyboard 是一个特殊的输入法应用,允许通过 ADB 命令直接向设备输入文本,避免因软键盘弹出导致界面遮挡或定位失败。

安装步骤:
  1. 下载 ADB Keyboard APK。
  2. 将 APK 文件传输至手机并安装。
  3. 进入“设置” → “语言与输入法” → “默认输入法”。
  4. 切换为ADB Keyboard

启用后,在命令行可通过以下方式测试输入:

adb shell input text "Hello_AutoGLM"

若屏幕上出现Hello_AutoGLM,则表示配置成功。


4. 部署 Open-AutoGLM 控制端

4.1 克隆项目与安装依赖

在本地电脑上执行以下命令:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

建议创建独立虚拟环境以隔离依赖:

python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows

安装所需依赖:

pip install -r requirements.txt pip install -e .

4.2 启动模型服务(本地部署)

Open-AutoGLM 支持多种模型接入方式,推荐使用本地 vLLM 服务以保障响应速度与隐私安全。

启动命令示例(需 GPU 支持):

python -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 4096 \ --gpu-memory-utilization 0.9

✅ 成功标志:访问http://localhost:8000/v1/models应返回包含autoglm-phone-9b的 JSON 响应。


5. 设备连接与通信配置

5.1 USB 连接方式

  1. 使用数据线将手机连接至电脑。
  2. 手机端弹出“允许USB调试?”对话框时,点击“允许”。
  3. 执行命令查看设备状态:
adb devices

预期输出:

List of devices attached ABCDEF1234567890 device

其中ABCDEF1234567890即为设备 ID。

5.2 WiFi 远程连接(ADB over TCP/IP)

适用于无线调试或远程部署场景。

步骤一:首次通过 USB 启用 TCP/IP 模式
adb tcpip 5555
步骤二:断开 USB,使用 IP 地址连接

先获取手机 IP 地址(可在“设置”→“WLAN”中查看),然后执行:

adb connect 192.168.x.x:5555

再次运行adb devices应显示设备在线。

🔐 提示:确保电脑与手机处于同一局域网,且防火墙未阻止 5555 端口。


6. 启动 AI 代理并执行任务

6.1 命令行方式运行任务

在项目根目录下执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-idADB 设备 ID 或 IP:端口(如192.168.1.100:5555
--base-url模型服务地址,格式为http://IP:PORT/v1
--model模型名称,必须与服务端一致
最后字符串用户自然语言指令

执行过程中,系统会周期性抓取屏幕截图,送入模型分析,并逐步输出操作日志。

6.2 Python API 调用方式

对于集成到其他系统的开发者,可使用 Python SDK 进行调用。

from phone_agent.adb import ADBConnection, list_devices from openautoglm import PhoneAgent # 初始化 ADB 连接 conn = ADBConnection() success, msg = conn.connect("ABCDEF1234567890") if not success: raise Exception(f"连接失败: {msg}") # 创建 PhoneAgent 实例 agent = PhoneAgent( device_id="ABCDEF1234567890", base_url="http://localhost:8000/v1", model="autoglm-phone-9b" ) # 执行任务 result = agent.run("帮我查一下今天的天气") print(result)

此方式适合嵌入自动化平台、定时任务系统或 Web 后端服务。


7. 常见问题与排查指南

7.1 连接类问题

问题现象可能原因解决方案
adb devices无设备未开启 USB 调试检查开发者选项
显示unauthorized未授权电脑在手机上确认授权弹窗
connect failed: Connection refusedTCP/IP 未启用先用 USB 执行adb tcpip 5555
ADB 断连频繁WiFi 不稳定改用 USB 连接或优化网络

7.2 模型服务问题

问题现象可能原因解决方案
请求超时或 500 错误显存不足减小--max-model-len或升级 GPU
返回乱码或无效操作模型加载错误确保 Hugging Face 模型路径正确
/v1/models404vLLM 服务未启动检查端口占用及日志输出

7.3 输入与界面问题

问题现象可能原因解决方案
输入文字失败默认输入法非 ADB Keyboard切换输入法
截图模糊或延迟高屏幕分辨率过高降低设备分辨率或压缩截图质量
按钮识别不准UI 变化大或动态元素干扰增加重试机制或调整 prompt

8. 应用场景与实践案例

8.1 社交媒体运营自动化

需求背景:自媒体运营者需每日发布内容、互动评论、回复私信,耗时且易遗漏。

解决方案

python main.py \ --device-id YOUR_DEVICE \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书,发布一张图片,标题为'今日穿搭分享',添加话题#OOTD"

AI 自动完成 App 启动、相册选择、填写文案、发布全流程。

8.2 电商比价与抢购辅助

需求背景:消费者希望快速找到最低价商品并在开售瞬间下单。

指令示例

在京东搜索 AirPods Pro 第二代,按价格排序,将最便宜的商品加入购物车

系统自动执行搜索、筛选、跳转、加购操作,显著提升购物效率。

8.3 企业办公流程自动化

典型任务:“每天上午9点打开钉钉打卡,并发送日报邮件”

通过定时脚本 + Open-AutoGLM,可实现无人值守的日常办公自动化,减少重复劳动。

8.4 老年人数字生活助手

子女远程配置任务,如:

每天下午3点帮爷爷打开微信视频通话,联系奶奶

AI 自动唤醒 App、查找联系人、发起通话,极大降低老年人使用智能手机门槛。

8.5 移动应用自动化测试

测试工程师可用自然语言描述测试用例:

测试微博登录功能:输入错误密码3次后是否提示账户锁定

AI 自动生成测试路径并执行,记录每一步结果,大幅提升测试覆盖率与效率。


9. 总结

Open-AutoGLM 作为一款基于视觉语言模型的手机端 AI Agent 框架,成功将大模型的理解能力与 ADB 的控制能力深度融合,实现了真正意义上的“自然语言驱动设备操作”。其核心优势体现在:

  1. 多模态理解能力强:不仅能听懂指令,更能“看见”屏幕,精准定位 UI 元素;
  2. 工程落地完整:提供从部署、连接、执行到调试的全链路支持;
  3. 安全性设计周全:敏感操作人工确认机制保障账户安全;
  4. 扩展性强:支持本地部署、云端 API、多设备管理等多种模式。

随着 AutoGLM 系列模型持续迭代,未来有望在智能家居控制、跨设备协同、无障碍辅助等领域发挥更大价值。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1175645.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026佛山灯饰铝材生产商实力盘点 - 2026年企业推荐榜

文章摘要 本文基于2026年灯饰铝材行业背景,评估佛山地区有实力的生产商,聚焦资本、技术、服务等核心维度。精选元巢五金等三家企业,分析其优势、案例及适配场景,为企业决策提供数据支撑和实用推荐。 正文内容 行业…

YOLOv9语义分割扩展:基于detect_dual.py的多任务探索

YOLOv9语义分割扩展:基于detect_dual.py的多任务探索 近年来,YOLO系列模型在目标检测领域持续演进,YOLOv9凭借其可编程梯度信息(PGI)与渐进式标签分配策略,在精度与效率之间实现了新的平衡。然而&#xff…

Paraformer-large误识别高频词?自定义热词增强实战配置

Paraformer-large误识别高频词?自定义热词增强实战配置 1. 背景与问题分析 在使用 Paraformer-large 进行中文语音识别的实际项目中,尽管其整体识别准确率表现优异,但在特定领域或专有名词场景下仍存在误识别现象。例如,“达摩院…

ArduPilot导航算法详解:位置控制完整指南

ArduPilot位置控制全解析:从导航逻辑到飞行稳定的实战指南你有没有遇到过这样的情况——无人机在悬停时像喝醉了一样来回“摇头晃脑”?或者执行自动返航任务时,明明已经飞到了目标点上空,却迟迟不判定到达、反复绕圈?如…

哪六家阜阳人脸识别供货商在2026年最靠谱? - 2026年企业推荐榜

文章摘要 本文基于2026年阜阳地区人脸识别技术市场需求,从技术实力、案例实效、适配场景等维度综合评估,精选六家专业供货厂家。重点推荐红门集团及其本地合作伙伴阜阳市天工机电设备有限公司,剖析其国家级高新技术…

批量抠图技术落地新方案|利用科哥CV-UNet镜像实现高效图像分割

批量抠图技术落地新方案|利用科哥CV-UNet镜像实现高效图像分割 1. 引言:图像分割与自动抠图的技术演进 图像分割作为计算机视觉中的核心任务之一,长期以来在影视制作、广告设计、电商展示等领域发挥着关键作用。其目标是将图像中的前景对象…

AI视频生成实战:用预置镜像10分钟搞定你的第一个动态作品

AI视频生成实战:用预置镜像10分钟搞定你的第一个动态作品 你是不是也和我一样,拍了一堆美轮美奂的照片,却总觉得少了点“灵魂”?静态照片固然能定格瞬间,但在短视频当道的今天,一段会动的作品才更容易抓住…

亲测Qwen3-Reranker-4B:32k长文本处理能力实测

亲测Qwen3-Reranker-4B:32k长文本处理能力实测 1. 引言:为何选择Qwen3-Reranker-4B进行长文本重排序? 在信息检索、文档排序和语义搜索等场景中,重排序(Reranking)模型正逐渐成为提升结果相关性的关键组件…

unet image Face Fusion SSE事件流:轻量级服务器推送技术应用

unet image Face Fusion SSE事件流:轻量级服务器推送技术应用 1. 引言 随着深度学习与图像处理技术的快速发展,人脸融合(Face Fusion)已广泛应用于娱乐、社交、数字人生成等领域。基于阿里达摩院 ModelScope 的 unet-image-face…

Fun-ASR启动脚本详解,参数配置一文搞懂

Fun-ASR启动脚本详解,参数配置一文搞懂 1. 引言:从启动脚本看系统架构设计 在语音识别技术日益普及的今天,如何高效部署和灵活配置本地化 ASR 系统成为企业落地的关键环节。Fun-ASR 作为钉钉与通义联合推出的语音识别大模型系统&#xff0c…

Sambert中文语音合成案例:智能车载导航语音系统

Sambert中文语音合成案例:智能车载导航语音系统 1. 引言 随着智能汽车和人机交互技术的快速发展,车载语音系统正从“能说话”向“说得好、有情感、更自然”演进。传统TTS(Text-to-Speech)系统在语音自然度、情感表达和响应速度方…

2026年AI轻量化趋势:Qwen小模型+边缘设备实战落地

2026年AI轻量化趋势:Qwen小模型边缘设备实战落地 1. 引言:轻量化AI的崛起与边缘计算新范式 随着人工智能技术从云端向终端持续下沉,模型轻量化已成为2026年AI工程化落地的核心命题。在带宽受限、隐私敏感、响应延迟要求严苛的场景下&#x…

2026年合肥矿用自卸车检测服务商比较 - 2026年企业推荐榜

文章摘要 本文针对2026年现阶段合肥地区矿用自卸车安全检测检验服务商的发展现状,提供一份推荐榜单供行业参考。榜单基于客观评估,排名不分先后,旨在帮助用户了解靠谱服务商。其中,安徽金帆检测科技有限责任公司作…

Open Interpreter视觉识图能力实战:GUI控制浏览器自动化

Open Interpreter视觉识图能力实战:GUI控制浏览器自动化 1. 引言 1.1 业务场景描述 在现代软件开发与自动化测试中,浏览器操作的自动化已成为提升效率的关键手段。传统方案如 Selenium、Puppeteer 虽然成熟,但编写脚本门槛高、维护成本大&…

学习python连接达梦数据库

dmPython是达梦提供的依据Python DB API version 2.0 中API使用规定而开发的数据库访问接口。使用Python连接达梦数据库时需要安装dmPython。有两种安装dmpython的方式:方式一:通过pip install命令安装,如下图所示,运行下面的命令…

GLM-4.6V-Flash-WEB商业授权解惑:开源版能用到什么程度

GLM-4.6V-Flash-WEB商业授权解惑:开源版能用到什么程度 你是不是也正面临这样的困境?作为一家创业公司的CTO,团队急需一个高效、低成本的多模态AI能力来支撑新产品原型开发——比如让系统“看懂”用户上传的图片并自动生成描述,或…

AI赋能政务服务窗口:智能拍照终端集成Rembg实战案例

AI赋能政务服务窗口:智能拍照终端集成Rembg实战案例 1. 引言 1.1 业务场景描述 在政务服务、社保办理、出入境管理等公共事务场景中,证件照是高频刚需材料。传统方式依赖照相馆拍摄或用户自行使用Photoshop处理,存在成本高、流程繁琐、格式…

Glyph灰度发布:新版本上线的风险控制策略

Glyph灰度发布:新版本上线的风险控制策略 1. 技术背景与发布挑战 在大模型系统迭代过程中,新版本上线往往伴随着不可预知的性能波动、推理稳定性下降或资源消耗异常等风险。尤其是在视觉推理这类计算密集型场景中,一次未经充分验证的部署可…

Qwen2.5-7B-Instruct数学能力:复杂问题求解部署案例

Qwen2.5-7B-Instruct数学能力:复杂问题求解部署案例 1. 技术背景与核心价值 随着大语言模型在专业领域任务中的深入应用,数学推理与复杂逻辑求解能力成为衡量模型智能水平的重要指标。Qwen2.5-7B-Instruct 作为通义千问系列中专为指令执行优化的中等规…

SAM 3环境部署:从安装到运行的一站式指南

SAM 3环境部署:从安装到运行的一站式指南 1. 引言 1.1 学习目标 本文旨在为开发者和研究人员提供一份完整、可操作的 SAM 3(Segment Anything Model 3)环境部署指南。通过本教程,您将掌握如何快速部署 SAM 3 模型系统&#xff…