告别手动操作!Open-AutoGLM让手机自动执行任务

告别手动操作!Open-AutoGLM让手机自动执行任务

你有没有想过,有一天只需要说一句话,手机就能自己完成一系列复杂操作?比如:“打开小红书搜美食”“找到昨天那条抖音视频并点赞”“登录淘宝下单购物车里的商品”。听起来像科幻片?现在,这一切已经可以实现。

今天要介绍的主角是Open-AutoGLM—— 智谱开源的一款手机端 AI Agent 框架。它不仅能“看懂”你的手机屏幕,还能听懂你的指令,并通过自动化操作帮你把事情办妥。整个过程无需手动点击,真正实现“动口不动手”。

这不仅是一个技术玩具,更是一种全新的交互方式。接下来,我会带你一步步了解它是如何工作的、怎么部署使用,以及它能为我们的生活和工作带来哪些改变。


1. Open-AutoGLM 是什么?

简单来说,Open-AutoGLM 是一个能让 AI 自动操控安卓手机的智能助理框架。它的核心组件叫 Phone Agent,基于视觉语言模型(VLM)构建,结合 ADB(Android Debug Bridge)实现对设备的实际控制。

它是怎么做到的?

整个流程分为三步:

  1. 感知:AI 通过截图获取当前手机屏幕内容,利用多模态模型理解界面上的文字、按钮、图标等信息。
  2. 决策:根据用户输入的自然语言指令(如“打开微信给张三发消息”),AI 解析意图,规划出一系列操作步骤。
  3. 执行:通过 ADB 发送模拟点击、滑动、输入等命令,真实地在手机上完成操作。

整个过程就像有一个“数字分身”在替你操作手机。

核心亮点

  • 多模态理解:不只是读文字,还能识别图像、布局结构,真正“看懂”界面。
  • 自然语言驱动:不需要写代码或设置规则,直接用中文说话就行。
  • 自动化执行:支持点击、滑动、输入、返回、长按等多种操作。
  • 安全机制完善:遇到登录、支付、验证码等敏感场景时,会暂停并提示人工接管。
  • 远程控制能力:支持 WiFi 连接,可在局域网甚至公网环境下远程调试和运行。

2. 如何部署 Open-AutoGLM?

虽然听起来很高级,但它的使用门槛并不高。只要你有一台安卓手机和一台电脑,就可以搭建起来。下面我将从环境准备到启动运行,手把手带你走一遍完整流程。

2.1 硬件与软件要求

类别要求
电脑系统Windows / macOS
Python 版本3.10 或以上
手机系统Android 7.0+(真机或模拟器均可)
工具依赖ADB 工具、Git、pip

注意:确保手机和电脑处于同一网络环境,尤其是使用 WiFi 连接时。


2.2 安装 ADB 工具

ADB 是连接电脑与安卓设备的关键桥梁。我们需要先安装它。

Windows 用户
  1. 下载 Android SDK Platform Tools 并解压。
  2. 将解压后的文件夹路径添加到系统环境变量PATH中:
    • Win + R输入sysdm.cpl
    • 进入“高级” → “环境变量”
    • 在“系统变量”中找到Path,点击编辑,新增 ADB 所在目录
  3. 打开命令行,输入:
    adb version
    如果显示版本号,则说明安装成功。
macOS 用户

可以直接在终端中临时添加路径(建议写入.zshrc.bash_profile永久生效):

export PATH=${PATH}:~/Downloads/platform-tools

然后同样用adb version验证。


2.3 手机端设置

为了让电脑能控制手机,需要开启开发者权限。

  1. 开启开发者模式
    进入「设置」→「关于手机」→ 连续点击“版本号”7次,直到提示已开启开发者模式。

  2. 启用 USB 调试
    返回设置主界面 →「开发者选项」→ 开启“USB 调试”。

  3. 安装 ADB Keyboard(可选但推荐)
    这是一个特殊的输入法,允许通过 ADB 向手机发送文本输入,避免某些应用无法正常输入中文的问题。

    • 下载 ADB Keyboard APK 并安装
    • 进入「语言与输入法」→ 将默认输入法切换为 ADB Keyboard

2.4 部署控制端代码

接下来,在本地电脑上拉取 Open-AutoGLM 的源码并安装依赖。

# 克隆项目仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

提示:建议在虚拟环境中操作,避免依赖冲突。


2.5 连接手机设备

有两种连接方式:USB 和 WiFi。推荐先用 USB 测试,稳定后再尝试无线连接。

方法一:USB 连接

用数据线将手机连上电脑,授权调试请求后执行:

adb devices

如果输出类似:

List of devices attached ABCDEF1234567890 device

说明设备已识别,记下设备 ID(如ABCDEF1234567890)。

方法二:WiFi 远程连接

适合不想插线的场景,前提是手机和电脑在同一局域网。

  1. 先用 USB 连接,开启 TCP/IP 模式:

    adb tcpip 5555
  2. 断开 USB,获取手机 IP 地址(可在「设置-关于手机-状态信息」中查看),然后连接:

    adb connect 192.168.x.x:5555

再次运行adb devices查看是否连接成功。


3. 启动 AI 代理,开始自动操作

一切准备就绪,现在可以启动 AI 来接管手机了!

3.1 启动模型服务(云端或本地)

Open-AutoGLM 使用的是基于 AutoGLM 构建的专用模型,需提前启动一个兼容 OpenAI 接口的推理服务。推荐使用 vLLM 或 SGlang。

以 vLLM 为例,启动命令如下:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model zai-org/AutoGLM-Phone-9B \ --port 8000

启动成功后,模型服务地址为:http://<服务器IP>:8000/v1

注意:如果你是在云服务器上部署模型,请确保防火墙开放了对应端口(如 8000),并在本地调用时填写正确的公网 IP。


3.2 执行自然语言指令

回到本地 Open-AutoGLM 目录,运行主程序:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://192.168.1.100:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:通过adb devices获取的设备标识
  • --base-url:模型服务的访问地址(注意替换为实际 IP)
  • 最后的字符串:你要下达的自然语言指令

运行后,你会看到 AI 开始自动截图、分析界面、规划动作,并逐步完成任务。整个过程会在终端中实时输出日志,包括每一步的操作类型、目标区域、置信度等。


3.3 使用 Python API 调用(适合集成开发)

除了命令行,你也可以在自己的项目中通过 API 调用 Phone Agent。

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型服务地址 model_config = ModelConfig( base_url="http://192.168.1.100:8000/v1", model_name="autoglm-phone-9b", ) # 创建代理实例 agent = PhoneAgent(model_config=model_config) # 执行任务 result = agent.run("打开美团搜索附近的火锅店") print(result)

这种方式非常适合嵌入到自动化测试、客服机器人、RPA 工具等系统中。


4. 实际应用场景与潜力

Open-AutoGLM 不只是一个炫技项目,它已经在多个实际场景中展现出巨大价值。

4.1 日常生活自动化

想象这些场景:

  • “帮我查一下今天的天气,并发给妈妈。”
  • “打开支付宝扫码付款。”
  • “把昨晚拍的照片上传到百度网盘。”

这些原本需要多次点击的操作,现在一句话就能搞定。

4.2 移动端自动化测试

传统 App 测试依赖脚本录制或 XPath 定位,维护成本高。而 Open-AutoGLM 可以:

  • 自动遍历 App 功能路径
  • 检测 UI 异常或加载失败
  • 支持跨页面跳转和动态内容识别

特别适合用于回归测试和兼容性验证。

4.3 辅助特殊人群

对于视障人士或行动不便者,语音控制手机是一项刚需。Open-AutoGLM 结合语音识别,有望成为下一代无障碍交互工具的核心引擎。

4.4 企业级 RPA 扩展

结合企业内部系统,可实现:

  • 自动处理移动端审批流程
  • 抓取竞品 App 数据(合规前提下)
  • 批量管理多个账号(如社交媒体运营)

5. 常见问题与排查建议

在实际使用过程中,可能会遇到一些问题。以下是高频故障及解决方案:

问题现象可能原因解决方法
ADB 无法识别设备未开启 USB 调试检查开发者选项中的“USB 调试”是否开启
连接频繁断开WiFi 信号不稳定改用 USB 连接,或优化网络环境
输入中文乱码默认输入法不支持 ADB 输入切换为 ADB Keyboard
模型无响应服务端端口未开放检查云服务器防火墙设置,确认端口已放行
操作卡住不动屏幕内容变化慢或加载超时等待加载完成,或手动干预后继续
敏感操作被拦截涉及登录/支付等系统自动暂停,需人工确认后继续

小贴士:首次使用建议从简单任务开始,如“打开相机”,逐步熟悉流程后再尝试复杂指令。


6. 总结

Open-AutoGLM 正在重新定义我们与手机的交互方式。它不再局限于“手指+屏幕”的传统模式,而是迈向“语言+意图”的智能时代。

通过多模态理解 + 自然语言指令 + 自动化执行,它实现了真正的“AI 代劳”。无论是提升个人效率、辅助特殊群体,还是赋能企业自动化,都有着广阔的应用前景。

更重要的是,它是开源的。这意味着你可以自由定制、二次开发,甚至训练属于自己的专属手机助手。

未来,也许每个 App 都会有对应的 AI Agent,而你只需说一句:“帮我搞定这件事”,剩下的交给 AI。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1198708.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中小企业切入儿童AI赛道:低成本部署Qwen生成方案

中小企业切入儿童AI赛道&#xff1a;低成本部署Qwen生成方案 在当前AI技术快速普及的背景下&#xff0c;越来越多中小企业开始关注垂直领域的智能化应用。其中&#xff0c;面向儿童市场的AI内容生成正成为一片潜力巨大的蓝海。本文将介绍如何基于阿里通义千问大模型&#xff0…

NewBie-image-Exp0.1数据类型冲突?镜像已修复常见Bug实战说明

NewBie-image-Exp0.1数据类型冲突&#xff1f;镜像已修复常见Bug实战说明 1. 问题背景与镜像价值 你是否在尝试运行 NewBie-image-Exp0.1 时遇到过“浮点数索引”、“维度不匹配”或“数据类型冲突”这类报错&#xff1f;这些是该模型开源初期常见的代码缺陷&#xff0c;尤其…

Qwen3-Embedding-4B vs Cohere对比:商业场景性能评测

Qwen3-Embedding-4B vs Cohere对比&#xff1a;商业场景性能评测 1. Qwen3-Embedding-4B 核心能力解析 Qwen3 Embedding 模型系列是 Qwen 家族中专为文本嵌入与排序任务打造的最新力作。该系列基于强大的 Qwen3 密集基础模型&#xff0c;推出了涵盖 0.6B、4B 和 8B 多种参数规…

Qwen3-0.6B客服机器人实战:基于LangChain的对话系统搭建

Qwen3-0.6B客服机器人实战&#xff1a;基于LangChain的对话系统搭建 你是否正在寻找一个轻量级、响应快、部署简单的语言模型来构建企业级客服对话系统&#xff1f;Qwen3-0.6B 正是为此而生。作为通义千问系列中最小的密集型模型&#xff0c;它在保持高性能推理能力的同时&…

BERT语义填空服务SLA保障:高可用架构设计与容灾演练

BERT语义填空服务SLA保障&#xff1a;高可用架构设计与容灾演练 1. 什么是BERT智能语义填空服务 你有没有遇到过这样的场景&#xff1a;写文案时卡在某个成语中间&#xff0c;想不起后两个字&#xff1b;审校材料发现句子语法别扭&#xff0c;却说不清问题在哪&#xff1b;又…

升级Qwen3-Embedding后,搜索响应快多了

升级Qwen3-Embedding后&#xff0c;搜索响应快多了 最近在做语义搜索系统的优化时&#xff0c;我尝试将原本使用的文本嵌入模型升级为 Qwen3-Embedding-0.6B。结果出乎意料&#xff1a;不仅部署过程非常顺利&#xff0c;而且在实际测试中&#xff0c;搜索响应速度明显提升&…

零基础入门3D物体检测:PETRV2-BEV模型保姆级训练教程

零基础入门3D物体检测&#xff1a;PETRV2-BEV模型保姆级训练教程 你是否想过&#xff0c;一辆自动驾驶汽车是如何在复杂城市道路中准确识别周围车辆、行人和交通锥桶的&#xff1f;答案就藏在3D物体检测技术里——它不是简单地“看到”画面&#xff0c;而是真正“理解”三维空…

惊艳!UI-TARS-desktop打造的智能办公助手效果展示

惊艳&#xff01;UI-TARS-desktop打造的智能办公助手效果展示 你有没有想过&#xff0c;有一天只需要动动嘴&#xff0c;电脑就能自动帮你整理文件、查资料、写邮件&#xff0c;甚至操作各种软件&#xff1f;听起来像科幻电影&#xff0c;但今天我们要聊的这个工具——UI-TARS…

Open-AutoGLM办公自动化实践:WPS文档自动生成

Open-AutoGLM办公自动化实践&#xff1a;WPS文档自动生成 TOC 1. 引言&#xff1a;让AI帮你写报告&#xff0c;真的可以这么简单&#xff1f; 你有没有这样的经历&#xff1f; 临近下班&#xff0c;领导突然发来消息&#xff1a;“明天上午十点前把项目总结报告发我。” 你心…

NewBie-image-Exp0.1部署教程:Python调用test.py生成首张图片实操手册

NewBie-image-Exp0.1部署教程&#xff1a;Python调用test.py生成首张图片实操手册 1. 认识NewBie-image-Exp0.1 你可能已经听说过NewBie-image-Exp0.1&#xff0c;但还不清楚它到底能做什么。简单来说&#xff0c;这是一个专注于高质量动漫图像生成的AI模型实验版本。它基于先…

Qwen1.5-0.5B开源部署:FP32精度下CPU响应优化实战

Qwen1.5-0.5B开源部署&#xff1a;FP32精度下CPU响应优化实战 1. 轻量级AI服务的现实挑战与破局思路 在边缘设备或资源受限的服务器上部署AI模型&#xff0c;一直是个让人头疼的问题。尤其是当业务需要同时支持多种NLP任务——比如既要能聊天&#xff0c;又要能判断用户情绪—…

Qwen3-0.6B与Baichuan-Lite对比:推理延迟与显存占用评测

Qwen3-0.6B与Baichuan-Lite对比&#xff1a;推理延迟与显存占用评测 1. 模型背景介绍 1.1 Qwen3-0.6B 简介 Qwen3&#xff08;千问3&#xff09;是阿里巴巴集团于2025年4月29日开源的新一代通义千问大语言模型系列&#xff0c;涵盖6款密集模型和2款混合专家&#xff08;MoE&…

新手友好!YOLOv9官方镜像使用指南

新手友好&#xff01;YOLOv9官方镜像使用指南 你是不是也曾经被复杂的环境配置折磨得怀疑人生&#xff1f;装依赖、配CUDA、调版本&#xff0c;光是准备阶段就能劝退一大半想入门目标检测的朋友。别担心&#xff0c;今天这篇指南就是为你量身打造的——我们用YOLOv9 官方版训练…

智能客服实战:用Qwen3-4B快速搭建问答系统

智能客服实战&#xff1a;用Qwen3-4B快速搭建问答系统 1. 为什么选择Qwen3-4B搭建智能客服&#xff1f; 你有没有遇到过这样的问题&#xff1a;客户咨询量大&#xff0c;人工客服响应慢、成本高&#xff0c;而市面上的通用机器人又“答非所问”&#xff1f;现在&#xff0c;借…

亲测Cute_Animal_Qwen镜像:生成可爱动物图片效果惊艳

亲测Cute_Animal_Qwen镜像&#xff1a;生成可爱动物图片效果惊艳 最近在尝试一些适合儿童内容创作的AI工具时&#xff0c;偶然发现了 Cute_Animal_For_Kids_Qwen_Image 这个镜像。名字听起来就很“萌”——基于阿里通义千问大模型打造&#xff0c;专为生成可爱风格动物图片而设…

PyTorch-2.x镜像结合Flair做NER,全流程实操分享

PyTorch-2.x镜像结合Flair做NER&#xff0c;全流程实操分享 1. 环境准备与镜像优势解析 1.1 镜像核心特性一览 我们本次使用的镜像是 PyTorch-2.x-Universal-Dev-v1.0&#xff0c;这是一个为通用深度学习任务量身打造的开发环境。它基于官方最新稳定版 PyTorch 构建&#xf…

DeepSeek-R1-Distill-Qwen-1.5B成本优化:按需GPU计费实战指南

DeepSeek-R1-Distill-Qwen-1.5B成本优化&#xff1a;按需GPU计费实战指南 1. 引言&#xff1a;为什么你需要关注模型部署的成本&#xff1f; 你有没有遇到过这种情况&#xff1a;模型跑起来了&#xff0c;功能也没问题&#xff0c;但一看账单&#xff0c;GPU费用高得吓人&…

SenseVoice Small镜像实战解析|轻松部署语音识别与情感标签功能

SenseVoice Small镜像实战解析&#xff5c;轻松部署语音识别与情感标签功能 1. 项目背景与核心价值 你有没有遇到过这样的场景&#xff1a;一段客户投诉录音&#xff0c;需要人工逐字转录、分析情绪、标记关键事件&#xff1f;耗时不说&#xff0c;还容易漏掉重要信息。现在&…

Qwen3-4B实战案例:智能客服对话生成系统部署全流程

Qwen3-4B实战案例&#xff1a;智能客服对话生成系统部署全流程 1. 为什么选择Qwen3-4B构建智能客服系统&#xff1f; 在当前企业服务数字化转型的背景下&#xff0c;智能客服已成为提升用户体验、降低人力成本的关键环节。传统的规则引擎或小模型方案往往响应呆板、泛化能力差…

FunASR + speech_ngram_lm_zh-cn|科哥定制镜像实现高精度中文识别

FunASR speech_ngram_lm_zh-cn&#xff5c;科哥定制镜像实现高精度中文识别 1. 为什么这个语音识别镜像值得关注&#xff1f; 你有没有遇到过这样的情况&#xff1a;录了一段会议音频&#xff0c;想转成文字整理纪要&#xff0c;结果识别出来的内容错得离谱&#xff1f;“项…