Open-AutoGLM一键部署教程:开发者入门必看的AI Agent方案

Open-AutoGLM一键部署教程:开发者入门必看的AI Agent方案

Open-AutoGLM – 智谱开源的手机端AI Agent框架

AutoGLM-Phone 是一个基于视觉语言模型的 AI 手机智能助理框架。它能以多模态方式理解屏幕内容,并通过 ADB 自动操控设备。用户只需用自然语言下指令,如“打开小红书搜美食”,模型即可解析意图、理解界面并自动规划、执行操作流程,无需手动点击。

Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。系统通过 ADB(Android Debug Bridge)来控制设备,以视觉语言模型进行屏幕感知,再结合智能规划能力生成并执行操作流程。用户只需用自然语言描述需求,如“打开小红书搜索美食”,Phone Agent 即可自动解析意图、理解当前界面、规划下一步动作并完成整个流程。系统还内置敏感操作确认机制,并支持在登录或验证码场景下进行人工接管。同时,它提供远程 ADB 调试能力,可通过 WiFi 或网络连接设备,实现灵活的远程控制与开发。

1. 快速上手:从零开始搭建你的手机AI助手

如果你是一个开发者,想让AI帮你自动操作手机完成日常任务,比如刷短视频、查信息、批量关注账号,那这篇文章就是为你准备的。我们今天要讲的是Open-AutoGLM——由智谱开源的一套完整AI手机代理解决方案。

它的核心思路是:你说话,AI看屏,自动点手机。不需要你写复杂的脚本,也不需要反复手动操作。只要一句话,比如“打开抖音,搜索某个博主并关注”,系统就能自己完成整个流程。

整个系统分为两部分:

  • 云端模型服务:运行视觉语言模型(VLM),负责“看懂”手机屏幕和理解你的指令。
  • 本地控制端(Open-AutoGLM):运行在你电脑上,通过ADB连接手机,接收AI指令并执行点击、滑动等操作。

本文重点教你如何快速部署本地控制端,并连接已部署好的云服务,实现一键自动化。


2. 环境准备:配置你的开发环境

要让 Open-AutoGLM 正常工作,你需要准备好以下几样东西:

2.1 硬件与系统要求

  • 操作系统:Windows 或 macOS(Linux也可但需自行适配)
  • Python版本:建议使用 Python 3.10 或更高版本
  • 安卓设备:Android 7.0 及以上系统的真机或模拟器
  • ADB工具:Android调试桥,用于电脑与手机通信

为什么必须用ADB?
因为目前还没有其他方式能在不root的情况下精确控制手机的点击、滑动、截图等行为。ADB是官方支持的标准调试协议,稳定且兼容性好。

2.2 安装并配置 ADB

Windows 用户
  1. 前往 Android SDK Platform Tools 下载最新版。
  2. 解压到任意目录,例如C:\platform-tools
  3. 设置环境变量:
    • Win + R输入sysdm.cpl→ 高级 → 环境变量
    • 在“系统变量”中找到Path,点击编辑 → 新增 → 添加解压路径
  4. 打开命令行输入:
    adb version
    如果显示版本号,则说明安装成功。
macOS 用户

打开终端,执行以下命令(假设你把 platform-tools 放在 Downloads 文件夹):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行加入.zshrc.bash_profile实现永久生效:

echo 'export PATH=${PATH}:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

验证是否成功:

adb version

3. 手机设置:开启调试权限与输入法

接下来要在手机上做一些必要设置,确保电脑可以完全控制它。

3.1 开启开发者选项

进入手机「设置」→「关于手机」→ 连续点击「版本号」7次,直到提示“您已进入开发者模式”。

3.2 启用 USB 调试

返回设置主页面 →「开发者选项」→ 找到「USB调试」并开启。

⚠️ 注意:不同品牌手机路径略有差异,如小米叫“USB调试”,华为可能叫“调试模式”。

3.3 安装 ADB Keyboard(关键步骤)

这是为了让AI能自动输入文字,而不需要你手动打字。

  1. 下载 ADB Keyboard APK 并安装。
  2. 进入「设置」→「语言与输入法」→「默认键盘」→ 切换为ADB Keyboard

这样,当AI需要输入搜索词、用户名时,就可以直接发送文本,无需手动输入。


4. 部署控制端代码:运行 Open-AutoGLM

现在我们来下载并安装本地控制程序。

4.1 克隆项目仓库

打开终端或命令行工具,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖包

推荐使用虚拟环境(可选):

python -m venv venv source venv/bin/activate # macOS/Linux # 或 venv\Scripts\activate.bat (Windows)

安装所需依赖:

pip install -r requirements.txt pip install -e .

-e .表示以可编辑模式安装,方便后续修改源码调试。


5. 连接设备:USB 与 WiFi 两种方式

确保手机通过数据线连接电脑,或者在同一局域网内。

5.1 使用 USB 连接(推荐初学者)

插上数据线后,在命令行运行:

adb devices

你应该看到类似输出:

List of devices attached ABCDEF1234567890 device

只要有设备ID和device状态,就表示连接成功。

5.2 使用 WiFi 远程连接(适合无线调试)

如果你不想一直连着线,可以用WiFi连接。

第一步:先用USB连接,启动TCP模式

adb tcpip 5555

第二步:拔掉USB,用IP连接

查看手机Wi-Fi详情中的IP地址(如192.168.1.105),然后执行:

adb connect 192.168.1.105:5555

再次运行adb devices,应该能看到设备在线。

✅ 小技巧:以后只要手机和电脑在同一网络,就可以直接adb connect,不用再插线了。


6. 启动 AI 代理:让AI接管手机

一切准备就绪,现在可以正式让AI来操作手机了!

6.1 命令行方式运行任务

在项目根目录下执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<你的云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

参数说明
--device-idadb devices获取的设备ID
--base-url云服务地址,格式为http://IP:端口/v1
--model模型名称,目前固定为autoglm-phone-9b
最后的字符串你要下达的自然语言指令

💡 示例指令还可以是:

  • “打开小红书,搜索‘北京美食探店’,点赞前三篇笔记”
  • “去美团看看附近评分4.5以上的川菜馆”

AI会自动完成以下流程:

  1. 截图当前屏幕
  2. 将图像+指令传给云端模型
  3. 模型分析界面元素,决定下一步操作(点击、滑动、输入等)
  4. 控制端执行动作
  5. 循环直到任务完成

6.2 使用 Python API 编程调用

除了命令行,你也可以在自己的项目中集成这个功能。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 查看已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 在USB设备上启用TCP/IP(便于后续无线调试) success, message = conn.enable_tcpip(5555) if success: ip = conn.get_device_ip() print(f"设备IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

这段代码展示了如何:

  • 动态连接设备
  • 获取设备IP
  • 管理多个连接
  • 集成进自动化平台

7. 常见问题与排查指南

在实际使用过程中,可能会遇到一些问题。以下是高频故障及解决方法。

7.1 ADB 连接失败:“unauthorized” 或 “offline”

原因:手机未授权电脑调试。

解决办法

  • 检查手机是否弹出“允许USB调试?”对话框
  • 勾选“始终允许”,然后点击“确定”
  • 重新插拔数据线

7.2 连接被拒绝:“failed to connect to :5555”

可能原因

  • 手机和电脑不在同一Wi-Fi网络
  • 防火墙阻止了5555端口
  • 手机休眠导致ADB断开

解决方案

  • 确保在同一局域网
  • 关闭手机省电模式,保持亮屏
  • 重启ADB服务:adb kill-server && adb start-server

7.3 模型无响应或返回乱码

常见于自建云服务场景

检查以下几点:

  • vLLM 服务是否正常启动?
  • --host 0.0.0.0是否设置,确保外部可访问?
  • 端口映射是否正确(如 Docker 映射了 8800 → 8000)?
  • max-model-len是否足够大?建议 ≥ 8192
  • 显存是否充足?9B模型至少需要 16GB GPU 显存

示例正确的 vLLM 启动命令:

python -m vllm.entrypoints.openai.api_server \ --model ZhipuAI/autoglm-phone-9b \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 8192

然后通过 Nginx 或 frp 映射到公网端口(如 8800)。


8. 总结:为什么 Open-AutoGLM 值得关注?

Open-AutoGLM 不只是一个玩具项目,它是迈向真正“通用手机AI助手”的重要一步。相比传统自动化脚本,它的优势非常明显:

  • 无需编写规则:你说人话,AI自己想办法执行
  • 跨App通用性强:不管是抖音、小红书还是淘宝,都能理解界面
  • 支持复杂任务链:能处理“搜索→点击→滑动→输入→判断结果”这样的多步逻辑
  • 安全可控:敏感操作可暂停确认,验证码场景支持人工介入
  • 远程调试友好:支持WiFi连接,适合做集群化测试或远程运维

对于开发者来说,这套框架提供了完整的工程化模板,无论是用来做自动化测试、批量运营账号,还是构建个人AI助理,都非常实用。

更重要的是——它已经开源,你可以自由定制、训练专属模型、扩展新功能。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1194826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Z-Image-Turbo日志轮转:防止output.log无限增长的配置方案

Z-Image-Turbo日志轮转&#xff1a;防止output.log无限增长的配置方案 Z-Image-Turbo 是一款集成了图像生成与处理能力的本地化AI工具&#xff0c;其UI界面简洁直观&#xff0c;适合各类用户快速上手。通过图形化操作面板&#xff0c;用户可以轻松完成文生图、图生图、风格迁移…

2026旋转蒸发仪哪家强?国产头部厂家技术实力与产品矩阵对比

在化学、制药、生物工程等领域,旋转蒸发仪作为实验室核心设备,承担着溶剂浓缩、分离、提纯等关键任务。而低温旋转蒸发仪则凭借其精准控温能力,为热敏性物质的处理提供了可靠保障。本文选取了四家市场主流供应商——…

C++对象模型揭秘:虚函数表是如何支撑多态的?

第一章&#xff1a;C多态的实现原理虚函数表 C中的多态性是面向对象编程的核心特性之一&#xff0c;其底层实现依赖于虚函数表&#xff08;Virtual Table&#xff09;和虚函数指针&#xff08;vptr&#xff09;。当一个类中声明了虚函数&#xff0c;编译器会为该类生成一个虚函…

企业招聘系统的权限管理与安全优化方案

温馨提示&#xff1a;文末有资源获取方式~ 一、招聘系统市场背景分析 企业用工需求的增长&#xff1a;随着经济的复苏和企业的发展壮大&#xff0c;各行业企业的用工需求不断增加。无论是新兴的科技行业&#xff0c;还是传统的制造业、服务业&#xff0c;都需要招聘大量的人才…

Paraformer-large语音识别权限控制:多用户管理实战

Paraformer-large语音识别权限控制&#xff1a;多用户管理实战 1. 引言与场景需求 在实际业务中&#xff0c;语音识别服务往往需要面向多个团队或部门使用。比如企业内部的会议纪要转写、客服录音分析、教学内容归档等场景&#xff0c;不同角色&#xff08;如管理员、普通员工…

聚焦2026:上海企业微信代理商将如何赋能智慧办公与私域增长?

当企业微信在商务类应用排名持续攀升,当百果园通过社群运营半年沉淀600万会员,当海珠区教育局用企业微信连接22万家长——这些案例背后,折射出企业数字化转型的深层需求。2026年,上海企业微信代理商将如何突破传统…

Qwen-Image-2512如何持续集成?CI/CD自动化部署案例

Qwen-Image-2512如何持续集成&#xff1f;CI/CD自动化部署案例 1. 引言&#xff1a;为什么需要为Qwen-Image-2512做CI/CD&#xff1f; 你有没有遇到过这种情况&#xff1a;每次模型更新都要手动拉代码、重新配置环境、重启服务&#xff0c;费时又容易出错&#xff1f;尤其是像…

2026年河南精铸工匠不锈钢有限公司联系电话:精选推荐与使用指南

在商业合作与项目对接中,快速、准确地找到可靠的联系方式是成功的第一步。对于需要高品质不锈钢标识产品与一体化装饰工程解决方案的企业或个人而言,河南精铸工匠不锈钢有限公司是一个备受瞩目的合作伙伴。该公司自2…

Qwen-Image-2512和SDXL Turbo对比:出图速度实测报告

Qwen-Image-2512和SDXL Turbo对比&#xff1a;出图速度实测报告 1. 引言&#xff1a;为什么这次对比值得关注 你有没有遇到过这样的情况&#xff1a;明明想法已经成型&#xff0c;却卡在生成图片的等待上&#xff1f;等个十几秒还算幸运&#xff0c;有时候动辄半分钟&#xf…

C++并发编程避坑指南(Boost线程同步机制使用误区大曝光)

第一章&#xff1a;C并发编程与Boost线程库全景概览 在现代高性能计算和服务器开发中&#xff0c;并发编程已成为C开发者必须掌握的核心技能之一。随着多核处理器的普及&#xff0c;充分利用硬件并行能力成为提升程序性能的关键路径。C11标准引入了原生的线程支持库&#xff08…

麦橘超然电商应用案例:商品图自动生成系统部署实操

麦橘超然电商应用案例&#xff1a;商品图自动生成系统部署实操 在电商运营中&#xff0c;高质量的商品图是吸引用户点击和提升转化率的关键。然而&#xff0c;传统拍摄与修图流程成本高、周期长&#xff0c;难以满足快速上新的需求。本文将带你完整实践一个基于 麦橘超然&…

Qwen3-1.7B多轮对话实现:LangChain记忆机制集成教程

Qwen3-1.7B多轮对话实现&#xff1a;LangChain记忆机制集成教程 你是否希望让Qwen3-1.7B不仅能回答问题&#xff0c;还能“记住”之前的对话内容&#xff0c;实现真正自然的多轮交互&#xff1f;本文将手把手带你使用LangChain框架为Qwen3-1.7B模型集成记忆功能&#xff0c;从…

PyTorch-2.x镜像部署避坑:CUDA与PyTorch版本匹配

PyTorch-2.x镜像部署避坑&#xff1a;CUDA与PyTorch版本匹配 1. 引言&#xff1a;为什么版本匹配如此重要&#xff1f; 你有没有遇到过这样的情况&#xff1a;满怀期待地拉取了一个PyTorch镜像&#xff0c;准备开始训练模型&#xff0c;结果一运行代码就报错 CUDA not availa…

学而思编程周赛语言基础组 | 2025年秋第12周

​欢迎大家订阅我的专栏&#xff1a;算法题解&#xff1a;C与Python实现&#xff01; 本专栏旨在帮助大家从基础到进阶 &#xff0c;逐步提升编程能力&#xff0c;助力信息学竞赛备战&#xff01; 专栏特色 1.经典算法练习&#xff1a;根据信息学竞赛大纲&#xff0c;精心挑选…

开源推理框架新星:SGLang多轮对话部署入门必看

开源推理框架新星&#xff1a;SGLang多轮对话部署入门必看 你有没有遇到过这种情况&#xff1a;好不容易训练好一个大模型&#xff0c;结果一上线&#xff0c;响应慢得像蜗牛&#xff0c;GPU资源还烧得飞快&#xff1f;更别提要做多轮对话、任务规划或者生成结构化数据了——代…

2026年1月主流呼叫中心系统品牌综合评测与推荐榜单

摘要 当前,企业客户服务与营销联络正经历从传统人力密集型向智能化、一体化运营的关键转型。决策者面临的核心挑战在于,如何在众多技术方案中,选择一款既能切实降本增效,又能无缝融入现有业务生态,并支撑未来体验…

2026年智能语音机器人品牌推荐:企业级应用深度评价,直击复杂交互与集成痛点指南

摘要 在数字化转型浪潮中,智能语音交互已成为企业提升服务效率、优化运营成本的关键技术接口。决策者,尤其是客户联络中心负责人与数字化部门主管,正面临着一个核心焦虑:如何在众多技术供应商中,选择一款既能无缝…

蝶岛东山:181 公里海岸线串起的海滨仙境

福建漳州东山岛&#xff0c;作为福建省第二大海岛&#xff0c;因岛形酷似展翅的蝴蝶&#xff0c;得名“蝶岛”。这座海岛坐拥181公里绵长曲折的海岸线&#xff0c;串联起七大海湾与多样地貌&#xff0c;既有清澈海域、细腻沙滩的自然之美&#xff0c;又有古寨老街、百年庙宇的人…

2026爆款盘点:半自动咖啡机TOP10神榜,格米莱/德龙/百胜图等领衔

对于许多喜爱咖啡的人来说,能在家随时享用一杯媲美咖啡馆的意式浓缩,是提升日常幸福感的重要方式。然而,面对市场上从入门到专业、价格跨度巨大的各类机型,如何挑选一台真正适合自己的咖啡机,成为不少用户的困扰。…

AIDL(Android Interface Definition Language)详解

AIDL的定义AIDL&#xff08;Android Interface Definition Language&#xff09;是Android接口定义语言&#xff0c;用于&#xff1a;实现进程间通信&#xff08;IPC&#xff09;定义客户端和服务端之间的通信接口允许不同应用程序或同一应用程序的不同进程之间调用方法AIDL实现…