Open-AutoGLM手机自动化实战:搜索+关注一键完成
你有没有想过,只需一句话就能让AI帮你操作手机?比如:“打开小红书搜美食博主并关注”,然后你的手机就自动执行了整个流程——打开App、输入关键词、点击搜索、进入主页、完成关注。听起来像科幻?现在它已经能实现了。
这背后的核心技术就是Open-AutoGLM—— 智谱开源的手机端AI Agent框架。它不是简单的脚本工具,而是一个真正理解屏幕内容、能“看”会“动”的智能体。通过视觉语言模型 + ADB控制 + 自然语言指令解析,它可以像人一样使用手机,完成复杂任务。
本文将带你从零开始,实操一次完整的自动化流程:在抖音中搜索指定账号并自动关注。全程无需手动点击,只要一句话,剩下的交给AI。
1. 什么是 Open-AutoGLM?
Open-AutoGLM 是基于 AutoGLM 构建的手机智能助理框架,核心能力是:
- 多模态感知:通过截图理解当前手机界面(文字、按钮、布局)
- 自然语言驱动:用户用口语化指令描述需求
- 自动规划与执行:AI自行决定下一步操作(点击、滑动、输入等)
- ADB 控制设备:无需Root,通过标准调试接口操控真实手机或模拟器
它的最大亮点在于“意图到动作”的端到端自动化。你不需要写代码、设坐标、录脚本,只需要说:“帮我找一个卖咖啡的博主并关注”。
而且系统还内置安全机制:
- 敏感操作(如支付)会暂停并提示确认
- 遇到验证码或登录弹窗可交由人工处理
- 支持远程WiFi连接,实现无USB线的远程控制
2. 准备工作:环境搭建与设备连接
要让 Open-AutoGLM 正常运行,需要三部分协同工作:
- 云端模型服务(已部署好)
- 本地控制端(我们正在配置)
- 安卓设备(真机或模拟器)
本文假设你已有一台云服务器上运行的 vLLM 服务,并暴露了/v1接口。我们将重点放在本地控制端和手机的配置。
2.1 硬件与软件要求
| 项目 | 要求 |
|---|---|
| 操作系统 | Windows / macOS |
| Python 版本 | 3.10+ |
| 安卓设备 | Android 7.0+ |
| 工具依赖 | ADB(Android Debug Bridge) |
提示:推荐使用 macOS 或 Linux,Windows 对 ADB 的兼容性偶尔会出现问题。
2.2 安装 ADB 工具
ADB 是连接电脑与安卓设备的关键桥梁。
Windows 用户:
- 下载 Android SDK Platform Tools
- 解压后复制文件夹路径(例如
C:\platform-tools) - 添加到系统环境变量 PATH 中:
Win + R→ 输入sysdm.cpl- “高级” → “环境变量” → 在“系统变量”中找到
Path→ 编辑 → 新增路径
- 打开命令行,输入:
adb version如果返回版本号,则安装成功。
macOS 用户:
在终端执行:
export PATH=${PATH}:~/Downloads/platform-tools建议将此命令加入
.zshrc或.bash_profile实现永久生效。
3. 手机端设置:开启调试权限
为了让电脑能控制手机,必须开启开发者选项和USB调试。
3.1 开启开发者模式
- 进入手机“设置”
- 找到“关于手机”
- 连续点击“版本号”7次,直到提示“您已开启开发者模式”
3.2 启用 USB 调试
- 返回设置主菜单,进入“开发者选项”
- 找到“USB调试”,勾选启用
- 当手机通过USB连接电脑时,可能会弹出“允许USB调试?”对话框,请点击“允许”
3.3 安装 ADB Keyboard(关键!)
这是实现文本输入的核心组件。
- 下载 ADB Keyboard APK 并安装
- 进入“语言与输入法”设置
- 将默认输入法切换为ADB Keyboard
作用:后续所有搜索框、用户名输入都将通过 ADB 发送文本,无需手动打字。
4. 部署本地控制端:Open-AutoGLM
接下来我们在本地电脑部署 Open-AutoGLM 的控制代码。
4.1 克隆仓库并安装依赖
# 克隆项目 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # macOS/Linux # 或 venv\Scripts\activate.bat (Windows) # 安装依赖 pip install -r requirements.txt pip install -e .注意:某些包可能因平台差异安装失败,建议使用 Python 3.10 以获得最佳兼容性。
5. 连接设备:USB 或 WiFi
有两种方式连接手机:USB 和 WiFi。前者稳定,后者灵活。
5.1 USB 连接(推荐新手)
- 使用数据线连接手机与电脑
- 手机弹出“允许USB调试?”时点击“允许”
- 终端运行:
adb devices输出应类似:
List of devices attached ABCDEF1234567890 device只要有device标志,说明连接成功。
5.2 WiFi 远程连接(适合长期使用)
如果你不想一直插线,可以用WiFi连接。
第一步:先用USB连接,启动TCP模式
adb tcpip 5555第二步:断开USB,通过IP连接
adb connect 192.168.x.x:5555其中192.168.x.x是你手机的局域网IP(可在设置→WLAN中查看)
再次运行adb devices,应该能看到设备出现在列表中。
6. 实战演示:一句话完成抖音搜索+关注
现在一切准备就绪,让我们来执行一次真实任务:
“打开抖音搜索抖音号为 dycwo11nt61d 的博主并关注他!”
这个指令包含多个步骤:
- 打开抖音 App
- 点击顶部搜索框
- 输入抖音号
dycwo11nt61d - 触发搜索
- 进入用户主页
- 点击“关注”按钮
这些都不需要你做任何事,全部由 AI 自动完成。
6.1 启动命令行代理
在 Open-AutoGLM 目录下运行:
python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<你的云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"参数说明:
--device-id:来自adb devices的设备ID--base-url:你的云服务器地址和端口(确保防火墙放行)--model:模型名称,目前固定为autoglm-phone-9b- 最后的字符串:自然语言指令
6.2 执行过程观察
运行后你会看到类似日志输出:
[INFO] 截图获取成功 [INFO] 屏幕内容识别:桌面,图标包括抖音、微信、浏览器... [INFO] 动作规划:点击抖音图标 [INFO] 执行点击 (x=540, y=800) [INFO] 检测到搜索框,准备输入 [INFO] 通过 ADB Keyboard 输入文本:dycwo11nt61d [INFO] 触发回车键进行搜索 [INFO] 找到用户卡片,点击进入主页 [INFO] 检测到“关注”按钮,执行点击 [SUCCESS] 任务完成!整个过程大约持续 15~30 秒,取决于网络和设备响应速度。
7. Python API 方式调用(进阶用法)
除了命令行,你也可以在自己的项目中集成 Open-AutoGLM 的能力。
from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent # 初始化连接 conn = ADBConnection() success, msg = conn.connect("192.168.1.100:5555") if not success: print(f"连接失败:{msg}") exit() # 创建 AI 代理 agent = PhoneAgent( base_url="http://your-server-ip:8800/v1", model_name="autoglm-phone-9b" ) # 下达指令 instruction = "打开小红书,搜索‘城市露营’相关笔记" result = agent.run(instruction) print("任务状态:", result.status) print("执行日志:", result.log)这种方式非常适合嵌入到自动化测试、营销机器人、客服助手等场景中。
8. 常见问题与排查建议
即使配置正确,也可能遇到一些常见问题。以下是高频故障及解决方案:
8.1 ADB 连接失败
现象:adb devices显示unauthorized或无设备
解决方法:
- 确保手机开启了“USB调试”
- 拔插USB线,重新授权
- 清除授权记录:
adb kill-server && adb start-server
8.2 模型无响应或乱码
现象:AI一直卡住,或输出看不懂的文字
检查点:
- 确认云服务器上的 vLLM 服务正常运行
- 检查
max-model-len是否足够(建议 ≥ 8192) - 显存是否充足(至少 24GB for 9B 模型)
- 请求头是否正确(Content-Type: application/json)
8.3 输入中文失败
原因:ADB Keyboard 未设为默认输入法
解决:
- 进入“语言与输入法”设置
- 将 ADB Keyboard 设为首选输入法
- 可尝试重启手机后再试
8.4 WiFi 连接不稳定
建议:
- 使用 5GHz WiFi 网络
- 手机与路由器距离不要太远
- 若频繁掉线,改用 USB 连接更可靠
9. 应用场景拓展:不止于抖音关注
虽然我们以“抖音关注”为例,但 Open-AutoGLM 的潜力远不止于此。以下是一些实用场景:
| 场景 | 指令示例 |
|---|---|
| 电商比价 | “打开京东和淘宝,查iPhone 15的价格” |
| 内容采集 | “在小红书搜索‘北京周末去哪玩’,保存前10条笔记标题” |
| 社交运营 | “批量关注微博上‘科技’话题下的活跃用户” |
| 自动打卡 | “每天上午9点打开企业微信打卡” |
| 测试自动化 | “在App内完成注册流程,填写测试信息” |
更重要的是,这些任务都可以通过自然语言定义,无需编写复杂的UI自动化脚本。
10. 总结:让AI成为你的手机管家
Open-AutoGLM 正在重新定义“自动化”的边界。它不再是程序员专属的 Selenium 或 Appium,而是普通人也能使用的“语音遥控器”。
通过本文的实战,你应该已经掌握了:
- 如何配置 ADB 与手机连接
- 如何部署 Open-AutoGLM 控制端
- 如何用一句话完成复杂手机操作
- 如何排查常见问题
- 如何将其集成到自己的项目中
未来,这类 AI Agent 会越来越多地出现在我们的生活中:帮你回消息、订餐厅、刷短视频、管理社交媒体……真正的“数字分身”正在到来。
而现在,你已经迈出了第一步。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。