Open-AutoGLM手机自动化实战:搜索+关注一键完成

Open-AutoGLM手机自动化实战:搜索+关注一键完成

你有没有想过,只需一句话就能让AI帮你操作手机?比如:“打开小红书搜美食博主并关注”,然后你的手机就自动执行了整个流程——打开App、输入关键词、点击搜索、进入主页、完成关注。听起来像科幻?现在它已经能实现了。

这背后的核心技术就是Open-AutoGLM—— 智谱开源的手机端AI Agent框架。它不是简单的脚本工具,而是一个真正理解屏幕内容、能“看”会“动”的智能体。通过视觉语言模型 + ADB控制 + 自然语言指令解析,它可以像人一样使用手机,完成复杂任务。

本文将带你从零开始,实操一次完整的自动化流程:在抖音中搜索指定账号并自动关注。全程无需手动点击,只要一句话,剩下的交给AI。


1. 什么是 Open-AutoGLM?

Open-AutoGLM 是基于 AutoGLM 构建的手机智能助理框架,核心能力是:

  • 多模态感知:通过截图理解当前手机界面(文字、按钮、布局)
  • 自然语言驱动:用户用口语化指令描述需求
  • 自动规划与执行:AI自行决定下一步操作(点击、滑动、输入等)
  • ADB 控制设备:无需Root,通过标准调试接口操控真实手机或模拟器

它的最大亮点在于“意图到动作”的端到端自动化。你不需要写代码、设坐标、录脚本,只需要说:“帮我找一个卖咖啡的博主并关注”。

而且系统还内置安全机制:

  • 敏感操作(如支付)会暂停并提示确认
  • 遇到验证码或登录弹窗可交由人工处理
  • 支持远程WiFi连接,实现无USB线的远程控制

2. 准备工作:环境搭建与设备连接

要让 Open-AutoGLM 正常运行,需要三部分协同工作:

  1. 云端模型服务(已部署好)
  2. 本地控制端(我们正在配置)
  3. 安卓设备(真机或模拟器)

本文假设你已有一台云服务器上运行的 vLLM 服务,并暴露了/v1接口。我们将重点放在本地控制端和手机的配置。

2.1 硬件与软件要求

项目要求
操作系统Windows / macOS
Python 版本3.10+
安卓设备Android 7.0+
工具依赖ADB(Android Debug Bridge)

提示:推荐使用 macOS 或 Linux,Windows 对 ADB 的兼容性偶尔会出现问题。

2.2 安装 ADB 工具

ADB 是连接电脑与安卓设备的关键桥梁。

Windows 用户:
  1. 下载 Android SDK Platform Tools
  2. 解压后复制文件夹路径(例如C:\platform-tools
  3. 添加到系统环境变量 PATH 中:
    • Win + R→ 输入sysdm.cpl
    • “高级” → “环境变量” → 在“系统变量”中找到Path→ 编辑 → 新增路径
  4. 打开命令行,输入:
adb version

如果返回版本号,则安装成功。

macOS 用户:

在终端执行:

export PATH=${PATH}:~/Downloads/platform-tools

建议将此命令加入.zshrc.bash_profile实现永久生效。


3. 手机端设置:开启调试权限

为了让电脑能控制手机,必须开启开发者选项和USB调试。

3.1 开启开发者模式

  1. 进入手机“设置”
  2. 找到“关于手机”
  3. 连续点击“版本号”7次,直到提示“您已开启开发者模式”

3.2 启用 USB 调试

  1. 返回设置主菜单,进入“开发者选项”
  2. 找到“USB调试”,勾选启用
  3. 当手机通过USB连接电脑时,可能会弹出“允许USB调试?”对话框,请点击“允许”

3.3 安装 ADB Keyboard(关键!)

这是实现文本输入的核心组件。

  1. 下载 ADB Keyboard APK 并安装
  2. 进入“语言与输入法”设置
  3. 将默认输入法切换为ADB Keyboard

作用:后续所有搜索框、用户名输入都将通过 ADB 发送文本,无需手动打字。


4. 部署本地控制端:Open-AutoGLM

接下来我们在本地电脑部署 Open-AutoGLM 的控制代码。

4.1 克隆仓库并安装依赖

# 克隆项目 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # macOS/Linux # 或 venv\Scripts\activate.bat (Windows) # 安装依赖 pip install -r requirements.txt pip install -e .

注意:某些包可能因平台差异安装失败,建议使用 Python 3.10 以获得最佳兼容性。


5. 连接设备:USB 或 WiFi

有两种方式连接手机:USB 和 WiFi。前者稳定,后者灵活。

5.1 USB 连接(推荐新手)

  1. 使用数据线连接手机与电脑
  2. 手机弹出“允许USB调试?”时点击“允许”
  3. 终端运行:
adb devices

输出应类似:

List of devices attached ABCDEF1234567890 device

只要有device标志,说明连接成功。

5.2 WiFi 远程连接(适合长期使用)

如果你不想一直插线,可以用WiFi连接。

第一步:先用USB连接,启动TCP模式
adb tcpip 5555
第二步:断开USB,通过IP连接
adb connect 192.168.x.x:5555

其中192.168.x.x是你手机的局域网IP(可在设置→WLAN中查看)

再次运行adb devices,应该能看到设备出现在列表中。


6. 实战演示:一句话完成抖音搜索+关注

现在一切准备就绪,让我们来执行一次真实任务:

“打开抖音搜索抖音号为 dycwo11nt61d 的博主并关注他!”

这个指令包含多个步骤:

  1. 打开抖音 App
  2. 点击顶部搜索框
  3. 输入抖音号dycwo11nt61d
  4. 触发搜索
  5. 进入用户主页
  6. 点击“关注”按钮

这些都不需要你做任何事,全部由 AI 自动完成。

6.1 启动命令行代理

在 Open-AutoGLM 目录下运行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://<你的云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices的设备ID
  • --base-url:你的云服务器地址和端口(确保防火墙放行)
  • --model:模型名称,目前固定为autoglm-phone-9b
  • 最后的字符串:自然语言指令

6.2 执行过程观察

运行后你会看到类似日志输出:

[INFO] 截图获取成功 [INFO] 屏幕内容识别:桌面,图标包括抖音、微信、浏览器... [INFO] 动作规划:点击抖音图标 [INFO] 执行点击 (x=540, y=800) [INFO] 检测到搜索框,准备输入 [INFO] 通过 ADB Keyboard 输入文本:dycwo11nt61d [INFO] 触发回车键进行搜索 [INFO] 找到用户卡片,点击进入主页 [INFO] 检测到“关注”按钮,执行点击 [SUCCESS] 任务完成!

整个过程大约持续 15~30 秒,取决于网络和设备响应速度。


7. Python API 方式调用(进阶用法)

除了命令行,你也可以在自己的项目中集成 Open-AutoGLM 的能力。

from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent # 初始化连接 conn = ADBConnection() success, msg = conn.connect("192.168.1.100:5555") if not success: print(f"连接失败:{msg}") exit() # 创建 AI 代理 agent = PhoneAgent( base_url="http://your-server-ip:8800/v1", model_name="autoglm-phone-9b" ) # 下达指令 instruction = "打开小红书,搜索‘城市露营’相关笔记" result = agent.run(instruction) print("任务状态:", result.status) print("执行日志:", result.log)

这种方式非常适合嵌入到自动化测试、营销机器人、客服助手等场景中。


8. 常见问题与排查建议

即使配置正确,也可能遇到一些常见问题。以下是高频故障及解决方案:

8.1 ADB 连接失败

现象adb devices显示unauthorized或无设备

解决方法

  • 确保手机开启了“USB调试”
  • 拔插USB线,重新授权
  • 清除授权记录:adb kill-server && adb start-server

8.2 模型无响应或乱码

现象:AI一直卡住,或输出看不懂的文字

检查点

  • 确认云服务器上的 vLLM 服务正常运行
  • 检查max-model-len是否足够(建议 ≥ 8192)
  • 显存是否充足(至少 24GB for 9B 模型)
  • 请求头是否正确(Content-Type: application/json)

8.3 输入中文失败

原因:ADB Keyboard 未设为默认输入法

解决

  • 进入“语言与输入法”设置
  • 将 ADB Keyboard 设为首选输入法
  • 可尝试重启手机后再试

8.4 WiFi 连接不稳定

建议

  • 使用 5GHz WiFi 网络
  • 手机与路由器距离不要太远
  • 若频繁掉线,改用 USB 连接更可靠

9. 应用场景拓展:不止于抖音关注

虽然我们以“抖音关注”为例,但 Open-AutoGLM 的潜力远不止于此。以下是一些实用场景:

场景指令示例
电商比价“打开京东和淘宝,查iPhone 15的价格”
内容采集“在小红书搜索‘北京周末去哪玩’,保存前10条笔记标题”
社交运营“批量关注微博上‘科技’话题下的活跃用户”
自动打卡“每天上午9点打开企业微信打卡”
测试自动化“在App内完成注册流程,填写测试信息”

更重要的是,这些任务都可以通过自然语言定义,无需编写复杂的UI自动化脚本。


10. 总结:让AI成为你的手机管家

Open-AutoGLM 正在重新定义“自动化”的边界。它不再是程序员专属的 Selenium 或 Appium,而是普通人也能使用的“语音遥控器”。

通过本文的实战,你应该已经掌握了:

  • 如何配置 ADB 与手机连接
  • 如何部署 Open-AutoGLM 控制端
  • 如何用一句话完成复杂手机操作
  • 如何排查常见问题
  • 如何将其集成到自己的项目中

未来,这类 AI Agent 会越来越多地出现在我们的生活中:帮你回消息、订餐厅、刷短视频、管理社交媒体……真正的“数字分身”正在到来。

而现在,你已经迈出了第一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1204093.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java,异常处理 - 教程

Java,异常处理 - 教程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &quo…

Paraformer-large语音识别标准化:输出格式统一实战

Paraformer-large语音识别标准化&#xff1a;输出格式统一实战 1. 为什么需要输出格式统一 语音识别结果的“能识别出来”只是第一步&#xff0c;真正影响落地效果的是识别结果的可用性。你有没有遇到过这些情况&#xff1f; 识别出来的文字全是连在一起的一长串&#xff0c…

运动会综合管理系统|基于springboot + vue运动会综合管理系统(源码+数据库+文档)

运动会综合管理系统 目录 基于springboot vue运动会综合管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 基于springboot vue运动会综合管理系统 一、前言 博主…

Qwen All-in-One如何实现零显存开销?技术原理解析

Qwen All-in-One如何实现零显存开销&#xff1f;技术原理解析 1. 背景与挑战&#xff1a;当AI服务遇上边缘计算 在AI应用快速落地的今天&#xff0c;一个现实问题摆在开发者面前&#xff1a;如何在资源受限的设备上运行多个AI功能&#xff1f;比如一台没有GPU的服务器、一块嵌…

FSMN VAD高级参数展开技巧:webUI操作细节图解

FSMN VAD高级参数展开技巧&#xff1a;webUI操作细节图解 1. FSMN VAD模型与系统背景 FSMN VAD是阿里达摩院FunASR项目中开源的语音活动检测模型&#xff0c;专为中文语音场景优化设计。它基于轻量级前馈序列记忆网络&#xff08;FSMN&#xff09;架构&#xff0c;在保持极小…

Sambert语音自然度提升:自回归GPT合成参数详解

Sambert语音自然度提升&#xff1a;自回归GPT合成参数详解 1. Sambert多情感中文语音合成——开箱即用的高质量TTS体验 你有没有遇到过这样的问题&#xff1a;明明输入了一段很走心的文字&#xff0c;结果AI读出来却像机器人在念经&#xff1f;语气生硬、语调平直、毫无感情。…

完整教程:Django中的clean()方法和full_clean()方法

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

一键启动FSMN-VAD,开箱即用的语音检测工具

一键启动FSMN-VAD&#xff0c;开箱即用的语音检测工具 你是否曾为处理长段录音而烦恼&#xff1f;手动剪辑静音片段耗时耗力&#xff0c;自动化工具又配置复杂、依赖繁多。有没有一种方式&#xff0c;能像打开手电筒一样简单&#xff0c;点一下就精准识别出音频中每一句“真正…

输出文件在哪?/root/cv_fft_inpainting_lama目录结构说明

输出文件在哪&#xff1f;/root/cv_fft_inpainting_lama目录结构说明本文不是讲傅里叶变换原理&#xff0c;也不是教你怎么写FFT代码——而是帮你搞清楚&#xff1a;你点下“ 开始修复”之后&#xff0c;图片到底被存到哪了&#xff1f;整个项目文件夹里哪些是关键目录、哪些可…

AI绘画2025趋势实战:Z-Image-Turbo开源模型+Gradio快速上线指南

AI绘画2025趋势实战&#xff1a;Z-Image-Turbo开源模型Gradio快速上线指南 1. 为什么Z-Image-Turbo是2025年最值得上手的AI绘画模型 你有没有试过等一张图生成要一分多钟&#xff1f;或者好不容易调好参数&#xff0c;结果中文提示词直接“失语”&#xff1f;又或者显卡只有1…

黄金一直上涨,猜测跟霉国债务挂钩

目前的所有解释&#xff0c;能解释一部分&#xff0c;却无法解释为什么一直上涨。于是我提出一个猜测&#xff1a;黄金上涨是跟霉国债务挂钩。

2024年AI开发者入门必看:Llama3-8B开源模型部署全流程

2024年AI开发者入门必看&#xff1a;Llama3-8B开源模型部署全流程 1. 为什么Llama3-8B是新手最值得上手的开源大模型 如果你刚接触大模型开发&#xff0c;正纠结该从哪个模型开始练手&#xff0c;又担心显卡不够、环境太复杂、文档看不懂——那Llama3-8B很可能就是你一直在找…

Qwen3-Embedding-4B省算力方案:动态维度输出实战案例

Qwen3-Embedding-4B省算力方案&#xff1a;动态维度输出实战案例 在向量检索、RAG系统和语义搜索等实际工程场景中&#xff0c;嵌入模型的“够用就好”原则越来越被重视。高维向量虽能保留更多语义信息&#xff0c;但会显著增加存储开销、索引构建时间、相似度计算延迟&#x…

如何为不同需求选装修公司?2026年上海装修公司全面评测与推荐,直击增项与工艺痛点

摘要 在上海,家庭装修决策正日益从单纯的价格考量,转向对长期居住品质、过程透明化及服务确定性的综合权衡。面对市场上服务商层次多样、信息不对称以及“增项”、“延期”等行业痼疾,业主在选择合作伙伴时常常陷入…

rc5.d目录作用揭秘,搭配测试脚本更好懂

rc5.d目录作用揭秘&#xff0c;搭配测试脚本更好懂 你有没有遇到过这样的问题&#xff1a;写好了开机自启脚本&#xff0c;却怎么也等不到它自动运行&#xff1f;改了配置、加了权限、甚至重启了三遍&#xff0c;结果系统启动后一查进程&#xff0c;脚本压根没跑——不是脚本写…

微信联系作者,技术支持就在身边

微信联系作者&#xff0c;技术支持就在身边 1. 这不是普通抠图工具&#xff0c;而是一次“人对人”的技术交付 你有没有遇到过这样的情况&#xff1a; 下载了一个AI抠图项目&#xff0c;README里写着“pip install -r requirements.txt”&#xff0c;结果卡在PyTorch版本冲突…

2026年靠谱的焊台测试仪/测试仪品牌厂家排行榜

在工业制造和电子生产领域,焊台测试仪作为关键的质量控制设备,其性能和可靠性直接影响生产效率和产品质量。本文基于产品技术实力、市场口碑、研发投入和售后服务四个维度,对2026年值得信赖的焊台测试仪品牌厂家进行…

新消费品牌如何布局AI搜索?2026年GEO优化推荐与评价,直击场景化营销痛点

由中国领先的行业监测与权威平台《广告主评论》主办、中经总网中经在线(全称中国经济报道)、世界品牌研究院(中国)集团有限公司协办支持的“全球 GEO 厂商评测”,从 GEO 理论奠基、技术实践、创始人背景、技术资质…

AB实验的关键认知(六)分流单元与分析单元

—关注作者&#xff0c;送A/B实验实战工具包 在设计 AB 实验时&#xff0c;我们经常会遇到这样的灵魂拷问&#xff1a; “这个实验是按人 (User) 分流&#xff0c;还是按访问 (Session) 分流&#xff1f;” “我按人分流了&#xff0c;最后能不能算点击率 (CTR) 的 P 值&#x…

AB实验的关键认知(五)综合评估标准 OEC

—关注作者&#xff0c;送A/B实验实战工具包 在 AB 实验的决策会议上&#xff0c;最让人头秃、也最容易引发“撕逼”的场景往往是这样的&#xff1a; 产品经理满面红光地指着 PPT&#xff1a;“大家看&#xff0c;实验组的点击率 (CTR) 显著提升了 5%&#xff0c;P 值小于 0.0…