5分钟上手智谱Phone Agent,AI自动玩转小红书抖音
你有没有想过,让AI像真人一样操作你的手机?不是简单的语音唤醒,而是真正“看”懂屏幕、“点”进App、“搜”出内容,甚至帮你关注博主、点赞视频、查找攻略。听起来像科幻片?现在,借助Open-AutoGLM这个开源项目,这一切已经可以实现。
更关键的是——你不需要高端显卡,也不用自己训练大模型。只需要一台普通电脑、一部安卓手机,再配合智谱的API,就能在5分钟内搭建一个属于自己的AI手机助理。本文将带你从零开始,快速部署并实测它如何自动操作小红书和抖音。
1. 什么是 Open-AutoGLM?
Open-AutoGLM 是由智谱开源的手机端 AI Agent 框架,核心名为AutoGLM-Phone。它不是一个固定脚本,而是一个具备“视觉+语言+决策”能力的智能体。
它的运作方式非常接近人类使用手机的过程:
- 看:通过 ADB 截图获取手机当前界面。
- 想:把截图和你的自然语言指令(如“打开小红书搜美食”)一起传给视觉语言模型(VLM),让它理解当前页面结构和可操作控件。
- 做:模型输出下一步动作(点击坐标、滑动方向、输入文字等),再通过 ADB 发送到手机执行。
整个过程无需手动干预,直到任务完成。你可以把它理解为一个“会动手的大模型”。
2. 准备工作:软硬件与环境配置
要让 AI 接管手机,我们需要三样东西:本地控制端(电脑)、安卓设备(手机或模拟器)和云端推理服务(智谱 API)。
2.1 硬件与系统要求
- 操作系统:Windows 或 macOS(推荐 Python 3.10+)
- 安卓设备:Android 7.0 及以上版本
- 连接方式:USB 数据线 或 同一局域网下的 WiFi 连接
- 工具依赖:ADB(Android Debug Bridge)
2.2 安装 ADB 工具
ADB 是连接电脑与安卓设备的核心工具。你可以从 Android 官方平台工具页面 下载。
Windows 配置步骤:
- 解压下载包到任意目录(例如
C:\platform-tools)。 - 打开“系统属性” → “高级” → “环境变量”。
- 在“系统变量”中找到
Path,点击编辑,添加 ADB 解压路径。 - 打开命令行,输入
adb version,若显示版本号则说明安装成功。
macOS 配置方法:
在终端中执行以下命令(假设解压路径为~/Downloads/platform-tools):
export PATH=${PATH}:~/Downloads/platform-tools建议将该行写入.zshrc或.bash_profile文件,避免每次重启终端都要重新设置。
3. 手机端设置:开启调试与输入法
3.1 开启开发者模式与 USB 调试
这是必须的操作,否则电脑无法识别设备。
- 进入手机“设置” → “关于手机” → 连续点击“版本号”约 7~10 次,直到提示“您已进入开发者模式”。
- 返回设置主菜单,进入“开发者选项”。
- 启用“USB 调试”功能。
注意:部分品牌手机(如小米、华为)可能还需额外开启“OEM解锁”或“USB调试(安全设置)”,请根据机型查阅相关说明。
3.2 安装 ADB Keyboard 输入法
由于 AI 需要向输入框发送文本(比如搜索关键词),但标准 ADB 不支持中文输入,因此需要安装专用输入法。
- 下载 ADBKeyboard.apk。
- 使用命令行安装:
adb install -r ADBKeyboard.apk- 安装完成后,在手机“语言与输入法”设置中,将默认输入法切换为ADB Keyboard。
这样,AI 就能通过 ADB 命令直接输入中文了。
4. 部署控制端代码
接下来我们在本地电脑上部署 Open-AutoGLM 的控制程序。
4.1 克隆项目并安装依赖
打开终端,执行以下命令:
git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .4.2 获取智谱 BigModel API Key
我们不打算本地部署大模型(那需要高性能 GPU),而是调用智谱提供的云端 API,成本低且易用。
- 访问 智谱 AI 开放平台 并注册账号。
- 进入“我的 API Key”页面,创建一个新的密钥。
- 复制保存你的
API Key,后续会用到。
新用户通常有免费额度,足够日常测试使用。
5. 连接设备并启动 AI 代理
一切准备就绪,现在开始让 AI 接管手机。
5.1 检查设备连接状态
确保手机通过 USB 连接到电脑,并在弹出的授权窗口中点击“允许”。
在终端运行:
adb devices如果看到类似如下输出,说明设备已正确连接:
List of devices attached 1234567890abc device记下这串设备 ID,后面要用。
5.2 启动 AI 执行单条指令
我们可以直接传入一条自然语言指令,让 AI 自动完成全流程操作。
python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开小红书搜索南京旅游攻略"参数说明:
--device-id:通过adb devices获取的设备标识。--base-url:智谱 API 的接入地址。--model:指定使用的模型名称。--apikey:你的 API 密钥(注意保留引号)。- 最后的字符串:你要下达的任务指令。
执行后,你会看到 AI 开始截图、分析界面、规划动作,并逐步完成“打开小红书 → 点击搜索框 → 输入‘南京旅游攻略’ → 查看结果”的全过程。
6. 使用交互模式进行多轮操作
如果你希望连续下达多个指令,而不是每次都重新启动,可以进入交互模式。
只需去掉最后的指令字符串即可:
python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here"程序启动后会出现提示符:
Enter your task:这时你可以输入任何任务,例如:
- “刷新一下首页”
- “点赞当前页面的第一个视频”
- “进入个人主页,查看收藏笔记”
AI 会持续监听并执行,直到你手动终止程序。
7. 实测案例:AI 自动操作抖音
让我们来做一个真实测试:让 AI 帮我找到某个特定抖音号并关注。
指令如下:
python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"执行过程如下:
- AI 截图当前桌面,识别出抖音图标,点击打开。
- 进入首页后,定位底部导航栏的“放大镜”图标(搜索),点击进入。
- 找到输入框,调用 ADB Keyboard 输入指定抖音号。
- 点击搜索按钮,等待结果加载。
- 在搜索结果中找到目标用户,点击进入其主页。
- 检测“关注”按钮是否存在,若未关注则点击完成操作。
整个流程全自动,耗时约 30 秒(主要时间花在网络加载和截图传输上)。实测成功率高达 90% 以上,即使界面略有变化也能自适应调整。
8. 常见问题与解决方案
8.1 Windows 下出现编码错误
在运行check_deployment_cn.py或其他脚本时,可能会遇到如下报错:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80这是因为 Windows 默认使用 GBK 编码读取文件,而项目文件是 UTF-8 格式。
解决方法:修改相关 Python 文件中的open()调用,显式指定编码:
with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)对所有涉及读取 JSON 或文本文件的地方都做此处理。
8.2 ADB 连接不稳定或断开
- USB 连接不稳定:尝试更换数据线,或关闭手机的“仅充电”模式提示。
- WiFi 连接失败:先用 USB 执行
adb tcpip 5555,再断开 USB 执行adb connect <手机IP>:5555。 - 防火墙拦截:确保云服务器或本地网络未屏蔽 ADB 端口(默认 5555)。
8.3 模型响应慢或无响应
- 检查 API Key 是否有效。
- 确认
--base-url地址正确。 - 查看智谱平台是否有调用频率限制或额度耗尽。
- 可尝试减少指令复杂度,分步执行。
9. 它是如何工作的?深入原理简析
虽然我们不需要懂底层代码也能使用,但了解其工作流程有助于更好地调试和优化。
9.1 四步闭环:感知 → 理解 → 决策 → 执行
- 截图上传:每一步操作前,程序通过
adb shell screencap获取当前屏幕图像。 - 多模态推理:图像 + 用户指令被送入视觉语言模型(VLM),模型输出结构化动作指令,如:
{"action": "tap", "x": 540, "y": 800} - 动作执行:程序解析指令,调用对应 ADB 命令,例如:
adb shell input tap 540 800 - 循环迭代:执行后再次截图,判断任务是否完成,否则继续下一轮推理。
9.2 支持的动作类型
tap:点击某坐标swipe:滑动(上/下/左/右)type:输入文本back:返回键home:回到桌面
这些动作组合起来,就能模拟几乎所有手动操作。
10. 总结:AI 助理的未来已来
通过本次实践,我们可以清晰地看到:Open-AutoGLM + 智谱 API 的组合,已经能让 AI 真正“动手”操作手机。无论是刷小红书找攻略,还是在抖音关注达人,都能一键自动化完成。
它的优势非常明显:
- 门槛低:无需显卡,普通电脑即可运行。
- 易上手:几条命令就能部署,自然语言驱动。
- 扩展性强:可用于自动化测试、内容采集、远程协助等多种场景。
- 安全性高:内置敏感操作确认机制,支持人工接管验证码等环节。
当然,目前也存在一些局限,比如响应延迟受网络影响、复杂 UI 可能误判等,但随着模型能力提升和优化,这些问题正在快速改善。
更重要的是,这种“具身智能”的雏形,预示着大模型不再只是聊天机器人,而是能真正与物理世界交互的“数字员工”。也许不久的将来,我们会习惯说:“帮我让 AI 去订餐、买票、回消息。”
而现在,你已经迈出了第一步。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。