5分钟上手智谱Phone Agent,AI自动玩转小红书抖音

5分钟上手智谱Phone Agent,AI自动玩转小红书抖音

你有没有想过,让AI像真人一样操作你的手机?不是简单的语音唤醒,而是真正“看”懂屏幕、“点”进App、“搜”出内容,甚至帮你关注博主、点赞视频、查找攻略。听起来像科幻片?现在,借助Open-AutoGLM这个开源项目,这一切已经可以实现。

更关键的是——你不需要高端显卡,也不用自己训练大模型。只需要一台普通电脑、一部安卓手机,再配合智谱的API,就能在5分钟内搭建一个属于自己的AI手机助理。本文将带你从零开始,快速部署并实测它如何自动操作小红书和抖音。


1. 什么是 Open-AutoGLM?

Open-AutoGLM 是由智谱开源的手机端 AI Agent 框架,核心名为AutoGLM-Phone。它不是一个固定脚本,而是一个具备“视觉+语言+决策”能力的智能体。

它的运作方式非常接近人类使用手机的过程:

  • :通过 ADB 截图获取手机当前界面。
  • :把截图和你的自然语言指令(如“打开小红书搜美食”)一起传给视觉语言模型(VLM),让它理解当前页面结构和可操作控件。
  • :模型输出下一步动作(点击坐标、滑动方向、输入文字等),再通过 ADB 发送到手机执行。

整个过程无需手动干预,直到任务完成。你可以把它理解为一个“会动手的大模型”。


2. 准备工作:软硬件与环境配置

要让 AI 接管手机,我们需要三样东西:本地控制端(电脑)安卓设备(手机或模拟器)云端推理服务(智谱 API)

2.1 硬件与系统要求

  • 操作系统:Windows 或 macOS(推荐 Python 3.10+)
  • 安卓设备:Android 7.0 及以上版本
  • 连接方式:USB 数据线 或 同一局域网下的 WiFi 连接
  • 工具依赖:ADB(Android Debug Bridge)

2.2 安装 ADB 工具

ADB 是连接电脑与安卓设备的核心工具。你可以从 Android 官方平台工具页面 下载。

Windows 配置步骤:
  1. 解压下载包到任意目录(例如C:\platform-tools)。
  2. 打开“系统属性” → “高级” → “环境变量”。
  3. 在“系统变量”中找到Path,点击编辑,添加 ADB 解压路径。
  4. 打开命令行,输入adb version,若显示版本号则说明安装成功。
macOS 配置方法:

在终端中执行以下命令(假设解压路径为~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

建议将该行写入.zshrc.bash_profile文件,避免每次重启终端都要重新设置。


3. 手机端设置:开启调试与输入法

3.1 开启开发者模式与 USB 调试

这是必须的操作,否则电脑无法识别设备。

  1. 进入手机“设置” → “关于手机” → 连续点击“版本号”约 7~10 次,直到提示“您已进入开发者模式”。
  2. 返回设置主菜单,进入“开发者选项”。
  3. 启用“USB 调试”功能。

注意:部分品牌手机(如小米、华为)可能还需额外开启“OEM解锁”或“USB调试(安全设置)”,请根据机型查阅相关说明。

3.2 安装 ADB Keyboard 输入法

由于 AI 需要向输入框发送文本(比如搜索关键词),但标准 ADB 不支持中文输入,因此需要安装专用输入法。

  1. 下载 ADBKeyboard.apk。
  2. 使用命令行安装:
adb install -r ADBKeyboard.apk
  1. 安装完成后,在手机“语言与输入法”设置中,将默认输入法切换为ADB Keyboard

这样,AI 就能通过 ADB 命令直接输入中文了。


4. 部署控制端代码

接下来我们在本地电脑上部署 Open-AutoGLM 的控制程序。

4.1 克隆项目并安装依赖

打开终端,执行以下命令:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境(推荐) python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .

4.2 获取智谱 BigModel API Key

我们不打算本地部署大模型(那需要高性能 GPU),而是调用智谱提供的云端 API,成本低且易用。

  1. 访问 智谱 AI 开放平台 并注册账号。
  2. 进入“我的 API Key”页面,创建一个新的密钥。
  3. 复制保存你的API Key,后续会用到。

新用户通常有免费额度,足够日常测试使用。


5. 连接设备并启动 AI 代理

一切准备就绪,现在开始让 AI 接管手机。

5.1 检查设备连接状态

确保手机通过 USB 连接到电脑,并在弹出的授权窗口中点击“允许”。

在终端运行:

adb devices

如果看到类似如下输出,说明设备已正确连接:

List of devices attached 1234567890abc device

记下这串设备 ID,后面要用。

5.2 启动 AI 执行单条指令

我们可以直接传入一条自然语言指令,让 AI 自动完成全流程操作。

python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开小红书搜索南京旅游攻略"

参数说明:

  • --device-id:通过adb devices获取的设备标识。
  • --base-url:智谱 API 的接入地址。
  • --model:指定使用的模型名称。
  • --apikey:你的 API 密钥(注意保留引号)。
  • 最后的字符串:你要下达的任务指令。

执行后,你会看到 AI 开始截图、分析界面、规划动作,并逐步完成“打开小红书 → 点击搜索框 → 输入‘南京旅游攻略’ → 查看结果”的全过程。


6. 使用交互模式进行多轮操作

如果你希望连续下达多个指令,而不是每次都重新启动,可以进入交互模式。

只需去掉最后的指令字符串即可:

python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here"

程序启动后会出现提示符:

Enter your task:

这时你可以输入任何任务,例如:

  • “刷新一下首页”
  • “点赞当前页面的第一个视频”
  • “进入个人主页,查看收藏笔记”

AI 会持续监听并执行,直到你手动终止程序。


7. 实测案例:AI 自动操作抖音

让我们来做一个真实测试:让 AI 帮我找到某个特定抖音号并关注。

指令如下:

python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

执行过程如下:

  1. AI 截图当前桌面,识别出抖音图标,点击打开。
  2. 进入首页后,定位底部导航栏的“放大镜”图标(搜索),点击进入。
  3. 找到输入框,调用 ADB Keyboard 输入指定抖音号。
  4. 点击搜索按钮,等待结果加载。
  5. 在搜索结果中找到目标用户,点击进入其主页。
  6. 检测“关注”按钮是否存在,若未关注则点击完成操作。

整个流程全自动,耗时约 30 秒(主要时间花在网络加载和截图传输上)。实测成功率高达 90% 以上,即使界面略有变化也能自适应调整。


8. 常见问题与解决方案

8.1 Windows 下出现编码错误

在运行check_deployment_cn.py或其他脚本时,可能会遇到如下报错:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80

这是因为 Windows 默认使用 GBK 编码读取文件,而项目文件是 UTF-8 格式。

解决方法:修改相关 Python 文件中的open()调用,显式指定编码:

with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)

对所有涉及读取 JSON 或文本文件的地方都做此处理。

8.2 ADB 连接不稳定或断开

  • USB 连接不稳定:尝试更换数据线,或关闭手机的“仅充电”模式提示。
  • WiFi 连接失败:先用 USB 执行adb tcpip 5555,再断开 USB 执行adb connect <手机IP>:5555
  • 防火墙拦截:确保云服务器或本地网络未屏蔽 ADB 端口(默认 5555)。

8.3 模型响应慢或无响应

  • 检查 API Key 是否有效。
  • 确认--base-url地址正确。
  • 查看智谱平台是否有调用频率限制或额度耗尽。
  • 可尝试减少指令复杂度,分步执行。

9. 它是如何工作的?深入原理简析

虽然我们不需要懂底层代码也能使用,但了解其工作流程有助于更好地调试和优化。

9.1 四步闭环:感知 → 理解 → 决策 → 执行

  1. 截图上传:每一步操作前,程序通过adb shell screencap获取当前屏幕图像。
  2. 多模态推理:图像 + 用户指令被送入视觉语言模型(VLM),模型输出结构化动作指令,如:
    {"action": "tap", "x": 540, "y": 800}
  3. 动作执行:程序解析指令,调用对应 ADB 命令,例如:
    adb shell input tap 540 800
  4. 循环迭代:执行后再次截图,判断任务是否完成,否则继续下一轮推理。

9.2 支持的动作类型

  • tap:点击某坐标
  • swipe:滑动(上/下/左/右)
  • type:输入文本
  • back:返回键
  • home:回到桌面

这些动作组合起来,就能模拟几乎所有手动操作。


10. 总结:AI 助理的未来已来

通过本次实践,我们可以清晰地看到:Open-AutoGLM + 智谱 API 的组合,已经能让 AI 真正“动手”操作手机。无论是刷小红书找攻略,还是在抖音关注达人,都能一键自动化完成。

它的优势非常明显:

  • 门槛低:无需显卡,普通电脑即可运行。
  • 易上手:几条命令就能部署,自然语言驱动。
  • 扩展性强:可用于自动化测试、内容采集、远程协助等多种场景。
  • 安全性高:内置敏感操作确认机制,支持人工接管验证码等环节。

当然,目前也存在一些局限,比如响应延迟受网络影响、复杂 UI 可能误判等,但随着模型能力提升和优化,这些问题正在快速改善。

更重要的是,这种“具身智能”的雏形,预示着大模型不再只是聊天机器人,而是能真正与物理世界交互的“数字员工”。也许不久的将来,我们会习惯说:“帮我让 AI 去订餐、买票、回消息。”

而现在,你已经迈出了第一步。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1198771.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI写真商业化落地指南:GPEN人像增强部署优化案例

AI写真商业化落地指南&#xff1a;GPEN人像增强部署优化案例 你是否遇到过老照片模糊、低清证件照无法使用&#xff0c;或者客户提供的原始人像质量太差影响成片效果&#xff1f;在摄影、写真、婚庆、电商等场景中&#xff0c;这类问题每天都在发生。而如今&#xff0c;AI人像…

Paraformer-large学术研究用途:论文数据集转写实战

Paraformer-large学术研究用途&#xff1a;论文数据集转写实战 1. 镜像核心能力与适用场景 在学术研究中&#xff0c;语音数据的整理和转写是一项耗时且繁琐的基础工作。无论是语言学访谈录音、课堂实录、临床对话记录&#xff0c;还是社会调查中的口头反馈&#xff0c;都需要…

Llama3-8B医疗问答试点:合规性与部署优化实战分析

Llama3-8B医疗问答试点&#xff1a;合规性与部署优化实战分析 1. 引言&#xff1a;为什么选择Llama3-8B做医疗问答试点&#xff1f; 在AI医疗的探索中&#xff0c;我们始终面临一个核心问题&#xff1a;如何在保障数据安全和模型能力之间取得平衡&#xff1f;大型闭源模型虽然…

sam3提示词引导分割模型上线|附Web交互式图像分割实践

sam3提示词引导分割模型上线&#xff5c;附Web交互式图像分割实践 1. 为什么说SAM3是图像分割的“新玩法”&#xff1f; 你有没有遇到过这种情况&#xff1a;想从一张照片里把某个物体单独抠出来&#xff0c;比如一只狗、一辆红色汽车&#xff0c;或者一件蓝色T恤&#xff0c…

IQuest-Coder-V1内存泄漏?稳定性优化部署案例分享

IQuest-Coder-V1内存泄漏&#xff1f;稳定性优化部署案例分享 IQuest-Coder-V1-40B-Instruct 是一款面向软件工程和竞技编程的新一代代码大语言模型。它不仅在多个权威编码基准测试中表现卓越&#xff0c;还通过创新的训练范式和架构设计&#xff0c;重新定义了代码智能的边界…

Sambert企业应用案例:智能播报系统搭建全过程详解

Sambert企业应用案例&#xff1a;智能播报系统搭建全过程详解 1. 引言&#xff1a;为什么企业需要智能语音播报系统&#xff1f; 在现代企业的日常运营中&#xff0c;信息传递的效率和体验正变得越来越重要。无论是商场的促销广播、工厂的安全提示&#xff0c;还是客服中心的…

麦橘超然vs主流AI绘画模型:中低显存设备部署性能对比

麦橘超然vs主流AI绘画模型&#xff1a;中低显存设备部署性能对比 1. 引言&#xff1a;为什么中低显存用户需要更高效的AI绘画方案&#xff1f; 对于大多数普通用户来说&#xff0c;拥有一块高端显卡并不是常态。市面上许多流行的AI绘画模型&#xff0c;如Stable Diffusion XL…

语音处理新手福音:FSMN-VAD控制台极简部署教程

语音处理新手福音&#xff1a;FSMN-VAD控制台极简部署教程 你是否曾为一段长录音中夹杂大量静音而烦恼&#xff1f;手动剪辑费时费力&#xff0c;转写效率大打折扣。有没有一种方法能自动“听”出哪里在说话、哪里是空白&#xff1f;答案是肯定的——FSMN-VAD语音端点检测技术…

Qwen情感分析应用场景:客服系统集成实战案例

Qwen情感分析应用场景&#xff1a;客服系统集成实战案例 1. 场景切入&#xff1a;当客服系统遇上大模型 你有没有遇到过这样的情况&#xff1f;客户在聊天窗口发来一句“你们这服务真是让人难忘”&#xff0c;语气看似平静&#xff0c;但字里行间透着一股火药味。传统规则引擎…

NotaGen音乐生成模型上线|支持112种古典风格组合

NotaGen音乐生成模型上线&#xff5c;支持112种古典风格组合 你是否曾幻想过&#xff0c;只需轻点几下鼠标&#xff0c;就能创作出一首肖邦风格的钢琴曲&#xff0c;或是贝多芬式的交响乐&#xff1f;现在&#xff0c;这一切不再是梦想。NotaGen——一款基于大语言模型&#x…

NewBie-image-Exp0.1新手入门:修改appearance属性生成不同角色

NewBie-image-Exp0.1新手入门&#xff1a;修改appearance属性生成不同角色 NewBie-image-Exp0.1 本镜像已深度预配置了 NewBie-image-Exp0.1 所需的全部环境、依赖与修复后的源码&#xff0c;实现了动漫生成能力的“开箱即用”。通过简单的指令&#xff0c;您即可立即体验 3.5…

Qwen2.5-0.5B数学推理弱?思维链提示优化实战

Qwen2.5-0.5B数学推理弱&#xff1f;思维链提示优化实战 1. 小模型也能做推理&#xff1a;别再低估Qwen2.5-0.5B 你是不是也遇到过这种情况——用Qwen2.5-0.5B-Instruct这类小模型时&#xff0c;让它算个“小明有5个苹果&#xff0c;吃了2个&#xff0c;又买了3个&#xff0c…

无需GPU配置烦恼,BSHM镜像预装环境直接开跑

无需GPU配置烦恼&#xff0c;BSHM镜像预装环境直接开跑 你是否曾为部署一个AI模型而大费周章&#xff1f;安装依赖、匹配版本、调试环境……光是准备阶段就让人望而却步。尤其是面对像 BSHM&#xff08;Boosting Semantic Human Matting&#xff09; 这类基于 TensorFlow 1.15…

AI软件工程落地新选择:IQuest-Coder-V1开源部署实战指南

AI软件工程落地新选择&#xff1a;IQuest-Coder-V1开源部署实战指南 你是否还在为代码生成质量不稳定、模型理解逻辑能力弱、部署流程复杂而烦恼&#xff1f;今天&#xff0c;我们来聊一个真正面向软件工程和竞技编程场景的开源大模型——IQuest-Coder-V1-40B-Instruct。它不是…

避坑指南:Qwen3-4B部署常见问题全解

避坑指南&#xff1a;Qwen3-4B部署常见问题全解 1. 引言&#xff1a;为什么你的Qwen3-4B跑不起来&#xff1f; 你是不是也遇到过这种情况&#xff1a;兴冲冲地拉取了 Qwen3-4B-Instruct-2507 镜像&#xff0c;点击“一键部署”&#xff0c;结果卡在启动页面动弹不得&#xff…

用Qwen-Image-Edit-2511做海报,中英文混排毫无压力

用Qwen-Image-Edit-2511做海报&#xff0c;中英文混排毫无压力 你有没有遇到过这样的场景&#xff1f; 设计一张海外推广海报&#xff0c;既要保留中文主标题的视觉冲击力&#xff0c;又要添加英文副标说明活动详情。改完之后却发现&#xff1a;字体不匹配、排版错位、颜色突兀…

BERT模型更新不便?Docker镜像版本管理实战教程

BERT模型更新不便&#xff1f;Docker镜像版本管理实战教程 1. BERT 智能语义填空服务 你是否遇到过这样的问题&#xff1a;想用BERT做中文语义理解&#xff0c;但每次模型升级都要重新配置环境、下载权重、调试接口&#xff0c;费时又容易出错&#xff1f;更头疼的是&#xf…

Qwen-Image-Edit-2511让非设计师也能高效处理视觉任务

Qwen-Image-Edit-2511让非设计师也能高效处理视觉任务 你有没有遇到过这样的情况&#xff1a;品牌部门突然要求“所有宣传图的色调必须统一为冷色系&#xff0c;LOGO位置调整到右上角”&#xff0c;而设计团队已经排满任务&#xff1f;或者运营需要为不同节日制作上百张风格一…

5分钟部署BERT智能语义填空服务,零基础玩转中文完形填空

5分钟部署BERT智能语义填空服务&#xff0c;零基础玩转中文完形填空 1. 快速上手&#xff1a;什么是中文语义填空&#xff1f; 你有没有遇到过这样的场景&#xff1f; 写文章时卡在一个词上&#xff0c;怎么都想不出最贴切的表达&#xff1b;读古诗时看到一句“床前明月光&am…