Open-AutoGLM+小红书自动化:搜索美食内容AI执行部署实战

Open-AutoGLM+小红书自动化:搜索美食内容AI执行部署实战

1. 让手机自己“看”和“动”:AutoGLM-Phone 是什么?

你有没有想过,有一天只要说一句“帮我找附近评分高的川菜馆”,手机就能自动打开小红书、输入关键词、翻看笔记、甚至截图收藏推荐?这不再是科幻场景——Open-AutoGLM正在让这一切变成现实。

这是由智谱开源推出的手机端 AI Agent 框架,名为AutoGLM-Phone。它不是一个简单的脚本工具,而是一个真正能“看懂屏幕”并“动手操作”的智能体。它结合了视觉语言模型(VLM)与 Android 调试桥(ADB),通过多模态理解手机界面,并用自然语言驱动自动化任务。

比如你说:“打开小红书搜美食”,系统会:

  1. 理解你的指令意图;
  2. 分析当前手机屏幕显示的内容(是桌面?还是某个App?);
  3. 规划出一系列动作路径:启动应用 → 定位搜索框 → 输入文字 → 点击搜索;
  4. 最终完成整个流程,全程无需你手动点击。

更关键的是,这个过程不是靠硬编码规则实现的,而是基于大模型的理解与推理能力。这意味着它可以适应不同UI布局、应对弹窗跳转,甚至在遇到登录或验证码时暂停并提示人工介入。

这套框架背后的核心项目叫Phone Agent,它是构建在 AutoGLM 上的完整解决方案。除了本地控制外,还支持远程调试、WiFi连接、敏感操作确认机制等企业级功能,非常适合用于自动化测试、个人助理、数据采集等场景。


2. 准备工作:软硬件环境搭建

要让 AI 接管你的手机,第一步是把电脑、手机和云端模型打通。我们先从本地控制端开始准备。

2.1 硬件与基础环境要求

项目要求
操作系统Windows 或 macOS
Python 版本建议 3.10 及以上
手机设备Android 7.0+ 的真机或模拟器
ADB 工具必须安装并配置好

什么是 ADB?
ADB(Android Debug Bridge)是安卓官方提供的调试工具,允许你在电脑上发送命令控制手机,比如点击、滑动、安装App、获取屏幕截图等。Phone Agent 就是通过 ADB 来“替你操作手机”的。

2.2 安装与配置 ADB

Windows 用户:
  1. 下载 Android SDK Platform Tools 并解压。
  2. Win + R输入sysdm.cpl,进入“系统属性” → “高级” → “环境变量”。
  3. 在“系统变量”中找到Path,点击编辑,添加你解压后的 platform-tools 文件夹路径(例如:C:\platform-tools)。
  4. 打开命令行,输入:
    adb version
    如果返回版本号,则说明配置成功。
macOS 用户:

打开终端,执行以下命令(假设你把文件解压到了 Downloads 目录):

export PATH=${PATH}:~/Downloads/platform-tools

你可以将这行命令写入.zshrc.bash_profile,避免每次重启都要重新设置。

验证方式同样是运行:

adb version

3. 手机端设置:开启调试权限

接下来需要让你的手机“信任”电脑的控制请求。

3.1 开启开发者选项

进入手机设置 → 关于手机 → 连续点击“版本号”7次,直到提示“您已开启开发者模式”。

3.2 启用 USB 调试

返回设置主菜单 → 开发者选项 → 找到“USB 调试”,勾选启用。

注意:部分品牌手机(如小米、华为)可能还需要额外开启“USB 调试(安全设置)”或授权确认弹窗,请根据提示操作。

3.3 安装 ADB Keyboard(重要!)

默认情况下,AI 无法输入中文或特殊字符。为了解决这个问题,我们需要一个特殊的输入法:ADB Keyboard

  • 下载地址:https://github.com/senzhk/ADBKeyBoard
  • 安装 APK 到手机后,在“语言与输入法”设置中,将默认输入法切换为ADB Keyboard

这样,AI 就可以通过 ADB 命令直接向输入框发送文本,不再依赖虚拟键盘点击。


4. 部署 Open-AutoGLM 控制端

现在轮到核心代码登场了。

4.1 克隆项目仓库

在本地电脑打开终端,执行:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

4.2 安装依赖库

确保你已经激活了一个干净的 Python 环境(推荐使用 virtualenv 或 conda),然后安装所需包:

pip install -r requirements.txt pip install -e .

-e .表示以可编辑模式安装,方便后续修改源码调试。


5. 连接设备:USB 与 WiFi 两种方式

设备连接是整个流程的关键环节。我们有两种方式:USB 和 WiFi。

5.1 使用 USB 连接(推荐初学者)

  1. 用数据线将手机连接电脑。

  2. 手机弹出“允许USB调试?”对话框时,点击“允许”并勾选“始终允许”。

  3. 在终端运行:

    adb devices

    输出应类似:

    List of devices attached 1234567890abcde device

    出现device状态即表示连接成功。

5.2 使用 WiFi 远程连接(适合长期运行)

如果你希望摆脱数据线束缚,可以使用无线 ADB。

第一步:先用 USB 连接,开启 TCP/IP 模式
adb tcpip 5555

这条命令会让手机监听 5555 端口等待网络连接。

第二步:拔掉 USB,通过 IP 连接

查看手机 Wi-Fi 设置中的 IP 地址(如192.168.1.105),然后运行:

adb connect 192.168.1.105:5555

再次运行adb devices,如果看到设备列表中有该 IP,说明连接成功。

提示:一旦设置完成,下次开机只要在同一局域网内,就可以直接adb connect,无需再插线。


6. 启动 AI 代理:让模型接管手机

一切就绪,现在我们可以下达第一条自然语言指令了!

6.1 命令行方式运行任务

在项目根目录下执行:

python main.py \ --device-id 1234567890abcde \ --base-url http://<云服务器IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索美食相关内容"

参数说明:

  • --device-id:来自adb devices显示的设备ID;
  • --base-url:你的云服务器上 vLLM 或其他推理服务暴露的 API 地址;
  • --model:指定使用的模型名称;
  • 最后的字符串:你要交给 AI 执行的任务描述。

示例扩展:你也可以尝试更复杂的指令,比如
“打开小红书,搜索‘上海 brunch 推荐’,浏览前五篇笔记,点赞两篇你觉得不错的。”

AI 会自动拆解任务步骤:

  1. 查找并启动小红书 App;
  2. 识别首页的搜索图标并点击;
  3. 调用 ADB Keyboard 输入“上海 brunch 推荐”;
  4. 触发搜索,滚动浏览结果页;
  5. 根据内容判断是否点赞。

整个过程完全自主完成。


6.2 使用 Python API 实现远程管理

除了命令行,你还可以在自己的脚本中集成 Phone Agent 的能力。

from phone_agent.adb import ADBConnection, list_devices # 创建连接管理器 conn = ADBConnection() # 连接远程设备 success, message = conn.connect("192.168.1.105:5555") print(f"连接状态: {message}") # 列出所有已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备 IP(用于后续连接) ip = conn.get_device_ip() print(f"设备当前 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.105:5555")

这种方式特别适合做批量设备管理、定时任务调度或嵌入到更大的自动化平台中。


7. 实战案例:自动搜索小红书美食笔记

让我们来走一遍完整的实战流程。

7.1 目标任务

“打开小红书,搜索‘杭州甜品探店’,打开第一篇笔记,阅读标题和正文,然后返回。”

7.2 执行步骤回顾

  1. 启动程序:运行main.py,传入上述指令;
  2. 模型感知:AI 截取当前屏幕图像,送入视觉语言模型分析;
  3. 动作规划
    • 当前页面是桌面 → 找到小红书图标 → 点击启动;
    • 检测到首页有搜索栏 → 点击进入;
    • 调用 ADB Keyboard 输入“杭州甜品探店”;
    • 点击“搜索”按钮;
    • 加载结果页后,点击第一篇笔记封面;
    • 阅读页面元素(标题、作者、正文段落);
    • 模拟手势返回。
  4. 结束任务:输出日志:“已完成搜索与浏览”。

7.3 效果观察

你会发现,AI 不仅能准确识别 UI 元素,还能理解“第一篇笔记”这样的语义表达。即使界面略有变化(比如广告位插入),它也能通过上下文判断目标位置。

此外,当遇到登录弹窗或评论区需要验证时,系统会自动暂停,等待人工处理后再继续,避免误操作。


8. 常见问题与排查建议

在实际部署中,可能会遇到一些常见问题。以下是高频故障及解决方法:

8.1 ADB 连接失败

  • 现象adb devices显示unauthorized
    原因:未授权电脑调试权限
    解决:断开重连,手机端确认授权弹窗

  • 现象adb connect失败或超时
    原因:防火墙阻止、IP错误、手机未开启 tcpip
    解决:检查网络连通性,确认adb tcpip 5555已执行

8.2 AI 操作卡住或乱点

  • 可能原因

    • 屏幕分辨率过高导致 OCR 识别延迟;
    • 模型响应慢或返回无效动作;
    • ADB Keyboard 未设为默认输入法。
  • 建议

    • 使用中低分辨率设备测试;
    • 检查base-url是否正确指向运行中的 vLLM 服务;
    • config.yaml中调整超时时间和重试次数。

8.3 模型无响应或输出乱码

  • 检查项
    • vLLM 启动参数是否包含--max-model-len 8192--limit-mm-per-prompt 10
    • GPU 显存是否足够加载 9B 模型;
    • 请求头 Content-Type 是否为application/json

9. 总结:迈向真正的手机智能体时代

通过本次实战,我们完成了从零到一的 Open-AutoGLM 部署全过程,实现了用一句话指令驱动手机自动完成复杂任务的能力。无论是搜索小红书美食、关注抖音博主,还是批量处理消息,这种基于多模态大模型的 AI Agent 正在重新定义人机交互的方式。

它的价值不仅在于“省事”,更在于通用性——同一个框架,换一条指令,就能适应完全不同 App 和场景。未来,它可以成为你的数字分身,帮你处理重复性操作,提升效率。

当然,目前仍有一些限制:对低端设备兼容性一般、依赖稳定网络、部分操作需人工兜底。但随着模型轻量化和边缘计算的发展,这些都将逐步改善。

下一步你可以尝试:

  • 将多个指令组合成工作流;
  • 接入微信、微博等更多 App;
  • 结合 RPA 工具打造全自动信息采集系统。

技术的边界,永远由实践者拓展。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1197917.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Godot开源RPG框架终极指南:打造回合制冒险游戏从未如此简单

Godot开源RPG框架终极指南&#xff1a;打造回合制冒险游戏从未如此简单 【免费下载链接】godot-open-rpg Learn to create turn-based combat with this Open Source RPG demo ⚔ 项目地址: https://gitcode.com/gh_mirrors/go/godot-open-rpg 想要快速开发属于自己的角…

5分钟掌握RPiPlay零配置发现:mDNS服务注册终极指南

5分钟掌握RPiPlay零配置发现&#xff1a;mDNS服务注册终极指南 【免费下载链接】RPiPlay An open-source AirPlay mirroring server for the Raspberry Pi. Supports iOS 9 and up. 项目地址: https://gitcode.com/gh_mirrors/rpi/RPiPlay 还在为复杂的AirPlay配置头疼吗…

Qwen3-4B写作体验:一篇爆款公众号文章是如何诞生的

Qwen3-4B写作体验&#xff1a;一篇爆款公众号文章是如何诞生的 你有没有想过&#xff0c;一篇阅读量10万的公众号文章&#xff0c;可能不是由某个深夜码字的编辑写的&#xff0c;而是由一个AI模型在几分钟内生成的&#xff1f;听起来像科幻&#xff0c;但今天我要告诉你——这…

混合数据微调进阶:通用能力+个性认知同步训练

混合数据微调进阶&#xff1a;通用能力个性认知同步训练 在大模型时代&#xff0c;如何让一个强大的基础模型既保持其广泛的通用能力&#xff0c;又能具备特定身份或角色的个性化特征&#xff0c;是许多开发者和企业关注的核心问题。本文将深入探讨一种高效且实用的微调策略—…

专业级NDS模拟器:melonDS安卓版深度使用指南

专业级NDS模拟器&#xff1a;melonDS安卓版深度使用指南 【免费下载链接】melonDS-android Android port of melonDS 项目地址: https://gitcode.com/gh_mirrors/me/melonDS-android 作为一款高度精准的NDS模拟器实现&#xff0c;melonDS安卓版通过精确的ARM处理器仿真和…

draw.io桌面版:专业级离线绘图工具的完全指南

draw.io桌面版&#xff1a;专业级离线绘图工具的完全指南 【免费下载链接】drawio-desktop Official electron build of draw.io 项目地址: https://gitcode.com/GitHub_Trending/dr/drawio-desktop 还在为网络波动打断创作灵感而烦恼吗&#xff1f;draw.io桌面版正是你…

Paraformer-large高精度转写实战:工业级ASR模型部署案例

Paraformer-large高精度转写实战&#xff1a;工业级ASR模型部署案例 1. 镜像核心能力与应用场景 你是否遇到过这样的问题&#xff1a;会议录音长达两小时&#xff0c;手动整理文字耗时耗力&#xff1f;客户访谈音频内容重要&#xff0c;但听一遍又一遍效率太低&#xff1f;传…

Gemma 3 270M:Unsloth动态量化文本生成新方案

Gemma 3 270M&#xff1a;Unsloth动态量化文本生成新方案 【免费下载链接】gemma-3-270m-it-unsloth-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/gemma-3-270m-it-unsloth-bnb-4bit 导语&#xff1a;Google DeepMind推出的轻量级大模型Gemma 3 270…

HeyGem.ai终极指南:3天从零打造专业级AI视频生成平台

HeyGem.ai终极指南&#xff1a;3天从零打造专业级AI视频生成平台 【免费下载链接】HeyGem.ai 项目地址: https://gitcode.com/GitHub_Trending/he/HeyGem.ai 想要在本地环境中构建一个功能完整的AI视频生成系统吗&#xff1f;HeyGem.ai作为一款完全开源的数字形象生成工…

Supertonic轻量级TTS揭秘:边缘设备上的极致性能

Supertonic轻量级TTS揭秘&#xff1a;边缘设备上的极致性能 在语音合成技术飞速发展的今天&#xff0c;大多数TTS&#xff08;Text-to-Speech&#xff09;系统仍然依赖云端处理&#xff0c;带来延迟、隐私泄露和网络依赖等问题。而随着智能终端、IoT设备和本地化AI应用的兴起&…

Qwen3-Next-80B-FP8:百万长文本处理的终极AI助手

Qwen3-Next-80B-FP8&#xff1a;百万长文本处理的终极AI助手 【免费下载链接】Qwen3-Next-80B-A3B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Next-80B-A3B-Instruct-FP8 导语&#xff1a;Qwen3-Next-80B-A3B-Instruct-FP8模型正式发布&am…

3步搞定企业级本地LLM:MCP-Agent全链路部署实战

3步搞定企业级本地LLM&#xff1a;MCP-Agent全链路部署实战 【免费下载链接】mcp-agent Build effective agents using Model Context Protocol and simple workflow patterns 项目地址: https://gitcode.com/GitHub_Trending/mc/mcp-agent 还在为云端API费用过高而头疼…

VMware虚拟机隐身终极教程:3步彻底绕过反虚拟机检测

VMware虚拟机隐身终极教程&#xff1a;3步彻底绕过反虚拟机检测 【免费下载链接】VmwareHardenedLoader Vmware Hardened VM detection mitigation loader (anti anti-vm) 项目地址: https://gitcode.com/gh_mirrors/vm/VmwareHardenedLoader 你是否遇到过这样的困扰&am…

GPEN在婚庆摄影后期中的批量应用:效率提升实证分析

GPEN在婚庆摄影后期中的批量应用&#xff1a;效率提升实证分析 1. 婚庆修图的痛点与GPEN的破局之道 你有没有接过一场婚礼跟拍&#xff1f;几十张甚至上百张人像照片&#xff0c;每一张都要调肤色、去瑕疵、提眼神光。传统修图流程中&#xff0c;哪怕只是轻微优化&#xff0c…

M系列Mac终极指南:5步搞定Multipass虚拟机配置

M系列Mac终极指南&#xff1a;5步搞定Multipass虚拟机配置 【免费下载链接】multipass Multipass orchestrates virtual Ubuntu instances 项目地址: https://gitcode.com/gh_mirrors/mu/multipass 还在为M系列芯片Mac无法顺畅运行Linux虚拟机而烦恼吗&#xff1f;&…

Chatbox终极使用指南:如何快速上手这款免费AI桌面客户端

Chatbox终极使用指南&#xff1a;如何快速上手这款免费AI桌面客户端 【免费下载链接】chatbox Chatbox是一款开源的AI桌面客户端&#xff0c;它提供简单易用的界面&#xff0c;助用户高效与AI交互。可以有效提升工作效率&#xff0c;同时确保数据安全。源项目地址&#xff1a;h…

如何快速配置本地AI浏览器扩展:终极完整指南

如何快速配置本地AI浏览器扩展&#xff1a;终极完整指南 【免费下载链接】page-assist Use your locally running AI models to assist you in your web browsing 项目地址: https://gitcode.com/GitHub_Trending/pa/page-assist 在当今AI技术飞速发展的时代&#xff0c…

实测GPEN镜像在多种肤色上的修复能力

实测GPEN镜像在多种肤色上的修复能力 你有没有遇到过这样的情况&#xff1a;一张老照片里的人物肤色发黄、暗沉&#xff0c;甚至因为光照问题导致面部颜色严重失真&#xff1f;更常见的是&#xff0c;不同肤色的人在同一张照片中被AI处理后&#xff0c;出现“美白过度”或“色…

MapsModelsImporter终极指南:5步实现真实世界3D建模革命

MapsModelsImporter终极指南&#xff1a;5步实现真实世界3D建模革命 【免费下载链接】MapsModelsImporter A Blender add-on to import models from google maps 项目地址: https://gitcode.com/gh_mirrors/ma/MapsModelsImporter 你是否曾为构建真实城市场景而苦恼&…

YOLO26单卡训练方案:消费级GPU适配实战

YOLO26单卡训练方案&#xff1a;消费级GPU适配实战 最新 YOLO26 官方版训练与推理镜像 本镜像基于 YOLO26 官方代码库 构建&#xff0c;预装了完整的深度学习开发环境&#xff0c;集成了训练、推理及评估所需的所有依赖&#xff0c;开箱即用。 1. 镜像环境说明 该镜像为YOL…