手把手教学:如何让AI自动打开小红书搜美食
摘要:本文是一份面向新手的实战指南,教你用 Open-AutoGLM 框架实现“一句话控制手机”的真实能力。不讲抽象原理,只说你能立刻上手的操作——从连上手机、装好工具,到输入“打开小红书搜美食”并亲眼看到AI自动完成整个流程。全程无需写代码,但每一步都附带可验证的命令和截图逻辑说明。
1. 这不是科幻,是今天就能用上的真实能力
1.1 你将亲手实现什么?
不是演示视频,不是概念图,而是你自己的电脑+手机组合,真正跑起来:
- ✅ 输入一句自然语言:“打开小红书搜美食”
- ✅ AI自动识别当前手机屏幕(是否已解锁?是否有小红书图标?)
- ✅ 自动点击小红书App图标启动应用
- ✅ 等待首页加载完成,自动点击搜索框
- ✅ 输入“美食”两个字(支持中文)
- ✅ 点击搜索按钮,展示结果页
整个过程你只需看着,不用碰手机——就像给一个懂安卓的助手下指令。
1.2 它和普通自动化工具有什么不同?
| 对比项 | 传统脚本(如Auto.js) | Open-AutoGLM(AI Agent) |
|---|---|---|
| 指令方式 | 要写坐标、写包名、写XPath | 只说人话:“打开小红书搜美食” |
| 适配能力 | 换个手机分辨率就失效 | 看截图+理解UI,自动找按钮位置 |
| 容错能力 | 界面稍变就报错崩溃 | 发现找不到搜索框,会主动尝试返回重试或请求接管 |
| 学习成本 | 需学JavaScript+Android开发 | 只需会用终端、能连USB、看得懂提示 |
它不是“固定流程播放器”,而是一个能看、能想、能动手的数字分身。
1.3 适合谁读这篇教程?
- ✅ 想试试AI到底能不能真干活的普通用户
- ✅ 会用Mac/Windows但没写过ADB命令的职场人
- ✅ 厌倦了重复点手机、想把“刷小红书找餐厅”这种事交给AI的吃货
- ✅ 开发者想快速验证AI Agent落地效果,不纠结部署细节
不需要Python基础,不需要服务器,不需要GPU——只要一台电脑、一部安卓手机、一根数据线。
2. 准备工作:5分钟搞定所有依赖
2.1 你的设备清单(缺一不可)
| 设备/软件 | 最低要求 | 检查方法 |
|---|---|---|
| 电脑 | Windows 10+/macOS 12+ | 系统设置 → 关于本机 |
| 安卓手机 | Android 7.0+(建议8.0以上) | 设置 → 关于手机 → 版本号 |
| 数据线 | 支持数据传输(非纯充电线) | 连上电脑后adb devices能识别 |
| 网络 | 有网(仅首次下载模型时需要) | 浏览器能打开网页即可 |
⚠️ 注意:iPhone 不支持。本框架基于 ADB,仅适用于安卓生态。
2.2 一键安装 ADB(最简路径)
Windows 用户(推荐)
- 下载 platform-tools_r34.0.5-windows.zip(官方最新稳定版)
- 解压到
C:\adb(路径不含中文和空格) - 按
Win + R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴C:\adb - 打开新命令提示符,输入:
adb version✅ 正常输出类似Android Debug Bridge version 1.0.41即成功。
macOS 用户(终端执行)
# 使用Homebrew(如未安装,请先运行:/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)") brew install android-platform-tools # 验证 adb version2.3 手机端三步设置(3分钟)
这三步必须做完,否则AI看不见你的手机:
开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试”和“USB安装”(如有)连接并授权
用数据线连接电脑 → 手机弹出“允许USB调试吗?”→ 勾选“始终允许” → 点确定
回到电脑终端,输入:
adb devices✅ 正常输出类似:
List of devices attached ABCDEF1234567890 device→ 表示手机已成功接入。
💡 小技巧:如果
adb devices显示unauthorized,请检查手机是否点了“允许”;如果显示空,换根线或重启手机ADB。
3. 部署控制端:三行命令完成
3.1 克隆代码 & 安装依赖(复制粘贴即可)
打开终端(Windows用CMD/PowerShell,macOS用Terminal),逐行执行:
# 1. 下载控制程序(约2MB,秒级完成) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装Python依赖(首次约2分钟) pip install -r requirements.txt pip install -e . # 3. 验证安装(应输出"OK") python -c "from phone_agent.adb import list_devices; print('OK')"✅ 若最后输出OK,说明控制端已准备就绪。
📌 注意:无需下载大模型!本教程使用云端推理服务(免本地显卡),后续再介绍如何切换为本地运行。
3.2 获取你的设备ID(关键一步)
在终端中运行:
adb devices✅ 复制输出中device前的那一串字符,例如:
ABCDEF1234567890 device→ 你的设备ID就是ABCDEF1234567890(后面不要带空格和device)
把它记下来,下一步要用。
4. 实战:让AI打开小红书搜美食(完整流程)
4.1 使用云端模型(零配置,新手首选)
我们直接调用智谱提供的在线API服务,无需自己部署vLLM服务器。
✅ 优势:不用等模型下载、不用配CUDA、不占你电脑内存
❌ 注意:需联网,首次使用会自动下载轻量视觉编码器(约100MB)
在终端中,将以下命令中的<你的设备ID>替换为你上一步记下的ID,然后回车运行:
python main.py \ --device-id <你的设备ID> \ --base-url https://api.zhipuai.com/v1 \ --model autoglm-phone-9b \ "打开小红书搜美食"✅ 你会看到类似这样的实时日志:
[INFO] 截取当前屏幕... [INFO] 已发送截图至云端模型... [THINK] 当前界面为锁屏页,需先解锁 → 执行滑动操作 [ACTION] Swipe: (500, 1500) → (500, 800) [INFO] 等待首页加载... [INFO] 截取当前屏幕... [THINK] 检测到小红书图标(文字含“小红书”),点击启动 [ACTION] Tap: (320, 1200) [INFO] 等待小红书首页加载... ... [THINK] 搜索框已定位,准备输入“美食” [ACTION] Tap: (540, 180) → Type: "美食" [ACTION] Tap: (960, 180) # 点击搜索按钮 [SUCCESS] 任务完成!共执行7步,耗时约42秒。👉 此时,你的手机屏幕上已显示小红书“美食”搜索结果页。
4.2 如果失败了?别急,这是正常现象
AI Agent 是在“边看边想边做”,遇到没见过的界面会尝试、失败、再尝试。常见情况及应对:
| 现象 | 原因 | 你该做什么 |
|---|---|---|
| 卡在“截取当前屏幕...” | 手机未解锁或USB连接不稳定 | 手动解锁手机,重新插拔数据线,再运行命令 |
| 提示“未找到小红书图标” | 手机桌面无小红书App,或被文件夹隐藏 | 手动打开小红书一次,再运行;或改指令为“打开应用商店搜小红书并安装” |
| 输入框点击后无反应 | ADB Keyboard未启用 | 回到手机“设置→语言与输入法→管理键盘”,确保“ADB Keyboard”已开启并设为默认 |
| 模型返回乱码或超时 | 网络波动或API临时限流 | 稍等30秒重试,或加--timeout 120参数延长等待 |
✅ 成功关键:第一次务必手动打开小红书并停留在首页,降低AI理解难度。熟练后它能在任意状态启动。
5. 进阶技巧:让AI更懂你、更可靠
5.1 中文指令怎么写才更准?(实测有效)
AI不是搜索引擎,它靠“意图理解”而非关键词匹配。以下写法成功率更高:
| ❌ 效果差的写法 | ✅ 推荐写法 | 为什么 |
|---|---|---|
| “小红书 美食” | “打开小红书App,在搜索框里输入‘美食’并点击搜索” | 包含明确动作链(打开→输入→点击) |
| “找好吃的” | “打开小红书,搜索‘上海本帮菜’,进入第一个笔记,复制标题” | 场景具体、目标清晰、动作可执行 |
| “帮我点外卖” | “打开美团外卖,搜索‘黄焖鸡米饭’,选择‘张亮麻辣烫’,加入购物车并结算” | 拆解为原子操作,避免模糊动词 |
💡 记住口诀:动词开头 + App名 + 具体动作 + 明确对象
5.2 敏感操作自动暂停(安全设计)
当AI检测到可能涉及隐私或资金的操作时,会主动停止并等待你确认:
- 例如输入:“登录微信并给老板发‘项目延期’”
- AI执行到“点击密码框”时,会输出:
[ALERT] 检测到密码输入框,为保护账户安全,已暂停执行。 请手动输入密码,完成后按回车继续...→ 你输入完密码,敲回车,AI继续后续步骤。
这个机制默认开启,无需额外配置。
5.3 WiFi无线控制(摆脱数据线)
不想被线捆着?用WiFi远程控制:
- 手机和电脑连同一WiFi
- 手机开启“无线调试”(设置→开发者选项→无线调试→开启)
- 终端运行:
adb tcpip 5555 adb connect 192.168.1.100:5555 # 替换为手机IP(在无线调试页查看)- 验证:
adb devices # 应显示类似:192.168.1.100:5555 device- 运行任务时,把
--device-id改成IP:
python main.py --device-id 192.168.1.100:5555 --base-url https://api.zhipuai.com/v1 --model autoglm-phone-9b "打开小红书搜美食"✅ 现在你可以把手机放在桌上,电脑在沙发上,AI照常工作。
6. 常见问题速查(90%问题在这里解决)
Q1:运行报错ModuleNotFoundError: No module named 'phone_agent'
→ 你没在Open-AutoGLM目录下执行命令。
✅ 解决:cd Open-AutoGLM后再运行python main.py ...
Q2:adb devices显示unauthorized或空白
→ 手机未授权或驱动异常。
✅ 解决:
- 拔掉数据线,关闭手机“USB调试”,再打开
- 重新连接,手机弹窗务必点“允许”并勾选“始终允许”
- Windows用户可安装 ADB驱动助手
Q3:AI点了错误位置,比如把“微信”点成了“微博”
→ 屏幕截图中图标太小或重叠。
✅ 解决:
- 调整手机显示缩放:设置→显示→字体与样式→显示大小→调小一级
- 或改用WiFi连接(截图更清晰)
- 或在指令末尾加一句:“请仔细确认图标文字再点击”
Q4:输入中文失败,显示方块或乱码
→ ADB Keyboard未生效。
✅ 解决:
- 手机设置→语言与输入法→当前输入法→切换为“ADB Keyboard”
- 终端验证:
adb shell ime list -a | grep ADB→ 应输出com.android.adbkeyboard/.AdbIME
Q5:任务执行一半卡住不动
→ 可能是页面加载慢,AI在等待。
✅ 解决:
- 默认等待60秒,可加参数延长:
--timeout 180 - 或直接
Ctrl+C中断,重新运行
Q6:想换其他App,比如抖音、淘宝、高德地图?
→ 完全支持!指令格式一致:
python main.py --device-id <ID> --base-url https://api.zhipuai.com/v1 --model autoglm-phone-9b "打开抖音搜索‘AI绘画教程’" python main.py --device-id <ID> --base-url https://api.zhipuai.com/v1 --model autoglm-phone-9b "打开高德地图搜索‘最近的咖啡馆’"✅ 目前已验证兼容:微信、QQ、小红书、抖音、B站、淘宝、京东、美团、饿了么、支付宝、网易云音乐、高德地图、百度地图、Chrome。
7. 下一步:从“能用”到“好用”
7.1 本地部署(进阶推荐)
当你用熟了云端版,可以升级为完全离线、隐私无忧、响应更快的本地版:
- ✅ 数据永不离开你的Mac/PC
- ✅ 无需联网,地铁上也能用
- ✅ 支持自定义模型(如换用更小的4-bit量化版,16GB内存即可跑)
详细步骤见项目文档docs/local-deployment.md,或运行:
python main.py --help # 查看所有本地运行参数7.2 批量任务:让AI帮你一天干完一周的事
把重复操作写成列表,一键执行:
# 创建 tasks.txt 文件,内容如下: 打开微信给妈妈发消息说:我今晚回家吃饭 打开小红书搜“减脂餐”保存前3篇笔记 打开网易云音乐收藏周杰伦歌单 # 批量运行(需简单修改main.py,文末提供脚本) python batch_runner.py tasks.txt7.3 自定义接管逻辑(开发者向)
当AI遇到验证码、支付密码等场景,你可以插入自己的处理逻辑:
def on_takeover(message): print(f"⚠️ 人工接管请求:{message}") os.system("open -a 'WeChat'") # 自动唤起微信 input("请手动完成操作,完成后按回车...") return True agent = PhoneAgent(takeover_callback=on_takeover) agent.run("给客户发合同PDF")8. 总结:你已经掌握了AI手机助理的核心能力
8.1 你学会了什么?
- ✅ 用3条命令完成环境搭建,无需编译、无需配置
- ✅ 通过一句自然语言,驱动AI完成跨App的复杂操作链
- ✅ 排查90%的连接与执行问题,具备独立调试能力
- ✅ 理解AI Agent的“感知-思考-行动”闭环,知道它何时会卡住、为何要暂停
这不是玩具,而是你数字生活的新器官——它不会取代你,但会把“点开App→找入口→输文字→点搜索”这一串机械动作,压缩成一句话。
8.2 现在,你可以立刻做的三件事
- 马上试:复制这行命令,把
<你的设备ID>换成你的真实ID,运行一次“打开小红书搜美食” - 换场景练:把指令改成“打开美团搜‘附近火锅’”,观察AI如何适应新App
- 分享给朋友:把这篇教程链接发给他,看他第一次看到AI自动点手机时的表情
技术的价值,不在于多酷,而在于多自然。当“打开小红书搜美食”不再需要你动手,真正的智能才刚刚开始。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_search_hot_keyword),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。