零基础搭建AI手机助理,Open-AutoGLM太惊艳

零基础搭建AI手机助理,Open-AutoGLM太惊艳

1. 核心摘要

Open-AutoGLM 是什么?
Open-AutoGLM 是智谱 AI 开源的手机端 AI Agent 框架,基于视觉语言模型(VLM)构建,能够通过多模态理解手机屏幕内容,并结合 ADB 实现自动化操作。用户只需输入自然语言指令,如“打开小红书搜索美食”,系统即可自动解析意图、识别界面元素、规划操作路径并执行点击、滑动、输入等动作。

核心能力亮点:

  • 多模态感知:通过截图理解当前 UI 界面
  • 智能决策:基于上下文进行任务分解与路径规划
  • 自动执行:利用 ADB 发送模拟操作指令
  • 安全机制:敏感操作需人工确认,支持验证码场景接管
  • 远程控制:支持 WiFi 连接,实现无线调试与远程部署

适用人群:
完全零基础的新手也能快速上手。本教程涵盖从环境配置到实际运行的完整流程,提供可复用的命令和代码示例,帮助你一步步打造属于自己的“贾维斯”式手机助手。


2. 环境准备:软硬件清单与前置配置

2.1 硬件要求

设备推荐配置说明
本地电脑Windows / macOS / Linux,16GB+ 内存用于运行模型服务与控制端
手机设备Android 7.0+ 真机或模拟器被控目标设备
存储空间至少 50GB 可用空间用于存放模型文件(约 18GB)及项目代码

提示:若使用 NVIDIA 显卡(建议 12GB 显存以上),可显著提升推理速度;无 GPU 条件下也可使用 CPU 推理,但响应较慢。

2.2 软件依赖安装

Python 环境配置

确保已安装 Python 3.10 或更高版本:

python --version

未安装请前往 python.org 下载并勾选“Add to PATH”。

ADB 工具安装

ADB(Android Debug Bridge)是连接手机与电脑的核心工具。

下载地址:
Android Platform Tools

Windows 配置步骤:

  1. 解压platform-tools.zip到指定目录(如C:\adb
  2. Win + R输入sysdm.cpl→ 高级 → 环境变量 → 编辑Path→ 添加 ADB 路径
  3. 命令行验证:
adb version

macOS 配置方法:

# 将解压路径加入 shell 配置(以 zsh 为例) echo 'export PATH=$PATH:~/Downloads/platform-tools' >> ~/.zshrc source ~/.zshrc

验证:

adb devices

3. 手机端设置:开启调试权限与输入法

3.1 开启开发者模式与 USB 调试

  1. 进入手机“设置” → “关于手机”
  2. 连续点击“版本号”7 次,提示“您已进入开发者模式”
  3. 返回“设置” → “开发者选项” → 启用“USB 调试”

注意:部分品牌(如小米、华为)还需额外开启“OEM 解锁”或授权 USB 调试。

3.2 安装 ADB Keyboard(关键!)

ADB Keyboard 是一个特殊输入法,允许 AI 通过 ADB 命令输入中文字符。

安装步骤:

  1. 下载 ADBKeyboard.apk(GitHub 开源项目)
  2. 使用 ADB 安装:
adb install ADBKeyboard.apk
  1. 在手机“设置” → “语言与输入法” → “默认键盘”中切换为 ADB Keyboard

重要提醒:若不启用此输入法,AI 将无法完成文本输入类任务(如搜索、发消息)。


4. 部署 Open-AutoGLM 控制端

4.1 克隆项目与安装依赖

在本地电脑执行以下命令:

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

说明-e .表示以开发模式安装,便于后续修改源码。

4.2 连接手机设备

USB 连接方式
  1. 使用数据线连接手机与电脑
  2. 手机弹出“允许 USB 调试?”对话框 → 点击“允许”
  3. 验证连接状态:
adb devices

输出应类似:

List of devices attached ABCDEF1234567890 device
WiFi 远程连接(推荐日常使用)

适用于无线操控,避免频繁插拔线缆。

步骤如下:

  1. 先用 USB 连接手机
  2. 开启 ADB TCP/IP 模式:
adb tcpip 5555
  1. 断开 USB,获取手机 IP 地址(可在“设置”→“WLAN”中查看)
  2. 连接设备:
adb connect 192.168.x.x:5555
  1. 再次执行adb devices确认连接成功

5. 启动 AI 模型服务

Open-AutoGLM 依赖本地部署的多模态大模型AutoGLM-Phone-9B,需通过 vLLM 启动 API 服务。

5.1 下载模型文件

推荐国内用户使用 ModelScope 镜像加速下载:

git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

国际用户可使用 Hugging Face:

git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

注意:模型大小约为 18GB,请确保磁盘空间充足。

5.2 安装 vLLM 推理引擎

pip install vllm

验证 CUDA 是否可用(NVIDIA 用户):

nvidia-smi

5.3 启动模型服务

创建启动脚本start_model.sh(Linux/macOS)或start_model.bat(Windows)。

Linux/macOS 示例:

#!/bin/bash python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model ./AutoGLM-Phone-9B \ --port 8000

Windows 示例(start_model.bat):

python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model .\AutoGLM-Phone-9B ^ --port 8000

运行后出现Uvicorn running on http://0.0.0.0:8000即表示服务启动成功。


6. 运行 AI 手机代理

6.1 命令行调用示例

Open-AutoGLM项目根目录执行:

python main.py \ --device-id ABCDEF1234567890 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索用户名为 dycwo11nt61d 的博主并关注他"

参数说明:

  • --device-id:通过adb devices获取的设备 ID
  • --base-url:模型服务地址(本地为http://localhost:8000/v1
  • 最后字符串:自然语言指令

预期行为:AI 将自动打开抖音 App,进入搜索页,输入用户名,找到账号并点击“关注”。

6.2 Python API 编程调用

对于开发者,可通过 API 更灵活地集成功能。

from phone_agent.adb import ADBConnection from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 初始化 ADB 连接 conn = ADBConnection() success, msg = conn.connect("192.168.x.x:5555") print(f"连接状态: {msg}") # 配置模型 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b" ) # 创建智能体 agent = PhoneAgent( model_config=model_config, device_id="ABCDEF1234567890" ) # 执行任务 result = agent.run("帮我订一份海底捞外卖,送到北京市朝阳区") print(f"任务结果: {result}")

7. 高级功能与优化配置

7.1 敏感操作确认机制

为防止误操作(如支付、删除),系统内置人工确认机制。

自定义确认回调函数:

def confirm_handler(message: str) -> bool: print(f"\n⚠️ 危险操作提醒: {message}") choice = input("是否继续执行? (y/n): ") return choice.lower() == 'y' agent = PhoneAgent( model_config=model_config, confirmation_callback=confirm_handler )

当涉及支付、卸载应用等操作时,程序将暂停并等待用户输入确认。

7.2 自定义系统提示词(System Prompt)

可通过修改phone_agent/config/prompts.py提升特定领域表现。

例如增强电商购物能力:

SYSTEM_PROMPT = """ 你是一个专业的手机购物助手,擅长在淘宝、京东、拼多多等平台帮用户选购商品。 请遵循以下原则: 1. 优先选择销量高、评价好(≥4.8分)的商品 2. 注意比对优惠券和满减活动 3. 若价格区间未明确,按性价比排序推荐 """

7.3 环境变量配置(可选)

通过环境变量简化命令行参数传递:

# Linux/macOS export PHONE_AGENT_BASE_URL=http://localhost:8000/v1 export PHONE_AGENT_MODEL=autoglm-phone-9b export PHONE_AGENT_DEVICE_ID=ABCDEF1234567890

Windows:

set PHONE_AGENT_BASE_URL=http://localhost:8000/v1

设置后可省略部分参数直接运行:

python main.py "打开微信给妈妈发消息说我到了"

8. 应用场景与实战案例

8.1 生活服务自动化

场景示例指令
外卖点餐“打开美团搜附近评分最高的川菜馆,下单水煮鱼加米饭”
出行打车“用滴滴叫一辆车去首都机场 T3 航站楼”
影院购票“在猫眼电影查今晚 8 点《奥本海默》的场次并预订两张票”

8.2 社交互动自动化

场景示例指令
微信沟通“打开微信,给张三发‘明天会议改到下午三点’”
抖音浏览“刷抖音,点赞所有宠物视频”
小红书种草“搜索‘北京周末拍照圣地’,收藏前五篇笔记”

8.3 批量任务处理脚本(进阶)

编写 Python 脚本实现批量操作:

friends = ["李四", "王五", "赵六"] for name in friends: agent.run(f"打开微信,给{name}的朋友圈最新动态点赞")

9. 常见问题排查指南

问题现象可能原因解决方案
adb devices无设备显示USB 调试未开启或驱动异常重新开启开发者选项,更换数据线
模型启动失败显存不足或路径错误使用--device cpu强制 CPU 推理
中文无法输入ADB Keyboard 未启用检查输入法设置并重启
屏幕识别失败截图权限被拒重启服务或手动授予权限
连接超时网络不稳定或防火墙拦截改用 USB 连接,检查路由器设置

10. 总结

本文详细介绍了如何从零开始部署 Open-AutoGLM —— 一个基于视觉语言模型的手机端 AI Agent 框架。我们完成了以下关键步骤:

  1. 环境搭建:配置 Python、ADB、开发者权限
  2. 模型部署:下载 AutoGLM-Phone-9B 并通过 vLLM 启动服务
  3. 设备连接:支持 USB 与 WiFi 两种连接方式
  4. 任务执行:通过命令行或 API 下达自然语言指令
  5. 安全与扩展:启用敏感操作确认、自定义提示词、批量脚本

Open-AutoGLM 展现了 AI 在移动自动化领域的巨大潜力,未来有望成为个人数字助理的重要组成部分。随着社区持续迭代,其稳定性、应用覆盖范围和用户体验将进一步提升。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1176184.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Wonder Shaper带宽控制实战指南:彻底解决Linux网络拥堵难题

Wonder Shaper带宽控制实战指南:彻底解决Linux网络拥堵难题 【免费下载链接】wondershaper Command-line utility for limiting an adapters bandwidth 项目地址: https://gitcode.com/gh_mirrors/wo/wondershaper 你是否经历过这样的困扰:在视频…

Youtu-2B文档看不懂?核心功能一文详解新手必看

Youtu-2B文档看不懂?核心功能一文详解新手必看 1. 背景与应用场景 随着大语言模型(Large Language Model, LLM)在自然语言处理领域的广泛应用,轻量化、高性能的模型逐渐成为边缘计算和本地部署场景下的首选。然而,许…

ThinkPad T480黑苹果完整教程:轻松实现macOS完美体验

ThinkPad T480黑苹果完整教程:轻松实现macOS完美体验 【免费下载链接】t480-oc 💻 Lenovo ThinkPad T480 / T580 / X280 Hackintosh (macOS Monterey 12.x & Ventura 13.x) - OpenCore 项目地址: https://gitcode.com/gh_mirrors/t4/t480-oc …

offload_model设True有用吗?Live AvatarCPU模式实测

offload_model设True有用吗?Live Avatar CPU模式实测 1. 背景与问题提出 阿里联合高校开源的 Live Avatar 是一个基于14B参数规模DiT架构的实时数字人生成模型,支持从文本、图像和音频输入生成高质量的动态虚拟人物视频。该模型在设计上追求高保真度与…

5分钟快速上手Qwen2.5-14B:新手也能轻松运行的大语言模型

5分钟快速上手Qwen2.5-14B:新手也能轻松运行的大语言模型 【免费下载链接】Qwen2.5-14B 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/Qwen2.5-14B 想要体验最新的大语言模型技术?Qwen2.5-14B作为通义千问系列的最新力作&#xff0c…

Cute_Animal_For_Kids_Qwen_Image性能评测:GPU利用率优化实战

Cute_Animal_For_Kids_Qwen_Image性能评测:GPU利用率优化实战 1. 技术背景与评测目标 随着大模型在图像生成领域的广泛应用,基于自然语言描述生成高质量图像的技术已逐步成熟。Cute_Animal_For_Kids_Qwen_Image 是基于阿里通义千问(Qwen&am…

GPEN与Stable Diffusion对比评测:修复效果与GPU消耗实战分析

GPEN与Stable Diffusion对比评测:修复效果与GPU消耗实战分析 1. 引言 1.1 技术选型背景 在图像修复与肖像增强领域,近年来涌现出多种基于深度学习的解决方案。其中,GPEN(Generative Prior ENhancement) 和 Stable D…

Hunyuan MT1.5-1.8B参数详解:小模型为何媲美大模型表现

Hunyuan MT1.5-1.8B参数详解:小模型为何媲美大模型表现 1. 模型背景与核心价值 在多语言交流日益频繁的今天,高质量、低延迟的翻译服务成为智能应用的核心需求之一。传统上,大参数量模型(如7B、13B以上)凭借更强的语…

Z-Image-Turbo_UI界面+Gradio,快速搭建本地AI画布

Z-Image-Turbo_UI界面Gradio,快速搭建本地AI画布 1. 引言:为什么需要本地化AI图像生成UI? 随着大模型技术的快速发展,AI图像生成已从实验室走向实际应用。尽管许多平台提供在线文生图服务,但在隐私保护、响应速度和定…

UE5实时3D高斯渲染技术深度解析:从理论到实践的全方位指南

UE5实时3D高斯渲染技术深度解析:从理论到实践的全方位指南 【免费下载链接】XV3DGS-UEPlugin 项目地址: https://gitcode.com/gh_mirrors/xv/XV3DGS-UEPlugin 你是否曾经在虚幻引擎中为复杂的3D场景渲染而苦恼?传统的多边形建模与渲染流程是否让…

Marlin智能升级革命:告别冗长等待,体验极速更新

Marlin智能升级革命:告别冗长等待,体验极速更新 【免费下载链接】Marlin Marlin 是一款针对 RepRap 3D 打印机的优化固件,基于 Arduino 平台。 项目地址: https://gitcode.com/GitHub_Trending/ma/Marlin 还在为3D打印机固件升级而烦恼…

Minecraft服务器崩溃诊断利器:mclogs日志分析工具深度解析

Minecraft服务器崩溃诊断利器:mclogs日志分析工具深度解析 【免费下载链接】mclogs Paste, share and analyse Minecraft logs 项目地址: https://gitcode.com/gh_mirrors/mc/mclogs 面对Minecraft服务器频繁崩溃的困扰,你是否曾在深夜对着满屏错…

3步搞定Hackintosh:OpCore Simplify让你的黑苹果之旅更轻松

3步搞定Hackintosh:OpCore Simplify让你的黑苹果之旅更轻松 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 还在为复杂的OpenCore EFI配置…

DeepSeek-R1-Distill-Qwen-1.5B与其他蒸馏模型对比:综合性能评测

DeepSeek-R1-Distill-Qwen-1.5B与其他蒸馏模型对比:综合性能评测 1. 背景与评测目标 随着大语言模型在实际业务场景中的广泛应用,轻量化部署需求日益增长。知识蒸馏作为一种有效的模型压缩技术,能够在保留原始模型能力的同时显著降低推理成…

IDM激活脚本终极使用指南:永久免费解锁下载神器

IDM激活脚本终极使用指南:永久免费解锁下载神器 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 还在为Internet Download Manager试用期到期而烦恼&a…

通义千问3-4B法律文书处理:合同分析与生成实战

通义千问3-4B法律文书处理:合同分析与生成实战 1. 引言:小模型如何胜任专业法律场景? 随着大模型技术的演进,轻量级模型在垂直领域的表现正逐步逼近传统大模型。通义千问 3-4B-Instruct-2507(Qwen3-4B-Instruct-2507…

X-AnyLabeling智能标注平台:2025年数据标注效率革命指南

X-AnyLabeling智能标注平台:2025年数据标注效率革命指南 【免费下载链接】X-AnyLabeling Effortless data labeling with AI support from Segment Anything and other awesome models. 项目地址: https://gitcode.com/gh_mirrors/xa/X-AnyLabeling 在计算机…

Open-AutoGLM实战入门:第一条自然语言指令执行详解

Open-AutoGLM实战入门:第一条自然语言指令执行详解 1. 引言 1.1 技术背景与应用场景 随着大模型技术的快速发展,AI Agent 正从理论探索走向实际落地。在移动端,用户每天面临大量重复性操作任务,如打开应用、搜索内容、填写表单…

如何快速掌握B站视频下载:BiliTools跨平台工具箱完整指南

如何快速掌握B站视频下载:BiliTools跨平台工具箱完整指南 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持视频、音乐、番剧、课程下载……持续更新 项目地址: https://gitcode.com/GitHub_Trending/bilit/B…

Qwen3-Embedding+Reranker最佳实践:云端套餐价,比单独买省60%

Qwen3-EmbeddingReranker最佳实践:云端套餐价,比单独买省60% 你是不是也遇到过这样的问题?搜索团队想测试一下最新的 Qwen3-Embedding Reranker 组合效果,结果一算账:两个模型单独部署,光显存就得48G起步…