AI操控手机不是梦!Open-AutoGLM实操全过程

AI操控手机不是梦!Open-AutoGLM实操全过程

1. 核心摘要

Open-AutoGLM是什么?
Open-AutoGLM是智谱AI开源的手机端AI智能体框架,基于视觉语言模型(VLM)与ADB自动化技术,实现通过自然语言指令驱动安卓设备完成复杂操作。用户只需说“打开小红书搜美食”,系统即可自动解析意图、理解界面、规划路径并执行点击、滑动、输入等动作。

能做什么?
支持美团、淘宝、微信、抖音等50+主流App的自动化操作,涵盖点外卖、购物比价、社交互动、内容浏览等高频场景。系统具备多模态感知能力,能“看懂”屏幕元素,并结合推理决策形成“观察→思考→执行”的闭环。

技术原理简述
系统由三部分构成:

  • 视觉理解层:使用AutoGLM-Phone-9B多模态模型分析手机截图,识别UI组件和语义信息
  • 任务规划层:将用户指令转化为可执行的操作序列(如启动App、查找按钮、输入文本)
  • 执行控制层:通过ADB发送模拟指令,操控真实设备或模拟器

适合谁阅读?
本文面向零基础开发者及技术爱好者,提供从环境配置到实战运行的完整指南,包含详细步骤、代码示例与避坑建议,帮助你快速部署属于自己的AI手机助手。


2. 环境准备:软硬件清单与前置配置

2.1 硬件要求

设备推荐配置说明
主机电脑Windows / macOS / Linux,16GB+内存用于运行模型服务与控制脚本
安卓设备Android 7.0+ 手机或模拟器被控终端,需支持USB调试
存储空间至少50GB可用空间模型文件约18GB,项目依赖额外占用

提示:若显卡为NVIDIA且显存≥12GB,可启用GPU加速;否则可使用CPU模式(响应较慢)。

2.2 软件依赖安装

Python环境搭建

确保已安装Python 3.10及以上版本:

# 验证Python版本 python --version # 输出应类似:Python 3.10.12

Windows用户在安装时务必勾选“Add Python to PATH”。

ADB工具配置

ADB(Android Debug Bridge)是连接电脑与安卓设备的核心工具。

下载地址:Android Platform Tools

配置流程(以Windows为例)

  1. 解压platform-tools.zip至固定目录(如C:\adb
  2. 打开“系统属性” → “高级” → “环境变量”
  3. 在“系统变量”中找到Path,添加ADB解压路径
  4. 命令行验证:
adb version # 正常输出ADB版本号即表示成功

macOS快捷配置

export PATH=${PATH}:~/Downloads/platform-tools # 可写入 ~/.zshrc 永久生效

3. 手机端设置:开启调试与输入法

3.1 开启开发者选项与USB调试

  1. 进入手机“设置” → “关于手机”
  2. 连续点击“版本号”7次,直到提示“您已进入开发者模式”
  3. 返回“设置”主菜单 → “开发者选项”
  4. 启用“USB调试”开关

注意:首次连接时,手机会弹出授权对话框,请手动点击“允许”。

3.2 安装ADB Keyboard输入法

由于标准输入法无法被ADB直接调用,必须安装专用输入法以支持中文输入。

安装步骤

  1. 下载 ADBKeyboard.apk
  2. 使用ADB命令安装:
adb install ADBKeyboard.apk
  1. 进入“设置” → “语言与输入法” → “默认键盘” → 切换为“ADB Keyboard”

验证方法:在任意输入框长按 → 选择“输入方式” → 确认ADB Keyboard可用。


4. 部署Open-AutoGLM控制端

4.1 克隆项目与安装依赖

# 克隆Open-AutoGLM仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装Python依赖 pip install -r requirements.txt pip install -e .

说明-e .表示以开发模式安装,便于后续修改源码。

4.2 模型下载(推荐国内镜像)

AutoGLM-Phone-9B模型体积约为18GB,建议使用ModelScope镜像加速下载:

# 国内用户推荐(速度快) git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git # 国际用户可选Hugging Face # git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

5. 启动模型服务:基于vLLM部署API

5.1 安装vLLM推理引擎

pip install vllm

验证CUDA是否可用(NVIDIA GPU用户):

nvidia-smi # 若显示显卡信息,则CUDA环境正常

5.2 创建启动脚本

Linux/macOS用户:创建start_model.sh

#!/bin/bash python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model ./AutoGLM-Phone-9B \ --port 8000

Windows用户:创建start_model.bat

python -m vllm.entrypoints.openai.api_server ^ --served-model-name autoglm-phone-9b ^ --model ./AutoGLM-Phone-9B ^ --port 8000

5.3 启动服务

# Linux/macOS chmod +x start_model.sh ./start_model.sh # Windows start_model.bat

成功标志:看到Uvicorn running on http://0.0.0.0:8000即表示服务启动成功。


6. 设备连接与控制方式

6.1 USB连接设备

  1. 使用数据线连接手机与电脑
  2. 手机端确认“允许USB调试”
  3. 命令行检查设备状态:
adb devices # 输出示例: # 123abcde device

6.2 WiFi远程连接(免线缆)

适用于长期运行或远程调试场景。

步骤如下

# 1. 先通过USB连接,开启TCP/IP模式 adb tcpip 5555 # 2. 断开USB,获取设备IP(可在WiFi设置中查看) adb connect 192.168.x.x:5555

提示:确保手机与主机在同一局域网下。


7. 实战运行:让AI接管手机

7.1 命令行模式执行任务

python main.py \ --device-id 123abcde \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明

  • --device-id:来自adb devices的设备ID
  • --base-url:vLLM服务地址(本地为http://localhost:8000/v1
  • 最后字符串:自然语言指令

预期输出

💭 思考过程: 正在桌面,需打开抖音App 🎯 执行动作: {"action": "Launch", "app": "抖音"} ... ✅ 任务完成:已关注目标用户

7.2 Python API编程调用

对于开发者,可通过API集成到自定义应用中。

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置模型连接 model_config = ModelConfig( base_url="http://localhost:8000/v1", model_name="autoglm-phone-9b" ) # 初始化代理 agent = PhoneAgent(model_config=model_config) # 执行任务 result = agent.run("打开美团,搜索附近评分最高的川菜馆") print(f"任务结果: {result}")

8. 安全机制与人工干预

8.1 敏感操作确认机制

当涉及支付、删除、权限变更等高风险操作时,系统默认暂停并请求人工确认。

自定义确认回调函数

def confirm_handler(message): print(f"\n⚠️ 安全提醒: {message}") choice = input("继续执行? (y/n): ") return choice.lower() == 'y' agent = PhoneAgent( model_config=model_config, confirmation_callback=confirm_handler )

运行时将出现交互提示:

⚠️ 安全提醒: 即将支付28.5元订单,确认继续? 继续执行? (y/n):

8.2 登录与验证码处理

对于需要登录或短信验证的场景,系统支持人工接管:

  1. AI执行至登录页后自动暂停
  2. 用户手动完成验证
  3. 继续交还控制权给AI

建议策略:将敏感信息操作拆分为多个子任务,关键节点插入人工验证环节。


9. 进阶配置与优化技巧

9.1 自定义系统提示词增强能力

编辑phone_agent/config/prompts.py中的SYSTEM_PROMPT,可引导模型更专业地处理特定任务。

示例:电商购物增强版提示词

SYSTEM_PROMPT = """ 你是一个专业的手机购物助手,擅长在淘宝、京东、拼多多等平台帮用户选购商品。 请遵循以下原则: 1. 优先筛选销量高、评价好(≥4.8分)的商品 2. 注意满减优惠与可用优惠券 3. 按价格从低到高排序展示结果 """

9.2 环境变量灵活配置

通过环境变量简化命令行参数传递:

# Linux/macOS export PHONE_AGENT_BASE_URL=http://localhost:8000/v1 export PHONE_AGENT_MODEL=autoglm-phone-9b export PHONE_AGENT_DEVICE_ID=123abcde # Windows set PHONE_AGENT_BASE_URL=http://localhost:8000/v1

支持的关键变量包括:

  • PHONE_AGENT_MAX_STEPS:单任务最大执行步数(默认100)
  • PHONE_AGENT_TIMEOUT:每步操作超时时间(秒)

10. 常见问题排查指南

10.1 ADB连接失败

现象可能原因解决方案
adb devices无输出未开启USB调试检查开发者选项
显示unauthorized未授权电脑手机端点击“允许”
连接频繁断开WiFi不稳定改用USB连接

10.2 模型服务异常

问题解决方案
启动报错CUDA out of memory减小--max-model-len或改用CPU模式
请求返回乱码检查模型路径是否正确指向AutoGLM-Phone-9B目录
接口无响应查看防火墙是否拦截8000端口

10.3 中文输入失效

  • 确认ADB Keyboard已安装且设为默认输入法
  • 重启手机后重新连接ADB
  • 尝试手动切换输入法后再运行任务

11. 应用场景与扩展潜力

11.1 典型应用场景

类别示例任务
生活服务“帮我订一份海底捞外卖,预算200元以内”
社交互动“打开微信给妈妈发消息‘我到家了’”
内容消费“刷小红书找北京周末拍照打卡地”
电商购物“在淘宝搜无线耳机,按销量排序”

11.2 批量自动化脚本示例

import time def batch_like_friends(): agent = PhoneAgent(model_config=model_config) friends = ["张三", "李四", "王五"] for name in friends: agent.run(f"打开微信,进入{name}的朋友圈,点赞最新一条动态") time.sleep(3) # 避免操作过快被限制 batch_like_friends()

11.3 与其他AI工具集成

可结合GPT类模型进行任务分解,再由AutoGLM执行:

# 示例:用GPT生成具体指令 response = openai.ChatCompletion.create( model="gpt-4", messages=[{"role": "user", "content": "帮我安排一顿晚餐"}] ) final_instruction = response.choices[0].message.content agent.run(final_instruction)

12. 总结

本文详细介绍了如何从零部署Open-AutoGLM框架,实现AI对安卓手机的全自动操控。核心要点包括:

  1. 环境配置:完成Python、ADB、开发者模式等基础准备
  2. 模型部署:使用vLLM本地启动AutoGLM-Phone-9B多模态模型
  3. 设备连接:支持USB与WiFi两种连接方式,灵活适配不同场景
  4. 任务执行:通过命令行或Python API提交自然语言指令
  5. 安全机制:内置敏感操作确认与人工接管机制,保障使用安全

Open-AutoGLM作为开源AI Agent的重要实践,展示了多模态模型在真实设备控制中的巨大潜力。未来随着模型精度提升与生态完善,有望成为个人数字助理的核心基础设施。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1180826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

亲测Paraformer-large镜像,长音频转写效果惊艳真实体验

亲测Paraformer-large镜像,长音频转写效果惊艳真实体验 1. 背景与使用场景 在语音识别(ASR)的实际应用中,长音频的高精度转写一直是一个关键挑战。无论是会议记录、讲座整理还是访谈内容提取,用户都希望获得准确、流…

Yuzu模拟器深度性能调优手册:从入门到精通的完整配置优化方案

Yuzu模拟器深度性能调优手册:从入门到精通的完整配置优化方案 【免费下载链接】yuzu-downloads 项目地址: https://gitcode.com/GitHub_Trending/yu/yuzu-downloads 还在为Yuzu模拟器的性能瓶颈和稳定性问题而困扰?作为资深技术顾问,…

用Live Avatar打造专属数字人,超详细新手教程

用Live Avatar打造专属数字人,超详细新手教程 1. 引言:开启你的数字人创作之旅 随着AI技术的飞速发展,数字人已从科幻概念走入现实。阿里联合高校开源的 Live Avatar 模型为开发者和创作者提供了一个强大的实时驱动解决方案,能够…

避坑指南:解决Qwen3-Reranker-4B在vLLM上的部署问题

避坑指南:解决Qwen3-Reranker-4B在vLLM上的部署问题 1. 引言 1.1 业务场景描述 随着大模型在检索增强生成(RAG)系统中的广泛应用,文本重排序(Reranking)作为提升召回结果相关性的关键环节,受…

Qwen3-4B中文理解测评:3步快速验证,成本不到5块

Qwen3-4B中文理解测评:3步快速验证,成本不到5块 你是不是也遇到过这样的情况?团队在海外,想评估一个中文大模型的能力,但本地没有中文环境配置经验,自己搭环境太麻烦,用AWS这类云服务按天计费又…

通义千问2.5-7B-Instruct部署教程:CUDA驱动兼容性检查

通义千问2.5-7B-Instruct部署教程:CUDA驱动兼容性检查 1. 引言 1.1 模型背景与技术定位 通义千问 2.5-7B-Instruct 是阿里于 2024 年 9 月随 Qwen2.5 系列发布的 70 亿参数指令微调语言模型,定位于“中等体量、全能型、可商用”的高性能推理场景。该模…

Windows下USB Serial Controller驱动安装完整指南

从“未知设备”到稳定通信:Windows下USB转串口驱动安装全攻略 你有没有遇到过这样的场景? 手里的开发板插上电脑,设备管理器里却只显示一个刺眼的黄色感叹号;或者明明识别了硬件,就是找不到COM端口,串口工…

从本地到边缘:HY-MT1.5-7B与1.8B双模型对比实践

从本地到边缘:HY-MT1.5-7B与1.8B双模型对比实践 1. 引言:翻译模型的本地化与边缘部署趋势 随着多语言交流需求的增长,高质量、低延迟的翻译服务已成为智能应用的核心能力之一。传统云翻译API虽具备较强性能,但在隐私保护、网络依…

BERT-base-chinese多模态:文本与视频

BERT-base-chinese多模态:文本与视频 1. 引言 随着深度学习在自然语言处理(NLP)领域的持续突破,预训练语言模型已成为中文文本理解任务的核心基础设施。其中,BERT-base-chinese 作为 Google 发布的经典中文 BERT 模型…

ESPHome JK-BMS组件:打造智能电池监控系统的终极指南

ESPHome JK-BMS组件:打造智能电池监控系统的终极指南 【免费下载链接】esphome-jk-bms ESPHome component to monitor and control a Jikong Battery Management System (JK-BMS) via UART-TTL or BLE 项目地址: https://gitcode.com/gh_mirrors/es/esphome-jk-bm…

Qwen3-1.7B非思维模式实测,日常对话延迟降低30%

Qwen3-1.7B非思维模式实测,日常对话延迟降低30% 1. 引言:轻量高效的新一代本地化推理选择 随着大语言模型在各类应用场景中的广泛落地,用户对响应速度与资源消耗的敏感度日益提升。尤其在边缘计算、智能终端和本地服务部署等场景中&#xf…

实测GLM-4.6V-Flash-WEB在RTX 3090上的推理速度表现

实测GLM-4.6V-Flash-WEB在RTX 3090上的推理速度表现 1. 背景与测试目标 随着多模态大模型的快速发展,视觉语言模型(VLM)正逐步从研究走向实际应用。智谱AI推出的 GLM-4.6V-Flash-WEB 是其最新开源的轻量级视觉大模型,主打“快速推…

Z-Image-Turbo_UI界面效果惊艳!真实案例分享

Z-Image-Turbo_UI界面效果惊艳!真实案例分享 1. 引言:Z-Image-Turbo UI 界面的实用价值与体验升级 1.1 为什么需要一个直观的UI界面? 在AI图像生成领域,模型能力固然重要,但用户体验决定了技术落地的广度。尽管命令…

GoogleTranslateIpCheck多语言支持终极指南:从零构建国际化应用

GoogleTranslateIpCheck多语言支持终极指南:从零构建国际化应用 【免费下载链接】GoogleTranslateIpCheck 项目地址: https://gitcode.com/GitHub_Trending/go/GoogleTranslateIpCheck 还在为应用国际化而苦恼吗?GoogleTranslateIpCheck项目展示…

InstallerX:终极Android应用安装解决方案

InstallerX:终极Android应用安装解决方案 【免费下载链接】InstallerX A modern and functional Android app installer. (You know some birds are not meant to be caged, their feathers are just too bright.) 项目地址: https://gitcode.com/GitHub_Trending…

看完就想试!CV-UNet打造的透明背景图效果太震撼

看完就想试!CV-UNet打造的透明背景图效果太震撼 1. 技术背景与行业痛点 在图像处理领域,图像抠图(Image Matting) 是一项关键且高难度的任务。其目标是从原始图像中精确分离前景对象,并生成带有连续透明度通道&#…

突破语言边界:AFFiNE全球化协作平台的创新架构与实践

突破语言边界:AFFiNE全球化协作平台的创新架构与实践 【免费下载链接】AFFiNE AFFiNE 是一个开源、一体化的工作区和操作系统,适用于组装您的知识库等的所有构建块 - 维基、知识管理、演示和数字资产。它是 Notion 和 Miro 的更好替代品。 项目地址: h…

Sambert-HiFiGAN快速上手:Gradio界面部署保姆级教程

Sambert-HiFiGAN快速上手:Gradio界面部署保姆级教程 1. 引言 1.1 项目背景与学习目标 Sambert-HiFiGAN 是阿里达摩院推出的一套高质量中文语音合成(TTS)系统,结合了 Sambert 声学模型与 HiFi-GAN 声码器,在自然度、…

逻辑门基础应用:项目驱动的新手教学

从零开始造“智能灯”:用逻辑门理解数字世界的底层语言你有没有想过,家里的智能台灯是怎么判断该不该亮的?它似乎“知道”什么时候天黑了、有人进屋了。其实,这种看似聪明的行为背后,并不需要复杂的AI算法——只需要几…

边缘设备能跑BERT吗?树莓派部署填空系统可行性验证

边缘设备能跑BERT吗?树莓派部署填空系统可行性验证 1. 引言:轻量级语义理解的现实需求 随着自然语言处理技术的不断演进,BERT类模型已成为语义理解任务的核心工具。然而,主流观点认为这类模型计算密集、内存占用高,通…