Open-AutoGLM云端API调用教程,免本地部署超省心

Open-AutoGLM云端API调用教程,免本地部署超省心

1. 前言:当大模型有了“手”

你有没有想过,让AI真正帮你操作手机?不是简单的语音唤醒,而是像真人一样看屏幕、点按钮、滑动页面,甚至完成一整套复杂的任务流程。比如你说:“打开小红书搜南京美食”,它就能自动启动App、输入关键词、浏览结果并截图反馈给你。

这就是Open-AutoGLM的魅力所在——一个由智谱开源的手机端AI Agent框架。它基于视觉语言模型(VLM),通过ADB连接安卓设备,实现“看得见、点得准、想得清”的智能操作。最关键是:你不需要显卡,也不用本地部署大模型,直接调用云端API就能玩转!

本文将带你从零开始,一步步配置环境、连接手机、调用智谱BigModel API,快速体验这项前沿技术。整个过程无需GPU,适合所有想低成本上手AI自动化操作的开发者和爱好者。


2. 为什么选择Open-AutoGLM + 云端API?

在介绍具体步骤前,先说清楚我们为什么要用这种方式:

  • 免本地部署:不用自己跑vLLM或HuggingFace模型,省去显存不足、环境冲突等问题。
  • 低门槛接入:只要有Python基础和一部安卓手机,就能运行。
  • 高性价比:智谱对新用户赠送大量免费Token,足够做长期测试。
  • 真实交互能力:不只是生成文字,而是能“动手”执行任务,真正实现AI代理(Agent)的能力闭环。

简单来说:你的电脑是“大脑指挥中心”,手机是“手脚”,而云端的大模型就是“思考引擎”。


3. 准备工作:硬件与软件清单

3.1 硬件要求

  • 一台安卓手机(Android 7.0以上)
    • 支持真机或模拟器,推荐使用真机以获得最佳体验
    • 测试机型:vivo S20、小米13等主流品牌均可
  • 一台电脑(Windows / macOS)
    • 用于运行控制脚本和ADB工具
    • 建议使用Python 3.10+环境

3.2 软件依赖

  • ADB工具(Android Debug Bridge)
    • 用于与手机通信,发送点击、滑动、截图等指令
  • Python虚拟环境
    • 推荐使用condavenv隔离项目依赖
  • ADB Keyboard
    • 允许通过命令行输入文字,解决中文输入问题
  • Open-AutoGLM项目代码
    • GitHub仓库地址:https://github.com/zai-org/Open-AutoGLM

4. 手机端设置:开启调试权限

要让电脑控制手机,必须先开启开发者权限。

4.1 启用开发者模式

进入手机「设置」→「关于手机」→ 连续点击「版本号」约7~10次,直到提示“您已进入开发者模式”。

不同品牌路径略有差异,如华为/荣耀可能叫“软件信息”,OPPO/Vivo为“i”图标。

4.2 开启USB调试

返回设置主界面 →「开发者选项」→ 打开「USB调试」开关。

注意:部分手机需要重启后才能生效,请确保开启后重新插拔数据线测试连接。

4.3 安装 ADB Keyboard

这是一个关键组件,允许我们在不触碰屏幕的情况下输入文字。

  1. 下载APK文件:

    https://github.com/senzhk/ADBKeyBoard/releases/download/v1.7/ADBKeyboard.apk
  2. 使用ADB安装:

    adb install -r ADBKeyboard.apk
  3. 设置默认输入法:

    • 进入「设置」→「语言与输入法」→「默认键盘」
    • 选择「ADB Keyboard」

完成后,系统就可以通过命令向手机发送文本了。


5. 电脑端环境配置

5.1 配置 ADB 工具

Windows 用户
  1. 下载官方平台工具包: https://developer.android.com/tools/releases/platform-tools

  2. 解压到任意目录,例如C:\platform-tools

  3. 添加环境变量:

    • Win + R输入sysdm.cpl
    • 「高级」→「环境变量」→ 在「系统变量」中找到Path→ 编辑 → 新增路径
    • 添加解压目录:C:\platform-tools
  4. 验证安装:

    adb version

    若输出版本号,则说明配置成功。

macOS 用户

在终端执行以下命令(假设解压目录为~/Downloads/platform-tools):

export PATH=${PATH}:~/Downloads/platform-tools

可将其写入.zshrc.bash_profile实现永久生效。


5.2 克隆项目并安装依赖

创建项目目录并拉取代码:

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM

建议使用虚拟环境:

python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows

安装依赖:

pip install -r requirements.txt pip install -e .

6. 获取智谱 BigModel API Key

Open-AutoGLM支持多种后端模型,但我们这次使用智谱AI的云端API服务,无需本地推理。

6.1 注册与获取API Key

  1. 访问官网:https://bigmodel.cn
  2. 注册账号并登录
  3. 进入「开发者平台」→「API密钥管理」
  4. 创建新的API Key,复制保存

新用户通常有免费额度,足够完成数百次任务调用。


7. 调用云端API:两种方式任选

7.1 方式一:命令行直接执行任务

这是最简单的方式,适合一次性任务。

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开美团搜索附近的火锅店"

参数说明:

参数说明
--base-url智谱API入口地址
--model使用的模型名称,固定为autoglm-phone
--apikey刚才申请的API密钥,记得加引号
最后字符串自然语言指令,支持中文

执行后,程序会:

  1. 截取手机当前画面
  2. 发送至云端模型分析
  3. 模型返回操作指令(点击坐标、输入内容等)
  4. 通过ADB执行动作
  5. 循环直至任务完成

7.2 方式二:交互模式持续对话

如果你希望连续下达多个指令,可以进入交互模式:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here"

运行后会出现提示符:

Enter your task:

你可以输入任意指令,例如:

  • “打开抖音,搜索‘南京旅游攻略’”
  • “切换到微信,给张三发消息:今晚聚餐改到七点”
  • “打开淘宝,把这件连衣裙加入购物车”

每次任务结束后,程序不会退出,而是等待下一条指令,非常适合调试和探索。


8. 设备连接方式:USB vs WiFi

8.1 USB 连接(推荐初学者)

  1. 用数据线连接手机与电脑
  2. 手机弹出“允许USB调试?”时点击“确定”
  3. 查看设备是否识别:
adb devices

正常输出如下:

List of devices attached ABCDEF1234567890 device

其中ABCDEF1234567890就是你的设备ID。


8.2 WiFi 远程连接(摆脱线缆束缚)

适合远程操控或长时间运行。

第一步:先用USB连接启用TCP/IP模式
adb tcpip 5555
第二步:断开USB,在同一局域网下连接IP

查看手机Wi-Fi详情中的IP地址(如192.168.1.100),然后执行:

adb connect 192.168.1.100:5555

成功后再次运行adb devices应能看到设备在线。

优势:无需物理连线,可在后台持续运行
❗ 注意:保持手机和电脑在同一网络,避免掉线


9. 常见问题与解决方案

9.1 中文乱码错误(Windows专属)

当你运行检测脚本时可能会遇到:

UnicodeDecodeError: 'gbk' codec can't decode byte 0xb4 in position 80

原因是Windows默认编码为GBK,而项目文件是UTF-8格式。

解决方法:

修改scripts/check_deployment_cn.py文件中读取JSON的部分:

# 修改前 with open(args.messages_file) as f: messages = json.load(f) # 修改后 with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)

保存后即可正常运行。


9.2 ADB连接失败

问题现象可能原因解决方案
unauthorized未授权调试拔插数据线,手机确认授权弹窗
offline设备离线重启ADB服务:adb kill-server && adb start-server
connection refused网络不通检查IP是否正确,防火墙是否放行5555端口

9.3 模型无响应或操作错误

  • 检查API Key是否有效
  • 确认base-url填写正确
  • 查看智谱平台是否有调用记录
  • 尝试简化指令,避免歧义表达,如“帮我找好吃的”应改为“打开大众点评搜索评分4.5以上的川菜馆”

10. 实测案例展示:AI规划南京两日游

我们来做一个完整的实测任务:

“打开小红书,搜索‘南京两天一夜旅游攻略’,总结一份详细的行程安排。”

AI代理执行流程如下:

  1. 启动小红书App
  2. 在搜索框输入“南京两天一夜旅游攻略”
  3. 浏览热门笔记,提取关键信息
  4. 分析景点顺序、美食推荐、交通建议
  5. 输出结构化攻略

最终结果示例:

Result: 已经为您找到了一个完整的南京两天一夜旅游攻略! ## Day1: 南京博物馆 → 中山陵 → 音乐台 → 美龄宫 → 梧桐大道 → 夫子庙 ### 沿途推荐: - 梧桐大道:秋天梧桐树美景绝佳 - 夫子庙:品尝李百蟹蟹黄面、金陵家宴、晚园江南火锅 ## Day2: 回龙纪念馆 → 古鸡鸣寺 → 玄武湖 → 先锋书店 → 中华门 → 老门东 ### 沿途推荐: - 玄武湖:可乘船或环湖骑行 - 先锋书店:网红文艺打卡地 - 老门东:秦淮八绝、桂花糕等特色小吃 ## 🏨 住宿建议 - 推荐玄武湖附近,地铁便利,出行高效 ## 🍜 美食推荐 1. 李百蟹蟹黄面夫子庙总店 —— 蟹全宴四浇头都很香 2. 金陵家宴传统南京菜 —— 地道烤鸭皮脆肉嫩 3. 晚园江南火锅 —— 露台位可赏夫子庙夜景 ...

整个过程完全自动化,AI不仅完成了操作,还进行了信息整合与归纳,展现出强大的多模态理解与决策能力。


11. 工作原理简析:AI是如何“看懂”屏幕的?

Open-AutoGLM的核心逻辑分为四步:

  1. 截图上传
    通过ADB抓取当前手机屏幕图像,作为视觉输入。

  2. 多模态理解
    将图像 + 用户指令一起发送给云端视觉语言模型(VLM),模型识别界面上的按钮、文本、图标及其位置坐标。

  3. 动作规划
    模型判断下一步应执行的操作:点击某区域、滑动页面、输入文字等,并生成结构化指令。

  4. ADB执行
    控制端接收指令,通过ADB发送对应操作到手机,形成闭环。

这个过程不断迭代,直到任务完成。整个系统内置了敏感操作确认机制,例如涉及支付、删除等高风险行为时会暂停并提示人工接管,保障安全。


12. 总结:未来已来,只需一步之遥

通过本文的详细指导,你应该已经成功实现了用AI操作手机的基本能力。整个过程无需高端显卡,不依赖复杂部署,仅靠云端API就完成了看似科幻的功能。

核心收获回顾:

  • 掌握了 Open-AutoGLM 的完整使用流程
  • 学会了如何通过 ADB 连接和控制安卓设备
  • 成功调用智谱 BigModel API 实现自然语言驱动操作
  • 亲身体验了 AI Agent 的真实工作场景

虽然目前存在一定的延迟(主要受API响应速度影响),但整体准确率和可用性令人惊喜。更重要的是,它的扩展潜力巨大:

  • 可结合定时任务实现“自动签到”“每日打卡”
  • 可用于自动化测试、UI遍历、竞品监控
  • 可接入RPA流程,打造跨平台智能助手

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1196821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库迷局:select for update 锁的真相,90%的开发者都踩过坑!

一、开篇直击痛点:为什么需要 select for update 锁? 做后端开发的同学,大概率遇到过这样的场景: 电商秒杀:100 件商品,1000 人抢购,如何避免超卖? 余额支付:用户账户余额 100 元,同时发起两笔 80 元支付,如何防止余额为负? 库存扣减:多线程同时操作同一商品库存…

PyTorch-2.x-Universal-Dev-v1.0镜像数据处理能力全面评测

PyTorch-2.x-Universal-Dev-v1.0镜像数据处理能力全面评测 1. 镜像核心特性与环境配置 PyTorch-2.x-Universal-Dev-v1.0 是一款为深度学习开发者精心打造的通用开发环境镜像。该镜像基于官方 PyTorch 底包构建,预装了常用的数据处理、可视化和交互式开发工具&…

吐血推荐专科生必用AI论文软件TOP10

吐血推荐专科生必用AI论文软件TOP10 专科生论文写作的“隐形助手”测评 随着AI技术的不断进步,越来越多的专科生开始借助AI论文软件提升写作效率与质量。然而,面对市场上种类繁多的工具,如何选择一款真正适合自己的成了难题。为此&#xff0c…

7大国产操作系统,每个都很优秀!

7大国产操作系统,每个都很优秀!Posted on 2026-01-22 00:00 lzhdim 阅读(0) 评论(0) 收藏 举报想象一下,如果你的电脑、手机甚至服务器都运行着完全由中国团队打造的操作系统,会是怎样的体验?过去几十年,Wi…

动手实操:YOLOv10官方镜像训练全过程分享

动手实操:YOLOv10官方镜像训练全过程分享 你有没有经历过这样的场景?为了调一个学习率,反复跑好几轮训练;明明数据没问题,模型却总是收敛不理想;好不容易训完,部署时又卡在ONNX导出失败……这些…

西门子博途(TIA Portal)无法搜索不到PLC?怎么解决?

在使用西门子博途(TIA Portal)的时候偶尔,会遇到搜索不到PLC的问题,甚至有时候PLC网口直接连接PC网口都搜索不到,出现这个问题的时候确实比较耽误事情。怎么排查呢?一、问题在使用西门子博途(TIA Portal)的时候偶尔…

计算机Java毕设实战-基于springboot的医药药品管理系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

MinerU金融研报处理:图表与文字分离实战教程

MinerU金融研报处理:图表与文字分离实战教程 在金融分析、投资研究和企业尽调中,我们每天都要面对大量PDF格式的研报。这些文档往往结构复杂:多栏排版、嵌入表格、专业公式、趋势图表交织在一起,传统复制粘贴方式不仅效率低&…

零基础玩转Qwen3-Embedding:4B模型保姆级部署教程

零基础玩转Qwen3-Embedding:4B模型保姆级部署教程 1. 为什么你需要关注 Qwen3-Embedding-4B? 你有没有遇到过这些问题: 想搭建一个智能搜索系统,但传统关键词匹配效果差?做推荐系统时,发现用户行为数据不…

DALLE 2, Stable Diffusion和 Midjourney

https://blog.csdn.net/2502_91865303/article/details/149330161 DALLE 2 与 Stable Diffusionhttps://zhuanlan.zhihu.com/p/589223078 理解DALLE 2, Stable Diffusion和 Midjourney的工作原理

实用丨维普AIGC降AI工具推荐 + 操作顺序

维普AIGC检测高?6款工具帮你降到合格线 TL;DR:维普AIGC检测算法和知网不同,很多知网能过的工具在维普可能过不了。实测对维普效果最好的是嘎嘎降AI(67%→9%),其次是比话降AI(60%→12%&#xff0…

springboot_ssm841智慧餐厅点餐管理系统ssm三个角色 员工

目录 具体实现截图员工角色功能摘要 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 员工角色功能摘要 在SpringBootSSM框架开发的智慧餐厅点餐管理系统中,员工角色是系统的核心操作…

【C#程序员入门AI】2026年必知的AI生态与技术路线图

文章目录🚀 开篇先唠两句一、先搞懂:2026年C# AI生态,到底有啥?1. 核心工具三件套(必装)2. 大模型接入方式(2026主流)3. 2026新宠:AI Agent生态4. 向量与RAG(…

异或 XOR 运算是什么?为什么对于大多数人,不重要?

目录1.异或 XOR 的基本概念2.实现一个加密解密器3.不引入三方变量,交换两个变量的值4.算法题,寻找重复的元素5.大名鼎鼎的异或链表 看看它的用法就知道了,没有一个普通人业务里能用到的。所谓有用,只有在 力扣 里刷…

【课程设计/毕业设计】基于springboot+vue的医药管理系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

计算机网络经典问题透视:数据流的平均速率,峰值速率和突发长度各表达什么意思?

第一章:基础定义与核心概念辨析在深入细节之前,我们首先需要建立清晰、准确的定义。这是所有后续分析和讨论的基础。1.1 平均速率:数据流的“长期性格”‍平均速率,顾名思义,是指数据流在一段相对较长的时间间隔内传输…

springboot_ssm842智慧家政在线预约管理系统的设计与实现ssm

目录具体实现截图智慧家政在线预约管理系统的设计与实现系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 智慧家政在线预约管理系统的设计与实现 该系统基于SpringBoot和SSM框架开发,…

维普AI率高?手把手教你用工具稳降

维普AIGC检测高?6款工具帮你降到合格线 TL;DR:维普AIGC检测算法和知网不同,很多知网能过的工具在维普可能过不了。实测对维普效果最好的是嘎嘎降AI(67%→9%),其次是比话降AI(60%→12%&#xff0…

springboot_ssm835面向学生成绩分析系统--论文

目录 具体实现截图摘要 系统所用技术介绍写作提纲源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 具体实现截图 摘要 随着教育信息化的快速发展,学生成绩分析在教育教学管理中扮演着重要角色。传统成绩分析方式依赖人工统…

FIND_IN_SET()方法

一、基础用法说明 FIND_IN_SET(str, strlist) 函数的作用是:在 strlist(逗号分隔的字符串)中查找 str 的位置,返回值是数字(找到则返回位置,从1开始;没找到返回0)。 结合 MyBatis 的…