如何用Open-AutoGLM打造专属手机AI助手?

如何用Open-AutoGLM打造专属手机AI助手?

你有没有想过,让手机自己“动起来”?不是靠预设自动化脚本,而是真正听懂你说的话——比如一句“帮我把微信里上周的会议纪要发到邮箱”,它就能自动打开微信、翻找聊天记录、复制文字、切换到邮箱App、粘贴发送。这不是科幻,而是Open-AutoGLM正在实现的能力。

Open-AutoGLM不是普通的大模型API调用工具,它是一个端到端可执行的手机AI Agent框架:能“看见”屏幕、“理解”界面、“思考”步骤、“动手”操作。它把视觉语言模型(VLM)+任务规划+ADB自动化三者深度融合,让AI从“回答问题”走向“完成任务”。

本文不讲抽象概念,不堆技术参数,只聚焦一件事:手把手带你把Open-AutoGLM跑起来,让它真正替你点开App、输入文字、滑动页面、点击按钮——就像一个坐在你手机背后的数字同事。全程无需写一行推理代码,也不用训练模型,所有关键步骤都已封装好,你只需要按顺序配置、连接、下达指令。

1. 先搞清楚:它到底能做什么?(不是“能聊”,而是“能干”)

Open-AutoGLM的核心价值,不在于生成多优美的文案,而在于跨应用、多步骤、带状态感知的真实操作能力。它解决的是“我知道该怎么做,但懒得点”的问题。

1.1 它和普通语音助手有本质区别

对比维度Siri / 小爱同学Open-AutoGLM
操作范围仅限系统级功能(打电话、设闹钟、查天气)可进入任意第三方App(小红书、抖音、淘宝、钉钉)
任务复杂度单步指令(“播放周杰伦的歌”)多步连贯流程(“在京东搜iPhone15,比价后下单最便宜的那款”)
界面理解不感知当前屏幕内容实时截图分析UI结构,识别按钮、输入框、列表项
执行方式调用系统API或跳转链接通过ADB模拟真实触控、滑动、长按、输入,行为与人完全一致

举个真实场景:当你在小红书看到一款洗发水,想比价下单。传统做法是手动切到京东→搜索→记价格→切到淘宝→再搜索→再比价→选平台下单。而Open-AutoGLM只需一句话:“比较这款LUMMI MOOD洗发水在京东和淘宝的价格,选便宜的下单”,它就会自动完成全部操作,并在最后告诉你“京东便宜12元,已下单”。

1.2 它不是万能的,但边界很清晰

  • 擅长:基于GUI的操作类任务(启动App、搜索、点击、输入、滑动、截图分析、表单填写)
  • 支持:登录态保持、验证码人工接管(遇到图形验证码会暂停并提示你手动输入)、敏感操作二次确认(如删除联系人、支付前弹窗)
  • 不擅长:需要物理传感器的操作(如拍照、扫码)、无UI的后台服务(如蓝牙配对)、涉及金融级安全验证的深度操作(如网银U盾认证)

它的能力边界,就是你手指能点到的地方——只是它比你点得更快、更准、不知疲倦。

2. 环境准备:两台设备,三个关键角色

Open-AutoGLM采用云-端分离架构:AI大脑在云端运行(省去手机本地算力压力),控制指令从本地电脑发出,最终作用于你的安卓手机。整个链路由三部分组成:

  • 云端大脑:部署vLLM服务的GPU服务器(负责理解指令、规划动作、生成操作序列)
  • 本地指挥官:你的Windows/macOS电脑(运行Open-AutoGLM控制端,连接手机并转发指令)
  • 执行终端:你的安卓手机(开启调试模式,接受ADB指令,真实执行点击/输入等操作)

这三者必须各司其职,缺一不可。下面分步说明如何让它们“认出彼此”。

2.1 云端大脑:用40G显存GPU跑起9B模型

Open-AutoGLM-Phone-9B模型虽名为“9B”,但因含多模态编码器,实际显存占用远超同参数文本模型。实测稳定运行需≥32G显存,推荐A40/A100-40G/RTX4090。

部署关键四步(非完整教程,只列易错点)
  1. 镜像选择:务必使用vllm/vllm-openai:v0.12.0及以上版本。旧版不支持--mm-encoder-tp-mode data等多模态参数。
  2. 端口映射:启动容器时-p 8800:8000中的8800必须与你在算力云控制台看到的外网映射端口完全一致。很多人卡在这一步,以为服务没起来,其实是端口填错了。
  3. 模型路径--model /app/model指向容器内挂载路径,不是宿主机路径。若模型下载在/opt/model/ZhipuAI/AutoGLM-Phone-9B,则挂载命令应为-v /opt/model:/app/model,启动参数仍写/app/model
  4. 核心参数不能省
    --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --limit-mm-per-prompt "{\"image\":10}"
    这三项专为手机截图优化,缺失会导致图片解析失败或OOM。

验证是否成功?运行检查脚本:

python scripts/check_deployment_cn.py --base-url http://YOUR_IP:8800/v1 --model autoglm-phone-9b

若返回类似<answer>do(action="Launch", app="小红书")</answer>的结构化动作,说明服务已就绪。

2.2 本地指挥官:让电脑成为手机的“遥控器”

你的电脑不跑模型,只做三件事:连接手机、截图传图、转发指令、接收结果。因此配置极轻量。

必装三件套(Windows/macOS通用)
  • ADB工具:从Android Platform Tools下载,解压后将platform-tools目录加入系统PATH。
    • Windows验证:CMD中输入adb version,显示版本号即成功。
    • macOS验证:Terminal中输入adb version,同上。
  • Python 3.10+:用于运行控制端。推荐用pyenv管理多版本,避免污染系统环境。
  • Open-AutoGLM控制端
    git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e . # 关键!安装为可编辑模式,否则后续调用会报错
手机端设置:三步开启“被操控”权限

这是最容易被忽略却最关键的环节。手机必须明确授权电脑控制它:

  1. 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 输入锁屏密码 → 提示“您现在处于开发者模式”。
  2. 开启USB调试:设置 → 系统 → 开发者选项 → 向下滚动找到“USB调试”,勾选。此时连接USB线,电脑会弹出授权窗口,务必勾选“始终允许”并点确定
  3. 安装ADB Keyboard:这是实现“自动输入”的核心。下载ADB Keyboard APK,安装后进入手机“设置 → 语言与输入法 → 当前输入法”,将默认输入法切换为“ADB Keyboard”。否则所有需要打字的指令(如搜索关键词)都会失败。

注意:部分国产手机(华为、小米)还需额外开启“USB调试(安全设置)”和“MIUI优化”关闭,具体请搜索“你的手机型号 + ADB调试失败”。

2.3 执行终端:一部能“听话”的安卓手机

  • 系统要求:Android 7.0+(基本覆盖2016年后所有机型)
  • 网络要求:USB直连最稳定;WiFi连接需确保手机与电脑在同一局域网,且手机防火墙未拦截ADB端口(5555)。
  • 真机优先:模拟器(如Android Studio自带)虽可运行,但截图延迟高、UI渲染差异大,实测成功率低于真机70%。建议直接用备用机测试。

3. 连接实战:从“看见”到“动手”的全流程

当云端服务启动、本地控制端装好、手机调试开启后,真正的魔法就开始了。我们以一个经典任务为例:“打开小红书,搜索‘北京咖啡探店’,进入第一个笔记,截图保存”

3.1 第一步:确认设备在线(别让AI对着空气挥手)

在本地电脑终端执行:

adb devices

正常输出应类似:

List of devices attached ZY322FDQJL device

若显示unauthorized,回到手机查看是否弹出授权窗口;若为空,检查USB线、驱动、开发者选项。

WiFi连接方式(适合远程办公):

# 先用USB连一次,开启TCP/IP模式 adb tcpip 5555 # 拔掉USB,用WiFi连接(手机IP可在设置→关于手机→状态中查看) adb connect 192.168.1.100:5555

3.2 第二步:下达指令,静待AI“思考”与“行动”

进入Open-AutoGLM目录,执行:

python main.py \ --device-id ZY322FDQJL \ --base-url http://YOUR_SERVER_IP:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索'北京咖啡探店',进入第一个笔记,截图保存"

你会看到终端实时打印日志:

[INFO] 截取当前屏幕... [INFO] 已上传截图至云端... [INFO] AI规划中...(约3-8秒) [INFO] 执行动作:Launch(app='小红书') [INFO] 执行动作:Click(x=520, y=1200) # 点击搜索框 [INFO] 执行动作:Input(text='北京咖啡探店') [INFO] 执行动作:Click(x=800, y=350) # 点击第一个笔记 [INFO] 执行动作:Screenshot(save_path='./screenshot.png') [INFO] 任务完成!截图已保存至 ./screenshot.png

整个过程无需人工干预,AI会根据实时截图动态调整坐标——即使你换了手机分辨率,它也能重新定位按钮位置。

3.3 第三步:理解AI的“思考过程”(为什么它这么干?)

Open-AutoGLM的每一步操作都不是随机猜测,而是经过严格推理:

  1. 意图解析:将自然语言拆解为结构化目标(App启动→搜索→点击→截图)。
  2. 界面理解:对截图进行OCR+目标检测,识别出“搜索框”“返回按钮”“笔记卡片”等UI元素及其坐标。
  3. 动作规划:结合当前界面状态(如是否已启动小红书),生成最优动作序列。例如,若检测到已在小红书首页,则跳过Launch步骤。
  4. 容错执行:若点击后未出现预期界面(如搜索无结果),会自动重试或上报错误。

你可以通过添加--verbose参数查看详细推理链:

python main.py --verbose ... "指令"

输出中会包含类似:<think>当前在桌面,需先启动小红书。小红书图标位于屏幕中部偏右,坐标(720,1350)。</think>这让你完全掌控AI的决策逻辑,便于调试。

4. 进阶技巧:让AI助手更懂你、更可靠

开箱即用的功能已足够强大,但通过几个小设置,能让它真正成为你的“专属”助手。

4.1 指令怎么写才高效?(告别模糊表达)

AI不是人,它依赖精确的语义锚点。以下对比帮你写出高成功率指令:

❌ 低效指令高效指令原因
“帮我订个外卖”“打开美团外卖,搜索‘海底捞’,选择距离最近的门店,点一份番茄锅底套餐,备注不要香菜,下单”明确App、动作、筛选条件、细节要求
“查一下天气”“打开墨迹天气,查看北京市朝阳区未来24小时降水概率”指定App、城市、数据维度
“发个朋友圈”“打开微信,进入‘我’页面,点击‘相册’,选择最近一张风景照,添加文字‘今日晴空万里’,发布”描述完整操作路径,避免歧义

黄金法则:用“动词+宾语+条件”结构,动词选打开/搜索/点击/输入/滑动/截图/长按/返回等明确动作。

4.2 敏感操作保护:防止误触的双重保险

Open-AutoGLM内置两层防护,保障安全:

  • 自动确认机制:当检测到删除/支付/卸载/清除数据等高危动作时,会暂停执行并输出:

    [WARNING] 检测到高危操作:Click(x=920, y=1800) —— 支付按钮 请手动确认是否继续?(y/n):

    输入y才继续,n则终止。

  • 人工接管通道:遇到图形验证码、滑块验证等AI无法处理的场景,会自动暂停并提示:

    [PAUSE] 检测到验证码,请在手机上手动完成,完成后按回车继续...

    你操作完,敲回车,AI立即恢复执行。

4.3 批量任务:一条指令,循环处理100张图

控制端不仅支持单次指令,还能通过Python API实现批量自动化:

from phone_agent.agent import PhoneAgent agent = PhoneAgent( device_id="ZY322FDQJL", base_url="http://YOUR_IP:8800/v1", model="autoglm-phone-9b" ) # 批量处理商品列表 products = ["iPhone15", "AirPods Pro", "MacBook Air"] for product in products: result = agent.run(f"在京东搜索'{product}',截图首屏价格") print(f"{product} 价格截图已保存:{result.screenshot_path}")

这种能力特别适合电商运营、竞品监控、UI回归测试等场景。

5. 常见问题速查:90%的问题都在这里

部署过程中,你可能会遇到这些典型问题。我们按发生频率排序,并给出一步到位的解决方案

5.1 ADB连接失败:设备列表为空或unauthorized

  • 现象adb devices无输出,或显示unauthorized
  • 根因:手机未授权,或USB调试未开启。
  • 解决
    1. 检查手机是否弹出“允许USB调试”弹窗,勾选“始终允许”并点确定
    2. 若无弹窗,尝试重启手机ADB:adb kill-server && adb start-server
    3. 更换USB线或电脑USB口(部分USB-C线仅支持充电)。

5.2 模型返回乱码或超时:服务看似运行,实则失效

  • 现象main.py运行后卡住,或返回<answer>None</answer>
  • 根因:vLLM启动参数与模型不匹配,最常见是--max-model-len值过小。
  • 解决:检查启动命令中--max-model-len 25480是否与模型实际需求一致。Open-AutoGLM-Phone-9B必须≥25480,低于此值必失败。

5.3 点击位置偏差:AI点了屏幕边缘,而非目标按钮

  • 现象:截图显示按钮在中间,AI却点击了左上角。
  • 根因:手机开启了“指针位置”或“显示触摸操作”等开发者选项,导致截图坐标系偏移。
  • 解决:手机设置 → 系统 → 开发者选项 → 关闭所有“显示”类选项(如“指针位置”“显示触摸操作”“GPU呈现模式”)。

5.4 输入法不生效:搜索框点了,但无法输入文字

  • 现象:AI点击搜索框后,光标未出现,键盘未弹出。
  • 根因:未安装或未启用ADB Keyboard。
  • 解决
    1. 确认已安装ADB Keyboard APK;
    2. 进入手机“设置 → 语言与输入法”,将默认输入法100%切换为ADB Keyboard(不是“添加”,是“切换”);
    3. 重启手机,重试。

6. 总结:你的手机,从此有了“数字分身”

Open-AutoGLM的价值,不在于它多酷炫,而在于它把AI从“对话伙伴”升级为“执行伙伴”。它不替代你的思考,而是放大你的行动力——当你构思好一个任务,它立刻化身双手,精准、稳定、不知疲倦地帮你完成。

回顾整个搭建过程,你其实只做了三件事:

  • 在云端租一台GPU服务器,用5条命令部署好模型服务;
  • 在本地电脑装好ADB和控制端,耗时不到10分钟;
  • 在手机上开启三个开关,安装一个输入法。

没有复杂的模型微调,没有艰深的算法理解,所有技术细节已被封装成清晰的命令行接口。这就是AI工程化的魅力:把前沿能力,变成人人可用的生产力工具。

下一步,你可以尝试:

  • 用它自动整理每日微信未读消息,生成摘要发到邮箱;
  • 让它每天固定时间打开股票App,截图大盘走势发到钉钉群;
  • 为老人定制“一键呼叫子女”流程:点击桌面图标→自动拨号→免提接通。

技术终将回归人性。当AI不再需要你教它“怎么点”,而是主动问你“你想做什么”,那一刻,它才真正成了你的助手。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1213443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高效音频格式转换工具:Silk-V3-Decoder全攻略

高效音频格式转换工具&#xff1a;Silk-V3-Decoder全攻略 【免费下载链接】silk-v3-decoder [Skype Silk Codec SDK]Decode silk v3 audio files (like wechat amr, aud files, qq slk files) and convert to other format (like mp3). Batch conversion support. 项目地址: …

ncmppGui核心功能与解决方案:开源ncm文件转换工具全解析

ncmppGui核心功能与解决方案&#xff1a;开源ncm文件转换工具全解析 【免费下载链接】ncmppGui 一个使用C编写的转换ncm文件的GUI工具 项目地址: https://gitcode.com/gh_mirrors/nc/ncmppGui 音乐爱好者常面临从流媒体平台下载的音频文件格式限制问题&#xff0c;ncmpp…

软件故障排查全指南:从现象到预防的系统方法论

软件故障排查全指南&#xff1a;从现象到预防的系统方法论 【免费下载链接】ModEngine2 Runtime injection library for modding Souls games. WIP 项目地址: https://gitcode.com/gh_mirrors/mo/ModEngine2 1. 三招解决启动失败问题 故障现象 应用程序无法启动&#…

3步实现高效字幕制作:智能工具让视频处理效率提升10倍

3步实现高效字幕制作&#xff1a;智能工具让视频处理效率提升10倍 【免费下载链接】video-srt-windows 这是一个可以识别视频语音自动生成字幕SRT文件的开源 Windows-GUI 软件工具。 项目地址: https://gitcode.com/gh_mirrors/vi/video-srt-windows 你是否曾因制作视频…

Scratch作品跨平台发布解决方案:TurboWarp Packager实战指南

Scratch作品跨平台发布解决方案&#xff1a;TurboWarp Packager实战指南 【免费下载链接】packager Converts Scratch projects into HTML files, zip archives, or executable programs for Windows, macOS, and Linux. 项目地址: https://gitcode.com/gh_mirrors/pack/pack…

告别996?这款低代码可视化编辑器让H5开发效率提升10倍

告别996&#xff1f;这款低代码可视化编辑器让H5开发效率提升10倍 【免费下载链接】h5-Dooring MrXujiang/h5-Dooring: h5-Dooring是一个开源的H5可视化编辑器&#xff0c;支持拖拽式生成交互式的H5页面&#xff0c;无需编码即可快速制作丰富的营销页或小程序页面。 项目地址…

游戏画质优化神器:如何让老旧显卡焕发新生

游戏画质优化神器&#xff1a;如何让老旧显卡焕发新生 【免费下载链接】OptiScaler DLSS replacement for AMD/Intel/Nvidia cards with multiple upscalers (XeSS/FSR2/DLSS) 项目地址: https://gitcode.com/GitHub_Trending/op/OptiScaler 你是否遇到过这样的困境&…

波形发生器与示波器联动测试:操作指南提升测量效率

以下是对您提供的技术博文进行 深度润色与结构化重构后的专业级技术文章 。整体风格更贴近一位资深嵌入式系统测试工程师的实战分享:语言自然、逻辑递进、重点突出、去AI痕迹明显,同时强化了教学性、可操作性与工程洞察力。全文已彻底摒弃模板化标题和空泛总结,代之以真实…

探索Element React:企业级React组件库的架构奥秘与实战应用

探索Element React&#xff1a;企业级React组件库的架构奥秘与实战应用 【免费下载链接】element-react Element UI 项目地址: https://gitcode.com/gh_mirrors/el/element-react 在现代前端开发领域&#xff0c;组件化开发已成为构建复杂应用的核心方法论&#xff0c;而…

3步解锁跨设备音频自由:重构生态壁垒的传输革命

3步解锁跨设备音频自由&#xff1a;重构生态壁垒的传输革命 【免费下载链接】AudioShare 将Windows的音频在其他Android设备上实时播放。Share windows audio 项目地址: https://gitcode.com/gh_mirrors/audi/AudioShare 跨设备音频传输正成为数字生活的关键需求&#x…

UDS协议下动态定义数据标识符实战应用

以下是对您提供的博文《UDS协议下动态定义数据标识符实战应用:技术深度解析与工程实践》的 全面润色与重构版本 。本次优化严格遵循您的全部要求: ✅ 彻底去除AI痕迹,语言自然、专业、有“人味”——像一位在BMS项目一线摸爬滚打多年、刚调通0x2C服务的资深诊断工程师在深…

3D打印固件技术解析:MKS Robin Nano Marlin 2.0架构与实现

3D打印固件技术解析&#xff1a;MKS Robin Nano Marlin 2.0架构与实现 【免费下载链接】Mks-Robin-Nano-Marlin2.0-Firmware The firmware of Mks Robin Nano, based on Marlin-2.0.x, adding the color GUI. 项目地址: https://gitcode.com/gh_mirrors/mk/Mks-Robin-Nano-Ma…

全平台无损音频解密工具:从格式限制到自由播放的完整解决方案

全平台无损音频解密工具&#xff1a;从格式限制到自由播放的完整解决方案 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库&#xff1a; 1. https://github.com/unlock-music/unlock-music &#xff1b;2. https://git.unlock-music.dev/um/web 项目地址…

建筑设计高效建模:building_tools插件全解析

建筑设计高效建模&#xff1a;building_tools插件全解析 【免费下载链接】building_tools Building generation addon for blender 项目地址: https://gitcode.com/gh_mirrors/bu/building_tools 在建筑设计领域&#xff0c;效率与精度往往难以兼顾。building_tools作为…

搞定大学论文排版:LaTeX模板全攻略

搞定大学论文排版&#xff1a;LaTeX模板全攻略 【免费下载链接】njuthesis-nju-thesis-template 南京大学学位论文(本科/硕士/博士)&#xff0c;毕业论文LaTeX模板 项目地址: https://gitcode.com/gh_mirrors/nj/njuthesis-nju-thesis-template 学术规范与格式合规是论文…

3大核心价值让职场人的文件搜索效率提升300%

3大核心价值让职场人的文件搜索效率提升300% 【免费下载链接】EverythingPowerToys Everything search plugin for PowerToys Run 项目地址: https://gitcode.com/gh_mirrors/ev/EverythingPowerToys 文件搜索是职场效率的隐形瓶颈&#xff0c;传统系统搜索动辄需要数十…

OpCore Simplify: 零基础也能玩转黑苹果的自动化配置工具

OpCore Simplify: 零基础也能玩转黑苹果的自动化配置工具 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 你是否也曾被OpenCore EFI配置的复杂流程劝退…

Mask2Former环境部署完全攻略:从零基础到实战运行

Mask2Former环境部署完全攻略&#xff1a;从零基础到实战运行 【免费下载链接】Mask2Former Code release for "Masked-attention Mask Transformer for Universal Image Segmentation" 项目地址: https://gitcode.com/gh_mirrors/ma/Mask2Former 1 准备工作&…

PDF补丁丁页面处理高级指南:从基础剪裁到批量优化

PDF补丁丁页面处理高级指南&#xff1a;从基础剪裁到批量优化 【免费下载链接】PDFPatcher PDF补丁丁——PDF工具箱&#xff0c;可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档&#xff0c;探查文档结构&#xff0c;提取图片、转成图片等等 项目地址: https://gitcod…

3步解锁AI视频笔记:让学习效率提升300%的秘密工具

3步解锁AI视频笔记&#xff1a;让学习效率提升300%的秘密工具 【免费下载链接】BiliNote AI 视频笔记生成工具 让 AI 为你的视频做笔记 项目地址: https://gitcode.com/gh_mirrors/bi/BiliNote 刷完3小时教程却记不住重点&#xff1f;收藏夹里躺了50学习视频却没时间回看…