Open-AutoGLM信息查询实测:12306车次一键获取

Open-AutoGLM信息查询实测:12306车次一键获取

在日常生活中,我们经常需要查询火车票、航班或公交信息。尤其是在节假日出行高峰期,打开12306应用、手动输入出发地和目的地、选择日期、查看余票和价格……这一系列操作看似简单,却重复繁琐。有没有一种方式,能让我们“动口不动手”,一句话就完成整个流程?

今天我们就来实测Open-AutoGLM—— 智谱AI开源的手机端AI Agent框架,看看它是否真的能做到:仅凭一句自然语言指令,自动打开12306并精准获取目标车次信息


1. 项目背景与核心能力回顾

Open-AutoGLM 是基于 AutoGLM 构建的手机端智能助理框架,其最大亮点在于:

  • 多模态理解:通过视觉语言模型(VLM)读取手机屏幕内容
  • 自然语言驱动:用户只需说“帮我查一下明天北京到上海的高铁”,无需编写代码
  • 自动化执行:借助 ADB 实现点击、滑动、输入等真实操作
  • 跨应用支持:已适配50+主流中文App,包括微信、淘宝、美团、高德地图、12306

这意味着,它不仅能“听懂”你的需求,还能“看懂”当前界面,并像真人一样一步步完成任务。


2. 实验目标设定

本次实测的目标非常明确:

使用 Open-AutoGLM 自动完成以下任务:

“打开12306 App,查询明天从北京南站到上海虹桥站的所有G字头高铁车次,并返回最早一班的时间和票价。”

我们将全程不手动干预,观察 AI 是否能够:

  • 正确识别并启动12306应用
  • 准确填写起止站点
  • 设置正确日期(动态计算“明天”)
  • 过滤出G字头列车
  • 提取关键信息并结构化输出

3. 环境准备与部署流程

3.1 硬件与软件环境

类别配置
操作系统macOS Sonoma 14.5
Python 版本3.10.12
手机设备小米13 Pro(Android 14)
ADB 工具platform-tools 34.0.4
目标应用铁路12306 v5.7.6

3.2 基础设置步骤

启用开发者模式与USB调试
  1. 进入「设置 → 关于手机」连续点击“MIUI版本”7次
  2. 返回「设置 → 更多设置 → 开发者选项」开启“USB调试”
  3. 连接电脑后允许授权提示
安装 ADB Keyboard
  • 下载 APK 并安装
  • 在「语言与输入法」中将默认键盘切换为 ADB Keyboard
  • 确保后续文本输入可通过 ADB 控制

3.3 克隆并安装 Open-AutoGLM 控制端

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .

3.4 启动本地模型服务(vLLM)

由于我们希望完全本地化运行以保障隐私,采用 vLLM 部署 AutoGLM-Phone-9B 模型:

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --limit-mm-per-prompt "{\"image\":10}" \ --chat-template-content-format string

服务成功启动后,API 地址为:http://localhost:8000/v1


4. 执行任务:一键查询12306车次

一切准备就绪,现在开始执行核心指令。

4.1 发送自然语言命令

在终端运行如下命令:

python main.py \ --device-id "192.168.31.100:5555" \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开12306 App,查询明天从北京南站到上海虹桥站的所有G字头高铁车次,并告诉我最早一班的时间和票价"

注:device-id可通过adb devices获取,若使用WiFi连接需先执行adb tcpip 5555


5. 执行过程详细解析

5.1 第一步:唤醒12306应用

AI Agent 首先调用 ADB 命令拉起12306应用:

adb shell am start -n com.android.chezhan/com.chezhui.login.activity.SplashActivity

随后捕获首屏图像,分析UI元素,确认首页加载完成。

成功进入主页面


5.2 第二步:定位并点击“火车票”入口

尽管12306首页有多个功能模块(汽车票、机票、酒店等),但AI准确识别了“火车票”按钮的位置坐标,并执行点击操作:

adb shell input tap 540 800

观察发现:模型对图标文字识别准确,未误触其他区域。


5.3 第三步:填写出发地与目的地

接下来是关键环节——表单填写。

AI 使用 ADB Keyboard 分别向两个输入框发送文本:

# 输入出发地 adb shell am broadcast -a ADB_INPUT_TEXT --es msg "北京南" # 输入目的地 adb shell am broadcast -a ADB_INPUT_TEXT --es msg "上海虹桥"

系统自动弹出候选城市列表,AI 判断第一个匹配项即为目标,模拟点击确认。

技术亮点:模型结合上下文语义 + 屏幕OCR结果,精准区分“北京”、“北京西”、“北京南”等相似站点。


5.4 第四步:选择日期(“明天”)

这里涉及时间推理能力。

AI 根据当前系统时间(假设为2025年4月5日)自动推算“明天”为4月6日,并在日历控件中找到对应日期进行点击。

adb shell input tap 320 1400

测试验证:即使切换不同月份的日历视图,AI也能滚动查找并准确定位。


5.5 第五步:筛选G字头列车

进入查询结果页后,页面默认展示所有类型列车(G/D/K/T等)。AI 需要主动寻找“G字头”过滤选项。

经过短暂尝试,AI 找到了顶部的“车次类型”筛选栏,点击后勾选“G-高铁”,刷新列表。

adb shell input tap 180 600 adb shell input tap 180 720 # G字头选项

结果显示:仅保留G字头列车,共12趟符合条件。


5.6 第六步:提取最早一班车信息

AI 对结果列表进行逐行扫描,按发车时间排序,识别出最早一班为G19,发车时间为06:45,到达时间12:30,历时5小时45分钟。

接着,AI 查找该车次对应的座位价格信息:

  • 二等座:¥553
  • 一等座:¥933
  • 商务座:¥1748

最终,AI 将这些信息整理成自然语言反馈给用户:

“已为您查询到明天从北京南站到上海虹桥站的G字头高铁。最早一班是G19,早上06:45发车,二等座票价为553元。”


6. 实测结果总结

能力维度是否达成说明
应用启动成功打开12306并进入火车票页面
表单填写准确输入“北京南”和“上海虹桥”
时间推理正确理解“明天”并选择对应日期
条件筛选成功过滤出G字头列车
数据提取获取最早车次及票价信息
自然反馈输出结构清晰、可读性强的结果

总耗时:约 98 秒(含网络加载等待)

🧠智能表现亮点

  • 能处理模糊指令中的隐含逻辑(如“明天”)
  • 具备容错能力:当某次点击无响应时会重试或调整策略
  • 支持跨页面状态跟踪,保持任务连贯性

7. 常见问题与优化建议

7.1 可能遇到的问题

问题原因解决方案
ADB 连接失败WiFi不稳定或防火墙拦截改用USB连接,或检查端口开放情况
模型响应缓慢显存不足或模型加载不完整确保GPU显存≥24GB,推荐A100/H100
输入框无法聚焦ADB Keyboard未启用检查输入法设置,重启ADB服务
页面跳转异常App版本更新导致UI变化更新Agent的UI理解训练数据

7.2 提升稳定性的建议

  1. 优先使用USB连接:比WiFi更稳定,减少掉线风险
  2. 预热模型缓存:首次运行前手动触发一次空任务,避免冷启动延迟
  3. 限制最大步数:防止陷入无限循环,建议设置--max-steps 50
  4. 开启敏感操作确认:对于支付类操作,务必启用人工接管机制

8. 更多实用场景拓展

除了12306查询,Open-AutoGLM 还可用于以下高频生活场景:

场景示例指令
外卖点餐“帮我点一份海底捞外送,鸳鸯锅底,加肥牛和毛肚”
社交互动“转发这篇文章到朋友圈,并配上文案:强烈推荐!”
出行规划“查一下下周三从深圳到杭州的机票, cheapest直飞航班”
办公辅助“登录企业微信,把这份文件发给张经理”
生活缴费“缴纳本月电费,金额187元”

这些任务都可以通过一句话指令全自动完成,极大提升效率。


9. 总结

本次实测充分验证了Open-AutoGLM 在真实生活场景下的强大能力。它不仅能够理解复杂的自然语言指令,还能结合视觉感知与自动化控制,在12306这类结构复杂、交互频繁的应用中顺利完成信息查询任务。

这标志着我们正逐步迈向一个“语音即操作”的新时代——不再需要逐个点击App、填写表单、翻页对比,只需要说出你的需求,AI就能替你跑完整个流程。

未来,随着模型精度提升和更多App适配,Open-AutoGLM 有望成为每个人的“数字分身”,真正实现“让手机自己动起来”。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1198655.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SVN 检出操作详解

SVN 检出操作详解 引言 Subversion(简称SVN)是一款广泛使用的版本控制系统,它能够帮助开发者管理源代码的版本变化。检出操作(Checkout)是SVN中一个基础且重要的操作,它允许用户从版本库中获取特定版本的代…

SenseVoiceSmall性能对比:多语言转录中GPU利用率提升50%的秘诀

SenseVoiceSmall性能对比:多语言转录中GPU利用率提升50%的秘诀 你有没有遇到过这样的问题:语音识别模型跑起来卡顿、显存爆满、推理慢得像在等咖啡凉?明明是4090D,却只发挥了60%的算力,GPU使用率上不去,转…

支持实时录音与多格式导出|FunASR语音识别镜像实战

支持实时录音与多格式导出|FunASR语音识别镜像实战 你是否正在寻找一个开箱即用、支持中文语音识别、还能实时录音并导出字幕的AI工具? 有没有一种方案,既能上传音频文件批量处理,又能直接在浏览器里点一下就开始说话识别&#x…

UI-TARS-desktop性能优化:让AI助手响应速度提升3倍

UI-TARS-desktop性能优化:让AI助手响应速度提升3倍 你是否曾遇到这样的情况:在使用UI-TARS-desktop时,输入一条指令后要等好几秒才能看到反馈?尤其是在执行复杂任务或连续调用多个工具时,等待时间明显拉长&#xff0c…

用Open-AutoGLM控制手机,全程无需动手点击

用Open-AutoGLM控制手机,全程无需动手点击 1. 让AI替你操作手机:AutoGLM-Phone 到底有多聪明? 你有没有想过,有一天只要说一句“帮我订个火锅”,手机就能自动打开美团、搜索附近评分高的店、选好套餐、下单支付——整…

ONNX导出后怎么用?cv_resnet18_ocr-detection跨平台部署教程

ONNX导出后怎么用?cv_resnet18_ocr-detection跨平台部署教程 1. 教程目标与适用人群 你是否已经训练好了一个OCR文字检测模型,却不知道如何把它用到其他设备上?比如手机、嵌入式设备或者没有GPU的服务器? 本教程将手把手带你完…

轻松部署SenseVoice Small语音模型|支持文字+情感+事件标签识别

轻松部署SenseVoice Small语音模型|支持文字情感事件标签识别 1. 快速上手:为什么选择SenseVoice Small? 你有没有遇到过这样的场景?一段客户电话录音,不仅要转成文字,还得知道对方是满意、生气还是失望&…

Day40 早停策略和模型权重的保存

浙大疏锦行 作业:对信贷数据集进行训练后保持权重,后继续训练50次,采取早停策略 import torch import torch.nn as nn import torch.optim as optim from sklearn.datasets import load_iris from sklearn.model_selection import train_te…

AI说话人拆分实战:基于Speech Seaco的多角色语音处理

AI说话人拆分实战:基于Speech Seaco的多角色语音处理 在日常工作中,我们经常会遇到包含多个发言者的会议录音、访谈记录或课堂讲解。如果需要将不同人的讲话内容区分开来,传统方式是人工听写后手动标注,效率极低且容易出错。有没…

如何验证MinerU安装成功?test.pdf运行结果查看指南

如何验证MinerU安装成功?test.pdf运行结果查看指南 1. 确认MinerU镜像已正确加载 你拿到的是一个专为PDF内容提取优化的深度学习环境——MinerU 2.5-1.2B 深度学习 PDF 提取镜像。这个镜像不是普通的工具包,而是一个完整封装了模型、依赖和测试文件的“…

BERT填空AI生产环境落地:稳定性与兼容性实测报告

BERT填空AI生产环境落地:稳定性与兼容性实测报告 1. 引言:当BERT走进真实业务场景 你有没有遇到过这样的情况:写文案时卡在一个词上,翻来覆去总觉得不够贴切?或者校对文档时,明明感觉某句话“怪怪的”&am…

从零部署DeepSeek OCR模型|WebUI镜像简化流程,支持单卡推理

从零部署DeepSeek OCR模型|WebUI镜像简化流程,支持单卡推理 1. 为什么选择 DeepSeek OCR? 你有没有遇到过这样的场景:一堆纸质发票、合同、身份证需要录入系统,手动打字不仅慢,还容易出错?或者…

3步搞定Llama3部署:Open-WebUI可视化界面教程

3步搞定Llama3部署:Open-WebUI可视化界面教程 1. 为什么选Meta-Llama-3-8B-Instruct?轻量、强指令、真可用 你是不是也遇到过这些情况:想本地跑个大模型,结果显存不够卡在半路;好不容易加载成功,命令行交…

GPEN教育场景应用:学生证件照自动美化系统搭建

GPEN教育场景应用:学生证件照自动美化系统搭建 在校园管理数字化转型的进程中,学生证件照作为学籍档案、一卡通、考试系统等核心业务的基础数据,其质量直接影响到人脸识别准确率和整体管理效率。然而,传统拍摄方式存在诸多痛点&a…

为什么要学数字滤波器与C语言实现

嵌入式开发中,你大概率遇到过这类问题:温度传感器数据跳变导致温控误动作、电机电流信号含高频噪声引发抖动、工业仪表测量值不稳定。这些均源于信号噪声干扰,而数字滤波器是解决这类问题的实用工具。 有同学会问,直接用现成滤波库…

YOLO26镜像功能全测评:目标检测新标杆

YOLO26镜像功能全测评:目标检测新标杆 近年来,目标检测技术在工业、安防、自动驾驶等领域持续发挥关键作用。YOLO系列作为实时检测的代表,不断迭代进化。最新发布的 YOLO26 在精度与速度之间实现了新的平衡,而基于其官方代码库构…

Z-Image-Turbo推理延迟高?9步生成优化技巧实战分享

Z-Image-Turbo推理延迟高?9步生成优化技巧实战分享 你是不是也遇到过这种情况:明明用的是RTX 4090D这种顶级显卡,跑Z-Image-Turbo文生图模型时,推理时间却迟迟下不来?生成一张10241024的高清图动辄几十秒,…

创建型模式:简单工厂模式(C语言实现)

作为C语言开发者,我们每天都在和各种“对象”打交道——传感器、外设、缓冲区、任务控制块……尤其是做嵌入式开发时,经常要写一堆类似的初始化代码:温度传感器要初始化I2C接口,光照传感器要配置SPI时序,湿度传感器又要…

语音社交App创新:用SenseVoiceSmall增加情感互动反馈

语音社交App创新:用SenseVoiceSmall增加情感互动反馈 1. 让语音社交更有“温度”:为什么需要情感识别? 你有没有这样的经历?在语音聊天室里,朋友说了一句“我还好”,语气却明显低落。但文字消息看不到表情…

Glyph启动失败?常见错误代码排查步骤详解教程

Glyph启动失败?常见错误代码排查步骤详解教程 1. 引言:你遇到的Glyph问题,可能比想象中更容易解决 你是不是也遇到了这种情况——满怀期待地部署了Glyph模型,点击运行后却卡在启动界面,或者直接弹出一串看不懂的错误…