Open-AutoGLM如何处理验证码?人工接管流程演示

Open-AutoGLM如何处理验证码?人工接管流程演示

在自动化任务中,验证码始终是一个绕不开的“拦路虎”。无论是登录账户、支付确认,还是敏感操作,系统常常会弹出图形验证码、短信验证或滑块验证来确保操作者是真人。对于AI代理来说,这类非结构化、需要主观判断的环节极具挑战。

Open-AutoGLM 作为智谱开源的手机端 AI Agent 框架,虽然具备强大的多模态理解与自动执行能力,但在面对验证码等安全机制时,并不会强行突破或绕过,而是采用智能暂停 + 人工接管的方式,在保障自动化效率的同时,兼顾安全性与合规性。

本文将深入解析 Open-AutoGLM 是如何识别验证码场景、触发人工介入机制,并通过实际操作演示整个接管流程,帮助开发者和用户更好地理解和使用这一关键功能。


1. 验证码为何是自动化流程的“断点”

在理想状态下,我们希望 AI 能够从头到尾完成一个完整任务,比如:“登录小红书,搜索美食博主并关注”。但现实往往更复杂:

  • 登录账号时出现短信验证码
  • 多次操作后触发滑动验证
  • 支付环节需要人脸识别或密码输入

这些环节的设计初衷就是防止自动化脚本滥用。如果 AI 强行尝试破解或跳过,不仅违反平台规则,还可能带来安全风险。

因此,一个成熟的 AI Agent 不应追求“全链路无人干预”,而应在关键节点智能识别、主动暂停、等待人工决策——这正是 Open-AutoGLM 的设计理念。


2. Open-AutoGLM 的人工接管机制原理

Open-AutoGLM 基于视觉语言模型(VLM)对手机屏幕进行实时感知,结合预设的行为策略引擎,能够动态判断当前是否处于“需人工介入”的状态。其核心逻辑如下:

2.1 视觉识别:检测验证码界面特征

系统每执行一步操作前,都会通过 ADB 截取当前手机屏幕,并将图像送入 AutoGLM-Phone 模型进行分析。模型会重点关注以下视觉线索:

  • 是否存在“验证码”文字提示(如“请输入验证码”、“Verification Code”)
  • 是否出现数字输入框、倒计时按钮(“重新发送60s”)
  • 是否有滑动条、拼图区域、点击特定图案等典型验证控件
  • 是否弹出系统级权限请求或安全警告对话框

一旦识别到上述任一特征,模型会标记该页面为“潜在验证页”。

2.2 上下文推理:结合操作路径判断意图

仅靠视觉还不够。Open-AutoGLM 还会结合当前任务上下文进行推理。例如:

  • 用户指令是“登录我的微博账号”
  • 当前已输入用户名和密码
  • 下一步界面突然出现四位数字输入框

此时即使没有明确文字提示,系统也能推断出“这很可能是验证码环节”。

2.3 决策触发:暂停执行并进入待接管模式

当满足以下条件之一时,系统将自动暂停自动化流程:

  • 明确识别到验证码相关 UI 元素
  • 连续多次操作失败且界面无变化(疑似被拦截)
  • 检测到敏感操作(如支付、删除账户、修改密码)

此时,AI 不再继续尝试点击或输入,而是输出一条清晰提示:

[PAUSE] 检测到验证码页面,请手动完成验证后按回车键继续...

同时保持设备连接状态,等待用户完成验证后恢复运行。


3. 实际演示:人工接管验证码全流程

下面我们以“登录某社交App并发布一条动态”为例,完整演示 Open-AutoGLM 在遇到短信验证码时的处理流程。

3.1 准备工作

确保已完成以下配置:

  • 手机开启 USB 调试并连接电脑
  • 安装 ADB Keyboard 并设为默认输入法
  • Open-AutoGLM 控制端已部署
  • vLLM 或 SGlang 模型服务正在运行

启动命令如下:

python main.py \ --device-id YOUR_DEVICE_ID \ --base-url http://YOUR_SERVER_IP:8000/v1 \ --model "autoglm-phone-9b" \ "登录我的账号并发布一条‘今天天气真好’的动态"

3.2 自动化流程执行至验证码环节

AI 开始执行任务,依次完成以下步骤:

  1. 解锁手机(若已解锁则跳过)
  2. 打开目标 App
  3. 点击“登录”按钮
  4. 输入预存的手机号
  5. 点击“获取验证码”
  6. 等待短信到达(期间自动刷新收件箱)

当验证码短信收到后,App 跳转至验证码输入页面,界面如下:

+-----------------------------+ | 请输入6位验证码 | | | | [ □ □ □ □ □ □ ] | | | | 重新获取 (58s) [提交] | +-----------------------------+

3.3 系统自动暂停并提示人工介入

此时,Open-AutoGLM 模型通过图像识别发现:

  • 页面包含“请输入验证码”字样
  • 存在一个六位空白输入框
  • 有“重新获取”倒计时按钮

结合上下文(刚发送验证码),系统判定这是典型的短信验证场景,立即停止后续操作,并在终端输出:

[INFO] 当前操作:等待验证码输入 [WARNING] 检测到验证码输入界面,为保证安全,暂停自动化流程。 [PROMPT] 请手动输入验证码,完成后按 Enter 键继续执行...

此时,你可以拿起手机,手动从短信中复制验证码并粘贴到输入框中(或直接输入)。完成后,回到电脑终端按下回车键。

3.4 继续执行剩余任务

一旦你按下回车,Open-AutoGLM 将重新激活,并执行后续动作:

  1. 检测登录是否成功(通过主页元素判断)
  2. 点击“发布动态”按钮
  3. 输入内容:“今天天气真好”
  4. 点击“发布”

最终,终端显示:

[TASK DONE] 动态已成功发布!

整个过程实现了“大部分自动化 + 关键节点人工参与”的理想协作模式。


4. 如何自定义人工接管行为

Open-AutoGLM 提供了灵活的配置选项,允许开发者根据业务需求调整人工接管策略。

4.1 修改敏感操作白名单

phone_agent/config/目录下,可以编辑security_rules.json文件,添加或移除需要人工确认的操作类型:

{ "pause_on_verification": true, "pause_on_payment": true, "pause_on_account_deletion": true, "pause_on_face_id": false }

例如,如果你希望人脸识别也暂停,可将"pause_on_face_id"设为true

4.2 自定义提示语

config/prompts_zh.txt中,可以修改暂停时的提示信息:

[人工介入] 检测到安全验证,请完成验证后按任意键继续...

支持多语言切换(通过--lang en参数启用英文提示)。

4.3 设置超时自动退出

为避免长时间挂起,可在启动参数中加入超时控制:

python main.py \ --timeout 120 \ ...

表示若 120 秒内未收到用户响应,则自动终止任务并返回错误码。


5. 为什么选择“人工接管”而非“自动识别验证码”

你可能会问:既然模型能看懂屏幕,为什么不直接读取验证码并填入?

原因有三:

5.1 法律与合规风险

大多数平台的服务协议明确禁止自动化绕过验证码。强行破解可能构成违法或违约行为。

5.2 技术局限性

  • 图形验证码常带有干扰线、扭曲字体、背景噪声
  • 滑动拼图涉及轨迹模拟,极易被识别为机器人
  • 短信验证码存储在系统消息中,第三方应用无法直接读取(除非获得极高权限)

5.3 用户隐私保护

用户的验证码属于敏感信息,不应由 AI 系统代为处理。交由用户亲自操作,是最安全的选择。

因此,“识别 + 暂停 + 接管”是目前最合理、最可持续的解决方案。


6. 总结

Open-AutoGLM 并不是一个试图“无所不能”的全自动工具,而是一个懂得“何时该停、何时该问”的智能协作者。它在面对验证码这类安全屏障时,采取了务实而稳健的策略:

  • 智能识别:利用多模态模型精准捕捉验证码界面特征
  • 主动暂停:在关键节点中断自动化流程,避免误操作
  • 无缝接管:提供清晰提示,支持用户快速介入并恢复执行
  • 灵活配置:允许开发者根据场景定制接管规则

这种“人机协同”的设计思想,使得 Open-AutoGLM 既能大幅提升日常操作效率,又能在关键时刻守住安全底线。

未来,随着可信身份认证技术的发展,或许会出现更高级的授权机制(如一次性 Token、OAuth 委托),让 AI 在合法范围内完成更多任务。但在那一天到来之前,人工接管仍是不可或缺的一环。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1193361.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YimMenu架构深度解析:从传统辅助到创新游戏体验的革命性跨越

YimMenu架构深度解析:从传统辅助到创新游戏体验的革命性跨越 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/y…

网盘下载效率革命:八大平台直链解析全攻略

网盘下载效率革命:八大平台直链解析全攻略 【免费下载链接】Online-disk-direct-link-download-assistant 可以获取网盘文件真实下载地址。基于【网盘直链下载助手】修改(改自6.1.4版本) ,自用,去推广,无需…

Qwen-Image-Layered部署教程:N卡用户5分钟快速启动

Qwen-Image-Layered部署教程:N卡用户5分钟快速启动 1. 快速上手:什么是Qwen-Image-Layered? 你有没有遇到过这样的问题:一张设计精美的图片,只想改个文字或换下背景,结果一动就糊了?传统修图工…

云盘解析工具:八大平台免登录高速下载终极指南

云盘解析工具:八大平台免登录高速下载终极指南 【免费下载链接】Online-disk-direct-link-download-assistant 可以获取网盘文件真实下载地址。基于【网盘直链下载助手】修改(改自6.1.4版本) ,自用,去推广,…

全网资源批量下载神器:智能拦截与高效管理实战指南

全网资源批量下载神器:智能拦截与高效管理实战指南 【免费下载链接】res-downloader 资源下载器、网络资源嗅探,支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gitcode.com/Gi…

YimMenu完整使用教程:从新手到高手的GTA5辅助工具指南

YimMenu完整使用教程:从新手到高手的GTA5辅助工具指南 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimM…

基于SpringAI的在线考试系统-成绩管理功能实现方案

🎯 成绩管理功能完整优化方案(多角色适配数据闭环) 基于你提供的页面和优化后的表结构,我从角色适配布局、交互逻辑、后端算法、数据流转四个维度,完善成绩管理功能,确保学生、老师、管理员都有流畅的体验。…

Android Camera驱动开发工程师面试指南:技术深度与实战准备

上海移远通信技术股份有限公司 Android Camera驱动开发工程师 (MJ000619) 职位信息 岗位职责 1.负责Android Camera sensor/AF/PDAF/OTP/Flash驱动开发及维护。 2.负责高通/展锐平台Camera 底层(Driver、VFE、MCT、CamX)及HAL新功能开发。 3.负责该领域的方案实现,挖掘技术点进…

YimMenu全面攻略:解锁GTA5隐藏玩法的免费神器

YimMenu全面攻略:解锁GTA5隐藏玩法的免费神器 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu …

如何快速掌握炉石传说自动化助手:新手完全指南

如何快速掌握炉石传说自动化助手:新手完全指南 【免费下载链接】Hearthstone-Script Hearthstone script(炉石传说脚本)(2024.01.25停更至国服回归) 项目地址: https://gitcode.com/gh_mirrors/he/Hearthstone-Scrip…

2026年AI大模型薪资真相与学习全攻略,小白也能快速入门,AI大模型应用开发学习路线,非常详细建议收藏!

文章揭示2025年AI大模型领域高薪现状:大模型算法工程师月薪7万,AI科学家月薪11万,人才供需比仅0.71。详解5大高薪岗位技能要求,提供6个涨薪策略,预测未来3年行业趋势。掌握大模型技术相当于在房价涨前买房,…

Res-Downloader完整指南:轻松掌握全网资源下载的免费工具

Res-Downloader完整指南:轻松掌握全网资源下载的免费工具 【免费下载链接】res-downloader 资源下载器、网络资源嗅探,支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gitcode.…

HLS视频下载工具:让流媒体内容轻松保存

HLS视频下载工具:让流媒体内容轻松保存 【免费下载链接】hls-downloader Web Extension for sniffing and downloading HTTP Live streams (HLS) 项目地址: https://gitcode.com/gh_mirrors/hl/hls-downloader 你是否曾经在网上看到精彩的视频内容&#xff0…

SuperPNG终极解决方案:让PNG文件体积减少60%的高效压缩插件

SuperPNG终极解决方案:让PNG文件体积减少60%的高效压缩插件 【免费下载链接】SuperPNG SuperPNG plug-in for Photoshop 项目地址: https://gitcode.com/gh_mirrors/su/SuperPNG 还在为PNG文件占用过多存储空间而烦恼?SuperPNG作为一款专业的Phot…

Qwen-Image-2512-ComfyUI升级指南,提升运行稳定性

Qwen-Image-2512-ComfyUI升级指南,提升运行稳定性 1. 引言:为什么需要升级Qwen-Image-2512-ComfyUI? 你是不是也遇到过这样的问题:在使用Qwen-Image模型生成图片时,突然卡住、报错,甚至显存溢出&#xff…

cv_unet_image-matting支持BMP格式吗?工业检测应用探讨

cv_unet_image-matting支持BMP格式吗?工业检测应用探讨 1. 引言:AI抠图工具的实用价值与扩展场景 你有没有遇到过这样的问题:产线上拍摄的工业图像格式五花八门,有些还是老设备导出的BMP文件,想做自动化分析却卡在预…

星露谷物语SMAPI模组开发完全手册:从入门到精通的技术实践

星露谷物语SMAPI模组开发完全手册:从入门到精通的技术实践 【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 想要为星露谷物语打造独特的游戏体验吗?SMAPI(Stardew …

Windows苹果设备驱动完整解决方案:一键搞定iPhone连接问题

Windows苹果设备驱动完整解决方案:一键搞定iPhone连接问题 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.com/gh…

暗黑2单机玩家的福音:PlugY插件让你的游戏体验焕然一新

暗黑2单机玩家的福音:PlugY插件让你的游戏体验焕然一新 【免费下载链接】PlugY PlugY, The Survival Kit - Plug-in for Diablo II Lord of Destruction 项目地址: https://gitcode.com/gh_mirrors/pl/PlugY 还在为暗黑破坏神2单机模式的种种限制而苦恼吗&am…

B站视频高效下载全攻略:开源工具助你永久保存珍贵内容

B站视频高效下载全攻略:开源工具助你永久保存珍贵内容 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 你是否遇到过这些困…