【多模态Grounding】精准识别+定位 营业厅人员行为分析

背景

利用qwen-vl加提示词功能,精准识别营业厅工作人员行为,准确区分顾客与工作人员,并且能够识别工作人员行为、精准定位工作人员,帮助实现相关工作场所的监控管理。

如果只用qwen-vl而不进行提示词工程、流程筛分等工作的话,模型非常有可能把顾客识别成工作人员,我用两个小时才调试好。目前能实现工作人员的精准识别,对于玩手机等行为也能识别出来,但是具体行为分类还有待加强,柜台外的工作人员暂时无法识别。

使用网络图片,效果如下(真正的业务图片会更清楚一些),中间绿色的女工作人员,其实应该是使用手机:

这张图片,使用qwen3-vl-flash,能将左侧女工作人员判定为”正常工作”
使用手机:

整体流程

步骤1:

逐个分析图中的人员,结合衣着(是否是工作服)、位置(是否位于柜台内)来进行识别,重点是让模型理解什么是“柜台内”(我用名词解释实现了),让模型在长上下文推理中始终把握“柜台内是工作人员、柜台外是顾客”(我用复述技巧实现了)。完成了这两点,就可以精准识别工作人员了。

在这一步骤中,我的“复述”技巧,vl视觉模型不太能遵循,我本来是想让vl模型每识别一个人,就复述一遍,但是这会破坏vl模型的理解能力。类似的技巧在语言模型中就能完美适用,充分说明了语言模型与视觉模型的差异。

下面是我的提示词(假设工作人员都在柜台内):

逐个分析图中人员,找出工作人员和顾客。**逐个识别图中人员,每次分析人员身份前, 请复述【请注意,工作人员位于柜台内(图片下方),穿着工作服;顾客位于柜台外(其他位置),不穿工作服】**每位人员的详细描述:*位置(柜台内或柜台外,见名词解释)*衣着(是否穿工作服)*当前行为(使用电脑、使用手机等) 名词解释:-柜台内:位于屏幕下方,专属于工作人员,可以看到电脑、办公桌等办公设备,类似于办公室-柜台外:位于屏幕中央,顾客等待、接受服务的区域,类似于办事大厅

步骤2(可选)

生成环境描述,这一步可选可不选。提示词(模型生成的):

请详细描述这张营业厅场景图片的环境和氛围,需要包含以下内容: 【环境描述】1.营业厅的整体环境2.营业厅的设施设备3.人员活动情况

步骤3

在这一部中,需要结合第一步的结果,生成画框,框定工作人员及其行为。参考内容{reference_section}来自步骤1。

结合【参考信息】,识别图片中的所有**工作人员**,并输出坐标:{reference_section}**【识别字段】**1.bbox_2d:bbox_2d格式,坐标值范围0-9992.label:-"使用电脑":工作人员正在操作电脑-"使用手机":工作人员正在使用手机-"正常工作":工作人员在进行其他工作活动(如接待顾客、整理文件、站立服务等)**【输出格式】**请以JSON格式输出:[{{"bbox_2d":[x1,y1,x2,y2],"label":"工作人员-使用电脑"}}]

完整代码

见资源附件,或github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164904.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java企业级AI开发:资源池化管理破解模型对接与高并发困局

在Java企业级AI应用开发中,资源池化管理破解模型对接与高并发难题在Java企业级AI应用开发领域,模型对接与高并发场景处理始终是横亘在开发者面前的两座大山。从多模型生态的兼容适配,到业务峰值期的系统稳定性保障,传统开发模式往…

如何用光耦来设计可靠的串口电平转换隔离电路

首先来看一下光耦器件的作用,它是最常用来作为电路隔离设计的,可以通过光耦器件将信号从一个电路回路里传递到另外一个电路回路,两个电路回路之间完全绝缘,且绝缘耐压支持几百V到上千V,这个特点非常适合用于解决电路上…

硬件加密狗复制之通信协议

硬件加密狗通信协议硬件加密狗(Dongle)是一种物理安全设备,用于软件授权和版权保护。其通信协议通常基于USB或串行接口,涉及身份验证、数据加密和指令交互。以下是常见协议类型的深度分析。通信协议类型Greer82加密狗复制破解USB …

C++跨平台开发挑战的技术文章

C跨平台开发的核心挑战硬件架构差异导致的内存对齐、字节序问题 不同操作系统API和系统调用的兼容性处理 编译器对C标准支持程度不一致跨平台构建系统的选择www.szyswkj.cnCMake作为主流构建工具的配置策略 处理不同平台的依赖库管理 自动化编译链的搭建技巧图形与UI开发的解决…

Java性能优化实战技术文章

Java性能优化实战技术文章大纲性能优化概述性能优化的定义与重要性常见性能瓶颈场景(CPU、内存、I/O、网络)性能优化方法论(测量、分析、优化、验证)JVM调优实战堆内存与垃圾回收机制优化选择合适的垃圾回收器(G1、ZGC…

大模型进阶:12种RAG黑科技全解析,小白也能玩转AI检索增强!

RAG(检索增强生成) 曾是极其热门的话题之一。而本周非常幸运地看到了一些关于 RAG 的真正令人兴奋的新研究 让我们一起来看看近期出现的 12 种 RAG 高级架构与方法: 1. Mindscape-Aware RAG (MiA-RAG) 全局感知 RAG MiA-RAG 通过首先构建…

TCP/IP协议栈:从四层模型到未来网络

TCP/IP协议栈深度解析技术文章大纲 协议栈概述 TCP/IP协议栈的定义与历史背景四层模型(应用层、传输层、网络层、链路层)与OSI七层模型的对比协议栈的核心设计思想与优势 链路层(数据链路层) 链路层的功能与作用:物…

8年Java老兵被裁:不学AI,你的代码终将被Copilot替代!彭靖田亲授大模型开发,10小时带你入门逆袭

上周,和一位做了 8 年 Java 的朋友吃饭,他情绪很低落。 “被优化了。找了一个月工作,处处碰壁。” 我有点惊讶,他可是前公司的技术骨干,P7 级别,怎么会? 他叹了口气:“不是我技术…

Verilog/SystemVerilog 程序语句详解

Verilog/SystemVerilog 程序语句详解 Verilog 和 SystemVerilog 中的程序语句(Procedural Statements)是指用于描述电路行为的代码结构,主要用于过程块(procedural blocks)中,如 always、initial、task、fu…

华为手机相册竟藏着这么多“黑科技”?这4个功能太实用了,不用真亏!

很多华为用户拿起手机,打开相册通常只是为了查看刚拍的照片,或者清理一下内存。但你可能不知道,在鸿蒙系统(HarmonyOS)的加持下,华为手机的相册早已不是一个简单的图片查看器,而是一个集成了AI搜…

RAG检索“翻车“现场:文档切片让AI变成“近视眼“!这个黑科技让大模型“看清“全文

尽管大语言模型本身的能力在快速演进,但它依然无法凭空获取训练数据之外最新或专有知识。 检索增强生成(RAG, Retrieval-Augmented Generation)正是为解决这一问题而生: 在回答问题前,先从知识库中检索相关资料&#…

HIWIN滚珠丝杆安装关键步骤有哪些?怎样保证运行精度?

HIWIN滚珠丝杆作为精密传动的核心部件,其安装质量直接影响设备的运行精度和使用寿命。作为HIWIN集团正式授权的专属经销商(上银专属经销商),2000年成立至今已经25年,授权证书编号HC-D2026002的海威机电,在多年的HIWIN滚珠丝杆安装…

HIWIN滚珠丝杆安装后异响如何解决?日常维护要点?

HIWIN滚珠丝杆安装后如果出现异响,不仅会影响设备的运行精度,还可能预示着潜在的故障风险。作为HIWIN集团正式授权的专属经销商(上银专属经销商),2000年成立至今已经25年,授权证书编号HC-D2026002的海威机电,在处理丝杆…

唤醒大脑潜能:科学提升记忆力

在当代快节奏的社会中,许多人渴望拥有高效的记忆力,以应对繁重的学习和工作压力。脑科学研究表明,人类的记忆潜能并非固定不变,而是可以通过科学方法被有效唤醒和提升。三易脑科学作为该领域的专业机构,致力于探索大脑…

【开题答辩全过程】以 基于Springboot vue肢体残疾人就业服务网站的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

【开题答辩全过程】以 家庭教育资源网为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

【开题答辩全过程】以 基于Java的智慧党建管理系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

【开题答辩全过程】以 家政服务平台为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

吐血推荐10个AI论文写作软件,专科生毕业论文必备!

吐血推荐10个AI论文写作软件,专科生毕业论文必备! AI 工具如何改变论文写作的未来 对于专科生来说,毕业论文是人生中一个重要的里程碑,但同时也是充满挑战的一关。随着 AI 技术的飞速发展,越来越多的 AI 工具开始进入学…

【收藏】AI编程革命:从“写代码“到“描述需求“,程序员如何不被淘汰?

AI编程工具正在改变程序员工作方式,自然语言驱动编程逐渐替代手写代码。虽然可能带来裁员风险,但也扩展了能力边界,从编写代码转向系统设计。未来程序员需掌握AI工具、学习提示词工程、聚焦高价值工作,持续学习AI技术,…