做汽车配件招聘网站徐州 网站建设
news/
2025/10/1 10:46:51/
文章来源:
做汽车配件招聘网站,徐州 网站建设,wordpress弹出提示框,加强服务保障满足群众急需i 提示#xff1a;Grounding DINO、TAG2TEXT、RAM、RAM论文解读 文章目录 前言一、Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection1、摘要2、背景3、部分文献翻译4、贡献5、模型结构解读a.模型整体结构b.特征增强结构c.解码结构 6、实… 提示Grounding DINO、TAG2TEXT、RAM、RAM论文解读 文章目录 前言一、Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection1、摘要2、背景3、部分文献翻译4、贡献5、模型结构解读a.模型整体结构b.特征增强结构c.解码结构 6、实验有趣说明 二、TAG2TEXT: GUIDING VISION-LANGUAGE MODEL VIA IMAGE TAGGING1、摘要2、背景3、贡献5、模型结构解读 三、Recognize Anything: A Strong Image Tagging Model1、摘要2、背景/引言3、数据获得4、贡献5、模型结构解读 四、Inject Semantic Concepts into Image Tagging for Open-Set Recognition1、摘要2、背景/引言3、CLIP-RAM-RAM模型结构对比4、贡献5、模型结构解读 总结 前言
随着SAM模型分割一切大火之后又有RAM模型识别一切RAM模型由来可有三篇模型构成TAG2TEXT为首篇将tag引入VL模型中由tagging、generation、alignment分支构成随后才是RAM模型主要借助CLIP模型辅助与annotation处理trick由tagging、generation分支构成最后才是RAM模型该模型引入semantic concepts到图像tagging训练框架RAM模型能够利用图像-标签-文本三者之间的关系整合image-text alignment 和 image-tagging 到一个统一的交互框架里。作者也介绍将tag引入Grounding DINO模型可实现目标定位。为此本文将介绍这四篇文章。
一、Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection
1、摘要
我们提出open-set检测任务方法叫做groindding dino该方法基于transform的dino预训练模型相结合可通过类别或相关表述来检测任意目标。该模型解决open-set任务最核心方法是引入语言language为有效融合语言与视觉模态特征我们设定三个阶段并构建feature enhancer、a language-guided query selection与a cross-modality decoder for cross-modality fusion。我们方法与以往研究不一样以往研究基本是用模型评估开放数据集我们是通过tag评估开放集数据(我们用tag、以往直接评估)我们方法在三个数据集表现sota 注文章核心是tag提供语言信息结合到图像中可使用tag检测定位grounding即使未学习tag给到图像也有不错表现。
2、背景
Grounding DINO相对于GLIP有以下优势 1、基于Transformer结构与语言模型接近易于处理跨模态特征 2、基于Transformer的检测器有利用大规模数据集的能力 3、DINO可以端到端优化无需精细设计模块比如NMS 先前研究open-set检测器是由闭集检测器引入语言信息实现如图2所示,一个封闭集检测器通常有三个重要模块,一个主干网络用于特征提取,一个颈部用于特征增强,以及一个头部用于区域调整(或框预测)。可以通过学习语义意识的区域嵌入来将封闭集检测器推广到检测新对象,以便每个区域可以在语义意识的语义空间中分类为新类别。实现这一目标的关键是在颈部和/或头部输出处使用区域输出和语言特征之间的对比损失。为了帮助模型对齐跨模态信息,一些工作尝试在最终损失阶段之前融合特征。图2显示,特征融合可以在三个阶段进行:颈部(阶段A)、查询初始化(阶段B)和头部(阶段C)。例如,GLIP[26]在颈部模块(阶段A)中执行了早期融合,OV-DETR[56]将语言感知查询用作头部输入(阶段B)。
3、部分文献翻译
检测Transformer。基于定位的DINO建立在类似DETR的模型DINO [58]之上,DINO是一个端到端的基于Transformer的检测器。DETR首先在[2]中提出,然后在过去几年中从许多方面得到改进[4,5,12,17,33,50,64]。DAB-DETR [31]引入了锚框作为DETR查询,以进行更准确的框预测。DN-DETR [24]提出了查询去噪以稳定匹配。DINO [58]进一步开发了几种技术,在COCO物体检测基准测试中刷新了记录。然而,这些检测器主要侧重于封闭集检测,很难推广到新类别,因为预定义类别有限。
开放集物体检测。开放集物体检测使用现有的边界框注释进行训练,目的是检测任意类别的对象,语言泛化提供帮助。OV-DETR [57]使用由CLIP模型编码的图像和文本嵌入作为查询,以在DETR框架中解码类别指定的框。ViLD [13]从CLIP老师模型中蒸馏知识到类似R-CNN的检测器,以便学习到的区域嵌入包含语言的语义。GLIP [11]将物体检测形式化为定位问题,利用额外的定位数据帮助学习短语和区域层面上的语义对齐。它显示这样的表述甚至可以在完全监督的检测基准测试上取得更强的性能。DetCLIP [53]涉及大规模图像字幕数据集,并使用生成的伪标签来扩展知识数据库。生成的伪标签有效帮助扩展检测器的泛化能力。
然而,以前的工作只在部分阶段融合多模态信息,这可能会导致次优的语言泛化能力。例如,GLIP仅考虑在特征增强(阶段A)中进行融合,而OV-DETR仅在解码器输入(阶段B)处注入语言信息。此外,REC任务在评估中通常被忽视,这是开放集检测的一个重要场景。我们在表1中比较了我们的模型与其他开放集方法。
4、贡献
我们提出了Grounding DINO,它通过在多个阶段执行视觉语言模态融合来扩展封闭集检测器DINO,包括特征增强器、语言指导的查询选择模块和跨模态解码器。 这种深度融合策略有效改进了开放集物体检测。我们提出将开放集物体检测的评估扩展到REC数据集。 它有助于评估模型对自由文本输入的性能。在COCO、LVIS、ODinW和RefCOCO//g数据集上的实验表明,Grounding DINO在开放集物体检测任务上的有效性。
5、模型结构解读
模型整体框架为block1坐标特征增强层为block2右下角解码层为block3右上角我将大概说下这三个block内容。
a.模型整体结构
block1内容最下面可看出文本tag使用的文本特征提取的backbone而图像使用图像特征提取的backbone这2个是独立的其次中将层feature enhancer为block2我待会再说然后继续往上可看到text feature基本结束类似clip图像特征与最终图像特征做相似度匹配而中间文本特征还往右图的图像特征做了或引导或KV特征右边image features向上接受文本特征指引随后在向上为解码模块block3我将在下面介绍。
b.特征增强结构
block2内容特征增强即特征融合方式文本与特征分别使用自注意力attention结构随后图像提供Q在提供KV实现图像特征输出文本提供KV在提供Q实现文本特征输出。(这里细节建议查看源码但这里思路可借鉴)
c.解码结构
block3内容实际是为图像特征解码做后面图像与文本特征匹配与定位任务首先文本特征驶向图像特征完成文本指导从图中看是做了cross-Modality大胆猜测文本为Q、图像为KV的融合随后再成Q分别再次将图像特征KV进行attention获得结果再次作为Q对文本特征KV进行attention最终为图像特征输出。
6、实验有趣说明
有趣的是,在相同设置下,DINO预训练的Grounding DINO优于标准Grounding DINO在LVIS上的性能。结果表明模型训练还有很大的改进空间,这将是我们未来要探索的方向。
二、TAG2TEXT: GUIDING VISION-LANGUAGE MODEL VIA IMAGE TAGGING
1、摘要
本文介绍了 Tag2Text一种视觉语言预训练 (VLP) 框架它将图像标记引入视觉语言模型以指导视觉语言特征的学习。与使用手动标记或使用有限检测器自动检测的对象标签的先前工作相比我们的方法利用从其配对文本解析的标签来学习图像标记器同时为视觉语言模型提供指导。鉴于此Tag2Text 可以根据图像文本对使用大规模无注释图像标签并提供超越对象的更多样化的标签类别。因此Tag2Text 通过利用细粒度的文本信息实现了卓越的图像标签识别能力。此外通过利用标记指导Tag2Text 有效地增强了视觉语言模型在基于生成和基于对齐的任务上的性能。在广泛的下游基准测试中Tag2Text 以相似的模型大小和数据规模取得了最先进或有竞争力的结果证明了所提出的标记指南的有效性。 注文章核心是将tag引入到VL模型且提供tag制作方法。
2、背景
①表示先前研究基于检测器范式将tag引入检测器中,该方法是有效的②表示提取图像特征将这些特征送入多模态图像文本交互校准。然这些方法限制了检测模型能力且耗时 近期研究者使用如何避免这样问题的方法但结果表明其方法不能有效使用tag信息③为图像tag指引使用一个简单tag相关head头将图像tag引入②中detector-free VL模型中且凭借文本解析图像图像对应的tag去监督引入头而我们完成监督tagging能力模型方法且有效增强视觉语言任务性能。b图显示我们与基于目标检测范式的内容比较。
作者提出引入tag作为视觉-文本任务有两个关键问题数据和网络结构其中数据也是本文提出的重点如何构造图片的tag作为 label训练。实际image-text对数据很丰富作者使用文本语义解析在text中获取图片对应tags。这样图像tags能提供了图像和文本之间更好的桥梁解析的标记类别更加多样化比目标检测的object更丰富有例如场景、属性、动作等。这就是数据发挥的重要作用。模型结构我将在下节介绍。
3、贡献
1、首先证明了tag2text模型利用现成图像文本对解析的tag训练的模型在imge tagging能力且zero-shot能力与全监督方法相当。
2、tag2text使用tag指导方式通过imamge tagging无缝连接整合现有vlm模型中有效增强生成任务与校准任务的能力。
3、 一系列下游任务实验等证明了tagging能力且说明了tagging 引导信息整合到VLM模型的有效性。 5、模型结构解读
模型结构包含3个分支Tagging, Generation, Alignment为不同的任务分支多标签识别就是taggingImage Caption图像解说Image-Text对齐。其中核心为tagging分支。 Tagging用了Query2Label中的多label分类transformer decoder同时为了避免解析的tags中有某些对应图片tag的缺失、正负样本的不平衡使用了Asymmetirc Loss。
Generation用了NLP中标准的transformer的编解码encoder-decoder框架tags/text 映射为 embeding然后 tags embeding随机乱序防止顺序影响学习与 image embedding(features 一起送入 encoder再经过decoder解码。输出与text embedding进行loss计算相当于用 tag 指导 image 生成 text。
Image-Text Alignment用了BLIP中 Encoder 结构image embedding 与 text embeding送入encoder用粗粒度的 Image-Text Contrastive(ITC) Loss 和 细粒度的 Image-Text Matching(ITM) Loss 分别进行监督。
三、Recognize Anything: A Strong Image Tagging Model
1、摘要
我们提出了RAM模型一个image tagging任务的基准模型。ram在计算视觉中迈出一大步能带有很高精度与zero-shot能力识别任意类别。ram在image tagging任务中提出了新的范式利用大量图像-文本对训练从而替换了人工标注工作。RAM分四个步骤第一通过自动文本语义解析获得image-text标签第二训练一个统一描述与标签的初始模型第三数据引擎用来生成额外注释和清除不对的数据第四模型通过预训练并使用精度高标注的数据做fitune训练。作者也在多个基准上测试模型性能已超过CLIP与BLIP能力。
2、背景/引言
LLM因其大数据在NLP领域很火这些模型展现更好zero-shot能力且能处理超出训练领域外的任务与数据分布。说到cv领域SAM模型因大数据训练已被证明有很强的定位能力。
然而sam模型缺乏输出语义标签能力。多标签图像识别是众所周知的image tagging目的是通过给定多标签图像识别语义标签。image tagging是一个重要而具有现实意义的视觉任务多标签可包含目标标签、场景、属性和行为。遗憾的是存在多标签分类、检测、分割和视觉语言方法在tagging中存在缺陷为受限范围与精度(与本文ram可识别一切相比)如图1描述sam定位能力很强但无法识别与ram相比ram能给出识别能力且不受scope与accuracy限制(个人理解scope有5000多个类当然scope大了accuracy因大大数据使其性能好了)。
自然引出网格核心问题一个是数据制作一个是模型结构。
没有更强识别能力可突破scope与accuracy限制
3、数据获得
Tag2Text利用 image-text-pair 的 text 进行解析得到 tags高频排序筛选前top-5k的标签频率越高越重要。而RAM进一步扩大了数据量筛选扩大到top-10k。原文具体做法如下
标签系统我们首先建立一个通用和统一的标签系统。我们结合了来自流行学术数据集分类、检测和分割以及商业标记产品谷歌、微软、苹果的类别。我们的标签系统是通过将所有公共标签与文本中的公共标签合并而获得的从而覆盖了大多数公共标签数量适中为 6,449。剩余的开放词汇标签可以通过开放集识别来识别。
数据集如何用标签系统自动标注大规模图像是另一个挑战[30]。从 CLIP [22] 和 ALIGN [11] 中汲取灵感它们大规模利用公开可用的图像文本对来训练强大的视觉模型我们采用类似的数据集进行图像标记。为了利用这些大规模图像文本数据进行标记按照[9、10]我们解析文本并通过自动文本语义解析获得图像标签。这个过程使我们能够根据图像文本对获得各种各样的无注释图像标签。
数据引擎然而来自网络的图像文本对本质上是嘈杂的通常包含缺失或不正确的标签。为了提高注释的质量我们设计了一个标记数据引擎。在解决丢失的标签时我们利用现有模型生成额外的标签。对于不正确的标签我们首先定位与图像中不同标签对应的特定区域。随后我们采用区域聚类技术来识别和消除同一类中的异常值。此外我们过滤掉在整个图像及其相应区域之间表现出相反预测的标签确保更清晰和更准确的注释。
4、贡献
1.Strong and general(强大的图片tag能力)实验说明在zero-shot上RAM的tags能力更强 2.Reproducible and affordable(低成本复现与标注)可需要更少数据work最强版本需要3天8张A100训练 3.Flexible and versatile(灵活且满足各种应用场景)可以单独使用作为标记系统,应用场景广通过选择特殊类ram能直接解决特殊类需要能进一步和grounding dino结合实现语义分析(tag给grounding dino实现框定位等)
5、模型结构解读
RAM模型架构如图大量图像对应tags数据通过自动文本语义解析模型从图像文本对中获得(现有数据很多)。在图像、标签、文本三块中RAM实现图像caption与tagging任务。特别RAM引入了一个现成的文本编码器将标签编码器到语义丰富的文本标签查询中从而在训练阶段实现对未知类别的泛化。 该模型屏蔽了tag2text的alignment分支只有tagging与generation分支。
Tagging 分支用来多tags推理完成识别任务
Generation用来做 image caption任务
Image Encoder 使用 Swin训练时Tagging分支和Generation分支都用解析的Tags作为label
测试时Tagging会输出Tags用于Generation的Caption任务生成最终的Text
这里与tag2text最大不同在与CLIP的使用作者把每个Tag进行prompt ensembling[22] 扩充然后送入训好的CLIP Text Encoder得到其对应的文本标签查询Textual label queries其实就是 promopt tag 的 embedding作者认为这些 queries 比可学习的参数有更强的语义性和上下文信息。然后将这些Label Queris送进Tagging Decoder用image features进行Cross Attention。
引用该篇博客进一步解释点击这里
1训练过程没有上图右侧的CLIP Text Encoder。N个类别对应N个textual label queries——也就是可学习的参数假设论文4585个类每个类768维度表示那么就是4585*768。
2训练输入是三个元素图片-Tag-文本构成对应网络的一个输入图像文本输入不算是网络自己的可学习参数 2个输出文本描述和多标签分类。损失也就是常见的文本生成损失多标签ASL损失。
3image-Tag-interaction encoder 的文本输入是label 解析的Tag不是模型的输出推理时是模型的输出
4训练过程的某个节点论文没有详细说使用了CLIP image encoder 的输出进行蒸馏distillRAM 自己的image encoder。这个我的理解是潜在对齐了CLIP Text encoder 才更好的实现了后面推理阶段的open set 的识别。
个人觉得比较重要是CLIP引用的蒸馏方式。
四、Inject Semantic Concepts into Image Tagging for Open-Set Recognition
1、摘要
在这篇论文中我们引入了RAM模型一个在open-set很强能力的图像识别模型该方法引入semantic concepts到图像tag中去训练的框架。对比先前方法要么是image tagging模块受有限语义制约要么视觉语言模型浅交互在multi-tag识别中获得次优性能。相比与RAM模型该方法基于image-tags-text triplets整合图像文本校准与图像taging为统一细粒度交互框架。这种设计使RAM能识别定义类更重要是有识别open-set类的能力。RAM利用LLMS生成多样可视的tag描述首创使用LLM知识融合到图像 tagging训练中。在open-set识别中整合视觉藐视concepts进行推理。实验在多个图像识别基准中表明了RAM图像识别方面取得了SOTA。 2、背景/引言
图像识别已经是研究者长期研究领域使机器从被给图像中自动识别语义内容输出。随着自然语言过程[3,36]和图像定位[21,26]等领域基础模型的出现构建图像识别基础模型具有重要意义,一个图像识别基准应该有更强的泛化能力能在任意视觉概念数据中有效.
image recognition有2种研究方向
image tagging是大家熟知的多标签识别该方法主要依赖有标注的数据而受数据限制模型结果也都在特定数据与特定类表现很好
vision-language是视觉语言模型该方法基于大量图像文本对实现图像文本校准其代表文章为CLIP该文章有很强open-set能力也能在其它领域泛化如open-set object detection [15], image segmentation [15] and video tasks [32]
尽管CLIP在一图单标签的zero-shot效果显著但是它的视觉语言交互是粗糙的使用点乘获得相关性这样方式很困难处理更多现实细粒度image tagging tasks。近期RAM构建自动在图像文本对中获得tag方式构建了综合的标签系统over 4500类提取图像tag 标注。基于更细粒度image tagging模型框架与CLIP对比ram在识别tag中证明提升很大。
然而ram缺陷是不能识别超过预定的类别这就因固定类中限制其ram语义生成能力(只能固定提取)结果也限制RAM模型隐藏更多能力举个列子系统标签只有恐龙标签模型最多只知道子标签霸王龙或三角龙。更多丰富语义如摔倒人等受到挑战。为解决这样限制问题我们引用语义概念到图像tagging中。具体的我们将提出2个方法 Image-Text Alignment and LLM-Based Tag Description.
Image-Text Alignment :图像文本对齐我们设计兼备CLIP与RAM优势整合到image tagging结构中。这种设计能使模型在训练期间学习超过固定类限制的更广问题语义信息。这个对齐架构是基于细粒度视觉语言特征交互结合online/offline设置我们的模型能更好平衡效率与性能。
LLM-Based Tag Description:对于LLM-Based Tag Description,近期研究利用LLM增强识别模型。基于此我们也将LLM知识整合到image tagging训练。特别地我们采用LLM为每个tag类自动生成丰富的视觉描述并与tag合并成embedding去与图像特征对齐。这样方法进一步引入丰富语义信息到模型中在推理期间合并视觉概念到开放词汇任务。除此之外我们对tag类别的多视觉描述设计了自动权重re-weighting机制在没有额外消耗下进一步增强性能。
3、CLIP-RAM-RAM模型结构对比
图2中比较RAM与CLIP和RAM。我们RAM莫i选哪个整合图像、标签、文本三个内容到一个统一校准框架引入LLM知识到图像tagging阶段有效引入语义概念到open-set类别识别模型中。
4、贡献
1、我们整合image-tags-texts信息统一到aligment架构中这种方式不仅在预定义tag类别更好work还在open-set类别中也work。 2、据我们所知我们研究是第一个将LLM模型知识整合到image tagging任务中让模型在推理期间能整合open-set类别识别的视觉描述concept(利用llm获得概念就可在图像中识别未知类)。 3、作者又是一大堆benchmark实验证明模型有效与sota。
5、模型结构解读
还是三个信息内容图像image、标签tags、文本text内容RAM采用共享alignment decode去校准图像文本左边与图像标签右边这样能显著增强open-set识别能力。除此之外RAM整合LLM模型为每个类别生成视觉描述将LLM的知识整合到模型中。而这篇文章最大特点是引入LLM模型这样就有更多的语义描述信息具体如下 总结
第一篇是标签定位内容 第二篇是tag引入模型 第三篇是修改模型架构与数据制作方式 第四篇是在第三篇基础上引入LLM模型与共享align decode结构
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/923767.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!