大型网站开发方案网站设计面试问题

news/2025/9/28 21:10:43/文章来源:
大型网站开发方案,网站设计面试问题,wordpress 文章二维码,唐河企业网站制作价格论文题目#xff1a;Vision Transformers Need Registers 论文链接#xff1a;https://arxiv.org/abs/2309.16588 视觉Transformer#xff08;ViT#xff09;目前已替代CNN成为研究者们首选的视觉表示backbone#xff0c;尤其是一些基于监督学习或自监督学习预训练的ViTVision Transformers Need Registers 论文链接https://arxiv.org/abs/2309.16588 视觉TransformerViT目前已替代CNN成为研究者们首选的视觉表示backbone尤其是一些基于监督学习或自监督学习预训练的ViT可以在诸多下游视觉任务上表现出卓越的性能。但目前针对ViT中间特征图的可解释研究相对较少本文介绍一篇Meta与INRIA法国国家信息与自动化研究院合作完成的论文目前该文已被国际表征学习顶级会议ICLR 2024录用。本文的研究人员们对ViT网络特征图中出现的伪影进行了研究并且认为这些伪影对应于模型表征图像背景区域中的高范数token模型在推理阶段时丢弃了这些token中包含的局部信息。为此本文提出了一个简单有效的寄存器方法Registers来将这些伪影token进一步送入到模型中进行内部运算以提高性能。作者通过一系列实验证明Registers可以解决监督或自监督ViT丢失局部信息的问题提高其在密集型下游视觉任务上的综合性能同时产生更加平滑的特征图和注意力图。 01. 引言 本文的动机从目前流行的DINO[1]DINOv2[2]等ViT模型的内部表征出发。DINO算法目前已被证明可以生成包含图像语义布局的特征图尤其是其最后一个注意力层可以生成可解释的注意力图。基于这些特性目前已有研究通过收集注意力图中的语义信息在缺少明确监督的情况下检测目标。DINOv2是DINO的后续升级版本提供了处理密集型预测任务的能力但DINOv2在生成注意力方面的效果却不尽如人意。下图左侧第三列展示了DINOv2模型生成的注意力图可以看到其中出现了大量的噪声伪影。 此外作者也在其他监督学习训练的ViT中发现了类似的伪影现象如下图中的DeiT、CLIP等本文对这些伪影的出现原因和固有性质进行了研究通过测量发现这些伪影相比其他token的范数大约高10倍并且其数量仅占token总序列的一小部分2%。 随后作者使用简单的线性模型对这些伪影token进行评估作者观察到这些token保留其在图像中的原始位置的信息较少这表明模型在推理过程中丢弃了这些token中包含的局部信息。此外在这些伪影token上学习图像分类器比在其他token上学习图像分类器的准确性要高得多这表明它们可能也包含有关图像的全局信息。因而作者引入了一种寄存器方法Registers来将这些token附加到ViT的输入序列中而独立于输入图像。经过Registers优化后的ViT模型其产生的token序列中伪影token已经完全消失同时模型在下游密集预测任务中的性能得到提高并且生成的特征图明显更加平滑。 02. 本文方法 2.1 DINOv2局部特征中伪影 为了分析DINOv2特征图中的伪影作者首先从定量分析的角度对伪影token进行测量如下图所示作者观察到伪影token与其他token之间的一个重要区别是它们的特征范数值norms差异很大。下图右侧分别展示了给定参考图像的DINO和DINOv2 模型的局部特征范数情况。可以看到伪影token的范数值远高于其他token且伪影token特征范数的分布是双峰的因而作者在文章的后续部分将范数值超过150的token均认定为伪影token。 c70f1de7078649b284abfdad7958ca57.png 2.2 伪影通常出现在大型ViT模型的训练过程中 除了定量分析作者还对DINOv2训练期间出现伪影token的条件进行了观察分析结果如下图所示。这些token主要出现在ViT的40层左右下图a此外当观察训练过程中token范数的分布时作者发现这些伪影token仅在训练的后期出现下图b。当作者更进一步分析模型不同参数规模Tiny、Small、Base、Large、Huge 和 Giant对伪影token的影响时发现只有较大的三个模型才会出现伪影下图c。 2.3 伪影token包含的局部信息和全局信息 为了探索伪影token中所含信息的性质作者设计了两个不同的实验任务位置预测和像素重建。对于每一个任务作者将token嵌入作为输入训练一个线性模型并测量该模型的性能。 1位置预测 作者首先训练了一个线性模型来预测图像中每个token的位置并测量其准确性。作者观察到伪影token的准确度比其他token低得多如上表所示这表明它们包含的有关其在图像中位置的局部信息较少。 2像素重建 对于像素重建任务作者训练了一个线性模型来根据token嵌入预测图像的像素值并测量该模型的准确性。从上表的实验结果可以观察到伪影token的准确率同样比其他token低得多。这表明伪影token比其他token包含更少的像素信息。 除了伪影token的局部信息情况作者还在标准图像表示基准上对其进行了评估用于分析其中的全局信息。对于分类数据集中的每个图像作者都直接提取DINOv2的token嵌入并送入到一个逻辑回归分类器中预测图像类别结果如下表所示。可以观察到伪影token比其他token具有更高的准确度。这表明伪影token相比其他token包含更多的全局信息。 2.4 寄存器Registers设计 经过以上分析作者认为出现在大型ViT训练过程中的伪影token实际上包含了输入图像的一部分信息。将其直接丢弃可能会导致模型在密集预测任务上的性能下降。因此作者提出了一个简洁的寄存器Registers模块通过明确地将伪影token添加到序列中这些token被设计为可学习性的参数类似于[CLS]token。实际操作过程如下图所示这些伪影token被标记为[REG]token随后附加在图像patch和[CLS]token之后一起送入到transformer中进行后续的运算。 03. 实验效果 本文的实验部分选取了三种不同的ViT架构DeiT-III、OpenCLIP和DINOv2由于Registers本质上只是一个简单的架构修改方案因此其可以灵活的应用在多种ViT模型上。其中DeiT-III是监督学习训练的代表模型使用ImageNet-1k 和 ImageNet-22k进行预训练。OpenCLIP是一种文本监督学习模型其遵循原始的CLIP模型仅在文本-图像对齐数据集上进行训练。DINOv2是本文研究的重点模型该模型是一种基于自监督学习的视觉特征表示模型。 下图展示了Registers应用在上述三种模型上的效果对于每个模型作者测量了起输出token的特征范数可以看到当加入Registers进行训练时模型输出的伪影token数量将会大幅度减少。 此外作者还对Registers进行了消融研究即检查Registers的使用不会影响原始特征的表示质量作者选择了ImageNet分类、ADE20k图像分割和NYUd单目深度估计三个常规视觉任务进行实验结果如下表a所示。可以发现当使用Registers进行训练时模型并不会损失性能甚至还可以提高性能。为了完整起见作者还进一步提供了 OpenCLIP 在 ImageNet 上的零样本分类性能如下表b所示该性能保持不变。 Registers结构的一个关键超参数是加入到原始序列中的token数量作者对该数量对模型局部特征和下游性能的影响进行了研究结果如下图所示。作者分别使用数量为0、1、2、4、8 和 16 的寄存器训练DINOv2模型。下图上半部分的结果表明随着Registers数量的增加模型注意力图中的伪影区域逐渐减小。图中下半部分展示了Registers数量改变对下游任务性能的影响情况对于密集型预测任务图像分割和单目深度估计而言Registers的数量并不是越多越好。而对于图像分类任务来说使用更多的Registers模型的性能会一直提升。 04. 总结 在这项工作中作者对 DINOv2 模型特征图中的伪影进行了详尽的研究并发现这种现象存在于多个现有的流行ViT模型中。作者提供了一种简单的检测伪影的方法即通过测量token的特征范数来实现。通过研究这些token的局部位置和全局特征信息作者发现这些token对于模型性能损失存在一定的影响并提出了一种简单的寄存器方案Registers来将这些token附加到输入序列中。通过实验表明这种方法完全消除了ViT特征图中的伪影并且提高了模型在下游密集预测等任务上的性能。 参考 [1] Mathilde Caron, Hugo Touvron, Ishan Misra, Herv´e J´egou, Julien Mairal, Piotr Bojanowski, and Armand Joulin. Emerging properties in self-supervised vision transformers. In ICCV, 2021. [2] Maxime Oquab, Timoth´ee Darcet, Th´eo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. Dinov2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023. 关于TechBeat人工智能社区 ▼ TechBeat(www.techbeat.net)隶属于将门创投是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地分享自己最新工作的沃土在AI进阶之路上的升级打怪的根据地 更多详细介绍TechBeat一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/921126.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

宁夏考试教育网站oa电子办公系统

根据上面一篇随笔所介绍的PC购买流程的项目,在项目中,需要有一个生成订单的功能,能够使得Admin很方便的在获得批准的申请中选取一些来生成订单,要求界面操作简单明了,大概的效果图如下: 点击checkbox&#…

[ABC425C] Rotate and Sum Query 题解

思路 对于操作二,多次求 $ \displaystyle \sum_{i=l}^r A_i $,不难想到前缀和。所以先记录 \(A\) 的前缀和。 对于操作一,我们不用按题意模拟,直接记录一共偏移了多少。以后出现操作二时直接根据偏移量输出偏移前 …

C语言网站开发pdf音乐网页设计材料加字加图片

本次由快手刘建刚老师分享,内容主要分为三部分。首先介绍流式计算的基本概念, 然后介绍 Flink 的关键技术,最后讲讲 Flink 在快手生产实践中的一些应用,包括实时指标计算和快速 failover。 一、流式计算的介绍 流式计算主要针对 u…

用名字做壁纸网站哪里有创建网站的

String 在编程中被广泛使用,所以掌握 String 和 int 的相互转换方法是极其重要的。 String转换为int String 字符串转整型 int 有以下两种方式: Integer.parseInt(str)Integer.valueOf(str).intValue()注意:Integer 是一个类,是…

制作高端网站公司排名网络营销推广seo

关于单引号和双引号 当输出的字符串内部没有单引号的时候,外面可以用单引号, 但是如果内部有了单引号,那么外部只能用双引号。 dict {Name: Zara, Age: 7, Class: First} print(dict) print (dict[Name]: , dict[Name]) print ("dic…

线程--基本使用、线程常用方法

2.2 继承Thread vs 实现 Runnable 的区别从java的设计来看,通过继承Thread或者实现Runnable接口来创建线程本质上没有区别,从jdk帮助文档我们可以看到Thread类本身就实现了Runnable接口 实现Runnable接口方式更加适合…

酵母表面展示技术:从蛋白分析到多领域应用,解锁可持续发展的生物新工具

在细胞表面展示技术家族中,酵母表面展示(YSD)技术凭借 “功能集成度高、应用场景广” 的特性,成为生物技术领域的 “多面手”。它通过将目的蛋白精准锚定在酵母细胞表面,既赋予酵母宿主新的生物学功能,又能结合流…

9/28数学错题分析

数学错题分析 1.漏解。在做的时候知道还有别的解,但是想不出来怎么算了所以就有一个没算出来。 原因:思路不够开拓,没有用上所有的运算方法 2.不等式是否取等号检验的方式有问题,导致没有发现有问题的地方。 需要重…

linux查找指定字符串的三种方法 - 指南

linux查找指定字符串的三种方法 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mon…

给你一个网站怎么做的西安网站设计建设公司 交通

引言 在开发我的笔记系统时,我遇到了一个问题。问题是,在api-gate服务中,我需要验证用户的access_code,但是access_code的生成逻辑是在auth2服务中实现的。这个问题从架构设计的层面上看,就是一个高耦合度问题。高耦合…

task

task1.c// 打印一个字符小人 #include <stdio.h> int main() {printf(" O \n");printf("<H>\n");printf("I I\n");return 0; }task1_1.c// 打印一个字符小人 #include <…

深入解析:自动驾驶中的传感器技术53——Radar(14)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

9/28

9/28今天学习了离散的自反,对称等性质。进一步了解了马克思主义的形成,当该说不说这个理论好难理解

实用指南:嵌入式面试高频(十二)!!!C++语言(嵌入式八股文,嵌入式面经)c++11新特性

实用指南:嵌入式面试高频(十二)!!!C++语言(嵌入式八股文,嵌入式面经)c++11新特性pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importa…

2025 年陶瓷配件厂家 TOP 企业品牌推荐排行榜,电子,氧化铝,氧化锆,氮化铝,工业,精密,结构陶瓷配件,陶瓷柱塞配件,陶瓷刀片配件,陶瓷导轮配件公司推荐

在高端制造产业快速升级的当下,陶瓷配件凭借耐磨、耐高温、绝缘等优异特性,成为电子、航空航天、新能源等领域的核心组件。然而,市场上陶瓷配件品牌数量众多,产品质量参差不齐,材料性能差异显著,从普通氧化铝制品…

做视频网站 视频放在哪多地优化防控举措方便民众生活

团队管理规划有4个互相关联的要素&#xff1a; 职能目标团队路径在未来的3个月&#xff0c;6个月&#xff0c;1年&#xff0c;2年&#xff0c;3年&#xff0c;5年中&#xff0c;你希望带着你的团队抵达一个什么样的目的地&#xff0c;也就是团队的目标。 更加清楚目标意味着什么…

2025-2026-1 20231301 《信息安全设计》第三周学习总结

View Post2025-2026-1 20231301 《信息安全设计》第三周学习总结2025-2026-1 20231301 《信息安全设计》第三周学习总结 目录作业信息学习内容总结杂凑函数概述1. 基本概念2. 核心特性3. 安全要求杂凑函数分类1. 不带密…

SQL逐字稿

古法处理中...

2025攻丝机厂家 TOP 企业品牌推荐排行榜,全自动,半自动,转盘,伺服,平推,全自动钻孔,半自动钻孔攻丝机公司推荐

引言在工业自动化加速渗透的当下,攻丝机作为机械加工领域的关键设备,其性能与稳定性直接影响企业生产效率与产品精度。然而当前市场中,攻丝机产品质量参差不齐,部分设备存在故障率高、精度不足、适配性差等问题,不…

网页中的基本元素有哪些网站优化是往新闻中心发新闻吗

#1.python程序中__name__的作用是什么?__name__这个系统变量用来表示程序的运行方式. 如果程序在当前膜快运行,__name__的名称就是__main__, 如果不在(被调用),则显示为导入模块的名称.扩展:常常这样写if __name__ "__main__":来表名这是整个工程开始运行的入口.效…