深入解析 Vision Transformer (ViT) 与其在计算机视觉中的应用

在近年来,深度学习尤其在计算机视觉领域取得了巨大的进展,而 Vision Transformer(ViT)作为一种新的视觉模型,它的表现甚至在许多任务中超过了传统的卷积神经网络(CNN),如

ResNet。在这篇博客中,我们将详细介绍 Vision Transformer 的工作原理,并解释它如何在各种公开数据集上超越最好的 ResNet,尤其是在大数据集上的预训练过程中,ViT 展现出的优势。

什么是 Vision Transformer (ViT)?

1. 背景与起源

Vision Transformer(ViT)是从 Transformer 模型发展而来的,最初的 Transformer 模型主要应用于自然语言处理(NLP)任务,尤其是机器翻译。在 NLP 中,Transformer 展现出了其强大的序列建模能力,能够捕捉长距离的依赖关系。

在计算机视觉领域,传统的卷积神经网络(CNN)一直是图像分类、目标检测等任务的主力。然而,ViT 在提出后,尤其是在大型数据集上进行预训练时,凭借其在长距离依赖建模上的优势,迅速展示了其强大的能力。ViT 把 Transformer 模型应用于图像数据,并通过某些创新技巧,解决了传统卷积神经网络的局限性。

2. ViT 的基本原理

ViT 将图像输入视为一系列小的图像块(patch),而不是传统的像素级输入。通过这种方法,ViT 将图像的局部信息转换为序列数据,使得 Transformer 可以通过自注意力机制对图像进行处理。下面我们将详细介绍 ViT 的工作流程。

ViT 的工作流程

1. 图像分块(Patch Splitting)

首先,将输入图像划分为固定大小的块(patch),每个块的尺寸通常为 16x16 或更大,具体取决于模型的设计。在处理过程中,每个图像块被视为一个独立的单元,这与自然语言处理中的“单词”相似。

假设原图的尺寸为 224x224 像素,ViT 将其划分为 14x14 个 16x16 的小块。这样,原始图像就被转化为 196 个图像块(14 * 14 = 196),每个块有 3 个通道(RGB)。

2. 向量化(Flattening)

每个小块通过 Flatten 操作(拉伸)变成一个向量。例如,一个 16x16 大小的 RGB 图像块经过拉伸后将变为一个 768 维的向量(16x16x3 = 768)。这些向量作为 Transformer 的输入。

3. 线性变换(Linear Transformation)

每个图像块向量通过一个线性变换,映射到一个新的维度,这个操作通常由一个全连接层完成。此时,所有块的特征空间被转换到新的表示空间中,得到新的表示向量 z_i

4. 添加位置编码(Positional Encoding)

由于 Transformer 本身并不具备处理序列中元素位置的能力,ViT 通过添加位置编码来保留位置信息。每个图像块的向量 z_i 会加上相应的位置信息,这样每个块的表示就不仅包含了图像内容的信息,还包含了该块在图像中的位置信息。

如果不包含位置信息,那么左右两张图对transformer眼里是一样的,所有要给图片位置做编号

x1-xn是图片中n个小块向量化后得到的结果,把他们做线性变换并且得到位置信息得到向量z1-zn,(既包含内容信息又包含位置信息)

5. CLS Token 和最终的输入

为了最终的图像分类,ViT 引入了一个特殊的分类标记(CLS Token)。该标记是一个额外的向量,通常初始化为零,并与图像块的表示一起作为输入送入 Transformer。最终,CLS Token 会作为图像的整体表示,进行分类任务。

6. Transformer 编码器(Encoder)

输入经过位置编码和 CLS Token 的处理后,所有的图像块向量会被送入 Transformer 编码器。ViT 使用多层的自注意力机制(Self-Attention)来处理这些向量。每一层的输出都会被送入下一层,直到所有的信息被充分聚合。

7. 分类与输出

经过多次的自注意力处理后,最终的 CLS Token 会被送入一个全连接层,该层输出一个包含所有类别概率的向量 p。通过与真实标签进行比较,ViT 利用交叉熵损失函数来计算误差,并通过梯度下降优化网络参数。

8. 训练过程:预训练与微调

ViT 的训练过程可以分为两个阶段:预训练和微调。

预训练(Pretraining)

预训练阶段是在一个大规模的数据集上进行的,通常会使用像 ImageNet 或 JFT-300M 这样的庞大数据集。这一阶段的目标是让模型学习到通用的视觉特征。通常,预训练时使用的模型参数是随机初始化的,随着训练的进行,模型不断优化,学习到有用的图像特征。

微调(Fine-tuning)

预训练完成后,模型会在较小的任务特定数据集(如 CIFAR-10、ADE20K 等)上进行微调。通过在这些特定任务上继续训练,模型能够调整参数,以适应特定的应用场景。

ViT 与 ResNet 的比较

传统的卷积神经网络,如 ResNet,依靠卷积层通过局部感受野捕捉图像特征。而 ViT 的核心优势在于 Transformer 的自注意力机制。自注意力机制允许模型在处理每个图像块时,能够关注到其他位置的信息,因此能够捕捉更远距离的图像依赖。

当在大规模数据集上预训练时,ViT 展现出比 ResNet 更好的性能,尤其是在较大的数据集上。随着数据集规模的扩大,ViT 的优势变得更加明显。

为什么 ViT 在大数据集上效果更好?

  1. 全局依赖建模: ViT 的自注意力机制允许它同时关注整个图像,而不像 CNN 那样依赖局部卷积操作。这样,ViT 可以捕捉到更多的全局信息,对于大数据集的图像分析更具优势。

  2. 更强的表示能力: 由于 ViT 处理的是图像块的向量表示,因此它的表示能力比 CNN 更强,特别是在任务复杂或者图像间关系较远的场景下。

  3. 更好的扩展性: Transformer 的设计使得它能够轻松地扩展到更大的数据集和更复杂的任务上,尤其是当计算资源足够时。

总结

Vision Transformer(ViT)是计算机视觉领域的一项创新,它将 Transformer 模型从自然语言处理应用扩展到了图像处理任务。通过将图像分块、向量化、加位置编码,再通过 Transformer 编码器进行处理,ViT 能够有效地提取图像中的全局特征,并在大规模数据集上展现出超越传统卷积神经网络(如 ResNet)的性能。

尽管 ViT 在计算上要求较高,尤其是需要大量数据来训练,但在预训练后,它在图像分类、目标检测等任务中提供了显著的提升。随着大数据集和计算能力的不断提升,ViT 很可能成为未来计算机视觉领域的主流方法之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80435.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PXE_Kickstart_无人值守自动化安装系统

文章目录 1. PXE2. 配置服务参数2.1 tftp服务配置2.2 dhcp服务配置2.3 http服务配置 3. 配置PXE环境3.1 网络引导文件pxelinux.03.2 挂载镜像文件3.3 创建配置文件default3.4 复制镜像文件和驱动文件3.5 修改default文件3.6 配置ks.cfg文件 4. PXE客户端4.1 创建虚拟机&#xf…

鸿蒙NEXT开发动画案例4

1.创建空白项目 2.Page文件夹下面新建Spin.ets文件,代码如下: /*** TODO SpinKit动画组件 - 双粒子旋转缩放动画* author: CSDN-鸿蒙布道师* since: 2025/05/08*/ ComponentV2 export struct SpinFour {// 参数定义Require Param spinSize: number 36…

基于STM32、HAL库的CP2102-GMR USB转UART收发器 驱动程序设计

一、简介: CP2102-GMR是Silicon Labs公司生产的一款USB转UART桥接芯片,主要特点包括: 集成USB 2.0全速功能控制器 内置USB收发器,无需外部电阻 工作电压:3.0V至3.6V 支持的数据格式:数据位8,停止位1,无校验 最高支持1Mbps的波特率 内置512字节接收缓冲区和512字节发送…

Ubuntu 22虚拟机【网络故障】快速解决指南

Ubuntu22虚拟机突然无法连接网络了,以下是故障排除步骤记录。 Ubuntu 22虚拟机网络故障快速解决指南 当在虚拟机中安装的 Ubuntu 22 系统出现 ping: connect: 网络不可达 和 ping: www.baidu.com: 域名解析出现暂时性错误的报错时,通常意味着虚拟机无法…

实战springcloud alibaba

实战springcloud alibaba 前言 如何搭建一套最新的springcloud alibaba,以适配项目升级需求? 1.版本的选择 2.各组件的适配 3.新技术的敏感性 4.前瞻性,几年内不会被淘汰 参考资料:Spring Cloud Alibaba 参考文档 https://spring…

泰迪杯特等奖案例学习资料:基于卷积神经网络与集成学习的网络问政平台留言文本挖掘与分析

(第八届“泰迪杯”数据挖掘挑战赛A题特等奖案例深度解析) 一、案例背景与核心挑战 1.1 应用场景与行业痛点 随着“互联网+政务”的推进,网络问政平台成为政府与民众沟通的重要渠道。某市问政平台日均接收留言超5000条,涉及民生、环保、交通等20余类诉求。然而,传统人工…

DVWA靶场保姆级通关教程--06不安全验证机制

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 目录 文章目录 前言 原理详解 1. 前后端验证逻辑不一致 2. 验证码值保存在客户端 3. 验证码可预测或重复 4. 验证码验证与逻辑解耦 一、处理关卡报错 二、low级别源…

【LeetCode Hot100 | 每日刷题】排序数组

912. 排序数组 - 力扣(LeetCode) 题目: 给你一个整数数组 nums,请你将该数组升序排列。 你必须在 不使用任何内置函数 的情况下解决问题,时间复杂度为 O(nlog(n)),并且空间复杂度尽可能小。 示例 1&…

Windows系统下使用Kafka和Zookeeper,Python运行kafka(二)

1.配置 Zookeeper 进入解压后的 Zookeeper 目录(例如 F:\zookeeper\conf),复制 zoo_sample.cfg 文件并命名为 zoo.cfg(如果 zoo.cfg 已经存在,则直接编辑该文件)。 打开 zoo.cfg 文件,配置相关…

Web 自动化之 HTML JavaScript 详解

文章目录 一、HTML 常用标签二、javascript 脚本1、什么是 javascript(js)2、 js变量和函数3、js 弹窗处理4、js 流程控制语句和 switch 结构语句应用 一、HTML 常用标签 HTML:超文本标记语言 超文本:不仅只包含文字,还有超链接、视频…这些…

el-date-picker的type为daterange时仅对开始日期做限制

文章目录 前言绣球html代码一、正确代码二、错误代码 前言绣球 需求是这样的,开始日期需要限制只能选择今天的日期,结束日期只能选择今天之后的日期。结束日期很常见,但是单纯限制开始日期,还是蛮少见的,尤其是datera…

观测云:安全、可信赖的监控观测云服务

引言 近日,“TikTok 遭欧盟隐私监管机构调查并处以 5.3 亿欧元”一案,再次引发行业内对数据合规等话题的热议。据了解,仅 2023 年一年就产生了超过 20 亿美元的 GDPR 罚单。这凸显了在全球化背景下,企业在数据隐私保护方面所面临…

认识中间件-以及两个简单的示例

认识中间件-以及两个简单的示例 什么是中间件一个响应处理中间件老朋友 nest g如何使用为某个module引入全局引入编写逻辑一个日志中间件nest g mi 生成引入思考代码进度什么是中间件 官方文档 中间件是在路由处理程序之前调用的函数。中间件函数可以访问请求和响应对象,以及…

基于Flask、Bootstrap及深度学习的水库智能监测分析平台

基于Flask、Bootstrap及深度学习的水库智能监测分析平台 项目介绍 本项目是基于Flask框架构建的水库智能监测分析平台,集水库数据管理、实时监测预警、可视化分析和智能预测功能于一体。 预测水位的预警级别:蓝色预警没有超过正常水位且接近正常水位1米…

springboot生成二维码到海报模板上

springboot生成二维码到海报模板上 QRCodeController package com.ruoyi.web.controller.app;import com.google.zxing.WriterException; import com.ruoyi.app.domain.Opportunity; import com.ruoyi.app.tool.QRCodeGenerator; import com.ruoyi.common.core.page.TableDat…

如何使用极狐GitLab 软件包仓库功能托管 maven?

极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 软件包库中的 Maven 包 (BASIC ALL) 在项目的软件包库中发布 Maven 产物。然后,在需要将它们用作依赖项时安装它…

企业如何将钉钉付款单高效集成到金蝶云星空?

钉钉数据集成到金蝶云星空:修改下推的付款单③ 在企业信息化系统中,数据的高效流转和准确对接是实现业务流程自动化的关键。本文将分享一个实际案例,展示如何通过轻易云数据集成平台,将钉钉中的付款单数据无缝集成到金蝶云星空系…

python 实现文件批量重命名

以下是使用Python实现文件批量重命名的示例代码。该代码可以将指定目录下的文件按照一定规则进行重命名,这里以将文件重命名为带有编号的文件名为例: import osdef batch_rename(directory):if not os.path.isdir(directory):print(

Pandas学习笔记(四)

DataFrame对象 文章目录 DataFrame对象导入本文需要的包DataFrame与Series的相似之处使用read_csv函数导入DataFrameSeries和DataFrame的共享与专有属性Series和DataFrame的共有方法 对DataFrame进行排序按照单列进行排序按照多列进行排序按照索引进行排序对列索引进行排序 设置…

DA14585墨水屏学习(2)

一、user_svc2_wr_ind_handler函数 void user_svc2_wr_ind_handler(ke_msg_id_t const msgid,struct custs1_val_write_ind const *param,ke_task_id_t const dest_id,ke_task_id_t const src_id) {// sprintf(buf2,"HEX %d :",param->length);arch_printf("…