论文阅读—— BiFormer(cvpr2023)

论文阅读—— BiFormer(cvpr2023)

news/2026/1/11 23:55:28/文章来源:https://blog.csdn.net/weixin_43575791/article/details/134217741

论文：https://arxiv.org/abs/2303.08810

github：GitHub - rayleizhu/BiFormer: [CVPR 2023] Official code release of our paper "BiFormer: Vision Transformer with Bi-Level Routing Attention"

一、介绍

1、要解决的问题：transformers可以捕捉长期依赖，但是它具有很高的计算复杂性，并占用大量内存。

2、之前研究者解决这个问题的做法，一般都是稀疏注意力：

1）基于手动设计的稀疏模式：在局部窗口或空洞窗口的限制注意力

2）使得稀疏性可以自适应于数据

上面这些方法使用不同的策略融合或者选择和查询无关的键值token，这些token对所有查询共享。但是根据VIT和DETR的可视化结果，不同语义区域的查询对应不同的键值对。

3、所以作者的方法是动态的、查询相关的query-aware，找到最有相关性的键值对。

本文的想法：主要想法是先在区域级别粗略的过滤掉和查询不相关的键值对，这样留下一小部分topk选好的区域routed regions，然后在这些区域上使用细粒度token到token的细粒度注意力机制。

二、方法：

1、Bi-Level Routing Attention

1）输入图片HxWxC，分成SxS个区域，reshape到，然后求出Q,K,V

2）求相关区域

每个区域的，求区域之间的相似性矩阵，文中称为通过矩阵相乘得到的region-to-region affinity graph：，衡量了两个区域之间的语义相关性大小。然后选出topk个区域，I的第i行是最相关的k个区域的索引。

3）Token-to-token attention

为了能在GPU并行计算，先把K和V聚集在一起，然后再计算注意力：

4）分析得到的提出的BRA（Bi-Level Routing Attention）复杂度，而一般的注意力复杂度为。

2、BiFormer

BRA作为基础模块，采用四层金字塔结构。

patch merging module用来减少空间分辨率同时增加通道数。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/131737.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Mybatis的工作原理

Mybatis的工作原理

一、Mybatis的工作原理 1.构建 mybatis 配置文件构建 mybatis 的config,xml,java的mapper，entity类 config文件 <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE configurationPUBLIC "-//mybatis.org//DTD Config 3.0/…

阅读更多...

0002Java安卓程序设计-基于Uniapp+springboot菜谱美食饮食健康管理App

0002Java安卓程序设计-基于Uniapp+springboot菜谱美食饮食健康管理App

文章目录开发环境《[含文档PPT源码等]精品基于Uniappspringboot饮食健康管理App》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功编程技术交流、源码分享、模板分享、网课教程 🐧裙：776871563 功能介绍&#xff…

阅读更多...

XPATH 注入漏洞

XPATH 注入漏洞

一、XPATH 1、XPATH 概述： XPath 是一种查询语言，它描述了如何在 XML 文档中查找特定元素（包括属性、处理指令等）。既然是一种查询语言，XPath 在一些方面与 SQL 相似，不过，XPath 的不同之处在于…

阅读更多...

ES-初识ES

ES-初识ES

文章目录介绍ElasticSearchElasticSearch的主要功能ElasticSearch的主要特性ElasticSearch的家族成员LogStashKibanaBeats ELK（ElasticSearch LogStash Kibana）的应用场景与数据库集成指标采集/日志分析安装和配置ElasticSearch一、安装1、下载ES安装…

阅读更多...

深度学习实战：基于TensorFlow与OpenCV的手语识别系统

深度学习实战：基于TensorFlow与OpenCV的手语识别系统

文章目录写在前面基于TensorFlow与OpenCV的手语识别系统安装环境一、导入工具库二、导入数据集三、数据预处理四、训练模型基于CNN基于LeNet5基于ResNet50 五、模型预测基于OpenCV 写在后面写在前面本期内容：基于TensorFlow与OpenCV的手语识别系统实验环境&…

阅读更多...

lv9 嵌入式开发数据库sqlite

lv9 嵌入式开发数据库sqlite

1 数据库基本概念数据（Data） 能够输入计算机并能被计算机程序识别和处理的信息集合数据库 （Database） 数据库是在数据库管理系统管理和控制之下，存放在存储介质上的数据集合 2 常用的数据库大型数据库…

阅读更多...

过了面试，后面的在线测评还会刷人吗？

过了面试，后面的在线测评还会刷人吗？

过了面试，后面的在线测评还会刷人吗？完全有可能刷，如果不是为了刷，何必要给你做线上测评，我说的有道理不？ 好吧，说到为什么在线测评要刷人，怎么刷？ 怎么才能确保不被刷&…

阅读更多...

Idea 对容器中的 Java 程序断点远程调试

Idea 对容器中的 Java 程序断点远程调试

第一种：简单粗暴型直接在java程序中添加log.info()，根据需要打印信息然后打包覆盖，根据日志查看相关信息第二种：远程调试在IDEA右上角点击编辑配置设置相关参数在Dockerfile中加入 "-jar", "-agentlib:jdwp…

阅读更多...

【移远QuecPython】EC800M物联网开发板的硬件PWM和PWM输出BUG

【移远QuecPython】EC800M物联网开发板的硬件PWM和PWM输出BUG

【移远QuecPython】EC800M物联网开发板的硬件PWM和PWM输出BUG 文章目录导入库初始化PWM开启PWMPWM硬件BUG附录：列表的赋值类型和py打包列表赋值BUG复现代码改进优化总结 py打包导入库 from misc import PWM_V2或者 from misc import PWM但我觉得PWM_V2好用初…

阅读更多...

Adobe：受益于人工智能，必被人工智能反噬

Adobe：受益于人工智能，必被人工智能反噬

来源：猛兽财经作者：猛兽财经总结： （1）Adobe(ADBE)受益于生成式人工智能的兴起，其一直能实现两位数的收入增长就证明了这一点。 （2）在生成式人工智能兴起时，该公司就快…

阅读更多...

C#WPF命令行参数实例

C#WPF命令行参数实例

命令行参数这样是一种技术，传递一组参数到你希望开始的应用，以某种方式影响它。如使用Windows自带的记事本，在开始菜单选择运行或者按一下Win+R键，输入：notepad.exe c:\Windows\win.ini。这就在记事本中打开了win.ini文件。记事本简单的寻找一条或多条参数，然后使用它们…

阅读更多...

基于若依的ruoyi-nbcio流程管理系统增加仿钉钉流程设计(六）

基于若依的ruoyi-nbcio流程管理系统增加仿钉钉流程设计(六）

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址前后端代码： https://gitee.com/nbacheng/ruoyi-nbcio 演示地址：RuoYi-Nbcio后台管理系统这节主要讲条件节点与并发节点的有效性检查，主要是增加这两个节点的子节点检查，因为…

阅读更多...

【从零开始学习Redis | 第五篇】基于布隆过滤器解决Redis的穿透问题

【从零开始学习Redis | 第五篇】基于布隆过滤器解决Redis的穿透问题

前言： 在如今的开发中，使用缓存中间件Redis已经成为一项很广泛的技术，Redis的高性能大大优化了我们的服务器性能，缓解了在高并发的情况下服务器的压力。它基于缓存的形式，在内存中保存数据，减少对磁盘的IO操…

阅读更多...

听GPT 讲Rust源代码--library/std(15)

听GPT 讲Rust源代码--library/std(15)

题图来自 An In-Depth Comparison of Rust and C[1] File: rust/library/std/src/os/wasi/io/fd.rs 文件路径：rust/library/std/src/os/wasi/io/fd.rs 该文件的作用是实现与文件描述符（File Descriptor）相关的操作，具体包括打开文…

阅读更多...

✔ ★【备战实习（面经+项目+算法）】 11.5学习

✔ ★【备战实习（面经+项目+算法）】 11.5学习

✔ ★【备战实习（面经项目算法）】坚持完成每天必做如何找到好工作1. 科学的学习方法（专注！效率！记忆！心流！）2. 每天认真完成必做项，踏实学习技术认真完成每天必做&…

阅读更多...

MFC 基础篇(一)

MFC 基础篇(一)

目录一.SDK编程二.为什么要学MFC？ 三.MFC能做什么？ 四.MFC开发环境搭建五.MFC项目创建六.消息映射机制一.SDK编程 Application Programming Interface 应用程序编程接口。 Software Development Kit 软件开发工具包，一般会包括A…

阅读更多...

indexedDB笔记

indexedDB笔记

indexedDB 该部分内容主要源于https://juejin.cn/post/7026900352968425486 常用场景：大量数据需要缓存在本地重要概念仓库objectStore：类似于数据库中的表，数据存储媒介索引index：索引作为数据的标志量，可根据索引获…

阅读更多...

次小生成树学习笔记

次小生成树学习笔记

次小生成树有严格次小生成树和非严格次小生成树之分。常见的是严格次小生成树。严格次小生成树的定义如下： 如果最小生成树选择的边集是 E M E_M EM，严格次小生成树选择的边集是 E S E_S ES，那么需要满足：( v a l u e ( e…

阅读更多...

Spring Boot 面试题——常用注解

Spring Boot 面试题——常用注解

目录 Spring Bean将一个类声明为 Bean自动装配 Bean声明 Bean 的作用域前端后传值处理常见的 HTTP 请求类型读取配置文件定时任务全局 Controller 层异常处理 Spring Bean 将一个类声明为 Bean Component：通用的注解，可标注任意类为 Spring 组件。如果…

阅读更多...

【入门Flink】- 04Flink部署模式和运行模式【偏概念】

【入门Flink】- 04Flink部署模式和运行模式【偏概念】

部署模式在一些应用场景中，对于集群资源分配和占用的方式，可能会有特定的需求。Flink为各种场景提供了不同的部署模式，主要有以下三种：会话模式（Session Mode）、单作业模式（Per-Job Mode&…

阅读更多...

最新文章