【CCNet】《CCNet:Criss-Cross Attention for Semantic Segmentation》

在这里插入图片描述

ICCV-2019


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 Experiments on Cityscapess
    • 5.3 Experiments on ADE20K
    • 5.4 Experiments on COCO
  • 6 Conclusion(own)


1 Background and Motivation

分割任务中全局的上下文信息非常重要,如果高效轻量的获取上下文?

Thus, is there an alternative solution to achieve such a target in a more efficient way?

作者提出了 Criss-Cross Attention

相比于 Non-local(【NL】《Non-local Neural Networks》)

复杂度从 O((HxW)x(HxW)) 降低到了 O((HxW)x(H+W-1))

2 Related Work

  • semantic segmentation
  • contextual information aggregation
  • Attention model

3 Advantages / Contributions

  • 提出 Criss-Cross 注意力,capture contextual information from full-image dependencies in a more efficient and effective way
  • 在语义分割数据集 Cityscapes, ADE20K 和实例分割数据 COCO 上均有提升

4 Method

整理流程如下
在这里插入图片描述

Criss-Cross Attention Module 用了两次,叫 recurrent Criss-Cross attention (RCCA) module

下面是和 non-local 的对比
在这里插入图片描述
比如(b)中,计算蓝色块的 attention,绿色块不同深浅表示与蓝色块的相关程度,第一次结合十字架attention得到黄色块,第二次再结合十字架attention,得到红色块

为什么两次,因为一次捕获不到全局上下文信息,两次就可以,如下图

在这里插入图片描述

第一次,计算深绿色块的 Criss-Cross 注意力,只能获取到浅绿色块的信息,蓝色块的信息获取不到,浅绿色可以获取到蓝色块信息
第二次,计算深绿色块的 Criss-Cross 注意力,因为第一次计算浅绿色块注意力时已经有蓝色块信息了,此时,可以获取到蓝色块信息

更细节的 Criss-Cross 注意力图如下
在这里插入图片描述

下面结合图 3 看看公式表达

输入 H ∈ R C × W × H H \in \mathbb{R}^{C \times W \times H} HRC×W×H

query 和 key, { Q , K } ∈ R C ′ × W × H \{Q, K\} \in \mathbb{R}^{{C}' \times W \times H} {Q,K}RC×W×H C ′ {C}' C 为 1/8 C C C

Q u ∈ R C ′ Q_u \in \mathbb{R}^{{C}'} QuRC u u u H × W H \times W H×W 中空间位置索引,特征图 Q 的子集(每个空间位置)

Ω u ∈ R ( H + W − 1 ) × C ′ \Omega_{u} \in \mathbb{R}^{(H + W -1) \times {C}' } ΩuR(H+W1)×C,特征图 K 的子集(每个十字架)

Affinity operation 可以定义为

d i , u = Q u Ω i , u T d_{i,u} = Q_u \Omega_{i, u}^T di,u=QuΩi,uT

Q Q Q上每个空间位置 Q u Q_u Qu,找到 K K K 上对应的同行同列十字架 Ω u \Omega_{u} Ωu i i i 是十字架中空间位置的索引, d i , u ∈ D d_{i,u} \in {D} di,uD D ∈ R ( H + W − 1 ) × W × H D \in \mathbb{R}^{(H+W-1) \times W \times H} DR(H+W1)×W×H Q Q Q K K K 计算的 D D D 经过 softmax 后成 A ∈ R ( H + W − 1 ) × W × H A \in \mathbb{R}^{(H + W -1) \times W \times H} AR(H+W1)×W×H

Q Q Q K K K 计算出来了权重 A A A 最终作用到 K K K 上,形式如下:

H u ′ = ∑ i ∈ ∣ Φ u ∣ A i , u Φ i , u + H u {H}_u^{'} = \sum_{i \in | \Phi_u|} A_{i,u}\Phi_{i,u} + H_u Hu=iΦuAi,uΦi,u+Hu

Φ i , u \Phi_{i,u} Φi,u Ω i , u \Omega_{i, u} Ωi,u,一个是特征图 V V V 的子集,一个是特征图 K K K 的子集, H H H 是输入, H ′ {H}^{'} H 为输出, i i i 是十字架索引, u u u H H H x W W W 空间位置索引

为了使每一个位置 u u u 可以与任何位置对应起来,作者通过两次计算 Criss-cross 来完成,只需对 H ′ {H}^{'} H 再次计算 criss-cross attention,输出 H ′ ′ {H}^{''} H′′,此时就有:

u u u and θ \theta θ in the same row or column
在这里插入图片描述
A A A 表示 loop = 1 时的注意力 weight, A ′ {A}' A 表示 loop = 2 时的 weight

u u u and θ \theta θ not in the same row or column,eg 图 4,深绿色位置是 u u u,蓝色的位置是 θ \theta θ
在这里插入图片描述

在这里插入图片描述
加上
在这里插入图片描述

再看看代码

import torch
import torch.nn as nn
import torch.nn.functional as Fdef INF(B,H,W):return -torch.diag(torch.tensor(float("inf")).cuda().repeat(H),0).unsqueeze(0).repeat(B*W,1,1)class CrissCrossAttention(nn.Module):def __init__(self, in_channels):super(CrissCrossAttention, self).__init__()self.in_channels = in_channelsself.channels = in_channels // 8self.ConvQuery = nn.Conv2d(self.in_channels, self.channels, kernel_size=1)self.ConvKey = nn.Conv2d(self.in_channels, self.channels, kernel_size=1)self.ConvValue = nn.Conv2d(self.in_channels, self.in_channels, kernel_size=1)self.SoftMax = nn.Softmax(dim=3)self.INF = INFself.gamma = nn.Parameter(torch.zeros(1))def forward(self, x):b, _, h, w = x.size()# [b, c', h, w]query = self.ConvQuery(x)# [b, w, c', h] -> [b*w, c', h] -> [b*w, h, c']query_H = query.permute(0, 3, 1, 2).contiguous().view(b*w, -1, h).permute(0, 2, 1)# [b, h, c', w] -> [b*h, c', w] -> [b*h, w, c']query_W = query.permute(0, 2, 1, 3).contiguous().view(b*h, -1, w).permute(0, 2, 1)# [b, c', h, w]key = self.ConvKey(x)# [b, w, c', h] -> [b*w, c', h]key_H = key.permute(0, 3, 1, 2).contiguous().view(b*w, -1, h)# [b, h, c', w] -> [b*h, c', w]key_W = key.permute(0, 2, 1, 3).contiguous().view(b*h, -1, w)# [b, c, h, w]value = self.ConvValue(x)# [b, w, c, h] -> [b*w, c, h]value_H = value.permute(0, 3, 1, 2).contiguous().view(b*w, -1, h)# [b, h, c, w] -> [b*h, c, w]value_W = value.permute(0, 2, 1, 3).contiguous().view(b*h, -1, w)# [b*w, h, c']* [b*w, c', h] -> [b*w, h, h] -> [b, h, w, h]energy_H = (torch.bmm(query_H, key_H) + self.INF(b, h, w)).view(b, w, h, h).permute(0, 2, 1, 3)# [b*h, w, c']*[b*h, c', w] -> [b*h, w, w] -> [b, h, w, w]energy_W = torch.bmm(query_W, key_W).view(b, h, w, w)# [b, h, w, h+w]  concate channels in axis=3 concate = self.SoftMax(torch.cat([energy_H, energy_W], 3))# [b, h, w, h] -> [b, w, h, h] -> [b*w, h, h]attention_H = concate[:,:,:, 0:h].permute(0, 2, 1, 3).contiguous().view(b*w, h, h)attention_W = concate[:,:,:, h:h+w].contiguous().view(b*h, w, w)# [b*w, h, c]*[b*w, h, h] -> [b, w, c, h]out_H = torch.bmm(value_H, attention_H.permute(0, 2, 1)).view(b, w, -1, h).permute(0, 2, 3, 1)out_W = torch.bmm(value_W, attention_W.permute(0, 2, 1)).view(b, h, -1, w).permute(0, 2, 1, 3)return self.gamma*(out_H + out_W) + xif __name__ == "__main__":model = CrissCrossAttention(512)x = torch.randn(2, 512, 28, 28)model.cuda()out = model(x.cuda())print(out.shape)

Q,K,A,V 还是比较直接

参考

  • CCNet–于"阡陌交通"处超越恺明Non-local

  • 语义分割系列20-CCNet(pytorch实现)

5 Experiments

5.1 Datasets and Metrics

  • Cityscapes
  • ADE20K
  • COCO

Mean IoU (mIOU, mean of class-wise intersection over union section over union) for Cityscapes and ADE20K and the standard COCO metrics Average Precision (AP) for COCO

5.2 Experiments on Cityscapess

(1)Comparisons with state-of-the-arts
在这里插入图片描述
DPC 用了更强的主干,更多的数据集来 train

在这里插入图片描述

(2)Ablation studies

在这里插入图片描述
消融了下循环的次数,还是很猛的,第一次就提升了 2.9 个点,第二次又提升了 1.8 个

看看效果图,重点看作者圈出来的白色虚线椭圆区域
在这里插入图片描述

对比看看其他的 context aggregation 模块
在这里插入图片描述
作者的 Criss-Cross Attention 比较猛

其次比较猛的是 Non-local,但是作者的计算量小很多

在这里插入图片描述
看看特征图,重点看作者圈出来的绿色十字加号区域
在这里插入图片描述

5.3 Experiments on ADE20K

在这里插入图片描述

5.4 Experiments on COCO

在这里插入图片描述

6 Conclusion(own)

《Large Kernel Matters Improve Semantic Segmentation by Global Convolutional Network》

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/618454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MAC通过终端,使用python3建立本地Web服务

实现局域网Web服务,很简单几句命令,一起看看。 1. 我相信你已经有 brew(Homebrew 包管理器) 了对么? 如果没有可以执行这个方法 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"2. 安…

网页的介绍

目录 什么是网页: 网页的组成: 什么是HTML: 网页的总结: 浏览器: web标准: 为什么需要Web标准: web标准的构成: 什么是网页: 1.网站是指在因特网上根据一定的规…

openal中使用现代C++智能指针管理ffmpeg中裸指针的用法

裸指针包装 /* Define unique_ptrs to auto-cleanup associated ffmpeg objects. */ struct AVIOContextDeleter {void operator()(AVIOContext *ptr) { avio_closep(&ptr); } }; using AVIOContextPtr std::unique_ptr<AVIOContext,AVIOContextDeleter>;struct AVF…

清晰讲解Cookie、Session、Token、JWT之间的区别

文章目录 什么是认证(Authentication)什么是授权(Authorization)什么是凭证(Credentials)什么是Cookie什么是SessionSession的痛点 Cookie 和 Session 的区别什么是Token(令牌)Acesss TokenRefresh Token Token 和 Session 的区别Token 与 Cookie什么是 JWT生成JWTJWT 的原理JW…

利用PowerShell和Mkvtoolnix批量去除视频封面

利用PowerShell v5和Mkvtoolnix批量去除视频封面 PowerShell Version : 5.1.22621.2506 foreach ($file in Get-ChildItem "*.mp4") { Start-Process -FilePath "C:\Program Files\MKVToolNix\mkvmerge.exe" -ArgumentList "--ui-language en --pr…

Memcache简介与运维

开源、高性能、高并发的分布式内存缓存系统。 作用 缓存关系型数据库的结果&#xff0c;减少数据库自身访问的次数。 常见内存缓存服务软件对比 memcache 纯内存 redis、memcachedb 可持久化存储&#xff0c;同时会使用磁盘存 …

idea使用docker-compose发布应用程序

非常重要的话说在前头 idea要想使用docker-compose&#xff0c;不能使用ssh创建idea Docker&#xff0c;而需要使用socket创建idea Docker。 socket docker是不安全的&#xff0c;任何人都可以访问你的docker&#xff0c;所以只能测试环境使用&#xff0c;请勿在正式环境使用s…

问题解决记录-pypcd

项目场景&#xff1a; python3 环境下使用 pypcd 读取点云 pcd 文件 pip install pypcd 安装 pypcd 库 问题描述 读取pcd 文件时候报错 问题 1、 import cStringIO as sio ModuleNotFoundError: No module named cStringIOpython3.X已经取消了cStringIO模块 网上建议&…

UniApp 面试题

UniApp 面试题 1. 什么是 UniApp&#xff1f;它有什么特点&#xff1f; 答案&#xff1a;UniApp 是一个基于 Vue.js 的跨平台应用开发框架&#xff0c;可以使用 Vue.js 的开发语法编写一次代码&#xff0c;然后通过编译生成可以在多个平台&#xff08;包括iOS、Android、H5 等…

每日一题 2182. 构造限制重复的字符串(中等,贪心)

贪心&#xff0c;每次都尽量取大的&#xff0c;除非连续取的次数超出限制&#xff0c;此时取一个下一个字符 class Solution:def repeatLimitedString(self, s: str, repeatLimit: int) -> str:N 26count [0] * Nfor c in s:count[ord(c) - ord(a)] 1ret []i, j, m N …

go-carbon v2.3.5 发布,轻量级、语义化、对开发者友好的 golang 时间处理库

carbon 是一个轻量级、语义化、对开发者友好的 golang 时间处理库&#xff0c;支持链式调用。 目前已被 awesome-go 收录&#xff0c;如果您觉得不错&#xff0c;请给个 star 吧 github.com/golang-module/carbon gitee.com/golang-module/carbon 安装使用 Golang 版本大于…

98. 验证二叉搜索树(LeetCode)

文章目录 前言一、题目分析二、算法原理三、代码实现剪枝总结 前言 在本文章中&#xff0c;我们将要详细介绍一下Leetcode中第98题验证二叉搜索树&#xff0c; 在本内容中我们将会学到递归解决二叉树&#xff0c;全局变量&#xff0c;剪枝等等相关内容。 一、题目分析 分析&a…

python 可变与不可变类型

不可变变量 不可变量包括&#xff1a;数值类型、字符串和元组。一旦被重新赋值&#xff0c;变量对应的内存地址就会发生改变。 可变变量 不可变量包括&#xff1a;列表、字典、集合。添加或者修改数据时&#xff0c;变量对应的内存地址不会改变。也就是可变类型&#xff0c;一…

单片机原理及应用:定时器/计数器综合应用

本文是《单片机原理及应用》专栏中的最后一篇文章&#xff0c;笔者以编译器的安装配置——51单片机简介——LED和数码管外设——开关和按键控制功能切换——外部中断系统——定时器与计数器为知识大纲&#xff0c;介绍了C语言编程控制51单片机的入门教程。作为收尾&#xff0c;…

关于java方法调用的回顾

关于java方法调用的回顾 上篇文章中我们回顾了一下java方法的定义&#xff0c;本篇文章中我们来回顾一下方法的调用&#xff0c;这样更利于咱们后续的面向对象的学习&#x1f600;。 方法的调用 静态方法。 非静态方法。 形参和实参。 值传递和引用传递。 this关键字。 …

基于JavaWeb+BS架构+SpringBoot+Vue+Spark的共享单车数据存储系统的设计和实现

基于JavaWebBS架构SpringBootVueSpark的共享单车数据存储系统的设计和实现 文末获取源码Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例《500套》 源码获取 文末获取源码 Lun文目录 第一章 概述 2 1.1课题研究背景 2 1.2 课题研究意义 2 1.3国内…

ASP.NET作业批改系统源码

ASP.NET作业批改系统源码 源码描述&#xff1a; 该系统主要完成学生注册&#xff0c;登陆&#xff0c;作业的上传&#xff0c;教师对作业进行发布&#xff0c;批改等功能。 包括登陆子系统&#xff0c;学生子系统&#xff0c;教师子系统和管理员子系统。 管理员功能 资料管理:修…

【Maven】004-基于 IDEA 构建 Maven 工程

【Maven】004-基于 IDEA 构建 Maven 工程 文章目录 【Maven】004-基于 IDEA 构建 Maven 工程一、概述1、项目构建2、命令方式项目构建命令war 包打包插件和 jdk 版本不匹配 二、项目构建1、命令方式2、IDEA 可视化方式3、构建产物 一、概述 1、项目构建 项目构建是将软件开发…

XTdrone运行ego需打开多个终端 麻烦 一键启动脚本

VINS-Fusion仿真部分 建立plan.sh文件 #!/bin/bash gnome-terminal -x bash -c "cd ~/PX4_Firmware; roslaunch px4 indoor1.launch" sleep 5 gnome-terminal -x bash -c "cd ~/xtdrone_ws; bash scripts/xtdrone_run_vio.sh" sleep 5 gnome-terminal …

推荐3个wordpress模板网站

WP模板牛 http://www.wpniu.com 上面有很多免费wordpress模板资源的网站&#xff0c;除了免费模板&#xff0c;还有付费模板。 My模板&#xff08;我的模板&#xff09; http://www.mymoban.com 老牌网站模板资源站&#xff0c;上面有wordpress模板、帝国CMS模板、WooComm…