实用指南:【论文阅读 | PR 2024 |ICAFusion:迭代交叉注意力引导的多光谱目标检测特征融合】

news/2025/10/5 9:16:57/文章来源:https://www.cnblogs.com/slgkaifa/p/19126262

实用指南:【论文阅读 | PR 2024 |ICAFusion:迭代交叉注意力引导的多光谱目标检测特征融合】

在这里插入图片描述

题目:ICAFusion: Iterative cross-attention guided featurefusionfor multispectral object detection

会议:Pattern Recognition(PR)

论文:https://doi.org/10.1016/j.patcog.2023.109913

代码:https://github.com/chanchanchan97/ICAFusion

年份:2024

1.摘要&&引言

多光谱图像的有效特征融合在多光谱目标检测中起着至关重要的作用。以往研究表明,使用卷积神经网络进行特征融合是奏效的,但由于其在局部范围特征交互方面的固有缺陷,这些途径对图像错位敏感,导致性能下降。

为克服这一疑问,本文提出了一种新型的双交叉注意力Transformer特征融合框架,用于建模全局特征交互并同时捕获跨模态的互补信息。该框架利用查询引导的交叉注意力机制增强目标特征的判别力,从而提升性能。

然而,堆叠多个 Transformer 块进行特征增强会导致大量参数和高空间复杂度。为此,受人类复习知识过程的启发,本文提出了一种迭代交互机制,在分块多模态 Transformer 之间共享参数,降低模型复杂度和计算成本。所提方法具有通用性和有效性,可集成到不同的检测框架中,并与不同的主干网络配合使用。

在 KAIST、FLIR 和 VEDAI数据集上的实验结果表明,所提方法实现了优异的性能和更快的推理速度,适用于各种实际场景。

总结起来,我们的主要贡献如下:

2.方法

2.1 架构

在这里插入图片描述

图2. 大家的多光谱目标检测框架概述。(上分支和下分支分别为RGB和热特征提取模块,C1∼C5代表不同尺度的特征图,DMFF模块是我们提出的特征融合方法,Neck模块是多尺度特征聚合网络,Head模块输出最终的检测结果。)

如图 2 所示,所提方法是一种双分支主干网络,专为从 RGB-热图像对中提取特征而设计。我们的方法主要包括三个阶段:单模态特征提取、双模态特征融合以及检测颈部和头部。

单模态特征提取
起初分别用于 RGB 和热图像(如公式(1)所示):
F R i = Ψ backbone ( I R ; θ R ) , F T i = Ψ backbone ( I T ; θ T ) F_{R}^{i} = \Psi_{\text{backbone}}(I_{R}; \theta_{R}), \quad F_{T}^{i} = \Psi_{\text{backbone}}(I_{T}; \theta_{T})FRi=Ψbackbone(IR;θR),FTi=Ψbackbone(IT;θT)
其中,

在通用目标检测中,VGG16 [34]、ResNet [35] 和 CSPDarkNet [36] 通常用作函数Ψ backbone \Psi_{\text{backbone}}Ψbackbone。在特征提取阶段,多尺度特征通常用于捕获不同大小的目标。

双模态特征融合
给定 F R i F_{R}^{i}FRiF T i F_{T}^{i}FTi的特征图,在多光谱目标检测中需要跨模态特征融合来聚合不同分支的特征(如公式(2)所示):
F R + T i = Φ fusion ( F R i ; F T i ; θ f ) F_{R+T}^{i} = \Phi_{\text{fusion}}(F_{R}^{i}; F_{T}^{i}; \theta_{f})FR+Ti=Φfusion(FRi;FTi;θf)
其中,

鉴于以往研究 [5,19] 探索了不同的融合架构,并验证了中途融合优于其他融合方法,我们将中途融合作为默认设置,并融合来自卷积层 C3∼C5 的多模态特征(如图 2 所示)。通常,加法操作或 NIN 融合 [17] 常用作特征融合函数Φ fusion ( ⋅ ) \Phi_{\text{fusion}}(\cdot)Φfusion()。在本文中,提出了一种双交叉注意力特征融合 Transformer 来建模Φ fusion ( ⋅ ) \Phi_{\text{fusion}}(\cdot)Φfusion(),这将在 3.2 节中描述。

检测颈部和头部
最后,来自 { F R + T i } i = 1 L \{F_{R+T}^{i}\}_{i=1}^{L}{FR+Ti}i=1L的特征图被馈送到检测颈部进行多尺度特征融合,之后传递到检测头部进行后续的分类和回归(如公式(3)所示):
[ D cls , D bbox ] = ϕ head ( ϕ neck ( { F R + T i } i = 1 L ) ; θ h ) \left[D_{\text{cls}}, D_{\text{bbox}}\right] = \phi_{\text{head}}\left(\phi_{\text{neck}}\left(\{F_{R+T}^{i}\}_{i=1}^{L}\right); \theta_{h}\right)[Dcls,Dbbox]=ϕhead(ϕneck({FR+Ti}i=1L);θh)
其中,

为了公平比较,我们采用原始论文中的检测颈部和头部的默认设置。

2.2 双模态特征融合(DMFF)

在这里插入图片描述

图3. 所提出的DMFF模块示意图。(在上排中,所提出的DMFF模块由空间特征压缩(SFS)模块、迭代跨模态特征增强(ICFE)模块和带有NIN融合的双峰特征融合模块组成。SFS模块为后续的CFE模块压缩特征图的尺寸,ICFE模块通过双CFE模块细化跨模态特征,双峰特征融合模块对ICFE模块的输出进行局部特征融合。下排展示了用于热模态增强的CFE模块的细节。)

图 3 展示了我们的双模态特征融合(DMFF)模块的结构,主要包含三个组件:空间特征压缩(SFS)模块、迭代跨模态特征增强(ICFE)模块和带有 NIN 融合的双峰特征融合模块。这些模块将在以下部分详细介绍。

2.2.1 跨模态特征增强(CFE)

与以往捕获不同模态局部特征的研究不同,所提出的 CFE 模块使单模态能够从全局视角学习来自辅助模态的更多互补信息。该模块不仅检索 RGB 和热模态之间的互补关系,还克服了跨模态特征长程依赖建模的不足。给定输入特征图F R F_{R}FRF T ∈ R H × W × C F_{T} \in \mathbb{R}^{H \times W \times C}FTRH×W×C,首先将每个特征图展平为标记集,并添加可学习的位置嵌入(维度为H × W × C H \times W \times CH×W×C的可训练参数)以编码空间信息。随后,得到带有位置嵌入的标记集T R , T T ∈ R H × W × C T_{R}, T_{T} \in \mathbb{R}^{H \times W \times C}TR,TTRH×W×C作为 CFE 模块的输入。由于 RGB-热图像对通常不完全对齐,大家采用双 CFE 模块分别获取 RGB 和热特征的互补信息(两个模块不共享参数)。如图 3(底部)所示的热分支 CFE 模块流程如下(公式 4):
T ^ T = F C F E − T ( { T R , T T } ) \hat{T}_{T} = F_{CFE-T}\left( \{T_{R}, T_{T}\} \right)T^T=FCFET({TR,TT})
其中,T R T_{R}TRT T T_{T}TT表示输入热模块的 RGB 和热特征标记,T ^ T \hat{T}_{T}T^T为增强后的热特征,F C F E − T ( ⋅ ) F_{CFE-T}(\cdot)FCFET()为热分支的 CFE 模块。

CFE 模块细节

  1. 标记投影:热模态标记T T T_{T}TT被投影为查询矩阵V T V_{T}VT 和键矩阵 K T ∈ R H × W × C K_{T} \in \mathbb{R}^{H \times W \times C}KTRH×W×C(公式 5),RGB 模态标记T R T_{R}TR被投影为查询矩阵Q R ∈ R H × W × C Q_{R} \in \mathbb{R}^{H \times W \times C}QRRH×W×C
    V T = T T W V , K T = T T W K , Q R = T R W Q ,

    VTKTQR=TTWV,=TTWK,=TRWQ,
    其中 W V , W K , W Q ∈ R C × C W^{V}, W^{K}, W^{Q} \in \mathbb{R}^{C \times C}WV,WK,WQRC×C为权重矩阵。

  2. 跨模态相关性计算:通过点积构建相关矩阵,并应用 softmax 归一化相似度分数(公式 6):
    Z T = softmax ( Q R K T ⊤ D K ) ⋅ V T Z_{T} = \text{softmax}\left( \frac{Q_{R} K_{T}^{\top}}{\sqrt{D_{K}}} \right) \cdot V_{T}ZT=softmax(DKQRKT)VT
    其中 D K D_{K}DK为维度缩放因子。随后,通过线性变换生成增强特征T T ′ T_{T}'TT(公式 7):
    T T ′ = α ⋅ Z T W O + β ⋅ T T T_{T}' = \alpha \cdot Z_{T} W^{O} + \beta \cdot T_{T}TT=αZTWO+βTT
    其中 W O ∈ R C × C W^{O} \in \mathbb{R}^{C \times C}WORC×C为 FFN 层前的输出权重矩阵,α , β \alpha, \betaα,β为可学习参数。

  3. 残差连接与多头机制:增强特征通过残差连接(公式 8)和 FFN 进一步细化(受 [40] 启发):
    T ^ T = γ ⋅ T T ′ + δ ⋅ FFN ( T T ′ ) \hat{T}_{T} = \gamma \cdot T_{T}' + \delta \cdot \text{FFN}(T_{T}')T^T=γTT+δFFN(TT)
    其中 γ , δ \gamma, \deltaγ,δ为初始化为 1 的可学习参数。多头交叉注意力机制(8 个并行头)使模型从多视角理解跨模态相关性。

RGB 分支增强
类似地,另一个 CFE 模块用于增强 RGB 分支特征(公式 9):
T ^ R = F C F E − R ( { T R , T T } ) \hat{T}_{R} = \mathcal{F}_{CFE-R}\left( \{T_{R}, T_{T}\} \right)T^R=FCFER({TR,TT})
与 CFT [10] 不同,本文采用双独立交叉注意力 Transformer,仅通过辅助模态查询计算相关性,降低了计算复杂度(见表 1)。

2.2.2 空间特征压缩(SFS)

尽管用于融合的初始特征图借助主干网络进行了下采样,但模型的参数和内存成本仍可能远超标准处理器的运行要求。为了在特征图中减少信息损失的同时降低后续模块的计算成本,我们在 CFE 模块前应用了 SFS 模块来压缩特征图。在该模块中,我们尝试了两种不同的卷积和池化操作方法,细节如下:

卷积操作:大家首先设计了一种基于卷积处理的降维方法(如公式(10)所示)。具体来说,依据重塑特征图的维度将空间信息转换到通道维度,再通过1 × 1 1 \times 11×1卷积压缩通道维度:
F conv = conv 1 × 1 ( Reshape ( F ) ) F_{\text{conv}} = \text{conv}_{1 \times 1}(\text{Reshape}(F))Fconv=conv1×1(Reshape(F))
其中,F FF表示输入特征图,F conv F_{\text{conv}}Fconv表示压缩后的特征图。

池化操作:平均池化和最大池化通过不同策略保留背景或纹理信息(如公式(12)所示)。受混合池化 [41] 启发,我们采用自适应加权聚合方法:
F a = AvgPooling ( F , S ) , F m = MaxPooling ( F , S ) , F o = λ ⋅ F a + ( 1 − λ ) ⋅ F m ,

FaFmFo=AvgPooling(F,S),=MaxPooling(F,S),=λFa+(1λ)Fm,
其中,λ ∈ [ 0 , 1 ] \lambda \in [0, 1]λ[0,1]是可学习参数。

2.2.3 迭代跨模态特征增强(ICFE)

在这里插入图片描述

图4. 传统方式与我们技巧的差异可视化。(a) 传统技巧串联堆叠多个模块,且每个模块的参数不共享。(b) 我们提出的ICFE模块利用迭代方式跨模态细化特征,且每个模块共享参数。图中的“Block”表示我们提出的双CFE模块。

为增强对跨模态和模态内互补信息的记忆,我们提出 ICFE 模块(如图 4(b))。与传统堆叠模块(图 4(a))不同,ICFE 通过参数共享的迭代学习逐步细化特征:
{ T ^ R n , T ^ T n } = F ICFE ( { T R , T T } , n ) = F CFE ( ⋯ F CFE ( { T R , T T } ) ) ⏟ n 次迭代 ,

{T^Rn,T^Tn}=FICFE({TR,TT},n)=n次迭代FCFE(FCFE({TR,TT})),
其中 F ICFE ( ⋅ ) \mathcal{F}_{\text{ICFE}}(\cdot)FICFE()集成两个 CFE 模块(分别用于 RGB 和热分支),每次迭代输出作为下一轮输入。最终特征图通过双线性插值恢复至原始尺寸。

2.2.4 检测头的融合模式

在这里插入图片描述

图 5. CFE 模块的不同融合模式。(a) 用于 RGB 模态的单个 CFE 模块。(b) 用于热模态的单个 CFE 模块。© 用于 RGB 和热模态的双 CFE 模块(参数共享)。(d) 用于 RGB 和热模态的双 CFE 模块(参数不共享)。(e) RGB 和热模态的基线特征融合模式。(f) 基于所有这些输出特征的检测头。

图 5 展示了四种融合模式的对比实验:

  1. 单模态输出(图 5(a)(b)):强制 CFE-R/CFE-T 分别从热/RGB 特征中提取互补信息。
  2. 双 CFE 共享参数(图 5©):共享 CFE 参数处理双模态输入。
  3. 双 CFE 独立参数(图 5(d)):为 RGB 和热分支分配独立 CFE 参数。
  4. 基线 NIN 融合(图 5(e)):采用 NIN [17] 的传统融合方法。

所有融合后的特征图(F i , F i ′ , i ∈ { R , T , fused } F_i, F_i', i \in \{R, T, \text{fused}\}Fi,Fi,i{R,T,fused})均输入检测头(如图 5(f))。实验表明,即使单模态输入质量较差(如图 5©),交叉注意力机制仍能保证鲁棒性。

3.实验

3.1 内容集与评估指标

3.1.1 资料集

3.1.2 评估指标

3.2 实现细节

3.2.1 框架与硬件

3.2.2 训练配置

3.2.3 基线设置

3.3 消融实验

3.3.1 残差连接可学习参数

表 2 显示双分支可学习参数使 KAIST 的M R MRMR从 7.86% 降至 7.63%,FLIR 的m A P 50 mAP_{50}mAP50从 77.1% 提升至 77.5%。
在这里插入图片描述

3.3.2 单/双模态 CFE 效果

在这里插入图片描述

MR值越低越好。mAP值越高,性能越好。在第三列中,字母(a)~(f)表示图5中的融合模式。

表 3 对比不同模式:

3.3.3 模块堆叠数量

在这里插入图片描述

表 4 显示堆叠 10 个 CFE 模块时,参数/CPU 内存增 4 倍,推理速度从 40.5 Hz 降至 17.3 Hz,m A P mAPmAP仅增 0.70%(图 6右)。

3.3.4 迭代次数影响

在这里插入图片描述

表 5 表明:1 次迭代即可使 KAISTM R MRMR从 7.63% 降至 7.17%,FLIRm A P 50 mAP_{50}mAP50从 77.5% 提至 79.2%(图 6左)。

3.3.5 空间压缩方法

在这里插入图片描述

表 6 对比下采样方法:混合池化(Ours-Pool)在 KAIST/FLIR 上分别达到M R = 7.17 % MR=7.17\%MR=7.17%m A P 50 = 79.20 % mAP_{50}=79.20\%mAP50=79.20%

3.3.6 输入模态鲁棒性

在这里插入图片描述

R表示RGB,T表示热成像。R+T代表双模态输入,而R+R或T+T表示单模态输入(忽略另一模态)。在第三列中,字母(a)~(f)对应图5中的融合模式。

表 7 验证:

3.3.7 主干网络兼容性

在这里插入图片描述

表 8 表现 DMFF 在 YOLOv5(VGG16/ResNet50/CSPDarkNet53)和 FCOS 上均提升性能(KAISTM R MRMR降 0.66%~1.16%)。


3.4 与 SOTA 方法对比

3.4.1 KAIST 数据集

在这里插入图片描述

粗体数字表示每列中的最佳结果。带有后缀†和后缀‡的办法分别利用ResNet50和CSPDarkNet53主干网络,而其他方法默认启用VGG16。

表 9 显示:

3.4.2 FLIR 数据集

在这里插入图片描述

表 10 刷新记录:m A P 50 = 79.20 % mAP_{50}=79.20\%mAP50=79.20%m A P = 41.4 % mAP=41.4\%mAP=41.4%(各类别 AP 领先)。

3.4.3 VEDAI 内容集

在这里插入图片描述

表 11 中m A P 50 = 76.62 % mAP_{50}=76.62\%mAP50=76.62%,小目标检测竞争力显著。

3.5 定性分析

在这里插入图片描述

图7. KAIST和FLIR数据集上注意力图的可视化结果。从左到右列:RGB和热图像中的真实标注(ground truth)、NIN融合[17]方法(基线)的热力图、以及我们提出的方法。

图 7 可视化注意力图:

3.6 局限性

在这里插入图片描述

图8. KAIST、FLIR和VEDAI数据集上的失败案例。从左到右列分别为KAIST数据集(a)、FLIR数据集(b)和VEDAI数据集(c)上的失败案例。红色三角形表示图像中的假阳性或假阴性。请放大查看更多细节。

图 8 展示失败案例:

4. 结论

本文提出了一种适用于多光谱目标检测的新型跨模态特征融合框架 ——ICAFusion,该框架借助双交叉注意力 Transformer和迭代学习策略解决了传统方法在局部特征交互和计算复杂度上的局限性。具体贡献如下:

局限性与未来工作
尽管 ICAFusion 在多光谱融合中表现优异,但在极端遮挡(如 FLIR 材料集中重叠行人)、小目标(如 VEDAI 数据集)和模态严重失配场景下仍存在误检风险。未来计划通过以下方向优化:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件设计师难考吗网站seo规划

AutoUpdater.NET 是一款用于WPF、Winform软件版本更新的框架,类似框架还有Squirrel、WinSparkle、NetSparkle、Google Omaha。 一、安装AutoUpdater.NET 首先,您需要在项目中安装AutoUpdater.NET库。您可以通过NuGet包管理器来安装它。在Visual Studio中…

做网站一般要了解哪些重庆妇科医院排名最好的医院

android提高UI的流畅度Android中所有的界面绘制工作都是在UI线程中进行的,提高UI流畅度的最核心根本在于释放UI线程。即:不在主线程中做耗时的操作。很多人都知道,耗时的操作要放到子线程中去做,比如访问网络,比如读写sd卡。像这类…

生成式AI改进极端多标签分类技术

本文介绍利用生成式AI改进极端多标签分类的新方法,通过层次化标签聚类解决长尾分布问题,提出XLGen-BCL和XLGen-MCG两种架构,在多个数据集上验证了聚类引导模型在整体性能和罕见标签分类上的优势。会议信息 EACL 202…

2025.10.5——1绿

普及+/提高 P2216 [HAOI2007] 理想的正方形 单调队列优化的类似悬线法的题。

NIO----JAVA - 教程

NIO----JAVA - 教程2025-10-05 09:08 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fa…

【清晰教程】利用Git工具将本地项目push上传至GitHub仓库中 - 指南

【清晰教程】利用Git工具将本地项目push上传至GitHub仓库中 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

建设工程敎育那个网站青岛网站建设官网

消息对话框 QMessageBox:消息对话框,用于向用户展示简单的信息,警告,错误或者询问对话框。 信息框 QMessageBox::information(nullptr,"标题","信息"); 警告框 QMessageBox::warning(nullptr,"标题&…

建设银行的网站用户名服务器的作用

编辑 ∑Gemini来源:国家自然科学基金委关于印发《国家自然科学基金项目科研不端行为调查处理办法》的通知国科金发诚〔2020〕96号各局(室)、科学部,机关党委,各直属单位:《国家自然科学基金项目科研不端行为…

题解:2025.10.信友队.智灵班选拔面试题目

2025.10.信友队.智灵班选拔面试题目题解 T1 题目描述 现在有25匹马赛跑,场地中有5个跑道(即一场比赛最多有5匹马参赛),赛马时你不能掐表,只能看到马的先后顺序,问至少比赛多少场能知道跑得最快的3匹马 错误思路1…

做义工旅行有哪些网站上海财务外包公司

Oracle提示错误消息ORA-28001: the password has expired,是由于Oracle11G的新特性所致, Oracle11G创建用户时缺省密码过期限制是180天(即6个月), 如果超过180天用户密码未做修改则该用户无法登录。 Oracle公司是为了数…

电影网站网页设计手机微网站

1,检查是否有mysql残留文件查找出安装的mysql软件包和依赖包rpm -pa | grep mysql依次删除yum remove mysql-xxx-xxx-查找出所用的配置文件find / -name mysql依次删除rm -rf /var/lib/mysql2,删除MariaDB的文件,装MySQL的话会和MariaDB的文件…

如何用模板建站wordpress删除登录

题干 LCR 023. 相交链表 的头节点 headA 和 headB ,请找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。 图示两个链表在节点 c1 开始相交: 题目数据 保证 整个链式结构中不存在环。 注意,函数返回结果…

南昌网站建设资讯公司官网制作教程

编程题总结 题目一:输出无重复的3位数 题目描述 从{1,2,3,4,5,6,7,8,9}中随机挑选不重复的5个数字作为输入数组‘selectedDigits’,能组成多少个互不相同且无重复数字的3位数?请编写程》序,从小到大顺序,以数组形式输出这些3位…

三合一网站怎么建立东莞做网站微信巴巴

应用分发(App Distribution)或APP分发,通常指的是将移动应用程序(如iOS、Android或其他平台的应用)通过各种渠道提供给最终用户进行下载和安装的过程。这个过程涉及多个环节,包括应用开发、测试、发布、推广…

MX WEEK4

训练赛 A 今日未完成被 luogu P3225 创飞大学习。 B 今日未完成被 luogu P10953 创飞大学习。 C 今日未完成被 luogu P2272 创飞大学习。 D 今日未完成被 luogu P8867 创飞大学习。 E 今日未完成被 luogu P4126 创飞大…

实用指南:蓝桥杯_DS18B20温度传感器---新手入门级别超级详细解析

实用指南:蓝桥杯_DS18B20温度传感器---新手入门级别超级详细解析pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

实用指南:【25软考网工】第十章 网络规划与设计(1)综合布线

实用指南:【25软考网工】第十章 网络规划与设计(1)综合布线pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Con…

2025.10.4 刷题

2025.10.4 刷题1. P13270 【模板】最小表示法 换模版了,听说卡了 SA 正解是线性的 看题解里还有 log 的倍增哈希,学到了 正解暴力比较两个字符串第一位不同,这样劣的那个字符串,以其每一个字符起始的字符串都劣,同…

TDengine 运维——巡检工具(定期检查) - 指南

TDengine 运维——巡检工具(定期检查) - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…