实用指南：【论文阅读 | PR 2024 |ICAFusion：迭代交叉注意力引导的多光谱目标检测特征融合】

图3. 所提出的DMFF模块示意图。（在上排中，所提出的DMFF模块由空间特征压缩（SFS）模块、迭代跨模态特征增强（ICFE）模块和带有NIN融合的双峰特征融合模块组成。SFS模块为后续的CFE模块压缩特征图的尺寸，ICFE模块通过双CFE模块细化跨模态特征，双峰特征融合模块对ICFE模块的输出进行局部特征融合。下排展示了用于热模态增强的CFE模块的细节。）

图 3 展示了我们的双模态特征融合（DMFF）模块的结构，主要包含三个组件：空间特征压缩（SFS）模块、迭代跨模态特征增强（ICFE）模块和带有 NIN 融合的双峰特征融合模块。这些模块将在以下部分详细介绍。

2.2.1 跨模态特征增强（CFE）

与以往捕获不同模态局部特征的研究不同，所提出的 CFE 模块使单模态能够从全局视角学习来自辅助模态的更多互补信息。该模块不仅检索 RGB 和热模态之间的互补关系，还克服了跨模态特征长程依赖建模的不足。给定输入特征图 $F_{R}$ 和 $F_{T} \in \mathbb{R}^{H \times W \times C}$ ，首先将每个特征图展平为标记集，并添加可学习的位置嵌入（维度为 $\times W \times C$ 的可训练参数）以编码空间信息。随后，得到带有位置嵌入的标记集 $T_{R}, T_{T} \in \mathbb{R}^{H \times W \times C}$ 作为 CFE 模块的输入。由于 RGB-热图像对通常不完全对齐，大家采用双 CFE 模块分别获取 RGB 和热特征的互补信息（两个模块不共享参数）。如图 3（底部）所示的热分支 CFE 模块流程如下（公式 4）：
$\hat{T}_{T} = F_{CFE-T}\left( \{T_{R}, T_{T}\} \right)$
其中， $T_{R}$ 和 $T_{T}$ 表示输入热模块的 RGB 和热特征标记， $\hat{T}_{T}$ 为增强后的热特征， $F_{CFE-T}(\cdot)$ 为热分支的 CFE 模块。

CFE 模块细节

标记投影：热模态标记 $T_{T}$ 被投影为查询矩阵 $V_{T}$ 和键矩阵 $K_{T} \in \mathbb{R}^{H \times W \times C}$ （公式 5），RGB 模态标记 $T_{R}$ 被投影为查询矩阵 $Q_{R} \in \mathbb{R}^{H \times W \times C}$ ：
$\begin{aligned} V_{T} & = T_{T} W^{V}, \\ K_{T} & = T_{T} W^{K}, \\ Q_{R} & = T_{R} W^{Q}, \end{aligned}$ $V_{T} K_{T} Q_{R} = T_{T} W^{V}, = T_{T} W^{K}, = T_{R} W^{Q},$
其中 $W^{V}, W^{K}, W^{Q} \in \mathbb{R}^{C \times C}$ 为权重矩阵。
跨模态相关性计算：通过点积构建相关矩阵，并应用 softmax 归一化相似度分数（公式 6）：
$Z_{T} = \text{softmax}\left( \frac{Q_{R} K_{T}^{\top}}{\sqrt{D_{K}}} \right) \cdot V_{T}$
其中 $D_{K}$ 为维度缩放因子。随后，通过线性变换生成增强特征 $T_{T}'$ （公式 7）：
$T_{T}' = \alpha \cdot Z_{T} W^{O} + \beta \cdot T_{T}$
其中 $W^{O} \in \mathbb{R}^{C \times C}$ 为 FFN 层前的输出权重矩阵， $\alpha, \beta$ 为可学习参数。
残差连接与多头机制：增强特征通过残差连接（公式 8）和 FFN 进一步细化（受 [40] 启发）：
$\hat{T}_{T} = \gamma \cdot T_{T}' + \delta \cdot \text{FFN}(T_{T}')$
其中 $\gamma, \delta$ 为初始化为 1 的可学习参数。多头交叉注意力机制（8 个并行头）使模型从多视角理解跨模态相关性。

RGB 分支增强
类似地，另一个 CFE 模块用于增强 RGB 分支特征（公式 9）：
$\hat{T}_{R} = \mathcal{F}_{CFE-R}\left( \{T_{R}, T_{T}\} \right)$
与 CFT [10] 不同，本文采用双独立交叉注意力 Transformer，仅通过辅助模态查询计算相关性，降低了计算复杂度（见表 1）。

2.2.2 空间特征压缩（SFS）

尽管用于融合的初始特征图借助主干网络进行了下采样，但模型的参数和内存成本仍可能远超标准处理器的运行要求。为了在特征图中减少信息损失的同时降低后续模块的计算成本，我们在 CFE 模块前应用了 SFS 模块来压缩特征图。在该模块中，我们尝试了两种不同的卷积和池化操作方法，细节如下：

卷积操作：大家首先设计了一种基于卷积处理的降维方法（如公式（10）所示）。具体来说，依据重塑特征图的维度将空间信息转换到通道维度，再通过 $\times 1$ 卷积压缩通道维度：
$F_{\text{conv}} = \text{conv}_{1 \times 1}(\text{Reshape}(F))$
其中， $F$ 表示输入特征图， $F_{\text{conv}}$ 表示压缩后的特征图。

池化操作：平均池化和最大池化通过不同策略保留背景或纹理信息（如公式（12）所示）。受混合池化 [41] 启发，我们采用自适应加权聚合方法：

\begin{aligned} F_{a} & = AvgPooling (F, S), \\ F_{m} & = MaxPooling (F, S), \\ F_{o} & = λ \cdot F_{a} + (1 - λ) \cdot F_{m}, \end{aligned}

F_{a} F_{m} F_{o} = AvgPooling (F, S), = MaxPooling (F, S), = λ \cdot F_{a} + (1 - λ) \cdot F_{m},

其中，

\lambda \in [0, 1]

是可学习参数。

2.2.3 迭代跨模态特征增强（ICFE）

图4. 传统方式与我们技巧的差异可视化。(a) 传统技巧串联堆叠多个模块，且每个模块的参数不共享。(b) 我们提出的ICFE模块利用迭代方式跨模态细化特征，且每个模块共享参数。图中的“Block”表示我们提出的双CFE模块。

为增强对跨模态和模态内互补信息的记忆，我们提出 ICFE 模块（如图 4(b)）。与传统堆叠模块（图 4(a)）不同，ICFE 通过参数共享的迭代学习逐步细化特征：
${ T ^ R n , T ^ T n } = F ICFE ( { T R , T T } , n ) = F CFE ( ⋯ F CFE ( { T R , T T } ) ) ⏟ n 次迭代 ,$

\begin{aligned} {{\hat{T}}_{R}^{n}, {\hat{T}}_{T}^{n}} & = F_{ICFE} ({T_{R}, T_{T}}, n) \\ = \underset{n 次迭代}{\underset{⏟}{F_{CFE} (\dots F_{CFE} ({T_{R}, T_{T}}))}}, \end{aligned}

{T^Rn​,T^Tn​}​=FICFE​({TR​,TT​},n)=n次迭代FCFE​(⋯FCFE​({TR​,TT​}))​​,​

其中

\mathcal{F}_{\text{ICFE}}(\cdot)

集成两个 CFE 模块（分别用于 RGB 和热分支），每次迭代输出作为下一轮输入。最终特征图通过双线性插值恢复至原始尺寸。

2.2.4 检测头的融合模式

图 5. CFE 模块的不同融合模式。(a) 用于 RGB 模态的单个 CFE 模块。(b) 用于热模态的单个 CFE 模块。© 用于 RGB 和热模态的双 CFE 模块（参数共享）。(d) 用于 RGB 和热模态的双 CFE 模块（参数不共享）。(e) RGB 和热模态的基线特征融合模式。(f) 基于所有这些输出特征的检测头。

图 5 展示了四种融合模式的对比实验：

单模态输出（图 5(a)(b)）：强制 CFE-R/CFE-T 分别从热/RGB 特征中提取互补信息。
双 CFE 共享参数（图 5©）：共享 CFE 参数处理双模态输入。
双 CFE 独立参数（图 5(d)）：为 RGB 和热分支分配独立 CFE 参数。
基线 NIN 融合（图 5(e)）：采用 NIN [17] 的传统融合方法。

所有融合后的特征图（ $F_i, F_i', i \in \{R, T, \text{fused}\}$ ）均输入检测头（如图 5(f)）。实验表明，即使单模态输入质量较差（如图 5©），交叉注意力机制仍能保证鲁棒性。

3.实验

3.1 内容集与评估指标

3.1.1 资料集

KAIST 数据集 [12]
多光谱行人检测基准资料集，囊括 8,963 对训练图像和 2,252 对测试图像（分辨率 640×512）。评估采用对数平均漏检率（ $MR^{-2}$ ），使用清洗后的标注数据 [20,5]。
FLIR 素材集 [13]
包含 5,142 对多光谱图像（4,129 训练/1,013 测试），目标类别为“行人”“汽车”“自行车”。采用对齐版本 [16]，标注 3 类目标。
VEDAI 内容集 [14]
航空图像信息集，含 1,268 对 RGB-红外图像（1024×1024 分辨率），标注 3,700+ 个车辆目标。采用水平框格式标注 [43]。

3.1.2 评估指标

$MR^{-2}$ ：用于 KAIST，计算 9 个对数均匀采样 FPPI 值的平均漏检率（值越低越好）。
AP/ $m A P$ ：目标检测指标，IoU=0.5 阈值下计算平均精度， $m A P$ 为多类平均。

3.2 实现细节

3.3 消融实验

3.3.1 残差连接可学习参数

表 2 显示双分支可学习参数使 KAIST 的 $MR$ 从 7.86% 降至 7.63%，FLIR 的 $mAP_{50}$ 从 77.1% 提升至 77.5%。
在这里插入图片描述

3.3.2 单/双模态 CFE 效果

MR值越低越好。mAP值越高，性能越好。在第三列中，字母（a）～（f）表示图5中的融合模式。

表 3 对比不同模式：

单模态增强（图 5(a)(b)）：KAIST $MR$ 降 0.59%~0.65%，FLIR $mAP_{50}$ 提 0.9%~1.2%。
双模态融合（图 5(d)）：综合性能最优，KAIST $MR$ 降 0.70%，FLIR $mAP_{50}$ 提 1.00%。

3.3.3 模块堆叠数量

表 4 显示堆叠 10 个 CFE 模块时，参数/CPU 内存增 4 倍，推理速度从 40.5 Hz 降至 17.3 Hz， $m A P$ 仅增 0.70%（图 6右）。

3.3.4 迭代次数影响

表 5 表明：1 次迭代即可使 KAIST $MR$ 从 7.63% 降至 7.17%，FLIR $mAP_{50}$ 从 77.5% 提至 79.2%（图 6左）。

3.3.5 空间压缩方法

表 6 对比下采样方法：混合池化（Ours-Pool）在 KAIST/FLIR 上分别达到 $MR=7.17\%$ 和 $mAP_{50}=79.20\%$ 。

3.3.6 输入模态鲁棒性

R表示RGB，T表示热成像。R+T代表双模态输入，而R+R或T+T表示单模态输入（忽略另一模态）。在第三列中，字母（a）～（f）对应图5中的融合模式。

表 7 验证：

单模态输入：YOLOv5+ICFE 性能接近双模态基线。
同模态输入：ICFE 在 R+R/T+T 场景下仍保持鲁棒性，NIN 融合性能骤降。

3.3.7 主干网络兼容性

表 8 表现 DMFF 在 YOLOv5（VGG16/ResNet50/CSPDarkNet53）和 FCOS 上均提升性能（KAIST $MR$ 降 0.66%~1.16%）。

3.4 与 SOTA 方法对比

3.4.1 KAIST 数据集

粗体数字表示每列中的最佳结果。带有后缀†和后缀‡的办法分别利用ResNet50和CSPDarkNet53主干网络，而其他方法默认启用VGG16。

表 9 显示：

白天子集 $MR=6.82\%$ （最低漏检率）。
实时推理速度 38.46 Hz。

3.4.2 FLIR 数据集

表 10 刷新记录： $mAP_{50}=79.20\%$ ， $mAP=41.4\%$ （各类别 AP 领先）。

3.4.3 VEDAI 内容集

表 11 中 $mAP_{50}=76.62\%$ ，小目标检测竞争力显著。

3.5 定性分析

图7. KAIST和FLIR数据集上注意力图的可视化结果。从左到右列：RGB和热图像中的真实标注（ground truth）、NIN融合[17]方法（基线）的热力图、以及我们提出的方法。

图 7 可视化注意力图：

光照不足场景：热模态特征实用辅助行人检测。
困难城市场景：跨模态全局信息减少误检（基线 NIN 注意力分散）。

3.6 局限性

图8. KAIST、FLIR和VEDAI数据集上的失败案例。从左到右列分别为KAIST数据集（a）、FLIR数据集（b）和VEDAI数据集（c）上的失败案例。红色三角形表示图像中的假阳性或假阴性。请放大查看更多细节。

图 8 展示失败案例：

KAIST：低质量图像导致交通标志/树木误检为行人。
FLIR：遮挡行人漏检。
VEDAI：航拍视角下车辆与屋顶设备形状相似导致误判。

4. 结论

本文提出了一种适用于多光谱目标检测的新型跨模态特征融合框架 ——ICAFusion，该框架借助双交叉注意力 Transformer和迭代学习策略解决了传统方法在局部特征交互和计算复杂度上的局限性。具体贡献如下：

双交叉注意力特征增强（CFE）模块：通过跨模态的全局特征交互，捕获 RGB 与热图像的互补信息，显著提升特征判别力。与传统 Transformer 方法相比，本文设计的双分支结构仅通过辅助模态生成查询，计算复杂度降低 50%（见表 1）。
迭代跨模态特征增强（ICFE）模块：受人类知识复习机制启发，通过参数共享的迭代机制替代传统堆叠模块，在不增加可学习参数的前提下，实现特征的逐层细化。实验表明，仅需 1 次迭代即可使 FLIR 数据集的 mAP50 提升 1.7%，且推理速度达 36.7 FPS，优于堆叠 10 个模块的基线方法（见表 5、表 4）。
通用融合架构：所提途径可无缝集成到 YOLOv5、FCOS 等主流检测框架，并兼容 VGG16、ResNet50 等多种主干网络。在 KAIST、FLIR、VEDAI 资料集上的实验表明，ICAFusion 在检测精度（如 KAIST 数据集 MR 低至 7.17%）和推理速度（如 FLIR 数据集 38.46 FPS）上均优于现有方法。

局限性与未来工作：
尽管 ICAFusion 在多光谱融合中表现优异，但在极端遮挡（如 FLIR 材料集中重叠行人）、小目标（如 VEDAI 数据集）和模态严重失配场景下仍存在误检风险。未来计划通过以下方向优化：

引入层次化特征对齐机制，缓解图像错位对跨模态交互的影响；
设计轻量化注意力模块，进一步降低计算成本以适配边缘设备；
拓展至视频多模态任务，探索时空特征联合建模的可行性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/928068.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

软件设计师难考吗网站seo规划

AutoUpdater.NET 是一款用于WPF、Winform软件版本更新的框架，类似框架还有Squirrel、WinSparkle、NetSparkle、Google Omaha。一、安装AutoUpdater.NET 首先，您需要在项目中安装AutoUpdater.NET库。您可以通过NuGet包管理器来安装它。在Visual Studio中…

做网站一般要了解哪些重庆妇科医院排名最好的医院

android提高UI的流畅度Android中所有的界面绘制工作都是在UI线程中进行的，提高UI流畅度的最核心根本在于释放UI线程。即:不在主线程中做耗时的操作。很多人都知道，耗时的操作要放到子线程中去做，比如访问网络，比如读写sd卡。像这类…

做题记录（Oct.）

9 月链接

生成式AI改进极端多标签分类技术

本文介绍利用生成式AI改进极端多标签分类的新方法，通过层次化标签聚类解决长尾分布问题，提出XLGen-BCL和XLGen-MCG两种架构，在多个数据集上验证了聚类引导模型在整体性能和罕见标签分类上的优势。会议信息 EACL 202…

2025.10.5——1绿

普及+/提高 P2216 [HAOI2007] 理想的正方形单调队列优化的类似悬线法的题。

NIO----JAVA - 教程

NIO----JAVA - 教程2025-10-05 09:08 tlnshuju 阅读(0) 评论(0) 收藏举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-fa…

【清晰教程】利用Git工具将本地项目push上传至GitHub仓库中 - 指南

【清晰教程】利用Git工具将本地项目push上传至GitHub仓库中 - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

建设工程敎育那个网站青岛网站建设官网

消息对话框 QMessageBox：消息对话框，用于向用户展示简单的信息，警告，错误或者询问对话框。信息框 QMessageBox::information(nullptr,"标题","信息"); 警告框 QMessageBox::warning(nullptr,"标题&…

建设银行的网站用户名服务器的作用

编辑 ∑Gemini来源：国家自然科学基金委关于印发《国家自然科学基金项目科研不端行为调查处理办法》的通知国科金发诚〔2020〕96号各局（室）、科学部，机关党委，各直属单位：《国家自然科学基金项目科研不端行为…

题解：2025.10.信友队.智灵班选拔面试题目

2025.10.信友队.智灵班选拔面试题目题解 T1 题目描述现在有25匹马赛跑，场地中有5个跑道（即一场比赛最多有5匹马参赛），赛马时你不能掐表，只能看到马的先后顺序，问至少比赛多少场能知道跑得最快的3匹马错误思路1…

做义工旅行有哪些网站上海财务外包公司

Oracle提示错误消息ORA-28001: the password has expired，是由于Oracle11G的新特性所致， Oracle11G创建用户时缺省密码过期限制是180天（即6个月）， 如果超过180天用户密码未做修改则该用户无法登录。 Oracle公司是为了数…

电影网站网页设计手机微网站

1，检查是否有mysql残留文件查找出安装的mysql软件包和依赖包rpm -pa | grep mysql依次删除yum remove mysql-xxx-xxx-查找出所用的配置文件find / -name mysql依次删除rm -rf /var/lib/mysql2，删除MariaDB的文件，装MySQL的话会和MariaDB的文件…

如何用模板建站wordpress删除登录

题干 LCR 023. 相交链表的头节点 headA 和 headB ，请找出并返回两个单链表相交的起始节点。如果两个链表没有交点，返回 null 。图示两个链表在节点 c1 开始相交： 题目数据保证整个链式结构中不存在环。注意，函数返回结果…

南昌网站建设资讯公司官网制作教程

编程题总结题目一：输出无重复的3位数题目描述从{1,2,3,4,5,6,7,8,9}中随机挑选不重复的5个数字作为输入数组‘selectedDigits’，能组成多少个互不相同且无重复数字的3位数?请编写程》序，从小到大顺序，以数组形式输出这些3位…

三合一网站怎么建立东莞做网站微信巴巴

应用分发（App Distribution）或APP分发，通常指的是将移动应用程序（如iOS、Android或其他平台的应用）通过各种渠道提供给最终用户进行下载和安装的过程。这个过程涉及多个环节，包括应用开发、测试、发布、推广…

MX WEEK4

训练赛 A 今日未完成被 luogu P3225 创飞大学习。 B 今日未完成被 luogu P10953 创飞大学习。 C 今日未完成被 luogu P2272 创飞大学习。 D 今日未完成被 luogu P8867 创飞大学习。 E 今日未完成被 luogu P4126 创飞大…

实用指南：蓝桥杯_DS18B20温度传感器---新手入门级别超级详细解析

实用指南：蓝桥杯_DS18B20温度传感器---新手入门级别超级详细解析pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

实用指南：【25软考网工】第十章网络规划与设计（1）综合布线

实用指南：【25软考网工】第十章网络规划与设计（1）综合布线pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Con…

2025.10.4 刷题

2025.10.4 刷题1. P13270 【模板】最小表示法换模版了，听说卡了 SA 正解是线性的看题解里还有 log 的倍增哈希，学到了正解暴力比较两个字符串第一位不同，这样劣的那个字符串，以其每一个字符起始的字符串都劣，同…

TDengine 运维——巡检工具（定期检查） - 指南

TDengine 运维——巡检工具（定期检查） - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

实用指南：【论文阅读 | PR 2024 |ICAFusion：迭代交叉注意力引导的多光谱目标检测特征融合】

论文阅读 | PR 2024 |ICAFusion：迭代交叉注意力引导的多光谱目标检测特征融合

相关文章