论文标题:SPDFusion: A Semantic Prior Knowledge-Driven Method for Infrared and Visible Image Fusion
论文来源:IEEE Transactions on Multimedia (Vol. 27, 2025)
关键词:Image Fusion, Semantic Prior, Deep Learning, Task-Driven, GAN
论文原文 (Paper):https://ieeexplore.ieee.org/abstract/document/10814643
GitHub 仓库链接(包含论文解读及即插即用代码):https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0
目录
- 1. 核心思想(Core Idea)
- 2. 背景与动机(Background & Motivation)
- 2.1 文本背景总结
- 2.2 动机图解分析
- 3. 主要创新点(Main Contributions)
- 4. 方法细节(Method Details)
- 4.1 整体网络架构
- 4.2 核心创新模块详解
- 4.3 理念与机制总结
- 4.4 图解总结
- 5. 即插即用模块的作用
- 6. 实验部分简单分析 (Experiments)
- 在这里插入图片描述
- 7. 获取即插即用代码关注 【AI即插即用】
1. 核心思想(Core Idea)
本文提出了一种名为SPDFusion的新型融合框架,旨在解决传统红外与可见光图像融合方法忽略语义信息,导致融合图像在下游高级视觉任务(如语义分割)中表现不佳的问题。其核心策略是利用预训练的语义分割模型提取语义先验知识,通过语义特征感知模块 (SFPM)和语义特征嵌入模块 (SFEM)将这些高层语义信息深度注入到融合过程中。同时,结合区域语义对抗损失,强制模型针对不同类别的物体区域进行精细化生成,从而实现“既看得清,又好识别”的融合效果。
2. 背景与动机(Background & Motivation)
2.1 文本背景总结
红外与可见光图像融合的初衷是结合两者的互补信息(红外的热辐射目标 + 可见光的纹理细节)。
- 现有问题:大多数现有的深度学习融合方法(基于 CNN 或 GAN)主要关注像素级的重构损失或视觉质量指标。它们往往对所有像素一视同仁,忽略了图像中不同区域(如人、车、背景)具有不同的语义重要性。
- 后果:虽然融合出的图片人眼看着还行,但当把这些图片送入机器视觉系统(如自动驾驶中的分割网络)时,由于物体边缘模糊或特征混淆,导致分割精度(mIoU)很低。这就是典型的**“语义鸿沟”**问题。
2.2 动机图解分析
看图说话与痛点分析:
- 对比局限性:观察图中的传统方法结果,虽然红外目标(如行人)被高亮了,但其边缘可能与背景纹理混杂在一起。在对应的分割图中,可以看到行人的轮廓是支离破碎的。
- 核心问题引出:这说明单纯的像素级融合丢失了**“物体是什么”**的高层信息。
- 本文思路:SPDFusion(最右侧)的分割结果非常清晰完整。这是因为网络在融合时“知道”这里有一个人,那里是一辆车,因此在生成像素时会有意识地保持这些区域的特征一致性,从而解决了底层特征与高层语义不匹配的问题。
3. 主要创新点(Main Contributions)
- 语义驱动的融合框架:构建了一个双分支结构,将预训练分割网络提取的语义掩码和特征作为先验(Prior),显式地指导图像融合过程。
- 语义特征感知模块 (SFPM):利用语义掩码作为空间注意力图,指导编码器关注图像中的显著语义区域(如前景目标),增强源图像特征的提取。
- 语义特征嵌入模块 (SFEM):将高维语义特征通过嵌入的方式注入到解码器中,确保在重构融合图像时,物体的语义类别信息不丢失。
- 区域语义对抗机制:提出了一种基于类别的区域对抗损失,将鉴别器细化到具体的语义类别(如只判别“车”这一类生成的真假),显著提升了特定目标的生成质量。
4. 方法细节(Method Details)
4.1 整体网络架构
数据流详解:
SPDFusion 包含三个主要部分:语义提取分支、图像融合分支和区域鉴别器。
- 输入 (Input):红外图像I i r I_{ir}Iir和可见光图像I v i I_{vi}Ivi。
- 语义提取分支 (Semantic Branch):
- 使用预训练好的分割模型(如 BiSeNet)分别处理I i r I_{ir}Iir和I v i I_{vi}Ivi。
- 输出:得到语义特征图F s e g F_{seg}Fseg和语义掩码(Mask)M s e g M_{seg}Mseg。这些信息作为“导师”信号。
- 图像融合分支 (Fusion Branch):
- 编码器 (Encoder):提取图像特征。在此过程中,SFPM被插入,利用语义掩码M s e g M_{seg}Mseg来加权特征图,强化前景。
- 特征融合层:将红外和可见光特征进行拼接或相加。
- 解码器 (Decoder):重构图像。在此过程中,SFEM被插入,将语义特征F s e g F_{seg}Fseg嵌入到解码流中。
- 对抗训练 (Discriminator):
- 生成的融合图像I f I_fIf被送入鉴别器。鉴别器不仅判断真假,还结合语义标签进行区域判别。
- 输出 (Output):最终得到既保留纹理又具备强语义特征的融合图像。
4.2 核心创新模块详解
模块 A:语义特征感知模块 (SFPM)
- 内部结构:
- 输入:源图像的中间特征F e n c F_{enc}Fenc和 语义掩码M s e g M_{seg}Mseg。
- 流动:语义掩码经过下采样与特征图尺寸对齐,然后通过一个卷积层生成空间注意力权重。
- 操作:F o u t = F e n c ⊙ A t t e n t i o n ( M s e g ) + F e n c F_{out} = F_{enc} \odot Attention(M_{seg}) + F_{enc}Fout=Fenc⊙Attention(Mseg)+Fenc。
- 设计目的:
- 这是一种空间注意力机制。它告诉编码器:“这里是人,那里是车,请重点提取这些区域的纹理特征,忽略无关的背景噪声。”
模块 B:语义特征嵌入模块 (SFEM)
- 内部结构:
- 输入:解码器的特征F d e c F_{dec}Fdec和 语义特征F s e g F_{seg}Fseg(来自分割网络中间层)。
- 流动:借鉴了 SPADE (Spatially-Adaptive Normalization) 的思想。语义特征被用来生成缩放因子γ \gammaγ和偏置因子β \betaβ。
- 操作:F o u t = γ ( F s e g ) ⋅ N o r m ( F d e c ) + β ( F s e g ) F_{out} = \gamma(F_{seg}) \cdot Norm(F_{dec}) + \beta(F_{seg})Fout=γ(Fseg)⋅Norm(Fdec)+β(Fseg)。
- 设计目的:
- 这是一种条件归一化机制。它不仅是简单的特征相加,而是用语义信息去“调制”融合特征的分布。确保解码出来的像素不仅像图像,更像具体的“物体类”。
4.3 理念与机制总结
SPDFusion 的核心理念是“语义流引导像素流”。
- 机制:传统方法是 Bottom-up(从像素到特征),SPDFusion 引入了 Top-down(从语义到特征)的反馈。
- 公式解读:I f u s e d = G ( I i r , I v i ∣ S e m a n t i c _ P r i o r ) I_{fused} = G(I_{ir}, I_{vi} | Semantic\_Prior)Ifused=G(Iir,Ivi∣Semantic_Prior)。
- 协同工作:SFPM 在前端负责“聚焦目标”,SFEM 在后端负责“保持身份”,区域对抗损失负责“细节打磨”。三者构成了完整的语义闭环。
4.4 图解总结
回到“动机图解”的核心问题:
- SFPM解决了红外目标在可见光背景中容易丢失的问题(通过掩码加权)。
- SFEM解决了融合图像在分割网络中特征不匹配的问题(语义鸿沟),确保生成的特征符合分割网络的分布偏好。
- 因此,最终的融合图像在图 1 中能产生完美的分割结果。
5. 即插即用模块的作用
本论文提出的模块具有很好的通用性,可迁移至其他任务:
- SFPM (语义感知):
- 适用场景:任何需要突出前景目标的图像增强任务,如显著性目标检测、去雾(关注物体而非天空)。
- 应用:可以插入到 U-Net 的 Encoder 中,利用粗糙的掩码引导特征提取。
- 区域语义对抗损失 (Regional Semantic Adversarial Loss):
- 适用场景:生成对抗网络 (GAN)类的任务。
- 应用:在做图像修复(Inpainting)或风格迁移时,如果你希望生成的特定物体(如人脸、车牌)更加逼真,可以用这种基于Mask的局部判别器替代全局判别器。
6. 实验部分简单分析 (Experiments)
论文在MSRS和RoadScene等数据集上进行了验证。
- 视觉质量:
- SPDFusion 的结果对比度高,目标清晰。特别是在光照不足的场景下,红外目标的轮廓非常锐利。
- 客观指标:
- 在 EN (信息熵)、SD (标准差)、SF (空间频率) 等常规指标上均达到 SOTA。
- 下游任务评估(最重要):
- 论文将融合图像送入语义分割网络测试mIoU (平均交并比)。
- 结果:SPDFusion 的 mIoU 显著高于其他对比方法(如 TarDAL, SeAFusion)。这直接证明了引入语义先验对于提升机器感知能力的有效性。
总结:SPDFusion 是一篇典型的High-level 指导 Low-level的论文。它跳出了“为了融合而融合”的怪圈,真正从应用(分割)的角度反推融合算法的设计。对于做多任务联合学习或语义辅助增强的同学,这篇论文的架构设计非常有借鉴意义。
到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。