即插即用系列 | IEEE TMM 2025 SPDFusion:当语义分割成为图像融合的“导师”

论文标题:SPDFusion: A Semantic Prior Knowledge-Driven Method for Infrared and Visible Image Fusion

论文来源:IEEE Transactions on Multimedia (Vol. 27, 2025)
关键词:Image Fusion, Semantic Prior, Deep Learning, Task-Driven, GAN

论文原文 (Paper):https://ieeexplore.ieee.org/abstract/document/10814643


GitHub 仓库链接(包含论文解读及即插即用代码):https://github.com/AITricks/AITricks
哔哩哔哩视频讲解:https://space.bilibili.com/57394501?spm_id_from=333.337.0.0

目录

      • 1. 核心思想(Core Idea)
      • 2. 背景与动机(Background & Motivation)
        • 2.1 文本背景总结
        • 2.2 动机图解分析
      • 3. 主要创新点(Main Contributions)
      • 4. 方法细节(Method Details)
        • 4.1 整体网络架构
        • 4.2 核心创新模块详解
        • 4.3 理念与机制总结
        • 4.4 图解总结
      • 5. 即插即用模块的作用
      • 6. 实验部分简单分析 (Experiments)
    • 在这里插入图片描述
      • 7. 获取即插即用代码关注 【AI即插即用】

1. 核心思想(Core Idea)

本文提出了一种名为SPDFusion的新型融合框架,旨在解决传统红外与可见光图像融合方法忽略语义信息,导致融合图像在下游高级视觉任务(如语义分割)中表现不佳的问题。其核心策略是利用预训练的语义分割模型提取语义先验知识,通过语义特征感知模块 (SFPM)语义特征嵌入模块 (SFEM)将这些高层语义信息深度注入到融合过程中。同时,结合区域语义对抗损失,强制模型针对不同类别的物体区域进行精细化生成,从而实现“既看得清,又好识别”的融合效果。


2. 背景与动机(Background & Motivation)

2.1 文本背景总结

红外与可见光图像融合的初衷是结合两者的互补信息(红外的热辐射目标 + 可见光的纹理细节)。

  • 现有问题:大多数现有的深度学习融合方法(基于 CNN 或 GAN)主要关注像素级的重构损失或视觉质量指标。它们往往对所有像素一视同仁,忽略了图像中不同区域(如人、车、背景)具有不同的语义重要性。
  • 后果:虽然融合出的图片人眼看着还行,但当把这些图片送入机器视觉系统(如自动驾驶中的分割网络)时,由于物体边缘模糊或特征混淆,导致分割精度(mIoU)很低。这就是典型的**“语义鸿沟”**问题。
2.2 动机图解分析

看图说话与痛点分析

  • 对比局限性:观察图中的传统方法结果,虽然红外目标(如行人)被高亮了,但其边缘可能与背景纹理混杂在一起。在对应的分割图中,可以看到行人的轮廓是支离破碎的。
  • 核心问题引出:这说明单纯的像素级融合丢失了**“物体是什么”**的高层信息。
  • 本文思路:SPDFusion(最右侧)的分割结果非常清晰完整。这是因为网络在融合时“知道”这里有一个人,那里是一辆车,因此在生成像素时会有意识地保持这些区域的特征一致性,从而解决了底层特征与高层语义不匹配的问题。

3. 主要创新点(Main Contributions)

  1. 语义驱动的融合框架:构建了一个双分支结构,将预训练分割网络提取的语义掩码和特征作为先验(Prior),显式地指导图像融合过程。
  2. 语义特征感知模块 (SFPM):利用语义掩码作为空间注意力图,指导编码器关注图像中的显著语义区域(如前景目标),增强源图像特征的提取。
  3. 语义特征嵌入模块 (SFEM):将高维语义特征通过嵌入的方式注入到解码器中,确保在重构融合图像时,物体的语义类别信息不丢失。
  4. 区域语义对抗机制:提出了一种基于类别的区域对抗损失,将鉴别器细化到具体的语义类别(如只判别“车”这一类生成的真假),显著提升了特定目标的生成质量。

4. 方法细节(Method Details)

4.1 整体网络架构

数据流详解
SPDFusion 包含三个主要部分:语义提取分支图像融合分支区域鉴别器

  1. 输入 (Input):红外图像I i r I_{ir}Iir和可见光图像I v i I_{vi}Ivi
  2. 语义提取分支 (Semantic Branch)
    • 使用预训练好的分割模型(如 BiSeNet)分别处理I i r I_{ir}IirI v i I_{vi}Ivi
    • 输出:得到语义特征图F s e g F_{seg}Fseg和语义掩码(Mask)M s e g M_{seg}Mseg。这些信息作为“导师”信号。
  3. 图像融合分支 (Fusion Branch)
    • 编码器 (Encoder):提取图像特征。在此过程中,SFPM被插入,利用语义掩码M s e g M_{seg}Mseg来加权特征图,强化前景。
    • 特征融合层:将红外和可见光特征进行拼接或相加。
    • 解码器 (Decoder):重构图像。在此过程中,SFEM被插入,将语义特征F s e g F_{seg}Fseg嵌入到解码流中。
  4. 对抗训练 (Discriminator)
    • 生成的融合图像I f I_fIf被送入鉴别器。鉴别器不仅判断真假,还结合语义标签进行区域判别
  5. 输出 (Output):最终得到既保留纹理又具备强语义特征的融合图像。
4.2 核心创新模块详解

模块 A:语义特征感知模块 (SFPM)

  • 内部结构
    • 输入:源图像的中间特征F e n c F_{enc}Fenc和 语义掩码M s e g M_{seg}Mseg
    • 流动:语义掩码经过下采样与特征图尺寸对齐,然后通过一个卷积层生成空间注意力权重
    • 操作F o u t = F e n c ⊙ A t t e n t i o n ( M s e g ) + F e n c F_{out} = F_{enc} \odot Attention(M_{seg}) + F_{enc}Fout=FencAttention(Mseg)+Fenc
  • 设计目的
    • 这是一种空间注意力机制。它告诉编码器:“这里是人,那里是车,请重点提取这些区域的纹理特征,忽略无关的背景噪声。”

模块 B:语义特征嵌入模块 (SFEM)

  • 内部结构
    • 输入:解码器的特征F d e c F_{dec}Fdec和 语义特征F s e g F_{seg}Fseg(来自分割网络中间层)。
    • 流动:借鉴了 SPADE (Spatially-Adaptive Normalization) 的思想。语义特征被用来生成缩放因子γ \gammaγ和偏置因子β \betaβ
    • 操作F o u t = γ ( F s e g ) ⋅ N o r m ( F d e c ) + β ( F s e g ) F_{out} = \gamma(F_{seg}) \cdot Norm(F_{dec}) + \beta(F_{seg})Fout=γ(Fseg)Norm(Fdec)+β(Fseg)
  • 设计目的
    • 这是一种条件归一化机制。它不仅是简单的特征相加,而是用语义信息去“调制”融合特征的分布。确保解码出来的像素不仅像图像,更像具体的“物体类”。
4.3 理念与机制总结

SPDFusion 的核心理念是“语义流引导像素流”

  • 机制:传统方法是 Bottom-up(从像素到特征),SPDFusion 引入了 Top-down(从语义到特征)的反馈。
  • 公式解读I f u s e d = G ( I i r , I v i ∣ S e m a n t i c _ P r i o r ) I_{fused} = G(I_{ir}, I_{vi} | Semantic\_Prior)Ifused=G(Iir,IviSemantic_Prior)
  • 协同工作:SFPM 在前端负责“聚焦目标”,SFEM 在后端负责“保持身份”,区域对抗损失负责“细节打磨”。三者构成了完整的语义闭环。
4.4 图解总结

回到“动机图解”的核心问题:

  • SFPM解决了红外目标在可见光背景中容易丢失的问题(通过掩码加权)。
  • SFEM解决了融合图像在分割网络中特征不匹配的问题(语义鸿沟),确保生成的特征符合分割网络的分布偏好。
  • 因此,最终的融合图像在图 1 中能产生完美的分割结果。

5. 即插即用模块的作用

本论文提出的模块具有很好的通用性,可迁移至其他任务:

  • SFPM (语义感知)
    • 适用场景:任何需要突出前景目标的图像增强任务,如显著性目标检测去雾(关注物体而非天空)。
    • 应用:可以插入到 U-Net 的 Encoder 中,利用粗糙的掩码引导特征提取。
  • 区域语义对抗损失 (Regional Semantic Adversarial Loss)
    • 适用场景生成对抗网络 (GAN)类的任务。
    • 应用:在做图像修复(Inpainting)或风格迁移时,如果你希望生成的特定物体(如人脸、车牌)更加逼真,可以用这种基于Mask的局部判别器替代全局判别器。

6. 实验部分简单分析 (Experiments)

论文在MSRSRoadScene等数据集上进行了验证。

  1. 视觉质量
    • SPDFusion 的结果对比度高,目标清晰。特别是在光照不足的场景下,红外目标的轮廓非常锐利。
  2. 客观指标
    • 在 EN (信息熵)、SD (标准差)、SF (空间频率) 等常规指标上均达到 SOTA。
  3. 下游任务评估(最重要)
    • 论文将融合图像送入语义分割网络测试mIoU (平均交并比)
    • 结果:SPDFusion 的 mIoU 显著高于其他对比方法(如 TarDAL, SeAFusion)。这直接证明了引入语义先验对于提升机器感知能力的有效性。

总结:SPDFusion 是一篇典型的High-level 指导 Low-level的论文。它跳出了“为了融合而融合”的怪圈,真正从应用(分割)的角度反推融合算法的设计。对于做多任务联合学习语义辅助增强的同学,这篇论文的架构设计非常有借鉴意义。

到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1174284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI的提示词专栏:小说创作 Prompt,人物设定、情节走向、对话写作

AI 提示词专栏:小说创作 Prompt 完整攻略 (人物设定 情节走向 对话写作 2025-2026 最实用模板) 以下内容专为想要用大模型(Claude / GPT-4o / 通义千问 / DeepSeek / Gemini 等)进行高质量小说创作的人准备&#xf…

JBoltAI AI应用中台:重塑企业智能化的统一基座与范式

在企业智能化转型进程中,“系统碎片化、数据孤岛、开发门槛高、能力难复用”等痛点,导致多数企业陷入“AI技术看得见、落地用不上”的困境。JBoltAI基于Java生态构建的AI应用中台,并非简单的工具集合,而是通过“统一基座标准化范式…

全网最全9个AI论文平台,助你轻松搞定本科生论文!

全网最全9个AI论文平台,助你轻松搞定本科生论文! AI工具如何让论文写作不再难 在当前的学术环境中,越来越多的学生开始借助AI工具来提升论文写作的效率与质量。这些工具不仅能够帮助学生快速生成初稿、优化语言表达,还能有效降低A…

辽源市东丰东辽龙山西安区英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜 - 苏木2025

在全球化留学趋势深化的2026年,雅思成绩已成为辽源市东丰、东辽、龙山、西安区学子申请海外院校的核心竞争力,然而本地雅思培训市场却存在诸多痛点。对于广大考生而言,雅思培训选课过程中常常陷入两难:线下教育机构…

AI的提示词专栏:多模态 LLM(Vision-LLM)Prompt 语法

AI 提示词专栏:多模态 LLM(Vision-LLM)Prompt 语法 (2025–2026 年最实用、最有效的写法指南) 目前主流的多模态大模型(支持图文/视频/文档等)包括: GPT-4o / GPT-4o mini / o1系列…

导师严选2026一键生成论文工具TOP8:本科生毕业论文写作全攻略

导师严选2026一键生成论文工具TOP8:本科生毕业论文写作全攻略 2026年学术写作工具测评:为何需要一份精准榜单 随着人工智能技术的不断进步,学术写作工具逐渐成为本科生撰写毕业论文的重要辅助。然而,面对市场上种类繁多的AI写作平…

springboot+vue智慧养老手表管理系统 本系统共分为两个角色:家长,养老院管理员 功...

springbootvue智慧养老手表管理系统 本系统共分为两个角色:家长,养老院管理员 功能有:个人管理,公告管理,家庭管理,加好友管理,老人健康管理,基础管理,加好友板等框架:springboot、mybatis、vue…

挂机放置类游戏开发学习 Part.3 UI布局

UI 布局阶段核心目标回顾(落地挂机游戏)搭建双窗口:「挂机游戏主面板」(核心功能,保留原有数值 / 按钮 / 进度条)+「游戏设置面板」(新增,调整挂机参数、UI 样式);掌握分组布局:用分组、折叠面板分隔不同功…

2026年多级泵供应商权威推荐榜单:多级离心泵/污水泵/自吸泵/深井泵/化工泵源头厂家精选 - 品牌推荐官

多级泵作为工业流程、市政供水、建筑消防及暖通空调系统的核心装备,其运行效率、可靠性及使用寿命直接关系到整个系统的稳定性与运营成本。随着国家节能政策的推进与基础设施投入的加大,市场对高效节能、低噪音、高可…

全栈贯通,实效为先:JBoltAI全栈能力集成的落地价值

在AI技术加速渗透各行业的当下,企业智能化转型早已脱离“概念炒作”阶段,进入“实效落地”的深水区。对于Java技术团队而言,AI转型面临的核心难题并非缺乏先进模型,而是如何将分散的AI能力与现有技术体系、业务场景深度融合&#…

sigmoid 函数详解(机器学习基础)

sigmoid 函数详解(机器学习基础)Posted on 2026-01-17 17:23 steve.z 阅读(0) 评论(0) 收藏 举报sigmoid 函数详解(机器学习基础) sigmoid 函数(又称逻辑斯蒂函数)是机器学习与深度学习领域中最基础且核心的…

使用PC浏览器devTool工具调试安卓手机h5页面

背景 开发前端 h5 项目的过程中,经常遇到不同移动端设备的不同浏览器的兼容性问题,尤其是当遇到布局异常问题时,我们往往苦于没有办法去检查移动端设备上的实际元素,从而导致难以定义问题,此时就需要有办法去调试移动…

赋能复杂业务自动化:JBoltAI 链式调用的控制结构设计

在企业级AI应用开发中,复杂业务场景往往需要多步骤、多条件的协同执行,单一的线性调用已无法满足灵活多变的业务需求。JBoltAI作为专注Java生态的企业级AI应用开发框架,其链式调用技术深度融合复杂工作流编排能力,通过条件分支、循…

2025年液体包装机厂家推荐榜:四川西德利自动化科技有限公司,丸剂包装机/粉剂包装机/枕式包装机/粉末包装机/圆角袋包装机/颗粒包装机/包装机/定量包装机/多列包装机厂家精选 - 品牌推荐官

一台包装速度高达70袋/分钟的全自动粉剂包装机,正在医药企业的生产线上飞速运转,精准完成从计量到封口的每一道工序,这正是现代包装工业的一个缩影。 工业包装机械行业正随着全球制造业的升级而快速发展。特别是在中…

学习进度 3

今天的学习目标聚焦解决重复计算的性能问题(RDD 持久化),并摆脱交互式 Shell,完成独立 Spark 应用程序的开发、打包与运行,这也是从 “零散操作” 到 “工程化开发” 的关键一步。 昨天在 Shell 中操作时发现一个…

Flutter OpenHarmony 适配:渐变按钮组件技术详解 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

通化市辉南柳河通化东昌二道江英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜 - 苏木2025

在全球化留学热潮下,雅思考试已成为通化市辉南、柳河、东昌、二道江等区县学子申请海外院校的核心门槛,而优质雅思培训的选择却成为备考路上的首要难题。多数考生普遍面临雅思培训选课迷茫、考试技巧缺失、提分乏力等…

2026线路板灌胶机厂家权威推荐榜单:环氧树脂灌胶机/硅胶灌胶机/手动灌胶机/半自动灌胶机/聚氨酯灌胶机源头厂家精选。 - 品牌推荐官

在电子制造行业持续向精密化、高可靠性与高效率方向发展的今天,线路板的防护性灌封已成为保障产品长期稳定运行的关键工艺。线路板灌胶机作为实现环氧树脂、硅胶、聚氨酯等胶水精确涂覆的核心装备,其技术水平直接决定…

2025年南京回收精密仪器公司权威推荐榜单:废金属收购/ 废金属回收 /高价废金属回收/ 废金属的回收 /废不锈钢废金属回收服务商精选 - 品牌推荐官

随着高端制造业升级和科研机构设备更新换代,南京地区积压的二手及淘汰精密仪器正形成一片“隐形富矿”。据统计,南京及周边地区的高校、科研院所、制造企业每年淘汰的各类精密仪器数量可达数千台,其中电子测量、光学…

白山市浑江江源临江英语雅思培训辅导机构推荐,2026权威出国雅思课程中心学校口碑排行榜 - 苏木2025

在留学热潮持续升温的白山市,浑江、江源、临江地区越来越多的学子将雅思考试作为开启国际教育之门的关键钥匙。然而,在雅思培训选课过程中,当地考生普遍面临优质资源匮乏、课程适配性差、提分效果不确定、性价比难把…