【YOLO11改进】改进Conv、颈部网络STFEN、以及引入PIOU用于小目标检测!

改进后的整体网络架构

在这里插入图片描述

改进一:RFD模块(Conv)

YOLOv11模型的跨步卷积下采样虽然快速聚合了局部特征,并且实现了较高的计算效率,但其固有的信息压缩机制会导致细粒度特征的不可逆丢失。针对特征保留与计算效率的平衡问题,本文采用RFD模块替换跨步卷积下采样模块。RFD模块通过多路径下采样策略的协同工作,实现特征信息的最大化保留,并提高下采样特征的鲁棒性。

RFD模块采用双分支并行处理结构实现特征信息的互补性提取,结构如图2所示。主分支通过分组卷积(Group Convolution,GConv)初步提取特征,随后并行使用深度可分离卷积(Depthwise Separable Convolution,DWConv)和最大池化处理提取特征并调整特征图大小,实现高效特征压缩。辅助分支则使用空间到深度卷积(Space - to - Depth Convolution,SPDConv)构建无损特征通路,通过像素重组技术将空间维度信息完整转移至通道维度,有效保留原始特征信息。经过双分支处理的特征图在通道维度叠加后,通过1×1卷积实现通道维度的信息融合与特征压缩,在确保信息完整性的同时减少模型计算量。

在这里插入图片描述
图2 RFD模块结构

SPDConv模块结构如图3所示,其将常规下采样过程解耦为2个阶段,先通过隔像素点提取像素组成新的特征图沿空间维度堆叠,随后经过1×1的卷积进行通道维度的压缩。

在这里插入图片描述
图3 SPDConv模块结构

改进二:STFEN网络(颈部)

骨干网络中浅层的特征图因感受野较小而保留了丰富的细节特征信息,而深层的特征图则通过逐级抽象获得了更强的语义表征能力[14],这种多尺度特征的互补性为小目标检测提供了重要理论依据。然而,直接融合浅层大尺度特征图会导致特征金字塔的参数量激增,显著降低模型的推理速度。同时,大尺度特征图包含大量背景噪声,容易导致有效信息被噪声所淹没[3]。针对上述问题,本文设计STFEN网络替换特征金字塔结构的颈部网络。

将骨干网络中C3K2模块输出的160×160大小的特征图进行SPDConv下采样,将特征图的空间尺寸降至80×80。随后,将处理后的特征与颈部网络中C3K2模块输出的80×80大小的特征图进行通道维度融合。为进一步提升特征融合效能,受CSPNet[15]和OKNet[16]网络模块的启发,本文设计跨阶段部分融合(Cross Stage Partial Fusion,CSPF)模块,结构如图4所示。

在这里插入图片描述图4 CSPF模块结构

CSPF模块包括特征压缩、分治融合与通道重构3个环节。输入特征通过1×1卷积进行通道维度压缩,随后将特征图沿通道轴拆分为2个子特征图y1和y2。y1送入OKM中进行多尺度特征提取,y2作为跨阶段直连特征保留原始信息。二者在通道维度拼接后,再经1×1卷积实现通道数适配,最终输出融合后的优化特征。该设计通过特征拆分策略将计算资源集中于子特征图y1,同时利用子特征图y2实现特征复用,有效减少大尺度特征引入带来的冗余计算问题。

OKM由局部分支、大感受野分支和全局分支3个分支构成,如图5所示。局部分支采用1×1DWConv聚焦细粒度纹理特征;大感受野分支通过堆叠不同尺寸的DWConv模块获取较大的感受野,捕捉不同方向的上下文信息;全局分支引入双域通道注意力模块(Dual-domain Channel Attention Module,DCAM)及基于频域的空间注意力模块(Frequency-based Spatial Attention Module,FSAM),通过频域与空间域的联合建模实现特征增强。

在这里插入图片描述
图5 OKM结构

DCAM及FSAM结构如图6所示。DCAM对输入特征进行快速傅里叶变换(Fast Fourier Transform,FFT),在频域使用全局平均池化(Global Average Pooling,GAP)对频谱特征进行通道维度的选择性增强,随后经逆快速傅里叶变换(Inverse Fast Fourier Transform,IFFT)至空间域进行二次空间域通道调制,这种双域交替处理机制能够同时捕捉频域全局结构特征与空间域语义信息。FSAM将经过FFT后的频域特征与可学习卷积核进行频域交互,生成的空间注意力权重经IFFT映射回原始空间,这种频域处理方式特别强化了对图像高频纹理与边缘细节的感知能力,为小目标检测提供了关键的细微特征支持。
在这里插入图片描述

图6 DCAM和FSAM结构

改进三:PIoU损失函数

YOLOv11使用解耦头结构实现分类与定位任务的独立预测,其损失函数由分类损失和定位损失组成。在定位损失方面,YOLOv11融合了分布焦点损失函数和CIoU损失函数,通过加权求和组成总损失函数,其中CIoU损失函数权重占比最大以强化定位精度。CIoU损失函数通过综合考虑交并比、中心点距离及长宽比3项几何因素,使训练过程中引导锚框快速逼近真实框。然而,该函数中距离惩罚项的计算方式存在固有缺陷,即以锚框与真实框的公共最小包围框的斜边长度的平方为分母,以锚框与真实框的中心点距离的平方为分子,这种数学表达在训练过程中会使锚框通过膨胀尺寸而非精准位移来逼近真实框,导致模型收敛速度减缓。针对上述问题,本文引入PIoU进行优化:

L P I o U = 2 − I I o U − exp ⁡ ( − P 2 ) L_{PIoU} = 2 - I_{IoU} - \exp(-P^2) LPIoU=2IIoUexp(P2) (1)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/78627.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式每日硬核训练 Day 18:备忘录模式(Memento Pattern)完整讲解与实战应用

🔄 回顾 Day 17:中介者模式小结 在 Day 17 中,我们学习了中介者模式(Mediator Pattern): 用一个中介者集中管理对象之间的通信。降低对象之间的耦合,适用于聊天系统、GUI 控件联动、塔台调度等…

java单元测试代码

import org.junit.jupiter.api.Test; import static org.junit.jupiter.api.Assertions.*; import java.util.List;public class UserServiceTest {Testpublic void testSearchUserByTags() {// 模拟标签列表List<String> tagNameList List.of("tag1", "…

前端面经-VUE3篇(一)--vue3基础知识- 插值表达式、ref、reactive

目录 一、 插值表达式 1、插值表达式 ({{}}) 的本质与作用&#xff1a; 2、与 Vue 响应式系统关系&#xff1a; 二、指令 1、什么是 Vue 指令&#xff1f; 2、指令的分类 1、内置指令 ① 内容绑定&#xff1a;v-text 和 v-html ② 属性绑定&#xff1a;v-bind ③ 事件绑定…

矩阵置零(中等)

可以用两个标记数组分别记录每一行和每一列是否有零出现。 首先遍历该数组一次&#xff0c;如果某个元素为 0&#xff0c;那么就将该元素所在的行和列所对应标记数组的位置置为 true。然后再次遍历该数组&#xff0c;用标记数组更新原数组。 class Solution {public void set…

Android 实现一个隐私弹窗

效果图如下&#xff1a; 1. 设置同意、退出、点击用户协议、点击隐私协议的函数参数 2. 《用户协议》、《隐私政策》设置成可点击的&#xff0c;且颜色要区分出来 res/layout/dialog_privacy_policy.xml 文件 <?xml version"1.0" encoding"utf-8"?&…

TCP概念+模拟tcp服务器及客户端

目录 一、TCP基本概念 二、ser服务器代码 三、cil客户端代码 四、面试常问问题 4.1 TCP的可靠性怎么保证或怎么实现? 4.2 具体说一下滑动窗口 一、TCP基本概念 TCP&#xff08;Transmission Control Protocol&#xff0c;传输控制协议&#xff09;是一种面向连接的、可…

Cocos Creator 自动图集资源 (Auto Atlas)使用注意事项

1、游戏打包时&#xff0c;自动图集设置选项中&#xff0c;默认会删除无关联的图片 2、自动图集设置中&#xff0c;就算勾除(Remove unused ImageAsset from the Bundle)的功能&#xff0c;无关联的图片也不会打包进入图集之中&#xff0c;会独立存在打包的游戏中。 3、使用自动…

PyTorch 2.0编译器技术深度解析:如何自动生成高性能CUDA代码

引言&#xff1a;编译革命的范式转移 PyTorch 2.0的torch.compile不仅是简单的即时编译器&#xff08;JIT&#xff09;&#xff0c;更标志着深度学习框架从‌解释执行‌到‌编译优化‌的范式跃迁。本文通过逆向工程编译过程&#xff0c;揭示PyTorch如何将动态图转换为高性能CU…

【AI面试准备】从0-1搭建人工智能模型自动化评估理论与测试,掌握测试数据集建立与优化,熟练数据处理和模型评测工作

面试要求&#xff1a;从0-1搭建人工智能模型自动化评估理论与测试&#xff0c;掌握测试数据集建立与优化&#xff0c;熟练数据处理和模型评测工作。 以下是针对从0-1搭建AI模型自动化评估体系的系统化知识总结&#xff0c;涵盖核心方法论、技术栈、高频考点及面试回答模板&…

【Linux应用】在PC的Linux环境下通过chroot运行ARM虚拟机镜像img文件(需要依赖qemu-aarch64、不需要重新安装iso)

【Linux应用】在PC的Linux环境下通过chroot运行ARM虚拟机镜像img文件&#xff08;需要依赖qemu-aarch64、不需要重新安装iso&#xff09; qemu提供了运行ARM虚拟机的方法 具体的操作方式就是建立一个硬盘img 然后通过iso安装到img 最后再运行img即可 这种方式教程很多 很简单 …

OpenCv实战笔记(1)在win11搭建opencv4.11.1 + qt5.15.2 + vs2019_x64开发环境

一. 准备工作 Visual Studio 2019&#xff08;安装时勾选 C 桌面开发 和 Windows 10 SDK&#xff09; CMake 3.20&#xff08;官网下载&#xff09; Qt 5.15.2&#xff08;下载 Qt Online Installer&#xff09;安装时勾选 MSVC 2019 64-bit 组件。 opencv 4.11.1 源码下载 git…

springboot+mysql+element-plus+vue完整实现汽车租赁系统

目录 一、项目介绍 二、项目截图 1.项目结构图 三、系统详细介绍 管理后台 1.登陆页 2.管理后台主页 3.汽车地点管理 4.汽车类别 5.汽车品牌 6.汽车信息 7.用户管理 8.举报管理 9.订单管理 10.轮播图管理 11.交互界面 12.图表管理 汽车租赁商城 1.首页 2.汽…

【算法笔记】动态规划基础(二):背包dp

目录 01背包例题状态表示状态计算初始化AC代码 完全背包例题状态表示状态计算初始化TLE代码 多重背包例题状态表示状态计算初始化AC代码 分组背包例题状态表示状态计算初始化AC代码 二维费用背包例题状态表示状态计算初始化AC代码 混合背包问题例题状态表示状态计算初始化TLE代…

Qt Quick Design 下载社区版

官方地址&#xff1a;Qt Design Studio - UI Development Tool for Applications & Devices 社区版只能用于开源软件的开发 按图所示下载或直接跳转到下载页面&#xff1a;Download Qt OSS: Get Qt Online Installerhttps://www.qt.io/download-qt-installer-oss 选Try …

深入理解CSS盒子模型

一、盒子模型的核心概念 CSS盒子模型&#xff08;Box Model&#xff09;是网页布局的基石&#xff0c;每个HTML元素都可以看作一个矩形盒子&#xff0c;由四个同心区域构成&#xff1a; 内容区&#xff08;Content&#xff09; 内边距&#xff08;Padding&#xff09; 边框&a…

Python项目源码57:数据格式转换工具1.0(csv+json+excel+sqlite3)

1.智能路径处理&#xff1a;自动识别并修正文件扩展名&#xff0c;根据转换类型自动建议目标路径&#xff0c;实时路径格式验证&#xff0c;自动补全缺失的文件扩展名。 2.增强型预览功能&#xff1a;使用pandastable库实现表格预览&#xff0c;第三方模块自己安装一下&#x…

数据库MySQL学习——day9(聚合函数与分组数据)

文章目录 1. 聚合函数1.1 COUNT() 函数1.2 SUM() 函数1.3 AVG() 函数1.4 MIN() 函数1.5 MAX() 函数 2. GROUP BY 子句2.1 使用 GROUP BY 进行数据分组2.2 结合聚合函数 3. HAVING 子句3.1 使用 HAVING 过滤分组数据3.2 HAVING 和 WHERE 的区别 4. 实践任务4.1 创建一个销售表4.…

数据管理能力成熟度评估模型(DCMM)全面解析:标准深度剖析与实践创新

文章目录 一、DCMM模型的战略价值与理论基础1.1 DCMM的本质与战略定位1.2 DCMM的理论基础与创新点 二、DCMM模型的系统解构与逻辑分析2.1 八大能力域的有机关联与系统架构2.2 五级成熟度模型的内在逻辑与演进规律 三、DCMM八大能力域的深度解析与实践创新3.1 数据战略&#xff…

Docker搜索镜像报错

科学上网最方便。。。。 主要是镜像的问题 尝试一&#xff1a; 报错处理 Error response from daemon: Get https://index.docker.io/v1/search?qmysql&n25: dial tcp 31.13.84.2:443: i/o timeout Error response from daemon: Get https://index.docker.io/v1/se…

ERP系统源码,java版ERP管理系统源码,云端ERP

一套开箱即用的云端ERP系统源代码&#xff0c;小型工厂ERP系统源码 SaaS ERP是一套开箱即用的云端ERP系统&#xff0c;有演示&#xff0c;开发文档&#xff0c;数据库文档齐全&#xff0c;自主版权落地实例&#xff0c;适合项目二开。 SaaS ERP具有高度的灵活性和可扩展性&am…