一、本文介绍
本文记录的是将ConvNeXt V2应用到YOLO26中的改进方法研究。
本文将ConvNeXt V2应用于YOLO26,一方面利用全卷积掩码自动编码器在训练时优化特征学习,减少模型对大规模标注数据的依赖;另一方面,通过全局响应归一化层增强特征竞争,缓解特征坍塌问题,提高特征多样性。
本文在YOLO26的基础上配置了原论文中convnextv2_atto', 'convnextv2_femto,convnextv2_pico,convnextv2_nano,convnextv2_tiny,convnextv2_base,convnextv2_large,convnextv2_huge八种模型,以满足不同的需求。
文章目录
- 一、本文介绍
- 二、ConvNeXt V2介绍
- 2.1 设计出发点
- 2.2 结构原理
- 2.3 优势
- 三、ConvNeXt V2的实现代码
- 四、修改步骤
- 4.1 修改一
- 4.2 修改二
- 4.3 修改三
- 五、yaml模型文件
- 5.1 模型改进⭐
- 六、成功运行结果
二、ConvNeXt V2介绍
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
ConvNeXt V2是一种全新的ConvNet模型家族,旨在提升纯卷积神经网络在各类下游任务中的性能。它在模型结构设计上有独特的出发点,结构原理涉及多个创新组件,并且在性能上展现出显著优势。
2.1 设计出发点
- 架构与自监督学习结合的挑战:视觉识别领域中,神经网络架构和自监督学习框架对模型性能至关重要。将ConvNeXt与掩码自动编码器(MAE)结合时存在挑战,MAE的编解码器设计针对Transformer的序列处理能力优化,与使用密集滑动窗口的标准ConvNets不兼容。直接将两者结合,未考虑架构与训练目标的关系,难以达到最优性能。先前研究也表明,用基于掩码的自监督学习训练ConvNets存在困难。
- 特征坍塌问题:对ConvNeXt进行特征空间分析时发现,直接在掩码输入上训练ConvNeXt,MLP层存在特征坍塌现象,即许多特征图处于死亡或饱和状态,通道间激活冗余,这影响了模型的性能。
2.2 结构原理
- 全卷积掩