一、本文介绍
本文记录的是基于PoolFormer的YOLO26骨干网络改进方法研究。
PoolFormer提出了创新的MetaFormer通用架构,通过极简单的池化操作实现Token混合,能以低参数和计算成本高效捕捉图像全局与局部特征。将PoolFormer应用到YOLO26的骨干网络中,通过其分层结构和Token混合机制,实现精度与效率的平衡优化。
本文在YOLO26的基础上配置了原论文中poolformer_s12,poolformer_s24,poolformer_s36,poolformer_m48,poolformer_m36五种模型,以满足不同的需求。
文章目录
- 一、本文介绍
- 二、PoolFormer原理介绍
- 2.1 设计出发点
- 2.2 结构原理
- 2.3 优势
- 三、PoolFormer的实现代码
- 四、修改步骤
- 4.1 修改一
- 4.2 修改二
- 4.3 修改三
- 五、yaml模型文件
- 5.1 模型改进⭐
- 六、成功运行结果
二、PoolFormer原理介绍
MetaFormer Is Actually What You Need for Vision
2.1 设计出发点
在计算机视觉领域,Transformer模型取得了显著成功,普遍认为其基于注意力的Token混合模块是性能的关键。然而,后续研究发现,用空间MLP替换注意力模块后,模型仍能保持较强性能。
由此推测,Transformer的整体架构(而非特定Token混合器)可能才是性能的核心。为验证这一假设,研究者尝试用极简单的非参数操作——池化(Pooling)作为Token混合器,构建了PoolFormer模型,旨在证明通用架构的重要性,并探索极简Token混合器下的模型潜力。
2.2 结构原理
PoolFormer基于MetaFormer通用架构设计,该架构抽象自Transformer,核心包含以下组件:
输入嵌入(Input Embedding)
对输入图像进行分块嵌入,转换为序列长度为N N