YOLO26改进 - 采样 | ICCV 顶会技术:WaveletPool 小波池化强化采样,保留小目标细节

前言

本文介绍了基于小波变换的池化方法——Wavelet Pooling,作为传统最大池化与平均池化的有效替代方案。该方法通过两级小波分解丢弃高频子带,保留更具代表性的低频特征,从而在减少信息丢失的同时提升模型的正则化能力。我们将 Wavelet Pool 和 UnPool 成功集成进 YOLO26,替代原有的下采样与上采样模块,实现更高效的特征提取与恢复。实验证明,YOLO26-WaveletPool 在多个分类与检测任务中均取得优异表现,展现了小波池化在深度学习中的广泛应用前景。

文章目录: YOLO26改进大全:卷积层、轻量化、注意力机制、损失函数、Backbone、SPPF、Neck、检测头全方位优化汇总

专栏链接: YOLO26改进专栏

文章目录

  • 前言
  • 介绍
    • 摘要
  • 文章链接
  • 基本原理:
      • **小波变换的基本原理**
      • **论文的方法**
  • 核心代码
  • YOLO26引入代码
  • tasks注册
    • 步骤1:导包:
    • 步骤2
  • 配置yolo26-WaveletPool.yaml
  • 实验
    • 脚本
    • 结果

介绍

摘要

卷积神经网络(Convolutional Neural Networks, CNNs)持续推动着二维和三维图像分类及目标识别技术的发展。然而,为了维持这一快速进展,有必要对神经网络中的基础构件进行持续的评估与改进。当前主流的网络正则化方法大多侧重于卷积操作本身,而对池化层的设计选择关注不足。

为此,我们提出了一种新的池化策略——小波池化(Wavelet Pooling),作为传统邻域池化方法(如最大池化和平均池化)的有效替代方案。该方法通过将特征分解为多层小波子带,并舍弃第一层级的高频子带来实现下采样,从而有效降低特征维度。与最大池化中常见的过拟合问题不同,小波池化在降维过程中保留了更多结构信息,具备更强的泛化能力。此外,相比于基于固定邻域的池化方式,小波池化在结构上实现了更紧凑、高效的特征压缩。

我们在四个标准图像分类数据集上进行了系统实验,结果表明:所提出的小波池化方法在性能上显著优于或与最大池化、平均池化、混合池化以及随机池化等主流方法相当,验证了其作为通用池化策略的潜力。

文章链接

论文地址:论文地址

代码地址:代码地址

论文地址:论文地址

基本原理:

首先,池化是一种通过舍弃信息实现正则化效果的操作。然而,传统的池化方法存在一些不足:

  • Max pooling:当重要特征的幅度值低于不重要特征时,重要特征会被忽略。
  • Average pooling:同时接纳幅值大和幅值小的特征,容易稀释关键特征。

为了解决这些问题,该论文提出基于小波变换的池化操作,具体思路如下:


小波变换的基本原理

小波变换可将输入特征图划分为低频子带(LL)和高频子带(LH、HL、HH)。其数学公式为:

  • 一级小波变换:
    L L 1 , L H 1 , H L 1 , H H 1 = D W T ( I ) LL1, LH1, HL1, HH1 = DWT(I)LL1,LH1,HL1,HH1=DWT(I)
    逆变换:
    I = I D W T ( L L 1 , L H 1 , H L 1 , H H 1 ) I = IDWT(LL1, LH1, HL1, HH1)I=IDWT(LL1,LH1,HL1,HH1)

  • 二级小波变换:
    L L 2 , L H 2 , H L 2 , H H 2 = D W T ( L L 1 ) LL2, LH2, HL2, HH2 = DWT(LL1)LL2,LH2,HL2,HH2=DWT(LL1)
    逆变换:
    L L 1 = I D W T ( L L 2 , L H 2 , H L 2 , H H 2 ) LL1 = IDWT(LL2, LH2, HL2, HH2)LL1=IDWT(LL2,LH2,HL2,HH2)

小波变换通过下采样将特征图尺寸缩小一半,逆变换可完美重建原始图像。


论文的方法

该论文方法流程如下:

  1. 对输入图像I II进行两次小波变换,得到:
    L L 2 , ( L H 2 , H L 2 , H H 2 ) , ( L H 1 , H L 1 , H H 1 ) = D W T ( D W T ( I ) ) LL2, (LH2, HL2, HH2), (LH1, HL1, HH1) = DWT(DWT(I))LL2,(LH2,HL2,HH2),(LH1,HL1,HH1)=DWT(DWT(I))
  2. 舍弃最高频子带( L H 1 , H L 1 , H H 1 ) (LH1, HL1, HH1)(LH1,HL1,HH1),保留低频子带( L L 2 , L H 2 , H L 2 , H H 2 ) (LL2, LH2, HL2, HH2)(LL2,LH2,HL2,HH2)
  3. 对保留的二级小波系数进行逆变换,重建池化后的图像:
    I ′ = I D W T ( L L 2 , L H 2 , H L 2 , H H 2 ) I' = IDWT(LL2, LH2, HL2, HH2)I=IDWT(LL2,LH2,HL2,HH2)

核心代码

classWaveletPool(nn.Module):def__init__(self):super(WaveletPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=x.shape[1]filters=torch.cat([self.weight,]*C,dim=0)y=F.conv2d(x,filters,groups=C,stride=2)returnyclassWaveletUnPool(nn.Module):def__init__(self):super(WaveletUnPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=torch.floor_divide(x.shape[1],4)filters=torch.cat([self.weight,]*C,dim=0)y=F.conv_transpose2d(x,filters,groups=C,stride=2)returny

YOLO26引入代码

在根目录下的ultralytics/nn/目录,新建一个sample目录,然后新建一个以WaveletPool为文件名的py文件, 把代码拷贝进去。

importtorchfromtorchimportnnasnnimporttorch.nn.functionalasFimportnumpyasnpclassWaveletPool(nn.Module):def__init__(self):super(WaveletPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=x.shape[1]filters=torch.cat([self.weight,]*C,dim=0)y=F.conv2d(x,filters,groups=C,stride=2)returnyclassWaveletUnPool(nn.Module):def__init__(self):super(WaveletUnPool,self).__init__()ll=np.array([[0.5,0.5],[0.5,0.5]])lh=np.array([[-0.5,-0.5],[0.5,0.5]])hl=np.array([[-0.5,0.5],[-0.5,0.5]])hh=np.array([[0.5,-0.5],[-0.5,0.5]])filts=np.stack([ll[None,::-1,::-1],lh[None,::-1,::-1],hl[None,::-1,::-1],hh[None,::-1,::-1]],axis=0)self.weight=nn.Parameter(torch.tensor(filts).to(torch.get_default_dtype()),requires_grad=False)defforward(self,x):C=torch.floor_divide(x.shape[1],4)filters=torch.cat([self.weight,]*C,dim=0)y=F.conv_transpose2d(x,filters,groups=C,stride=2)returny

tasks注册

ultralytics/nn/tasks.py中进行如下操作:

步骤1:导包:

fromultralytics.nn.sample.WaveletPoolimportWaveletPool,WaveletUnPool

步骤2

修改def parse_model(d, ch, verbose=True):
只需要添加截图中标明的,其他没有的模块不用添加

elifmisWaveletPool:c2=ch[f]*4elifmisWaveletUnPool:c2=ch[f]//4

配置yolo26-WaveletPool.yaml

ultralytics/cfg/models/26/yolo26-WaveletPool.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license# Ultralytics YOLO26 object detection model with P3/8 - P5/32 outputs# Model docs: https://docs.ultralytics.com/models/yolo26# Task docs: https://docs.ultralytics.com/tasks/detect# Parametersnc:80# number of classesend2end:True# whether to use end-to-end modereg_max:1# DFL binsscales:# model compound scaling constants, i.e. 'model=yolo26n.yaml' will call yolo26.yaml with scale 'n'# [depth, width, max_channels]n:[0.50,0.25,1024]# summary: 260 layers, 2,572,280 parameters, 2,572,280 gradients, 6.1 GFLOPss:[0.50,0.50,1024]# summary: 260 layers, 10,009,784 parameters, 10,009,784 gradients, 22.8 GFLOPsm:[0.50,1.00,512]# summary: 280 layers, 21,896,248 parameters, 21,896,248 gradients, 75.4 GFLOPsl:[1.00,1.00,512]# summary: 392 layers, 26,299,704 parameters, 26,299,704 gradients, 93.8 GFLOPsx:[1.00,1.50,512]# summary: 392 layers, 58,993,368 parameters, 58,993,368 gradients, 209.5 GFLOPs# YOLO26n backbonebackbone:# [from, repeats, module, args]-[-1,1,Conv,[64,3,2]]# 0-P1/2-[-1,1,WaveletPool,[]]# 1-P2/4-[-1,2,C3k2,[256,False,0.25]]-[-1,1,WaveletPool,[]]# 3-P3/8-[-1,2,C3k2,[512,False,0.25]]-[-1,1,WaveletPool,[]]# 5-P4/16-[-1,2,C3k2,[512,True]]-[-1,1,WaveletPool,[]]# 5-P4/16-[-1,2,C3k2,[1024,True]]-[-1,1,SPPF,[1024,5,3,True]]# 9-[-1,2,C2PSA,[1024]]# 10# YOLO26n headhead:-[-1,1,WaveletUnPool,[]]-[[-1,6],1,Concat,[1]]# cat backbone P4-[-1,2,C3k2,[512,True]]# 13-[-1,1,WaveletUnPool,[]]-[[-1,4],1,Concat,[1]]# cat backbone P3-[-1,2,C3k2,[256,True]]# 16 (P3/8-small)-[-1,1,Conv,[256,3,2]]-[[-1,13],1,Concat,[1]]# cat head P4-[-1,2,C3k2,[512,True]]# 19 (P4/16-medium)-[-1,1,Conv,[512,3,2]]-[[-1,10],1,Concat,[1]]# cat head P5-[-1,1,C3k2,[1024,True,0.5,True]]# 22 (P5/32-large)-[[16,19,22],1,Detect,[nc]]# Detect(P3, P4, P5)

实验

脚本

importwarnings warnings.filterwarnings('ignore')fromultralyticsimportYOLOif__name__=='__main__':# 修改为自己的配置文件地址model=YOLO('./ultralytics/cfg/models/26/yolo26-WaveletPool.yaml')# 修改为自己的数据集地址model.train(data='./ultralytics/cfg/datasets/coco8.yaml',cache=False,imgsz=640,epochs=10,single_cls=False,# 是否是单类别检测batch=8,close_mosaic=10,workers=0,optimizer='MuSGD',# optimizer='SGD',amp=False,project='runs/train',name='yolo26-WaveletPool',)

结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215858.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度测评10个AI论文平台,研究生高效写作必备!

深度测评10个AI论文平台,研究生高效写作必备! AI 工具如何重塑研究生的学术写作之路 在当今科研与学术写作日益数字化的背景下,AI 工具正逐步成为研究生们不可或缺的得力助手。从初稿生成到内容优化,再到降重处理,这些…

图神经网络分享系列-GGNN(GATED GRAPH SEQUENCE NEURAL NETWORKS)(三)

目录 七、相关研究 八、讨论 GG-NN模型学到了什么? 逻辑推理与模型学习的对比 任务编码与背景知识 实验结果与局限性 动态推理优化 未来应用展望 A 收缩映射示例 限制更新以定义欧几里得度量下的收缩映射 GNN模型中的节点标签与信息传播 信息衰减与长程依…

音视频学习(八十六):宏块

什么是宏块(Macroblock)? 在传统的视频编码标准(如 MPEG-2 或 H.264)中,宏块是进行预测、变换、量化和编码的基本单元。 基本组成: 一个标准的宏块通常涵盖 16x16 个像素的亮度(Luma…

完整教程:(数据结构)栈和队列

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

day11|150. 逆波兰表达式求值 239. 滑动窗口最大值 347.前 K 个高频元素

150. 逆波兰表达式求值 150. 逆波兰表达式求值 | 代码随想录 栈的最后表演! | LeetCode:150. 逆波兰表达式求值_哔哩哔哩_bilibili 笔记 逆波兰式表达式就是二叉树的左右中遍历顺序;我们正常看见的表达式就是左中右…

求多个乘法逆元(模板)

线性算法 用于求一连串数字对于一个modp的逆元。洛谷P3811 只能用这种方法&#xff0c;别的算法都比这些要求一串要慢。 首先我们有一个,1−1≡1(modp) 然后设 pk∗ir,(1<r<i<p) 也就是 k 是 p/i 的商&#xff0c;r 是余数 。 再将这个式子放到(modp)意义下就会得…

语义分割实战——基于EGEUNet神经网络印章分割系统3:含训练测试代码、数据集和GUI交互界面

第一步&#xff1a;准备数据 印章分割-深度学习图像分割数据集 印章分割数据&#xff0c;可直接应用到一些常用深度学习分割算法中&#xff0c;比如FCN、Unet、SegNet、DeepLabV1、DeepLabV2、DeepLabV3、DeepLabV3、PSPNet、RefineNet、HRnet、Mask R-CNN、Segformer、DUCK-…

语义分割实战——基于EGEUNet神经网络印章分割系统2:含训练测试代码和数据集

第一步&#xff1a;准备数据 印章分割-深度学习图像分割数据集 印章分割数据&#xff0c;可直接应用到一些常用深度学习分割算法中&#xff0c;比如FCN、Unet、SegNet、DeepLabV1、DeepLabV2、DeepLabV3、DeepLabV3、PSPNet、RefineNet、HRnet、Mask R-CNN、Segformer、DUCK-…

语义分割实战——基于EGEUNet神经网络印章分割系统1:数据集说明(含下载链接)

印章分割-深度学习图像分割数据集 印章分割数据&#xff0c;可直接应用到一些常用深度学习分割算法中&#xff0c;比如FCN、Unet、SegNet、DeepLabV1、DeepLabV2、DeepLabV3、DeepLabV3、PSPNet、RefineNet、HRnet、Mask R-CNN、Segformer、DUCK-Net模型等 数据集总共有2000对…

强烈安利!本科生毕业论文必备TOP8 AI论文网站测评

强烈安利&#xff01;本科生毕业论文必备TOP8 AI论文网站测评 2026年本科生论文写作工具测评&#xff1a;为什么你需要这份榜单&#xff1f; 随着人工智能技术的不断进步&#xff0c;越来越多的本科生开始借助AI工具提升论文写作效率。然而&#xff0c;面对市场上五花八门的论…

STM32F0实战:基于HAL库开发【2.3】

9.2.1 事件线概述 在EXTI中引入了“事件”这一概念。与中断相比,事件的产生不会中断主程序的进程,但可以让处于功耗管理模式下的微控制器唤醒。EXTI管理的异步事件和中断包括以下两类。 来自引脚的外部中断/事件:这类中断和事件大多与GPIO相关联,涉及端口引脚的输入或输出…

工信部教考中心《系统可靠性工程师(高级)》开课通知

系统可靠性工程师&#xff08;高级&#xff09;课程背景当“系统宕机”就能冲上热搜、一次故障足以抹去全年利润时&#xff0c;可靠性不再是运维部的“幕后工作”&#xff0c;而是决定企业生死的“前沿战场”。工信部教考中心推出的《系统可靠性工程师&#xff08;高级&#xf…

机房U位管理别瞎忙!这套系统让运维效率翻倍

作为常年深耕机房运维领域的博主&#xff0c;后台最多的吐槽莫过于U位管理的糟心事&#xff1a;“机柜里U位乱得像麻花&#xff0c;找个位置要扒半天线缆”“人工登记的U位信息过时&#xff0c;新增设备误占用引发故障”“跨机柜调配资源&#xff0c;来回核对耗时耗力”……机房…

告别设备束缚 RetroArch-web 把童年游戏装进口袋,cpolar解锁全场景游玩

RetroArch-web 作为一款网页版复古游戏模拟器集合&#xff0c;核心功能是将 FC、SFC、PS、GBA 等数十种经典游戏机的体验整合到浏览器中&#xff0c;无需复杂配置&#xff0c;上传游戏 ROM 即可游玩&#xff0c;适配 Windows、macOS、Android、iOS 等所有带浏览器的设备&#x…

使用 Python 语言 从 0 到 1 搭建完整 Web UI自动化测试学习系列 44--Pytest框架钩子函数

测试学习记录&#xff0c;仅供参考&#xff01;Pytest框架钩子函数钩子函数在 pytest 框架中是一个比较重要的概念&#xff1b;在测试执行前、或测试执行过程中在前置功能里面做一些操作&#xff1b;可以自定义钩子函数&#xff1b;一、钩子函数在Pytest框架中&#xff0c;钩子…

使用 Python 语言 从 0 到 1 搭建完整 Web UI自动化测试学习系列 43--添加allure测试报告显示信息和其他封装方法

测试学习记录&#xff0c;仅供参考&#xff01; 添加allure测试报告显示信息 增加测试报告首页环境信息和修改 allure 测试报告显示图标&#xff1b; 一、增加测试报告首页环境信息 1、在项目根目录下创建一个名称为 environment.xml 的配置文件&#xff0c;输入相关的环境配置…

云端VS本地 RFID资产管理系统怎么选?优缺点大揭秘

一、开篇&#xff1a;资产 “迷路”&#xff1f;RFID 系统部署抉择是关键 1.1 传统资产管理的 “老大难” 痛点 家人们&#xff0c;在企业的日常运营里&#xff0c;资产管理要是没做好&#xff0c;那可真是麻烦不断&#xff01;就说传统的人工盘点方式&#xff0c;简直就是一…

Transactional失效的情况总结

@Transactional失效的情况总结 前言 @Transactional失效是实际开发中非常容易踩的坑,本文结合实际项目经验总结了常见的失效场景和解决方案。一、最常见的:同类内部调用(占80%的坑) 这是最容易犯的错误,也是开发中…

Spark GIS:分布式计算框架下的空间数据分析

Spark GIS实战&#xff1a;用分布式计算破解大规模空间数据处理难题 副标题&#xff1a;基于GeoSpark的空间查询、分析与可视化全流程指南 摘要/引言 问题陈述 你是否遇到过这样的困境&#xff1f;用ArcGIS处理10GB的GPS轨迹数据时&#xff0c;软件崩溃了3次&#xff1b;用…

2023年NOC大赛创客智慧编程赛项Python复赛模拟题(一)

更多内容和历年真题请查看网站&#xff1a;【试卷中心 -----> NOC ----> Python ----> 复赛】 网站链接 青少年软件编程历年真题模拟题实时更新 2023年NOC大赛创客智慧编程赛项Python复赛模拟题&#xff08;一&#xff09; 一、编程题 第 1 题 NOC大赛创客智慧…