YOLO26最新创新改进系列:Involution新卷积网络算子融合于YOLO网络,从经典的图像滤波方法中汲取灵感,更大的空间范围中总结上下文信息,有效涨点!

YOLO26最新创新改进系列:Involution新卷积网络算子融合于网络,从经典的图像滤波方法中汲取灵感,更大的空间范围中总结上下文信息,有效涨点!

购买相关资料后畅享一对一答疑

畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具!见文末!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 动态第一条置顶动态中有直达链接,感谢支持!祝各位科研人硕果累累!!!

Involution新卷积网络算子提出原文


摘要

卷积是现代神经网络的核心组成部分,引发了视觉深度学习的热潮。在这项工作中,我们重新思考了视觉任务的标准卷积的固有原理,特别是空间不可知和通道特定的。相反,我们通过反转上述卷积的设计原理,为深度神经网络提出了一种新的原子操作,称为对合。我们还揭开了最近流行的自我注意力运营商和subsidiaries到我们的对合家庭作为一个过于复杂的实例。所提出的对合运算符可以作为构建新一代视觉识别神经网络的基础,为几个流行的基准提供不同的深度学习模型,包括ImageNet分类,COCO检测和分割,以及Cityscapes分割。我们的基于卷积的模型使用ResNet-50将卷积基线的性能提高了1.6%的top-1准确度,2.5%和2.4%的边界框AP以及4.7%的绝对平均IoU,同时将上述基准的计算成本分别压缩到66%,65%,72%和57%。

一 简介

尽管神经网络架构的快速发展,卷积仍然是深度神经网络的主要构建方式。从经典的图像滤波方法中汲取灵感,卷积核具有两个显着的特性,这有助于其吸引力和流行性,即空间不可知性和通道特定性。在空间范围内,前一个属性通过在不同位置之间重用卷积核来保证卷积核的效率,并追求平移等价[63]。在信道域中,卷积核的频谱负责收集在不同信道中编码的各种信息,满足后一个属性。此外,自开创性的VGGNet出现以来,现代神经网络通过将其空间跨度限制为不超过3 × 3来欣赏卷积核的紧凑性[42]。一方面,虽然空间不可知沿着空间紧凑的性质在提高效率和解释翻译等价性方面是有意义的,但它剥夺了卷积核适应关于不同空间位置的不同视觉模式的能力。此外,局部性限制了卷积的感受野,这对在单次拍摄中捕获长距离空间相互作用构成了挑战。另一方面,众所周知,卷积滤波器内部的通道间冗余在许多成功的深度神经网络中非常突出[23],这使得卷积核相对于不同通道的巨大灵活性受到质疑。为了克服上述限制,我们提出了操作创造的卷积,具有对称逆的固有特性相比,卷积,即,空间特定的和通道不可知的。具体地说,对合核在空间范围上是不同的,但在通道之间是共享的。由于其空间特定性,如果对合核被参数化为像卷积核一样的固定大小的矩阵,并使用反向传播算法进行更新,则学习的对合核将无法在具有可变分辨率的输入图像之间传输。为了处理可变特征分辨率,作为直观而有效的实例,可以仅以相应位置本身处的传入特征向量为条件来生成属于特定空间位置的对合核。此外,我们通过在通道维度上沿着共享对合核来减少核的冗余。综合考虑上述两个因素,对合运算的计算复杂度随着特征通道的数量线性增加,基于此,动态参数化的对合核可以在空间维度上广泛覆盖。通过逆向设计方案,我们提出的对合具有卷积的双重特权:(i)对合可以在更广泛的空间安排中概括上下文,从而克服了很好地建模长程相互作用的困难;(ii)对合可以自适应地分配

二 相关工作

在过去的十年中,为了改进卷积神经网络(CNN)架构以适应一般的图像识别任务,已经做了大量的研究工作。除了AlexNet [13]和Inception [14]网络之外,这些CNN架构中的核设计主要局限于3×3(例如VGG [40]、ResNet [15]、MobileNets [41]),这是因为它具有随着权重层深度的增加而提高的计算效率。为了尝试使用较大的核大小,文献[42]中的作者提出了一个由相对较大的7×7核组成的局部关系网络(LR-Net)。尽管其性能优于传统的ResNets(具有相同的核大小),但当核大小进一步增加时,LR-Net的性能下降了。为了弥补层次变换器和CNN之间的性能差距,ConvNeXt [33]通过逐渐将Transformer的设计引入ResNet来进行实证研究。他们发现了几个关键组件,可以改善CNN的性能,例如改变训练过程(如Swin Transformer)、改变阶段计算比率、使用更少的激活和归一化层以及使用更大的核大小。与LR-Net类似,他们发现当核大小超过7×7时,性能会趋于饱和。

最近,[35]中的作者重新审视了长期以来被忽视的大型核CNN设计。他们证明,在MobileNetV2中,通过将一组小型权重核替换为少数重新参数化的大型权重核,可以获得大型的有效感受野(ERFs),并部分模拟人类对物体形状的理解。他们提出的大型核网络(ReplkNet)具有31×31的大型核大小,在ImageNet分类上比Swin Transformer高出0.3%,在MS-COCO检测上比ResNet-101高出4.4%。然而,ReplkNet会产生高昂的计算开销,从而限制了其在其他领域(如分割)的有效性。例如,[43]的作者表明,原始的大型核卷积会损害分割任务的性能,因为随着核大小的增加,参数大小增加导致模型出现过度拟合问题。为了解决这个问题,他们提出了具有大型1×k和k×1卷积核的全局卷积网络(GCN) [43],以提高语义分割性能。

最近的一项工作,SLaK [44],观察到随着核大小增加到31、51和61以上,ReplkNet [35]的性能开始趋于平稳。为了解决大型核的可训练性问题,SLaK将大型核分解为两个矩形核(即51×5和5×51),并使用动态稀疏技术来减少可学习参数。与这些方法不同,我们在基于CNN的视觉注意力网络(VAN)中采用可分离核进行深度卷积和深度膨胀卷积,并引入注意力模块,以进一步提高其计算效率。在不同的位置上的权重,以便在空间域中优先考虑信息量最大的视觉元素。类似地,最近的方法已经超越了卷积,优先考虑自我注意力,以捕获长期依赖性[39,64]。在这些工作中,纯自我注意力可以用来构建具有良好性能的独立模型。有趣的是,我们揭示了自我注意特殊化我们一般定义的对合通过一个复杂的制定有关内核的建设。相比之下,在这项工作中采用的对合核是根据单个像素而不是其与相邻像素的关系生成的。为了更进一步,我们在实验中证明,即使使用我们非常简单的版本,对合也可以实现与自我注意力竞争的准确性-成本权衡。充分意识到通过比较查询与自注意中的每个键获得的亲和矩阵也是对合核的实例化,我们质疑组合查询和键特征以产生这样的核的必要性,因为我们简化的对合核也可以获得不错的性能,同时避免键内容的多余出席,更不用说自注意中的专用位置编码了。所提出的对合操作很容易通过将可扩展和可切换的空间建模嵌入到表示学习范式中,以相当轻量级的方式促进视觉识别。基于这个重新设计的视觉原语,我们建立了一个骨干架构家族,称为RedNet,它可以实现上级性能超过基于卷积的ResNet和基于自注意力的图像分类模型。在包括检测和分割在内的下游任务中,我们全面地进行了一步一步的研究,以检查对合在检测器和分割器的不同组件上的有效性,例如它们的主干和颈部。对合被证明对每个所考虑的组件都有帮助,并且它们的组合导致最大的效率。
综上所述,本文的主要贡献如下:
1.我们重新思考卷积的固有属性,与空间和通道范围相关。这促使我们提倡其他潜在的运营商体现了识别能力和表现力的视觉识别作为一种替代,突破现有的归纳偏见的卷积。
2.我们将自我注意力融入视觉表征的学习过程中,这是一种新兴的哲学。在这种情况下,组成像素对的关系建模的desiderata的挑战。此外,我们通过对合的透镜统一了自我注意和卷积的观点。
3.卷积驱动的架构在各种视觉任务中普遍工作良好,包括图像分类,对象检测,实例和语义分割,提供比基于卷积的同行更好的性能。

详细方法请家人们仔细研读原文一手资料!!!

三 结论

卷积神经网络的拓扑连接性[18,21,55,57]和超参数配置[15,38,48]经历了快速的演变,但开发全新的算子却很少引起人们对构建创新架构的关注。 在这项工作中,我们希望通过分解卷积元素并将它们重新组装成更有效和高效的对合来弥补这一遗憾。 与此同时,神经架构工程当前的前沿之一是自动搜索网络结构[3,32,37,67,68]。 我们的发明还可以填充大多数现有神经架构搜索(NAS)策略的搜索空间池。 在不久的将来,我们期待在 NAS 的帮助下发现更有效的配备卷积的神经网络。

四 修改步骤!

4.1 修改YAML文件

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.2 新建.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

4.3 修改tasks.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

五 验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:Ai学术叫叫兽er
从此走上科研快速路
遥遥领先同行!!!!

写在最后

学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通,所以本文作者即B站Up主:Ai学术叫叫兽
在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑,本up主获得过国奖,发表多篇SCI,擅长目标检测领域,拥有多项竞赛经历,拥有软件著作权,核心期刊等经历。
因为经历过所以更懂小白的痛苦!
因为经历过所以更具有指向性的指导!

祝所有科研工作者都能够在自己的领域上更上一层楼!

所有科研参考资料均可点击此链接,合适的才是最好的,希望我的能力配上你的努力刚好合适!

以下为给大家庭小伙伴们免费更新过的绘图代码,均配有详细教程,超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注我B站及抖音:Ai学术叫叫兽!

所有科研参考资料均可点击此链接,合适的才是最好的,希望我的能力配上你的努力刚好合适!



所有科研参考资料均可点击此链接,合适的才是最好的,希望我的能力配上你的努力刚好合适!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1221222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

YOLO26最新创新改进系列:融合简单但功能强大的主干网络-BoTNet模块,获得CNN+自然语言处理技术的优势,有效提升检测效果!

YOLO26最新创新改进系列:融合简单但功能强大的主干网络-BoTNet模块,获得CNN自然语言处理技术的优势,有效提升检测效果! 购买相关资料后畅享一对一答疑! 畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具&…

星图 ai.csdn.net CSDN 的「大模型工坊」只能“一键微调”官方底座,不支持真正的预训练/RLHF,训练完可以私有化部署,但可控度、底座选择、数据安全都弱于公有云

结论一句话:CSDN 的「大模型工坊」只能“一键微调”官方底座,不支持真正的预训练/RLHF,训练完可以私有化部署,但可控度、底座选择、数据安全都弱于公有云。 下面给你逐项拆开看。 ① 产品定位(官网自述) …

CSS - code

CSS code 倾斜按钮<style>button {width: 180px;height: 80px;background: #409eff;border: none;outline: none;display: block;margin: 0 auto;color: #fff;font-size: 18px;border-radius: 15px 0;position: relative;transform: skew(-20deg);}button::before {posit…

YOLO26改进策略【Backbone/主干网络】| 替换骨干为PoolFormer,基于平均池化的Token混合器,通过聚合局部邻域特征实现信息交互

一、本文介绍 本文记录的是基于PoolFormer的YOLO26骨干网络改进方法研究。 PoolFormer提出了创新的MetaFormer通用架构,通过极简单的池化操作实现Token混合,能以低参数和计算成本高效捕捉图像全局与局部特征。将PoolFormer应用到YOLO26的骨干网络中,通过其分层结构和Token…

YOLO26改进策略【Backbone/主干网络】| CVPR 2024 替换骨干为InceptionNeXt,将大核深度卷积分解为四个并行分支,平衡速度与精度

一、本文介绍 本文记录的是基于InceptionNeXt的YOLO26骨干网络改进方法研究。 InceptionNeXt提出了新颖的Inception 深度卷积,将大核深度卷积分解为四个并行分支,有效提升计算效率并保持大感受野。将InceptionNeXt应用到YOLO26的骨干网络中,利用其独特的卷积结构,在处理图…

YOLO26改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR LSKNet (附网络详解和完整配置步骤)

一、本文介绍 本文记录的是基于LSKNet的YOLO26骨干网络改进方法研究。 LSKNet利用大核卷积获取上下文信息进行辅助,使模型能够产生具有各种大感受野的多个特征的同时,动态地根据输入调整模型的行为,使网络更好地适应图像中不同物体的检测需求。 本文在YOLO26的基础上配置…

YOLO26改进策略【Backbone/主干网络】| 替换骨干网络为2023-CVPR ConvNeXt V2 (附网络详解和完整配置步骤)

一、本文介绍 本文记录的是将ConvNeXt V2应用到YOLO26中的改进方法研究。 本文将ConvNeXt V2应用于YOLO26,一方面利用全卷积掩码自动编码器在训练时优化特征学习,减少模型对大规模标注数据的依赖;另一方面,通过全局响应归一化层增强特征竞争,缓解特征坍塌问题,提高特征…

YOLO26改进策略【Backbone/主干网络】| 替换骨干网络为CVPR-2024 PKINet 获取多尺度纹理特征,适应尺度变化大的目标

一、本文介绍 本文记录的是利用PKINet优化YOLO26的目标检测方法研究。 在遥感图像目标检测中,目标尺度变化大,本文引入PKINet来捕获多尺度纹理特征,并在YOLO26的基础上配置了原论文中PKINET_T, PKINET_S, PKINET_B三种模型,以满足不同的需求。 文章目录 一、本文介绍 二、…

YOLO26改进策略【Backbone/主干网络】| CVPR 2024替换骨干网络为 UniRepLKNet,解决大核 ConvNets 难题

一、本文介绍 本文记录的是基于UniRepLKNet的YOLO26骨干网络改进方法研究。UniRepLKNet提出了独特的大核设计能有效捕捉图像特征,在多模态任务中展现出强大的通用感知能力。将UniRepLKNet应用到YOLO26的骨干网络中,提升YOLO26在目标检测任务中的精度和效率 。 本文在YOLO26…

提示工程架构师的“数据思维”:用数字提升提示吸引力

提示工程架构师的“数据思维”&#xff1a;用数字提升提示吸引力 一、引言&#xff1a;为什么你的提示总差“一点感觉”&#xff1f; 你有没有过这样的经历&#xff1f; 花了10分钟写了一段自认为“完美”的提示&#xff1a; “帮我写一篇关于职场焦虑的文章&#xff0c;要实…

YOLO26改进策略【Backbone/主干网络】| CVPR 2024 替换骨干网络为 RMT,增强空间信息的感知能力

一、本文介绍 本文记录的是将RMT应用于YOLO26骨干网络的改进方法研究。 RMT通过构建基于曼哈顿距离的空间衰减矩阵,引入显式空间先验,同时提出新的注意力分解形式,在不破坏空间衰减矩阵的前提下,以线性复杂度对全局信息进行稀疏建模。将RMT融入YOLO26的骨干网络,能够有效…

02.

02.01.Nginx简介 01.1 背景介绍Nginx("engine x")一个具有高性能的 HTTP 和 反向代理 的 WEB服务器,同时也是一个 POP3/SMTP/IMAP代理服务器,是由伊戈尔赛索耶夫(俄罗斯人)使用C语言编写的,Nginx 的第…

轻流:用 YAML 风格文本表达串行/并行流程

轻流:用 YAML 风格文本表达串行/并行流程 为什么需要“轻流”? 在日常开发中,我们经常需要描述一段执行顺序明确、结构简单的流程:“先校验权限,然后并行下载文件和加载配置,接着处理数据,最后同时写入结果并上…

Java核心语法精讲:类型转换

类型转换 public class Demo04 {public static void main(String[] args){//强制转换 ()变量名 高->低//自动转换 低->高//强制转换int i=128;byte b=(byte) i;//内存溢出 -128System.out.println(i);Syste…

Read和Write再网络中的返回值详解

read 函数核心认知 read 是 Linux 系统调用&#xff08;头文件 <unistd.h>&#xff09;&#xff0c;用于从文件描述符&#xff08;fd&#xff09;读取数据&#xff0c;核心场景分两类&#xff1a;普通文件 / 管道 / FIFO、网络套接字&#xff08;TCP/UDP&#xff09;。你…

基于STM32单片机噪音计检测系统 声音大小检测 噪音等级 DIY

目录STM32单片机噪音计检测系统概述硬件组成软件设计DIY步骤应用场景源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01;STM32单片机噪音计检测系统概述 该系统基于STM32单片机设计&#xff0c;用于检测环境中的声音大小和噪音等级。通过麦…

基于STM32单片机智能厨房安全检查 GSM 火焰 声光报警

目录 STM32单片机智能厨房安全系统概述核心功能模块硬件连接示例软件逻辑流程扩展功能建议 源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01; STM32单片机智能厨房安全系统概述 该系统基于STM32单片机&#xff0c;集成火焰检测、GSM通信…

彻底告别AI疑似率过高:5款高效降AI工具使用全攻略,实现从90%AI率到5%的逆袭

对于2026届毕业生而言&#xff0c;论文季不仅是学术能力的终极考验&#xff0c;更是一场与AIGC检测系统的“博弈”。 依赖AI辅助写作虽提升了效率&#xff0c;却也可能带来高AI识别率的困扰。传统修改方式不仅耗时&#xff0c;还可能损伤文章的专业性与流畅度。 为此&#xf…

基于STM32单片机智能厨房安全检查 WIFI 火焰 声光报警

目录 STM32单片机智能厨房安全系统概述系统核心功能模块硬件设计要点软件算法实现典型应用场景系统优化方向 源码文档获取/同行可拿货,招校园代理 &#xff1a;文章底部获取博主联系方式&#xff01; STM32单片机智能厨房安全系统概述 该系统基于STM32单片机&#xff0c;集成W…

【2026实测】这些降AI工具真的有用!毕业生必备的高效、免费降AI方案与使用技巧分享

论文交稿前&#xff0c;导师再三叮嘱AI率不能超标&#xff0c;盯着电脑屏幕上“80%的AI率”头皮发麻&#xff0c;手动改到凌晨三点&#xff0c;结果一查——AI率不降反升&#xff1f;&#xff01; 别问我怎么知道的&#xff0c;都是血泪教训... 纯手改不仅效率低&#xff0c;还…