一只菜鸟学深度学习的日记:填充 步幅 下采样

news/2025/12/9 23:50:04/文章来源:https://www.cnblogs.com/yldeveloper/p/19328774

本文以作者阅读《Dive into Deep Learning》为线索,融合串联了自身理解感悟、原始论文、优秀文章等。如有无意侵权,请联系本人删除。

填充 & 步幅 & 下采样

由上一节,可以得知卷积的输出大小和输入形状、卷积核形状有关:
输出形状为:\((n_h-k_h+1) \times (n_w-k_w+1)\)

很显然,如果这样连续进行多层卷积处理,最终的输出大小会小于输入大小。

对这种情景,通常有两种反应:

  • 这会丢失了原始图像边界的不少信息 用 填充 解决
  • 正好我们想要降低图像分辨率 用 步幅 解决

填充

在卷积操作中,边缘像素参与计算的次数少于中心像素,导致边界信息在深层网络中逐渐被稀释。
一种简单解决方法为:在输入图像的边界新开多行/列并填充元素(常为0)。

如果希望输入输入和输出具有相同的高度宽度,可以在顶部填充 \(\lceil \frac{k_h-1}{2}\rceil\),在底部填充 \(\lfloor \frac{k_h-1}{2}\rfloor\)。对首尾列的填充同理。这就是 Same Conv. (如果不填充就是 Valid Conv. ,这在降低特征图的空间维度上很有用),通常用于卷积层中步幅为\(1\)的操作中。

一般认为,卷积核的高度、宽度均为奇数:

  • 偶数核的对称填充可能导致输入与输出大小无法对齐
  • 奇数维度的卷积会有一个中心点,而在CV中有一个中心像素点会更方便,因为可以指出卷积位置
  • 奇数方阵卷积核可以计算半径,更加方便表达与计算
拓展一下,我们常用的标准零填充有无缺点?

有的。根据一篇Facebook AI发表的论文(arxiv.org/pdf/2010.02178),当输入尺寸不满足 特定条件 (详见下文) 时,填充只在特征图的单侧被有效应用,另一侧失活浪费,因此卷积核在不同空间位置收到的零值信息不平衡,从而模型在训练中,卷积核的某些位置(如左侧、上侧)会更频繁地与填充的零值相乘,导致其学习到的权重出现系统性偏斜。

而这种不对称的权重会在前向传播中,在特征图上产生不依赖于图像内容的、固定的线条或网格状激活模式,也就是一些在平均图中的可见的线条。这些线条与任何场景特征都不相似,并且始终存在于各个特征图中。

因此,这会在特征图的特定空间位置,模型对某些类别的目标(尤其是小目标)的响应被地抑制,导致漏检(此文以交通灯检测器为例);同时会削弱平移不变性。

这里的 特定条件 是什么呢?
因为步长是跳跃式的,为了保证每边的填充都能被均匀应用,应该满足:(以高度为例)

\[h_{前一层}=stride_{当前层} \cdot (h_{当前层}-1)+k_{当前层}^h - 2\cdot p_{当前层}^h \]

\(p\) 是填充量。

如果这个条件不满足,我们可以认为:卷积核可以覆盖整个填充后的特征图,但覆盖的方式是偏心的。
为了能够覆盖所有有效值,靠右和靠下(如果从左上开始)的卷积核,很可能卷积核只有局部区域与有效特征值相乘,而右侧、下侧部分超出了有效输入区域,只能与零填充相乘;或者是一侧的填充被卷积核消耗,而另一侧的填充则没有。这种不均匀的交互会在训练中诱导卷积核权重变得空间不对称,进而产生特征图伪影并可能形成检测盲区。

有一种缓解这一现象的方法是不用简单的 \(0\) 来进行填充,而是使用对称填充/镜像填充(Mirror Padding ),就是在输入图像的外部,通过复制对称边界像素来填充新的像素值,这能确保填充元素与原始图像的边缘像素在视觉上保持一致。

也可以使用反射填充(Reflect Padding ),就是将输入图像的边缘像素作为对称轴,然后将这些像素向外反射,形成新的填充像素。因此会有4个对称轴,可能比对称填充更加光滑。这与镜像填充的区别:填充的部分其实是从边缘的内部一行开始。

步幅

就是卷积核在输入上每次移动的像素数。

有时候我们希望主动降低特征图的分辨率,以减少模型复杂度,并且想要拓展后续层的感受野,一种直接的方法是增大步幅(Stride )。当步幅大于 \(1\) 时,卷积核跳过一些像素,从而减少输出的空间尺寸。

引入步幅后,卷积输出的形状计算公式为:

\[\begin{align} H_{out}&=\lfloor\frac{H_{in} - k_h + 2p_h}{s}\rfloor + 1\\ W_{out}&=\lfloor\frac{W_{in} - k_w + 2p_w}{s}\rfloor + 1 \end{align}\]

感受野(Receptive Field ), 就是卷积网络中每一层输出的特征图上的像素点在原始图形映射的区域大小,也就是特征图上每个点的信息来源范围。

易知,越深层的神经元看到的底层的输入区域越大。随着网络层数加深,感受野会指数级增长,使深层神经元能够整合更大范围的上下文信息,从而捕获更高级的语义特征。更大的感受野意味着神经元能够捕获更大范围的、更全局的上下文信息,这对于理解图像中的大尺度物体和语义至关重要。

感受野(\(\mathbf{RF}\))递推的计算公式:\(\mathbf{RF}_l=\mathbf{RF}_{l-1}+(k_l-1)\times \prod_{i=1}^{l-1}s_i\)

下采样

就是将降低特征图的空间分辨率。减少特征图的高度宽度(有时也增加通道数),以对输入数据进行压缩与抽象,有选择得保留重要的特征表示。

目的:

  • 降低计算复杂度
  • 扩大感受野,感知更多全局信息
  • 增强平移不变性
  • 起到正则化作用,控制过拟合
  • 抽象化特征,增强对细节变化的鲁棒性

常见实现方法:

  1. 汇聚(池化):
    • 最大汇聚:将特征图分割为多个同大小的块,每块中只取最大数字,抛弃该块中的其他数据。比如\(n\times n\xrightarrow{2\times 2\space Pooling\space Filter\space with\space stride=2}\frac{n}{2}\times \frac{n}{2}\),用于保留最显著的特征,适用于纹理识别、边缘检测等对微小偏移、旋转不敏感的任务,一出现某特征就立刻响应,类似于一种二元特征存在检测器。
    • 平均汇聚:同上分割,每块取平均值。如:\(n\times n\xrightarrow{2\times 2\space Pooling\space Filter\space with\space stride=2}\frac{n}{2}\times \frac{n}{2}\),用于保留整体统计特征,平滑噪声,常用于分类任务的全连接层之前,或者是用于网格末端的全局特征整合。
    • 全局平均/最大汇聚:Filter 的大小等于Feature Map的大小,每个通道返回值为本通道的均值/最大值,有 \(w\times h\times c\xrightarrow{w\times h\space Pooling\space Filter\space }1\times1\times c\) ,一个多维tensor输出一个一维vector,用于避免全连接层巨大的参数量。
  2. 步幅卷积:用步幅大于 \(1\) 的卷积层采样,有可学习性,并且可保留更多信息。

加入后的流程:\(卷积\rightarrow 激活函数\rightarrow 下采样\)

写在最后:对D2L的讲解顺序进行了简单的调整,以适应循序渐进性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/995731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025最新无机水性涂料品牌/厂家TOP5评测!环保性能与工程适配权威榜单发布,功能性涂料技术革新引领行业升级 - 全局中转站

随着环保政策收紧与绿色建筑需求激增,无机水性涂料凭借零VOC、防火阻燃等核心优势,成为建筑、市政、工业领域的优选材料。本榜单基于环保安全、性能指标、工程案例、服务体系四大维度,结合国内重点工程采购数据及行…

黑马程序员SpringCloud微服务开发与实战-微服务-配置管理

黑马程序员SpringCloud微服务开发与实战-微服务-配置管理Posted on 2025-12-09 23:41 心默默言 阅读(0) 评论(0) 收藏 举报到目前为止我们已经解决了微服务相关的几个问题:微服务远程调用 微服务注册、发现 微服…

git-ssh - yebinghuai-qq

git-ssh ----------------------------------------------------------------------------打开 Git Bash(不是 CMD) 步骤1:检查 SSH 密钥 dir %USERPROFILE%\.ssh dir C:/Users/Administrator/.ssh生成 SSH 密钥 ss…

Linux中级のNginx~2

Nginx目录索引 目录索引模块简述 ngx_http_autoindex_module 模块处理以斜杠字符(’/’)结尾的请求,并生成目录列表。 当 ngx_http_index_module 模块找不到索引文件时,通常会将请求传递给ngx_http_autoindex_modu…

2025 最新水性地坪漆厂家 TOP5推荐!水性地坪漆年度品牌榜,环保性能 + 技术创新优质供应商,专业赋能地面涂装新体验 - 全局中转站

随着水性地坪漆在建筑、工业、市政等领域的广泛应用,市场对高品质、环保型产品的需求持续攀升。本榜单基于环保性能、技术创新、应用场景适配性、服务体系四大维度,结合行业权威数据及用户反馈,全面解析2025年五大水…

数据采集与融合技术实践4

数据采集与融合技术实践4 任务一 任务要求 使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。 候选网站:东方财富网:http://quote.eastmoney.com/center…

12月9日日记

1.今天学习英语 2.明天马哲 3.Flter 配置的优先级?是否遗漏了 @WebFilter 注解(注解方式配置时)?

2025.12.9总结

今天把大数据的作业写完。基础层 (实验1-2): 环境与存储 技能获取: 熟练使用 Linux Shell 和 Hadoop HDFS Shell 进行系统与分布式文件管理。 核心认知: 理解分布式文件系统(HDFS)的核心思想——数据分块、多副本存储…

2025 最新路面胶粘剂厂家 TOP5 评测!路面胶粘剂优质国产品牌年度榜单,绿色环保 + 性能实证权威榜单发布,技术赋能重构路面工程生态 - 全局中转站

随着基础设施建设与城市更新的加速,路面胶粘剂作为保障道路安全、美观与耐久性的核心材料,市场需求持续攀升。本榜单基于环保性能、技术创新力、工程适配性、服务体系四大维度,结合行业权威数据与实际工程案例反馈,…

2025年国内十大检定器生产厂家实力排行榜,贯入式砂浆强度检测仪/回弹仪检定器/裂缝测深仪/裂缝测宽仪/数显碳化深度尺检定器供应厂家找哪家 - 品牌推荐师

在建筑工程质量检测、工业分析及科研实验等领域,检定器作为确保测量仪器准确性的关键设备,其重要性日益凸显。随着国内制造业向高端化、智能化迈进,一批拥有核心技术、注重品质与创新的检定器生产企业脱颖而出,构成…

2025 最新桥梁防腐涂料厂家 TOP5 评测!环保高性能 + 技术创新权威榜单发布,守护基础设施安全与耐久 - 全局中转站

随着基础设施建设的持续推进,桥梁作为交通命脉,其防腐保护需求日益凸显。桥梁防腐涂料作为延长桥梁使用寿命、保障结构安全的关键材料,市场对其性能、环保和耐久性要求不断提升。本榜单基于技术创新力、产品性能、行…

2025年权威推荐!水处理设备企业综合实力TOP4 - 极欧测评

在水处理设备采购中,企业用户往往面临“资质难辨、适配性差、售后无保障”等痛点,尤其是医疗、电子、食品等对水质要求严苛的行业,设备选择直接影响生产安全与效率。笔者结合近3年行业实测数据、120+企业案例反馈及…

Seata原理与简单示例 - 指南

Seata原理与简单示例 - 指南2025-12-09 23:15 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important;…

12/9

今日无事,下午上了一节英语,就没课了,快期末了

2025年最新盘点:本地最值得信赖的检定器供应商,高强回弹仪检定器/钢砧/云回弹仪/高强回弹仪/涂层测厚仪/楼板测厚仪检定器生产厂家电话 - 品牌推荐师

在建筑工程质量检测与科研分析领域,检定器的精度与可靠性直接关系到数据的权威性与工程的安全性。随着市场对检测设备智能化、数字化需求的不断提升,一批具备深厚技术积淀与稳定产品力的本土企业正脱颖而出。本文基于…

Alpha 阶段第二周 - OUC

12.04-12.10_第二周周报 基本情况 团队 ID:09 组长博客: 小组地址: https://github.com/LaurentZC/MarineFloatingDebrisDetectionSystem 小组成员:LaurentZC、morning-glory-qu、Locusclaer 冲刺概况汇报 小组任务…

成长?都是被逼出来的罢了

小时总把变得有能力,能够独立解决问题当成是梦寐以求的事情,殊不知货的能力并不是一件容易的事情。玄学的观点是万事万物都遵循着能量守恒定律,一方面的能力提升,必定使得另一方面的能力退化,鱼和熊掌不可兼得。 …

东方智慧的现代生成:论岐金兰AI元人文构想的思想本源、理论建构与文明意义

东方智慧的现代生成:论岐金兰AI元人文构想的思想本源、理论建构与文明意义 摘要:本文系统阐述岐金兰AI元人文构想,指出其并非对西方AI伦理理论的区域性应用或注脚,而是一套根植于中国传统文化深层智慧、并直面“人…

US$1209.35 Original Alientech KESS V3 KESS3 Master 12MonthsSubscription

The Challenge of Modern Vehicle Diagnostics and Tuning in Europe and America In today’s automotive landscape, European and American vehicles are increasingly complex, with advanced ECUs, adaptive syst…