深度学习之卷积神经网络理论基础

深度学习之卷积神经网络理论基础

卷积层的操作(Convolutional layer)

在提出卷积层的概念之前首先引入图像识别的特点

图像识别的特点

  • 特征具有局部性:老虎重要特征“王字”仅出现在头部区域
  • 特征可能出现在任何位置
  • 下采样图像,不会改变图像目标

例如从512 * 512的图像进行下采样得到32 * 32的图像目标
在这里插入图片描述

  1. 特征具有局部性:卷积核每次仅连接K * K区域,K * K是卷积核尺寸
    在这里插入图片描述
  2. 特征可能出现在任何位置:卷积核参数重复使用(参数共享),在图像上滑动
    在这里插入图片描述

该图片的卷积的计算步骤如下所示:(即对应位置相乘在相加得到最终的结果)

0×0+1×1+3×2+4×3=19
1×0+2×1+4×2+5×3=25
3×0+4×1+6×2+7×3=37,
4×0+5×1+7×2+8×3=43

在这里插入图片描述
其中绿色代表的是输出部分,蓝色代表的是输入的部分,绿色的每一个区域是在蓝色区域的基础上经过卷积运算得到的,在计算的过程中区域不断的进行滑动

卷积层的相关概念

卷积核(Kernel):具可学习参数的算子,用于对输入图像进行特征提取,输出通常称为特征图(featuremaps)

通常我们说的就是3x3的卷积核,即对应上图中的核函数2x2的卷积核

在这里插入图片描述

卷积核当中的权重就代表的是一种特征模式。2012年AlexNet网络第一个卷积层卷积核可视化卷积核呈现边缘、频率和色彩上的特征模式。

填充(Padding) 在输入图像的周围添加额外的行/列。使卷积后图像分辨率不变,方便计算特征图尺寸的变化弥补边界信息丢失
在这里插入图片描述

而该图中的padding=1 在上下左右都添加1个位置的像素,保证边缘部分与中间部分相比不会参与卷积的次数太少而被忽略而丢失

步长(Stride) :卷积核滑动的行数和列数称为步幅,控制输出特征图的大小,会被缩小1/s倍

在蓝色图像上每次滑动的距离之间影响得到的输出图的大小和像素值

感受野:特征图中的一个点相当于图片中多大的区域,层数越多感受野越大。

感受野从3 * 3 到 5 * 5的区域
在这里插入图片描述

多通道卷积

多通道卷积:RGB图像是3 * h* w 的三维的数据,第一个维度3,表示channel,通道数一个卷积核是3-D张量,第一个维与输入通道有关注:卷积核尺寸通常指高、宽
在这里插入图片描述

补充:2-d卷积和3-d卷积的区分,卷积核在输入上只在行和列两个维度上移动并进行卷积—称为2d卷积 ,而在一些视频任务中在此基础上还需要使用到第三个维度即时间维度称为3-d卷积

池化层操作(Pooling layer)

  1. 下采样图像,不会改变图像目标:降低计算量,减少特征

池化:一个像素表示一块区域的像素值,降低图像分辨率

  • 方法1:MaxPooling,取最大值(最大池化)
  • 方法2:AveragePooling,取平均值(平均池化)

而池化层中无可学习的参数

在这里插入图片描述
池化操作可以看作是一种特殊的卷积操作。

池化的作用:

  • 缓解卷积层对位置的过度敏感。

Lenet -5

在这里插入图片描述

  • C1层: 卷积核K1=(6,1,5,5),p=1,s=1,output=(6,28,28)
  • S2层:最大池化层,池化窗口=(2,2),s=2,output=(6,14,14)
  • C3层:卷积核K3=(16,6,5,5),p=1,s=1,output=(16,10,10)
  • S4层:最大池化层,池化窗口=(2,2),s=2,output=(16,5,5)
  • FC层:3个FC层输出分类

特征提取器:C1、S2、C3、S4分类器:3个FC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/13196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 小抄

Python 备忘单 目录 1.语法和空格 2.注释 3.数字和运算 4.字符串处理 5.列表、元组和字典 6.JSON 7.循环 8.文件处理 9.函数 10.处理日期时间 11.NumPy 12.Pandas 要运行单元格,请按 ShiftEnter 或单击页面顶部的 Run(运行)。 1.语法和空格…

三种方法进行跨服务器文件传输

今天需要在一个centOS服务器上编译一个工具, 我的本地主机是ubuntu, 但是由于服务器是合规环境, 没有文件传输的接口, 也不能访问github等外网, 所以很多依赖只能下载到ubuntu然后在想办法搞到服务器上. 这种场景有三种简单有用的办法, 整理一下. 方法一: 把主机配置成http ser…

6---Linux下版本控制器Git的知识点

一、Linux之父与Git的故事: Linux之父叫做“Linus Torvalds”,我们简称为雷纳斯。Linux是开源项目,所以在Linux的早期开发中,许多世界各地的能力各异的程序员都参与到Linux的项目开发中。那时,雷纳斯每天都会收到许许…

用ntpdate同步时间出现问题

1. 使用ntpdate同步 [rootnode ~]# ntpdate ntp.aliyun.com4 Aug 00:07:17 ntpdate[20924]: adjust time server 203.107.6.88 offset -0.001543 sec2. 查看时间 [rootnode ~]# date Thu Aug 4 00:07:46 CST 20223. 如果时间对不上 报错信息 cna02:~ # ntpdate ntp1.aliyu…

mysql社区版最多支持多个连接并发

MySQL社区版对于并发连接数的支持并没有一个固定的上限,它实际上取决于多个因素,包括服务器的硬件配置、MySQL的配置参数以及应用程序的设计等。 硬件配置:服务器的CPU、内存和磁盘I/O等硬件资源会直接影响MySQL可以处理的并发连接数。例如&a…

VMware Fusion 13.5.2 for Mac 发布,产品订阅模式首个重大变更

VMware Fusion 13.5.2 for Mac 发布,产品订阅模式首个重大变更 适用于基于 Intel 处理器和搭载 Apple 芯片的 Mac 的桌面虚拟化软件 请访问原文链接:https://sysin.org/blog/vmware-fusion-13/,查看最新版。原创作品,转载请保留…

vue props接收组件数据(类型配置)

"props"接收的常见传参类型有以下几种:String:字符串类型,Number:数字类型,Boolean:布尔类型,Array:数组类型,Object:对象类型,Date&am…

文章解读与仿真程序复现思路——中国电机工程学报EI\CSCD\北大核心《集装箱海港级联物流-能源耦合系统协同优化方法 》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

FPGA - GTX收发器-K码 以及 IBERT IP核使用

一,前言 在FPGA - Xilinx系列高速收发器---GTX中详细介绍了GTX的基础知识,以及IP核的调用,下面将补充一下GTX在使用中的高速串行数据流在接收和发送时的控制与对齐(K码),以及高速接口GTX,如果G…

Springboot开发 -- Postman 调试 session 验证 接口

当我们在开发Spring Boot应用时,经常会遇到带有Session验证的接口,这些接口需要用户先登录并获取到Session ID(或称为cookie中的JSESSIONID),然后在后续的请求中携带这个Session ID来保持会话状态。下面我将以一个实际…

力扣72-编辑距离

题目链接 记忆化搜索: 解题关键:每次仅考虑两字符串word1、word2分别从0 - i修改成0-j下标的完全匹配(下标表示) 临界条件:当 i 或 j 小于0时,表示该字符串为空,编辑距离确定为 y1 或 x1 int dp[501][501…

Hello, GPT-4o!

2024年5月13日,OpenAI 在官网正式发布了最新的旗舰模型 GPT-4o 它是一个 多模态模型,可以实时推理音频、视频和文本。 * 发布会完整版视频回顾:https://www.youtube.com/watch?vDQacCB9tDaw GPT-4o(“o”代表“omni”&#xff0c…

高效协同,智慧绘制:革新型流程图工具全解析

流程图,作为一种直观展示工作过程和系统运作的工具,在现代办公和项目管理中发挥着不可或缺的作用。 其优势在于能够清晰、直观地呈现复杂的过程和关系,帮助人们快速理解并掌握关键信息。同时,流程图也广泛应用于各种场景&#xf…

linux常用命令(持续更新)

1.sudo -i 切换root权限 2. ll 和 ls 查看文件夹下面的文件 3. cat 查看文件内容 cat xxx.txt |grep 好 筛选出有好的内容 4. vi 编辑文件 点击insert进入编辑模式 编辑完之后点击Esc退出编辑模式 数据:wq!回车保存文件 5. ssh 连接到可以访问的系统 6. telnet 看端口是否可以…

【Python】图像批量合成视频,并以文件夹名称命名合成的视频

一个文件夹中有多个子文件夹,子文件夹中有多张图像。如何把批量把子文件夹中的图像合成视频,视频名称是子文件夹的名称,生成的视频保存到指定文件夹,效果记录。 代码 import os import cv2def create_video_from_images(image_f…

leetcode刷题(6):二叉树的使用

文章目录 104. 二叉树的最大深度解题思路c 实现 94. 二叉树的中序遍历解题思路c 实现 101. 对称二叉树解题思路c 实现 96. 不同的二叉搜索树解题思路c 实现 102. 二叉树的层序遍历解题思路c 实现 104. 二叉树的最大深度 题目: 给定一个二叉树 root ,返回其最大深度…

重新认识Flutter跨平台技术(上)

背景 2017年,Flutter刚推出来的时候,正好自己在做TV Launcher开发的工作。 我们知道TV Launcher是Android TV操作系统中的一个启动器应用程序。它负责在打开电视时展示给用户的主要界面,包括应用程序图标、推荐内容等。通过Android TV Launcher,用户可以方便地浏览和启动…

ALV 图标显示

前言 在ABAP ALV中,使用fieldcat来定义列表中每个字段的显示属性,包括图标(Icon)的显示。图标可以在ALV列表中为特定列的行或标题添加图形元素,以增强视觉提示或传达附加信息。 ICON查询 图标的名称用事务码”ICON“进…

智能BI(后端)-- 系统异步化

文章目录 系统问题分析什么是异步化?业务流程分析标准异步化的业务流程系统业务流程 线程池为什么需要线程池?线程池两种实现方式线程池的参数线程池的开发 项目异步化改造 系统问题分析 问题场景:调用的服务能力有限,或者接口的…

离岸公司+外贸

为什么外贸公司老板都喜欢注册离岸公司呢?怎样利用离岸公司做进出口贸易呢? 今天大家花一分钟时间来了解清楚 第一步就是注册一家离岸公司,将这个离岸公司作为国际外贸的中转站,与国外客户签订单,你从国内工厂采购商…