第十六章 解读深度学习中Batch Size、Iterations和Epochs(工具)

训练网络之前有很多参数要设置,不了解各个参数的含义就没法合理地设置参数值,训练效果也会因此大受影响。本篇博客记录一下网络训练里的Batch Size、Iterations和Epochs怎么理解。

一、引言

首先要了解一下为什么会出现Batch Size这个概念。深度学习算法是迭代的,也就是会多次使用算法获取结果,以得到最优化的结果。每次迭代更新网络参数有两种方式,也是两种极端:

第一种是Batch Gradient Descent,批梯度下降,即把所有数据一次性输入进网络,把数据集里的所有样本都看一遍,然后计算一次损失函数并更新参数。这种方式计算量开销很大,速度也很慢,不支持在线学习。

第二种是Stochastic Gradient Descent,随机梯度下降,即把每次只把一个数据输入进网络,每看一个数据就算一下损失函数并更新参数。这种方式虽然速度比较快,但是收敛性能不好,可能会在最优点附近震荡,两次参数的更新也有可能互相抵消掉。

可见,这两种方式都有问题,所以现在一般都是采用两种方式的折衷,Mini-Batch Gradient Decent,小批梯度下降。就是把数据进行切片,划分为若干个批,按批来更新参数。这样,一个批中的一组数据共同决定了本次梯度的方向,下降起来就不容易跑偏,减少了随机性。并且由于批的样本数与整个数据集相比小了很多,计算量也不是很大。

二、Batch Size

所谓的batch_size,就是每次训练所选取的样本数,通俗点讲就是一个 batch中的样本总数,一次喂进网络的样本数。batch_size的选择会影响梯度下降的方向。

在合理范围内增大batch_size有以下几个好处:

  1. 内存利用率高,大矩阵乘法的并行化效率提高;
  2. 跑完全部数据所需的迭代次数少,对于相同数据量的处理速度可以进一步加快;
  3. 在一定范围内,一般来说batch_size越大,其确定的下降方向越准,引起的训练震荡越小。

但也不能盲目增大,否则会有以下几个坏处:

  1. 内存容量可能撑不住,报错RuntimeError:CUDA out of memory;
  2. 跑完全部数据集所需的迭代次数减少,要想达到相同的精度,其所花费的时间大大增加了,从而对参数的修正也就显得更加缓慢;
  3. 当batch_size增大到一定程度时,其确定的下降方向已经基本不再变化了。

三、Iterations

所谓的iterations,就是训练完全部数据需要迭代的次数,通俗点讲一个iteration就是使用batch_size个样本把网络训练一次,iterations就是整个数据集被划分成的批次数目,数值上等于data_size/batch_size。

把全部的样本数据,按照batch_size进行切片,划分成iterations块。每个iteration结束后都会更新一次网络结构的参数,每一次迭代得到的结果都会被作为下一次迭代的初始值。

一个iteration=一个batch_size的数据进行一次forward propagation和一次backward propagation。

四、Epochs

所谓的epochs,就是前向传播和反向传播过程中所有批次的训练迭代次数,一个epoch就是整个数据集的一次前向传播和反向传播,通俗点讲,epochs指的就是训练过程中全部数据将被送入网络训练多少次。

为什么要使用多个epoch进行训练呢?因为在神经网络中传递完整的数据集一次是不够的,我们需要将完整的数据集在同样的神经网络中传递多次。我们使用的是有限的数据集,仅仅更新权重一次或者说使用一个epoch是不够的。

如果epochs太小,网络有可能发生欠拟合;如果epochs太大,则有可能发生过拟合。具体怎么选择要根据实验结果去判断和选择,对于不同数据集选取的epochs是不一样的。

五、举个例子

假设有1024个训练样本,batch_size=8,epochs=10,那么:每个epoch会训练1024/8=128个iteration,全部1024个训练样本会被这样训练10次,所以一共会有1280个iteration,发生1280次前向传播和反向传播。注意,由于Batch Normalization层的存在,batch_size一般设置为2的倍数,并且不能为1

总结一下:

  1. Batch使用训练集中的一小部分样本对模型权重进行一次反向传播的参数更新,这一小部分样本被称为“一批数据”;
  2. Iteration是使用一个Batch数据对模型进行一次参数更新的过程,被称为“一次训练”;
  3. Epoch使用训练集的全部数据对模型进行一次完整训练,被称为“一代训练”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/170398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nodejs+vue+python+PHP+微信小程序-健身俱乐部在线管理平台的设计与实现-安卓-计算机毕业设计

随着经济的发展、财富的累积,人们生活水平、生活质量大幅度提高,生活环境得到明显改善,但是竞争激烈、人们生活压力大、生活节奏快加上饮食习惯和生活方式不合理导致国内 亚健康人群逐年增多。统计数据表明当前我国亚健康人群比例已经超过了7…

【LeeCode】844.比较含退格的字符串

给定 s 和 t 两个字符串,当它们分别被输入到空白的文本编辑器后,如果两者相等,返回 true 。# 代表退格字符。 注意:如果对空文本输入退格字符,文本继续为空。 解:同时从后向前遍历S和T(i初始为…

VScode

一、VSCode设置中文 1、首先我们打开vscode,进入编辑页面后点击左边栏的图示图标进入“EXTENSIONS”面板 2、进入后,在上方搜索“Chinese”,搜索到中文(简体)后,点击“install”按钮。 3、等待自动下载安装…

【一文讲清楚 Anaconda 相关环境配置】

文章目录 0 前言1 Package 与环境1.1 module1.2 package1.3 环境 2 Conda、Miniconda、Anaconda和Pip & PyPI2.1 Conda2. 2 Miniconda2.3 Anaconda2.3.1 Anaconda Navigator2.3.2 Anaconda PowerShell Prompt & Anaconda Prompt2.3.3 Jupyter notebook 2.4 Pip & P…

【Layui】动态时间线

官方时间线 代码<fieldset class="layui-elem-field layui-field-title" style="margin-top: 30px;">

深度学习第二天:RNN循环神经网络

☁️主页 Nowl &#x1f525;专栏《机器学习实战》 《机器学习》 &#x1f4d1;君子坐而论道&#xff0c;少年起而行之 文章目录 介绍 记忆功能对比展现 任务描述 导入库 处理数据 前馈神经网络 循环神经网络 编译与训练模型 模型预测 可能的问题 梯度消失 梯…

2023/11/24JAVAweb学习

age只会执行成立的,show其实都展示了,通过display不展示 使用Vue,必须引入Vue.js文件 假如运行报错,以管理员身份打开vscode,再运行 ------------------------------------------------------------------- 更改端口号

WordPress老是提示无法连接到FTP服务器

在 WordPress 目录下找到 wp-config.php 文件并编辑&#xff0c;在最后一行加上 define(FS_METHOD, "direct");

HarmonyOS简述及开发环境搭建

一、HarmonyOS简介 1、介绍 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。有三大系统特性&#xff0c;分别是&#xff1a;硬件互助&#xff0c;资源共享&#xff1b;一次开发&#xff0c;多端部署&#xff1b;统一OS&#xff0c;弹性部署。 HarmonyOS通过硬件互…

微服务实战系列之Nginx(技巧篇)

前言 今天北京早晨竟然飘了一些“雪花”&#xff0c;定睛一看&#xff0c;似雪非雪&#xff0c;像泡沫球一样&#xff0c;原来那叫“霰”。 自然中&#xff0c;雨雪霜露雾&#xff0c;因为出场太频繁&#xff0c;认识门槛较低&#xff0c;自然不费吹灰之力&#xff0c;即可享受…

基于 STM32 的温度测量与控制系统设计

本文介绍了如何基于 STM32 微控制器设计一款温度测量与控制系统。首先&#xff0c;我们将简要介绍 STM32 微控制器的特点和能力。接下来&#xff0c;我们将详细讨论温度传感器的选择与接口。然后&#xff0c;我们将介绍如何使用 STM32 提供的开发工具和相关库来进行温度测量和控…

电脑技巧:电脑常见蓝屏、上不了网等故障及解决办法

目录 一、电脑蓝屏 常见原因1: 病毒木马 常见原因2: 安装了不兼容的软件 二、电脑不能上网 常见原因1: 新装系统无驱动 常见原因2: DNS服务器异常 常见原因3: 硬件问题 三、电脑没声音 常见原因1: 未安装驱动 常见原因2: 硬件故障 四、电脑屏幕不显示 常见原因1: 显…

html实现我的故乡,城市介绍网站(附源码)

文章目录 1. 我生活的城市北京&#xff08;网站&#xff09;1.1 首页1.2 关于北京1.3 北京文化1.4 加入北京1.5 北京景点1.6 北京美食1.7 联系我们 2.效果和源码2.1 动态效果2.2 源代码 源码下载 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.net/weixin_43…

2.19 keil里面工具EventCorder使用方法

设置方法如下&#xff1a; 添加初始化代码如下&#xff1a; eventRecord.c #include "eventRecord.h" #include "usart.h" extern UART_HandleTypeDef *pcControlUart;/* RecordEvent初始化 */ void InitEventRecorder(void) {#ifdef RTE_Compiler_Even…

[架构之路-251]:目标系统 - 设计方法 - 软件工程 - 软件建模 - 什么是建模,什么是软件系统建模?软件系统阶段性建模?正向建模与反向建模?

目录 前言&#xff1a; 一、什么是建模 1.1 什么是建模 1.2 常见的建模的方式与种类 二、什么是软件系统建模 2.1 软件系统建模的概念 2.2 软件系统常见的三种建模方法和手段 2.3 软件系统建模的常见工具 三、软件系统阶段性建模 3.1 软件工程在不同阶段对软件系统进…

合共软件创新亮相:第102届上海电子展成就技术新篇章

2023年&#xff0c;第102届中国&#xff08;上海&#xff09;电子展活动在全球瞩目中圆满落幕。作为下半年华东地区最具影响力的电子展会&#xff0c;此次盛会吸引了来自全球的600家领先企业&#xff0c;共同探讨电子元器件行业的最新发展成果和趋势。 本届展会围绕核心先导元器…

网络运维与网络安全 学习笔记2023.11.25

网络运维与网络安全 学习笔记 第二十六天 今日目标 ACL原理与类型、基本ACL配置、高级ACL配置 高级ACL之ICMP、高级ACL之telnet ACL原理与类型 项目背景 为了企业的业务安全&#xff0c;要求不同部门对服务器有不同的权限 PC1不能访问Server PC2允许访问Server 允许其他所…

MyBatis框架_01

Web后端开发_03 MyBatis框架 什么是MyBatis? MyBatis是一款优秀的持久层框架&#xff0c;用于简化JDBC的开发。MyBatis本是 Apache的一个开源项目iBatis&#xff0c;2010年这个项目由apache迁移到了google code&#xff0c;并且改名为MyBatis 。2013年11月迁移到Github。官网…

Transformer——decoder

上一篇文章&#xff0c;我们介绍了encoder&#xff0c;这篇文章我们将要介绍decoder Transformer-encoder decoder结构&#xff1a; 如果看过上一篇文章的同学&#xff0c;肯定对decoder的结构不陌生&#xff0c;从上面框中可以明显的看出&#xff1a; 每个Decoder Block有两个…

Doris可视化界面相关文档

下载地址&#xff1a; x64&#xff1a;https://selectdb-doris-1308700295.cos.ap-beijing.myqcloud.com/doris-manager/release/23.10.4/doris-manager-23.10.4-x64-bin.tar.gz arm&#xff1a;https://selectdb-doris-1308700295.cos.ap-beijing.myqcloud.com/doris-manager…