深度学习中学习率调整策略

学习率衰减策略是深度学习优化过程中的一个关键因素,它决定了训练过程中学习率的调整方式,从而影响模型收敛的速度和效果。不同的衰减策略在不同的任务和模型上可能有不同的表现,下面从我用到过的几个衰减策略进行记录,后续慢慢跟进。

为什么需要学习率衰减?

在训练深度学习模型时,学习率的选择至关重要。通常,我们希望模型能够在训练的早期阶段较快地收敛(即较大的学习率),而在训练的后期阶段逐渐减小学习率,以便模型能够更精细地调整参数,避免错过局部最优点。

阶梯衰减Step Decay

这是最简单常用的学习率调整方法,每过step_size轮,将此前的学习率乘以gamma。

torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

余弦退火调整学习率 CosineAnnealingLR

在每个周期内,学习率从初始学习率(lr0)开始,经过余弦函数的逐渐衰减,最后衰减到最小学习率(eta_min)。

torch.optim.lr_scheduler.CosineAnnealingLR(
optimizer, 
T_max,     
eta_min=0,
last_epoch=-1)

T_max:指定一个完整的周期(例如,多少个训练步长或 epoch)。在 T_max 的周期内,学习率会从初始学习率衰减到 eta_min

eta_min=0:最终学习率

last_epoch=-1:指定上次训练的最后一个epoch,-1就是从头开始训练

余弦退火重启学习率 CosineAnnealingWarmRestarts

CosineAnnealingWarmRestarts 通过将学习率沿着一个余弦曲线逐渐衰减到最小值(eta_min),然后在周期结束时重启并回升到初始学习率(lr0),这种周期性的重启和余弦退火帮助模型在每个阶段进行不同范围的探索,避免陷入局部最优。

scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(
optimizer, 
T_0, 
T_mult=1, 
eta_min=0,
last_epoch=- 1, 
verbose=False)

T_0:第一个周期的长度,后续的长度基于T0和T_mult调整

T_mult:控制后续周期的长度,例如设置为2,那则第二个周期长度会是第一个周期的2倍,第三个周期的长度会是第二个周期的2倍,设置为1则每个周期一样长。

eta_min:这是学习率的最小值。在每个周期中,学习率会从 eta_max(初始学习率)衰减到 eta_min,然后在每个周期结束时重新回升到初始学习率。
verbose:如果设置为 True,则每次学习率重启时,调度器会输出日志信息,显示学习率调整的情况。例如,输出每次重启时的学习率和当前的训练状态。

线性衰减 Linear Decay

在线性衰减中,学习率随着训练的进展而线性地减小。学习率的减少是均匀的,每个时间步减少固定的量,直到达到预定的最小值

torch.optim.lr_scheduler.LinearLR(
optimizer,
start_factor=1,
end_factor=0.1,
total_iters=80)

LinearLR是线性学习率,给定起始factor和最终的factor,LinearLR会在中间阶段做线性插值,比如学习率为0.1,起始factor为1,最终的factor为0.1,那么第0次迭代,学习率将为0.1,最终轮学习率为0.01。下面设置的总轮数total_iters为80,所以超过80时,学习率恒为0.01。

指数衰减 Exponential Decay

学习率初期迅速下降,适合早期跳出局部最优,但可能导致后期过早收敛,适合大规模训练任务或对收敛速度有要求的情况。

torch.optim.lr_scheduler.ExponentialLR(
optimizer,
gamma=0.9)

ExponentialLR是指数型下降的学习率调节器,每一轮会将学习率乘以gamma,所以这里千万注意gamma不要设置的太小,不然几轮之后学习率就会降到0。

可视化

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/73330.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaCV

调用摄像头 public class Camera {public static void main(String[] args) throws FrameGrabber.Exception {// 开启抓取器OpenCVFrameGrabber grabber new OpenCVFrameGrabber(0);grabber.start();// 开启窗口CanvasFrame canvasFrame new CanvasFrame("OpenCV Frame…

凝思linux修改mac地址

临时性修改 /sbin/ifconfig eth0 hw ether 00:0C:29:36:97:20

前端UI编程基础知识:基础三要素(结构→表现→行为)

以下是重新梳理的前端UI编程基础知识体系&#xff0c;结合最新技术趋势与实战要点&#xff0c;以更适合快速掌握的逻辑结构呈现&#xff1a; 一、基础三要素&#xff08;结构→表现→行为&#xff09; 1. HTML5 核心能力 • 语义化标签&#xff1a;<header>, <nav&g…

面试题:实现学生管理系统

这是我在以前面试中遇到的一个问题&#xff0c; 面试官说&#xff1a;你能现场实现一个学生管理系统吗&#xff0c;实现对学生的增删查改这4个功能 当时写了半天没写出来.....&#xff0c;所以我在这里记录一下 10分钟实现学生管理系统并实现 增删查改 功能 #include <iostr…

大语言模型基础—语言模型的发展历程--task1

目录 1.语言模型的发展历程 1.1 统计语言模型 1.2 神经语言模型 1.3 预训练语言模型 1.4 大语言模型 1.5 总结 1.6 各阶段对比与演进逻辑 1.语言模型的发展历程 语言模型的发展历程经历了四个主要阶段&#xff1a;统计语言模型、神经语言模型、预训练语言模型和大语言模…

BIG_EVENT

环境准备: 开发: 跨域问题: 只有浏览器才存在跨域问题, 此时浏览器的地址和前端服务一致,所以不存在跨域问题, 但是当浏览器中的js代码需要向8080发送请求时就会由于存在跨域问题而失败. 简单的说前端和浏览器的地址端口是一致的,浏览器只能向前端服务发送请求, 所以可以使用配…

DAY33 贪心算法Ⅱ

122. 买卖股票的最佳时机 II - 力扣&#xff08;LeetCode&#xff09; 想到把整体利润分解为每天的利润&#xff0c;就豁然开朗了。 class Solution { public:int maxProfit(vector<int>& prices) {int result0;for(int i1;i<prices.size();i){resultmax(0,pric…

【Qt】qApp简单介绍

1. 介绍 在Qt中&#xff0c;qApp是一个全局指针&#xff0c;它指向当前的QApplication或QGuiApplication对象。这个全局指针在Qt应用程序中非常有用&#xff0c;因为它可以让你在任何地方访问到应用程序对象。 在C中&#xff0c;全局指针是一个可以在程序的任何地方访问的指针…

Redis 设置密码无效问题解决

一、验证密码有没有生效 运行cmd&#xff0c;cd到redis的目录下 输入“redis-cli.exe” 回车 输入“auth 123456” 回车 若错误&#xff0c;说明没有设置密码或者设置的密码没有生效 输入“exit” 回车就立即退出redis 二、解决方案是&#xff1a;直接修改后缀是 .conf 的…

手写一些常见算法

手写一些常见算法 快速排序归并排序Dijkstra自定义排序交替打印0和1冒泡排序插入排序堆排序 快速排序 public class Main {public static void main(String[] args) {int nums[] {1,3,2,5,4,6,8,7,9};quickSort(nums,0,nums.length - 1);}private static void quickSort(int[…

VBA即用型代码手册:选择、转到Select、 Go To

我给VBA下的定义&#xff1a;VBA是个人小型自动化处理的有效工具。可以大大提高自己的劳动效率&#xff0c;而且可以提高数据的准确性。我这里专注VBA,将我多年的经验汇集在VBA系列九套教程中。 作为我的学员要利用我的积木编程思想&#xff0c;积木编程最重要的是积木如何搭建…

[CISSP] [1] 访问控制//入侵检测与网络防护

访问控制 检测性访问控制&#xff08;Detective Access Control&#xff09; 作用&#xff1a;用于发现和记录未经授权的活动。方式&#xff1a;这类控制本身不直接阻止攻击或违规行为&#xff0c;而是监测、检测并记录这些事件&#xff0c;以便后续调查或响应。例子&#xff1…

【SpringBoot】MD5加盐算法的详解

目录 一、什么是加盐算法 二、如何实现加盐算法 2.1 加盐算法代码实现 2.2 注册页面中进行密码加盐 2.3 登录页面进行加盐的解密 2.4 注册和登录 一、什么是加盐算法 加盐算法是一种用于增强密码安全性的技术。这种技术通过在密码存储过程中添加一个随机生成的盐值&…

uniapp移动端图片比较器组件,仿英伟达官网rtx光追图片比较器功能

组件下载地址&#xff1a;https://ext.dcloud.net.cn/plugin?id22609 已测试h5和微信小程序&#xff0c;理论支持全平台 亮点&#xff1a; 简单易用 使用js计算而不是resize属性&#xff0c;定制化程度更高 组件挂在后可播放指示线动画&#xff0c;提示用户可以拖拽比较图片…

CI/CD—Jenkins实现自动构建Docker镜像运行Java程序

实现原理 1、Java代码中创建一个dockerfile文件 --> 2、代码上传至GitLab --> 3、Jenkins同步GitLab的代码进行构建生成jar --> 4、Jenkins将jar包和dockerfile文件传到测试服务器上 --> 5、在测试服务器上执行dockerfile构建jar镜像 --> 6、镜像构建完运行容器…

docker 搭建alpine下nginx1.26/mysql8.0/php7.4环境

docker 搭建alpine下nginx1.26/mysql8.0/php7.4环境 docker-compose.yml services:mysql-8.0:container_name: mysql-8.0image: mysql:8.0restart: always#ports:#- "3306:3306"volumes:- ./etc/mysql/conf.d/mysql.cnf:/etc/mysql/conf.d/mysql.cnf:ro- ./var/log…

队列的简单例题

题目如下 模拟队列 首先你要明白队列的话 只有队尾才能进行新增&#xff0c;也就是入队 只有队首才能出队&#xff0c;也就是删除 队首队尾指针一开始默认都是0 相当于队列中一开始是有一个元素的就是 0的位置 队首指针head0 队尾指针tail0 1.入队也就是队尾要先赋值&#xf…

vue3+elementuiplus的table表格动态高度

table表格流体高度 1、前提 了解自定义指令、hooks 2、核心思路 通过自定义指令&#xff08;new ResizeObserver&#xff09;监听表格变化&#xff0c;然后通过hooks去更新表格高度。 3、核心代码 src/directives/resize.ts // import { debounce } from /utils;import { t…

Apache POI详解

目录 前言 Apache POI是一个强大的Java库&#xff0c;广泛用于处理Microsoft Office文档&#xff0c;包括Word、Excel和PowerPoint等。本文将详细介绍如何使用Apache POI库操作Word模板&#xff08;包括替换占位符、操作表格&#xff09;、将Word文档转换为PDF&#xff0c;以及…

AutoGen多角色、多用户、多智能体对话系统

2023-03-11-AutoGen 使用【autoGenchainlitdeepSeek】实现【多角色、多用户、多智能体对话系统】 1-核心思路 01&#xff09;技术要点&#xff1a;autoGenchainlitdeepSeek02&#xff09;什么是autoGen->autogen是微软旗下的多智能体的框架03&#xff09;什么是chainlit-&g…