深度学习调参新思路:Hyperband早停机制提升搜索效率

news/2025/9/24 7:05:47/文章来源:https://www.cnblogs.com/dBjZoQ833/p/19108472

Hyperband是机器学习中一个相当实用的超参数调优算法,核心思路是用逐次减半来分配计算资源。说白了就是让一堆配置先跑几轮,表现差的直接踢掉,剩下的继续训练更多轮次。

这个方法的巧妙之处在于平衡了探索和利用。你既要试足够多的配置组合(探索),又要给有潜力的配置足够的训练时间(利用)。传统方法要么试得不够多,要么每个都试要很久浪费时间。

本文我们来通过调优一个lstm来展示Hyperband的工作机制,并和贝叶斯优化、随机搜索、遗传算法做了对比。结果挺有意思的。

Hyperband的工作原理
Hyperband结合了多臂策略和逐次减半算法(SHA)。多臂问题其实就是在探索新选择和利用已知好选择之间做权衡。

SHA则是具体的资源分配策略如下:给随机采样的配置分配固定预算(比如训练轮数),每轮评估后踢掉表现最差的,把剩余预算分给剩下的。Hyperband更进一步,用不同的初始预算跑多次SHA,这样既能快速筛选,又不会遗漏那些需要长时间训练才能显现优势的配置。

相比其他调优方法,Hyperband在处理大搜索空间时速度和效率优势明显。

下图展示了Hyperband如何逐步给获胜配置(#4)分配更多资源,虽然最开始的预算分配是随机的:

Hyperband工作流程

整个过程从Bracket 1开始,创建很多超参数配置,每个分配少量预算。然后逐步减少配置数量,同时增加幸存者的预算。到了Bracket 2,只给Bracket 1的幸存者(配置#1和#4)更多预算。最终在Bracket 3把全部预算给最优配置#4。

这种做法能有效探索广泛配置范围,同时快速淘汰表现差的,在探索和利用间找到平衡。

算法的四个关键步骤
定义预算和减半因子
首先要定义最大资源预算R(单个模型能训练的总轮数)和减半因子η(决定淘汰激进程度的预设因子)。减半因子常用2、3或4。每步都用η来减少配置数量,用η来增加幸存者预算。

计算Bracket数量
算法跑一系列bracket,每个bracket是用不同起始预算的完整SHA运行。最大bracket索引s_max的计算公式是:

其中η是减半因子,R是最大资源预算。算法从s_max个bracket迭代到零。

运行逐次减半
对每个bracket s,Hyperband确定起始的超参数配置数量n_s。有意思的是,初始预算小的bracket配置数量大,初始预算大的bracket配置数量小。

配置数量的数学定义:

其中n_s是当前bracket要评估的配置数量,R是最大资源预算,η是减半因子,s_max是最大bracket数,s是当前bracket索引。

每个bracket的初始预算r_s计算公式:

Hyperband先采样n_s个随机超参数配置,用初始预算r_s轮训练每个。然后根据性能选出前n_s/η个配置。这些"幸存者"继续训练更多轮,总共r_s⋅η轮。

这个减半候选数量、增加预算的过程持续进行,直到bracket中只剩一个配置或达到最大预算。

选择最终配置
所有bracket跑完后,选择表现最好的配置作为最终结果。Hyperband的效率就来自快速丢弃表现差的配置,把资源用来训练更有前景的配置。

演示:支持向量分类器
我们用SVC来演示具体工作过程,调优正则化参数C和核系数gamma。

搜索空间:C取[0.1, 1, 10, 100],gamma取['scale', 'auto', 0.1, 1, 10]

设置最大预算R = 81,减半因子η = 3。

最大bracket索引计算得出:

所以Hyperband会为s = 4, 3, 2, 1, 0运行bracket。每个bracket有不同的起始配置数量和初始预算:

Bracket 1 (s = 4):1个配置,初始预算9
Bracket 2 (s = 3):3个配置,初始预算3
Bracket 3 (s = 2):9个配置,初始预算1
Bracket 4 (s = 1):27个配置,初始预算1/3
Bracket 5 (s = 0):81个配置,初始预算1/9
以Bracket 3为例说明SHA过程:

初始运行时,Hyperband随机采样9个超参数配置,用1轮小预算训练每个,记录性能,保留前3个最佳配置丢弃其余6个。

第二轮,3个幸存者用3轮更大预算训练,保留前1个最佳配置。

最终轮,剩余配置用9轮最终预算训练,记录最终性能。

总预算R = 81就这样分布在各个bracket中,高效找到最佳配置。
更多案例:
github.com/yjndsrt/cn/issues/966
github.com/yjndsrt/cn/issues/965
github.com/yjndsrt/cn/issues/964
github.com/yjndsrt/cn/issues/963
github.com/yjndsrt/cn/issues/962
github.com/yjndsrt/cn/issues/961
github.com/yjndsrt/cn/issues/960
github.com/yjndsrt/cn/issues/959
github.com/yjndsrt/cn/issues/958
github.com/yjndsrt/cn/issues/957
github.com/yjndsrt/cn/issues/956
github.com/yjndsrt/cn/issues/955
github.com/yjndsrt/cn/issues/954
github.com/yjndsrt/cn/issues/953
github.com/yjndsrt/cn/issues/952
github.com/yjndsrt/cn/issues/951
github.com/yjndsrt/cn/issues/950
github.com/yjndsrt/cn/issues/949
github.com/yjndsrt/cn/issues/948
github.com/yjndsrt/cn/issues/947
github.com/yjndsrt/cn/issues/946
github.com/yjndsrt/cn/issues/945
github.com/yjndsrt/cn/issues/944
github.com/yjndsrt/cn/issues/943
github.com/yjndsrt/cn/issues/942
github.com/yjndsrt/cn/issues/941
github.com/yjndsrt/cn/issues/940
github.com/yjndsrt/cn/issues/939
github.com/yjndsrt/cn/issues/938
github.com/yjndsrt/cn/issues/937
github.com/yjndsrt/cn/issues/936
github.com/yjndsrt/cn/issues/935
github.com/yjndsrt/cn/issues/934
github.com/yjndsrt/cn/issues/933
github.com/yjndsrt/cn/issues/932
github.com/yjndsrt/cn/issues/931
github.com/yjndsrt/cn/issues/930
github.com/yjndsrt/cn/issues/929
github.com/yjndsrt/cn/issues/928
github.com/yjndsrt/cn/issues/927
github.com/yjndsrt/cn/issues/926
github.com/yjndsrt/cn/issues/925
github.com/yjndsrt/cn/issues/924
github.com/yjndsrt/cn/issues/923
github.com/yjndsrt/cn/issues/922
github.com/yjndsrt/cn/issues/921
github.com/yjndsrt/cn/issues/920
github.com/yjndsrt/cn/issues/919
github.com/yjndsrt/cn/issues/918
github.com/yjndsrt/cn/issues/917

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决推理能力瓶颈,用因果推理提升LLM智能决策

从ChatGPT到现在的智能体AI这个跨越说明了一个关键转变。ChatGPT本质上是个聊天机器人,生成文本回应;而AI智能体能够自主完成复杂任务——销售、旅行规划、航班预订、找装修师傅、点外卖,这些都在它的能力范围内。 …

昆明市网站制作公司网站一般多少钱一年

摘要: 准备工作 开通阿里云直播服务:阿里云直播服务接收直播流,并提供直播播放地址,完成一场直播需要先开通阿里云直播服务,在 直播官网详情页 中单击 立即开通 ,开通阿里云直播服务。 如您已经能够使用阿里…

做個app网站价格做舞美的好素材网站j

目录 一、目标二、计划三、完成情况1.宏观思维导图2.过程中的团队管理和其它方面的思考 四、意外之喜(最少2点)1.计划内的明确认知和思想的提升标志2.计划外的具体事情提升内容和标志 一、目标 通过参加考试,训练学习能力,而非单纯以拿证为目的。 1.在复…

网站建设中 windows运动网页设计

导出建库表索引等: [rootlnpg ~]# mysqldump -ugistar -pxxx -h192.168.207.143 --no-data -d lndb > lndb20230223-1.sql 只导出索引:参考:MYSQL导出现有库中的索引脚本_mysql 导出数据库所有表的主键和索引-CSDN博客 -- MYSQL导出现有…

高端手机网站 制作公司微信公众平台登录入口官网

Go基础之锁的初识 当我们的程序就一个线程的时候是不需要用到锁的,但是通常我们实际的代码不会是单个线程的,所有这个时候就需要用到锁了,那么关于锁的使用场景主要涉及到哪些呢? 当我们多个线程在读相同的数据的时候则是需要加锁…

自己做一元夺宝网站车之家汽车报价2022官网

Koa 和 Express 都会使用到中间件 Express的中间件是顺序执行,从第一个中间件执行到最后一个中间件,发出响应如上图 Koa是从第一个中间件开始执行,遇到 next 进入下一个中间件,一直执行到最后一个中间件,在逆序&#x…

如何做地方门户网站默认网站停止

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 从零开始学习数据结构与算法:Python实现 数据结构与算法是计算机科学中至关重要…

中国空间站距离地面多少公里中英文网站设计

1、将变量名作为实参和形参: 这时传给形参的是变量的值,传递是单向的。如果在执行函数期间形参的值发生变化,并不传回实参。应为在调用函数时,形参和实参不是同一个存储单元。 2、传递变量的指针: 形参是指针变量&a…

网站建设优化外包域名备案与网站不一致

位图缓存是专用RAM缓冲区,应用可将位图保存(或缓存)在其中。 如果缓存了位图,在绘制位图时,TouchGFX将自动使用RAM缓存作为像素来源。位图缓存在许多情况下十分有用。 从RAM读取数据通常比从闪存读取要快(特…

北京好网站制作公司哪家好网站排序

元旦准备买NDS,顺带关注了下PSP,其实是想,或许买PSP也不错~PSP很像一个平台,提供了很多东西,譬如官方的PS模拟器~在上面编程也是个不错的想法。国外的一个网站提供了很多信息,PS2Dev Network (http://www.p…

石家庄学做网站建设培训学校企业网站管理系统手机版教程

A.Wrong Answer(模拟) 题意: 给你两个整数 A A A和 B B B,它们介于 0 0 0和 9 9 9之间。 输出任何一个介于 0 0 0和 9 9 9之间且不等于 A B AB AB的整数。 分析: 按题意判断并输出一个整数即可。 代码&#xff…

建设银行网站服务功能网站制作的流程包括

在计算机视觉中,特别是在相机标定和立体视觉领域,内参(intrinsic parameters)和外参(extrinsic parameters)是非常重要的概念。它们与相机的几何属性和姿态有关。 内参(Intrinsic Parameters&am…

宝安区建设工程交易服务中心做网站优化的弊端

目录 一、本节介绍 1 上集回顾 2 本节介绍 二、原理分析 1 现实中出现彩色的原因 2 软件里的彩色的原理 3 方案 三、 实现数字由【-1,1】映射为【0,1】 1 结论 2 原理 四、代码实现 1 注意事项 2 详解结构体appdata_base 3 接收数据 4 映射数据 5 输出给SV_TAR…

天津市网站建设公司wordpress在哪里注册

1 事件概述 CAPL是一种面向过程、由事件驱动的类C语言。 事件驱动针对于顺序执行,其区别如下: 顺序执行:顺序执行流程中,子例程或过程函数按照代码编写顺序逐句执行。 事件驱动:CAPL程序由事件驱动,工程…

网站开发具体做什么的商贸有限公司名称大全

来源:本文经公众号「雷克世界」授权转载(微信号:ROBO_AI) 作者:DeepMind 编译:嗯~阿童木呀、多啦A亮 概要:在将强化学习(RL)扩展到复杂序列决策问题(sequen…

买网站不给我备案开发网站需要租服务器

我们提出了 Follow-Your-Emoji,这是一种基于扩散的肖像动画框架,它使用目标地标序列对参考肖像进行动画处理。肖像动画的主要挑战是保留参考肖像的身份并将目标表情转移到该肖像,同时保持时间一致性和保真度。为了应对这些挑战,Fo…

designer怎么做网站整合营销策划方案

知识改变命运,技术就是要分享,有问题随时联系,免费答疑,欢迎联系! 厦门微思网络​​​​​​ https://www.xmws.cn 华为认证\华为HCIA-Datacom\华为HCIP-Datacom\华为HCIE-Datacom Linux\RHCE\RHCE 9.0\RHCA\ Oracle O…

长沙营销网站建设公司共享会议室租赁平台

1、 根目录 .\\ 或者直接给出文件名称,是找根目录的路径。 如:path "gs.mdb" 与 path ".\\gs.mdb"是一个意思。 2、 根目录的上级目录, 在C#中是指定到bin文件夹里面 ..\\ 应用程序的根目录的上两级 3、指定到根目录上面的三级目录…

购物网站排名2017win7下asp网站搭建

目录 概述实践安装插件docker 在线安装containerd安装二进制安装yum安装修改containder配置文件 cnietcdrsyncgo设置golang代理 安装CFSSL下载kubernetes代码编译启动本地单节点集群问题k8s没有被正常启动该如何k8s正常启动日志测试 结束 概述 此文详细说明在 centos 7上编译 k…

全球中文网站排名天价索赔背后的平台版权对垒

一、介绍 在上篇文章中,我们介绍了 apache poi 工具实现 excel 文件的导入导出。 本篇我们继续深入介绍另一款优秀的 excel 工具库:easypoi。 二、easypoi 以前的以前,有个大佬程序员,跳到一家公司之后就和业务人员聊上了&…