网站建设市场分析做电力 公司网站

web/2025/9/28 2:43:58/文章来源:
网站建设市场分析,做电力 公司网站,老公的姐姐一直用我们的手机号码,thinkphp网站开发实例教程学习需要#xff0c;总结一些常用优化器。 目录 前言SGD#xff1a;随机梯度下降BGD#xff1a;批量梯度下降MBGD#xff1a;小批量梯度下降MomentumAdaGradRMSpropAdam: Adaptive Moment EstimationAdamW参考文章 前言 优化器的本质是使用不同的策略进行参数更新。常用的…学习需要总结一些常用优化器。 目录 前言SGD随机梯度下降BGD批量梯度下降MBGD小批量梯度下降MomentumAdaGradRMSpropAdam: Adaptive Moment EstimationAdamW参考文章 前言 优化器的本质是使用不同的策略进行参数更新。常用的方法就是梯度下降那梯度下降是指在给定待优化的模型参数 θ ∈ R d \theta \in R^d θ∈Rd和目标函数 J ( θ ) J(\theta) J(θ)算法通过沿梯度 ∇ J ( θ ) \nabla J(\theta) ∇J(θ)的反方向更新权重 θ \theta θ来最小化目标函数。 学习率 μ \mu μ决定了每一时刻的更新步长。对于每一个时刻 t 我们可以用下述公式描述梯度下降的流程 θ t 1 θ t − μ ∇ J ( θ ) \theta_{t1} \theta_{t} - \mu \nabla J(\theta) θt1​θt​−μ∇J(θ) 梯度下降法目前主要分为三种方法区别在于每次参数更新时计算的样本数据量不同批量梯度下降法(BGD, Batch Gradient Descent)随机梯度下降法(SGD, Stochastic Gradient Descent)及小批量梯度下降法(Mini-batch Gradient Descent)。 SGD随机梯度下降 随机梯度下降是指在一个批次的训练样本中我随机挑选一个样本计算其关于目标函数的梯度然后用此梯度进行梯度下降。 设选择的样本为 ( x i , y i ) (x^i,y^i) (xi,yi)首先计算其梯度 ∇ J ( θ , x i , y i ) \nabla J(\theta,x^i,y^i) ∇J(θ,xi,yi)然后进行权值更新 θ t 1 θ t − μ ∇ J ( θ , x i , y i ) \theta_{t1} \theta_{t} - \mu \nabla J(\theta,x^i,y^i) θt1​θt​−μ∇J(θ,xi,yi) SGD的优点是实现简单、效率高缺点是收敛速度慢、容易陷入局部最小值迭代次数多 BGD批量梯度下降 与SGD对应的BGD是对整个批次的训练样本都进行梯度计算。 设批样本为 { ( x 1 , y 1 ) , . . . , ( x n , y n ) } \{(x^1,y^1),..., (x^n,y^n)\} {(x1,y1),...,(xn,yn)}首先计算所有的样本梯度的平均值 1 n ∑ i 1 n ∇ J ( θ , x i , y i ) \frac{1}{n} \sum _{i1} ^{n} \nabla J(\theta,x^i,y^i) n1​∑i1n​∇J(θ,xi,yi)然后进行梯度更新: θ t 1 θ t − μ 1 n ∑ i 1 n ∇ J ( θ , x i , y i ) \theta_{t1} \theta_{t} - \mu \frac{1}{n} \sum _{i1} ^{n} \nabla J(\theta,x^i,y^i) θt1​θt​−μn1​i1∑n​∇J(θ,xi,yi) BGD得到的是一个全局最优解但是每迭代一步都要用到训练集的所有数据如果样本数巨大大那上述公式迭代起来则非常耗时模型训练速度很慢迭代次数少 MBGD小批量梯度下降 是BGD和SGD的折中从训练样本中选取一小批样本进行梯度计算然后更新梯度 θ t 1 θ t − μ 1 b ∑ i 1 b ∇ J ( θ , x i , y i ) \theta_{t1} \theta_{t} - \mu \frac{1}{b} \sum _{i1} ^{b} \nabla J(\theta,x^i,y^i) θt1​θt​−μb1​i1∑b​∇J(θ,xi,yi) Momentum 指数加权移动平均是一种常用的序列数据处理方式用于描述数值的变化趋势本质上是一种近似求平均的方法。计算公式如下 v t β v t − 1 ( 1 − β ) θ t ​​ v_tβv _{t−1}(1−β)θ_t​​ vt​βvt−1​(1−β)θt​​​ v t v_t vt​ 表示第t个数的估计值 β \beta β为一个可调参数能表示 v t − 1 v_{t-1} vt−1​ 的权重 θ t \theta_t θt​ 表示第t个数的实际值 Momentum就是在普通的梯度下降法中引入指数加权移动平均即定义一个动量它是梯度的指数加权移动平均值然后使用该值代替原来的梯度方向来更新。定义的动量为 v t β v t − 1 ( 1 − β ) ∇ θ J ( θ t ) v_tβv _{t−1}(1−β)\nabla_{ \theta} J(\theta_t) vt​βvt−1​(1−β)∇θ​J(θt​) 因此梯度下降表达式为 θ t 1 θ t − η v t \theta_{t1}\theta_{t} - η v_t θt1​θt​−ηvt​ 普通的随机梯度下降法中由于无法计算损失函数的确切导数嘈杂的数据会使下降过程并不朝着最佳方向前进使用加权平均能对嘈杂数据进行一定的屏蔽使前进方向更接近实际梯度。此外随机梯度下降法在局部极小值极有可能被困住但Momentum由于下降方向由最近的一些数共同决定能在一定程度反应总体的最佳下降方向所以被困在局部最优解的可能会减小。 AdaGrad Adagrad是对学习率进行了一个约束对于经常更新的参数由于已经积累了大量关于它的知识不希望被单个样本影响太大所以希望学习速率慢一些对于偶尔更新的参数由于了解的信息太少希望能从每个偶然出现的样本身上多学一些即需要学习率大一些。 该方法开始使用二阶动量才意味着“自适应学习率”优化算法时代的到来。二阶动量是用来度量历史更新频率的即迄今为止所有梯度值的平方和。二阶动量越大学习率就越小这一方法在稀疏数据场景下表现非常好。 v t ∑ i 1 n g t 2 v_{t} \sum _{i1} ^{n} g^2_t vt​i1∑n​gt2​ θ t 1 θ t − η v t ϵ \theta_{t1}\theta_{t} - \frac{η}{\sqrt{v_t \epsilon}} θt1​θt​−vt​ϵ ​η​ 缺点 仍需要手工设置一个全局学习率 , 如果 设置过大的话会使regularizer过于敏感对梯度的调节太大 中后期分母上梯度累加的平方和会越来越大使得参数更新量趋近于0使得训练提前结束无法学习 RMSprop RMSProp算法修改了AdaGrad的梯度平方和累加为指数加权的移动平均还将学习速率除以平方梯度的指数衰减平均值使得其在非凸设定下效果更好。设定参数全局初始率η默认设为0.001decay rate β \beta β默认设置为0.9一个极小的常量 通常为10e-6。E是取期望的意思。 E [ g 2 ] t β E [ g 2 ] t ( 1 − β 1 ) g t 2 E[g^2]_t \beta E[g^2]_t(1-\beta _{1})g^2_{t} E[g2]t​βE[g2]t​(1−β1​)gt2​ θ t 1 θ t − η E [ g 2 ] t ϵ g t \theta_{t1}\theta_{t} - \frac{η}{\sqrt{E[g^2]_t} \epsilon}g_t θt1​θt​−E[g2]t​ ​ϵη​gt​ Adam: Adaptive Moment Estimation 对AdaGrad的优化一种通过计算模型参数的梯度以及梯度平方的加权平均值一阶动量和二阶动量来调整模型的参数。 g t ∇ θ J ( θ t ) g_t \nabla_{ \theta} J(\theta_t) gt​∇θ​J(θt​) m t β 1 m t − 1 ( 1 − β 1 ) g t m_t \beta _{ 1}m_{t-1} (1-\beta _{1})g_{t} mt​β1​mt−1​(1−β1​)gt​ v t β 2 v t − 1 ( 1 − β 2 ) g t 2 v_t \beta _{2}v_{t-1} (1-\beta _{2})g^2_{t} vt​β2​vt−1​(1−β2​)gt2​ m t ^ m t 1 − β 1 t \hat{m_t}\frac{m_t}{1-\beta^t_{1}} mt​^​1−β1t​mt​​ v t ^ v t 1 − β 2 t \hat{v_t}\frac{v_t}{1-\beta^t_{2}} vt​^​1−β2t​vt​​ θ t 1 θ t − η v t ^ ϵ m t ^ \theta_{t1}\theta_{t} - \frac{η}{\sqrt{\hat{v_t}} \epsilon}\hat{m_t} θt1​θt​−vt​^​ ​ϵη​mt​^​ 其中各个变量含义如下 g t g_t gt​模型参数在第t次迭代时的梯度 m t 和 v t m_t和v_t mt​和vt​模型参数在第t次迭代时的一阶动量和二阶动量 β 1 和 β 2 \beta _{1}和\beta _{2} β1​和β2​超参数默认是0.9和0.999 β 1 t 和 β 2 t \beta _{1}^{t}和\beta _{2}^{t} β1t​和β2t​ β 1 \beta _{1} β1​和 β 2 \beta _{2} β2​的t次方。 m t ^ \hat{m_t} mt​^​和 v t ^ \hat{v_t} vt​^​ t是梯度的偏差纠正后的移动平均值 Adam优化器的主要优点是它能够自适应地调整每个参数的学习率从而提高模型的收敛速度和泛化能力。 AdamW Adam 虽然收敛速度快但没能解决参数过拟合的问题。学术界讨论了诸多方案其中包括在损失函数中引入参数的 L2 正则项。这样的方法在其他的优化器中或许有效但会因为 Adam 中自适应学习率的存在而对使用 Adam 优化器的模型失效因为正则项同时存在于adam的分子和分母参考adam的公式这样正则就抵消了。AdamW就是在AdamL2正则化的基础上进行改进的算法。 以往的L2正则是直接加在损失函数上比如加入正则损失函数变化如下 L l 2 ( θ ) L ( θ ) 1 2 λ ∣ ∣ θ ∣ ∣ 2 L_{l_2}(\theta)L(\theta) \frac{1}{2}λ||\theta||^2 Ll2​​(θ)L(θ)21​λ∣∣θ∣∣2 图片中红色是上述的AdamL2 regularization的方式绿色就是adamw即Adam weight decay的方式。 为什么这么做bert给出的解释是 参考文章 [1] 梯度下降优化算法Momentum [2]多种梯度下降优化算法总结分析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/83100.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站开发设计流程深圳市住建局官网

1、Kafka是何如做到高性能的? a、消息批处理减少网络通信开销,提升系统吞吐能力(先攒一波,消息以“批”为单位进行处理) 生产端:无论是同步发送还是异步发送,Kafka都不会立即就把这条消息发送出…

加强网站建设说明报告范文Wordpress二次开发多少钱

目录 前言 一、问题的出现? 二、一体化架构中的慢请求排查如何做 三、分布式 Trace原理 四、如何来做分布式 Trace 前言 在分布式服务架构下,一个 Web 请求从网关流入,有可能会调用多个服务对请求进行处理,拿到最终结果。这个…

闸北做网站网页代理app

1.随意创建一个类,他都有UCLASS()。GENERATED_BODY()这样的默认的宏。 UCLASS() 告知虚幻引擎生成类的反射数据。类必须派生自UObject. (告诉引擎我是从远古大帝UObject中,继承而来,我们是一家人,只是我进化了其他功能…

有什么软件可以做网站国内室内设计师

Midjourney介绍 Midjourney 是生成式人工智能的一个很好的例子,它根据文本提示创建图像。它与 Dall-E 和 Stable Diffusion 一起成为最流行的 AI 艺术创作工具之一。与竞争对手不同,Midjourney 是自筹资金且闭源的,因此确切了解其幕后内容尚不…

专业网站运营托管网站ui设计例子

你想要实现一个JavaScript函数,用于根据时间段过滤搜索结果吗?可以尝试以下的示例代码: // 假设这是你的数据 const data [{ id: 1, name: Alice, timestamp: 1622382000000 }, // 2021-05-30 12:00:00 UTC{ id: 2, name: Bob, timestamp: …

中国建设银行深圳分行网站网站的投票 计数模块怎么做

UE发起计算服务申请后,网络侧处理的流程 UE发起服务的流程:service request网络侧处理服务涉及的通信数据通过PDU Session进行传输,涉及到SMF与UPF的交互。PDU Session的建立、管理全部由SMF(Session Management Function&#x…

普宁市做网站php 如何在网站根目录创建文件夹

我国有着众多的电商,这些电商为了促进消费总是想出千奇百怪的营销节日,比如年中大促、双十一、双十二、年终大促,在今年更是多出了6.18促销、双十萌节,还有一个慢慢火起来的“黑五”。“黑五”与之前提到的众多营销节日有所不同&a…

网站商城开发一个多少钱阳江做网站seo

主机是sunshine,客机是moonlight,一个太阳一个月光,两者真是太配啦! 下载sunshine sunshine是服务器端,去以下GitHub链接下载windows端的解压缩即用版 https://github.com/LizardByte/Sunshine/releases下载完毕解压…

网站制作宣传成都3d效果图制作公司

linux chown 命令详解 一、更改文件或目录的所有者和/或所属组二、更改用户权限三、chown与chmod的区别 一、更改文件或目录的所有者和/或所属组 它的基本语法如下: chown [选项]... [所有者][:[所属组]] 文件...其中,选项可以是-R(递归更改…

网站推广哪个好wordpress安装插件无法创建目录

本文收录于《Scratch等级认证CCF-GESP图形化真题解析》专栏,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 一、单选题(共 10 题,每题 2 分,共 30 分) 第1题 小杨父母带他到某培训机构给他报名参加 CCF 组织的 GESP 认证考试的第 1 级,那他可以选择的认证语言有几…

新手怎么学习网站建设wordpress 设置版权信息

文章目录 常用图像增强技术调整大小灰度变换标准化随机旋转中心剪切随机裁剪高斯模糊亮度、对比度和饱和度调节水平翻转垂直翻转高斯噪声随机块中心区域 常用图像增强技术 图像增强技术是常用于数据增强的方法,可以帮助增加数据集中图像的多样性,提高深…

新乡网站开发的公司电话家在深圳 歌曲

简介: DevOps追求更短的迭代周期、更高频的发布。但发布的次数越多,引入故障的可能性就越大。更多的故障将会降低服务的可用性,进而影响到客户体验。所以,为了保证服务质量,守好发布这个最后一道关,阿里逐步…

胶州网站设计公司wordpress 默认缩略图

问题:创建字符串枚举的最好方法 用一个枚举类型去表示一组字符串的最好方法是什么 我尝试这样: enum Strings{STRING_ONE("ONE"), STRING_TWO("TWO") }我怎么样才可以像使用字符串那样使用它们? 回答一 我不知道你想…

青岛网站制作公司哪家正规做羞羞事免费网站

看到“统计学”,你首先想到什么?是让人眼花缭乱的表格,还是各种晦涩难懂的术语?其实,统计学并不遥远,从日常生活到科学研究,到处都有它的踪影;统计学也并不枯燥,在本片中…

高陵县建设局网站泰安网站建设定制公司

​ 面向对象编程 笔记Notes 面向对象三条学习主线 面向过程 VS 面向对象 类和对象 创建对象例子 面向对象的内存分析 类的属性:成员变量 成员变量 VS 局部变量 类的方法 方法的重载 可变个数形参 面向对象:封装性 访问权限修饰符 构造方法&…

学校网站建设所使用的技术男的女的做那个视频网站

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:如果某个表有近千万数据,CRUD比较慢,如何优化? 当某个表存在近千万数据且CRUD(增删改查)操作比较慢时,可以考虑以下优化策略: 使用索引:索…

网站建设中服务器和空间区别企业邮箱官方网站

“Encrypt”属性设置为“true”且 “trustServerCertificate”属性设置为“false”,但驱动程序无法使用安全套接字层 (SSL) 加密与 SQL Server 建立安全连接:错误:PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable …

商城网站设计服务删除中文wordpress

宏打印函数 在我们的嵌入式开发中,使用printf打印一些信息是一种常用的调试手段。但是,在打印的信息量比较多的时候,就比较难知道哪些信息在哪个函数里进行打印。特别是对于异常情况的打印,我们需要快速定位到异常情况的位置。这时…

怎么找网站模板网站模糊背景

哈喽~我是电商月月 要说做抖音小店最主要的是什么?那当然是找品了 那出单最快的方法是什么?无疑是达人带货了! 但新手店铺没销量,没体验分,没好评怎么能让达人同意帮我们带货呢? 方法其实很简单&#x…

网站 logfiles网络专业有哪些

通过前面几个课时的学习,相信你对 JVM 的理论及实践等相关知识有了一个大体的印象。而本课时将重点讲解 JVM 的排查与优化,这样就会对 JVM 的知识点有一个完整的认识,从而可以更好地应用于实际工作或者面试了。 我们本课时的面试题是&#x…