网站的开发是使用什么技术网站域名怎么做
news/
2025/10/4 8:21:36/
文章来源:
网站的开发是使用什么技术,网站域名怎么做,网站建设比赛方案,app设计报价最常见的算法——梯度下降
当一个模型没有显示解的时候#xff0c;该怎么办呢#xff1f;
首先挑选一个参数的随机初始值#xff0c;可以随便在什么地方都没关系#xff0c;然后记为 w 0 \pmb{w_{0}} w0在接下来的时刻里面#xff0c;我们不断的去更新 w 0 \pmb{w_{0}…最常见的算法——梯度下降
当一个模型没有显示解的时候该怎么办呢
首先挑选一个参数的随机初始值可以随便在什么地方都没关系然后记为 w 0 \pmb{w_{0}} w0在接下来的时刻里面我们不断的去更新 w 0 \pmb{w_{0}} w0使得它接近我们的最优解
具体来说
挑选一个初始值 w 0 \pmb{w_{0}} w0重复迭代参数 t 1 2 3 t 123 t123 w t w t − 1 − η ∂ ℓ ∂ w t − 1 \pmb{w}_{t}\pmb{w}_{t-1}-\eta \frac{\partial \ell}{\partial \pmb{w}_{t-1}} wtwt−1−η∂wt−1∂ℓ η \eta η是一个标量学习率步长的超参数 ∂ ℓ ∂ w t − 1 \frac{\partial \ell}{\partial \pmb{w}_{t-1}} ∂wt−1∂ℓ是损失函数关于 w t − 1 \pmb{w_{t-1}} wt−1处的梯度。 梯度是使得函数的值增加最快的方向那么负梯度就是使得这个函数的值减少最快的方向。 学习率是指每次我沿着这个负梯度的方向走多远 直观的从图上来看这个类似一个地理中的等高线在同一条等高线上的函数值是相同的。 − η ∂ ℓ ∂ w t − 1 -\eta \frac{\partial \ell}{\partial \pmb{w}_{t-1}} −η∂wt−1∂ℓ表示的是由 w 0 \pmb{w_{0}} w0到 w 1 \pmb{w_{1}} w1的这条向量或者是由 w 1 \pmb{w_{1}} w1到 w 2 \pmb{w_{2}} w2的这条向量。把 w 0 \pmb{w_{0}} w0和这个向量一加就会到 w 1 \pmb{w_{1}} w1的位置。
学习率是指的步长是我们人为选定的超参数。不能选的太小也不能选的太大。
选的太小每一次走的步长很有限我们到达一个点需要走很多步这不是一个很好的事情。计算梯度是一件很贵的事情是整个模型训练中最贵的部分所以我们要尽可能的少去计算梯度。选的太大一下子步子迈得太大会使得我们一直在震荡并没有在严格下降。 更常见的算法——小批量随机梯度下降 在整个训练集上算梯度太贵了 一个深度神经网络模型可能需要数分钟至数小时 我们可以随机采样 b b b个样本 i 1 , i 2 , . . . , i b i_{1},i_{2},...,i_{b} i1,i2,...,ib来近似损失用 b b b个样本的平均损失来近似所有 n n n个样本的平均损失 1 b ∑ i ∈ I b ℓ ( x i , y i , w ) \frac{1}{b}\sum_{i\in I_{b}}\ell(\pmb{x}_{i},y_{i},\pmb{w}) b1i∈Ib∑ℓ(xi,yi,w) b b b是批量大小另一个重要的超参数。 当 b b b很大的时候近似很精确当 b b b很小的时候近似不那么精确但是计算它的梯度很容易梯度计算的复杂度与样本的个数线性相关。 批量不能太小每次计算量太小不适合并行来最大化利用计算资源深度学习模型会用GPU来计算但批量太小不能有效利用GPU并行计算 批量不能太大内存消耗增加浪费计算例如如果所有的样本都是相同的 总结
梯度下降通过不断沿着反梯度方向更新参数求解小批量随机梯度下降是深度学习默认的求解算法两个重要的超参数是批量大小和学习率
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926924.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!