网站建设管理员角色设置wordpress链接微信
网站建设管理员角色设置,wordpress链接微信,手机怎样用网站做成软件,html网站设计实例代码注#xff1a;本文为《动手学深度学习》开源内容#xff0c;部分标注了个人理解#xff0c;仅为个人学习记录#xff0c;无抄袭搬运意图 7.7 AdaDelta算法
除了RMSProp算法以外#xff0c;另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的… 注本文为《动手学深度学习》开源内容部分标注了个人理解仅为个人学习记录无抄袭搬运意图 7.7 AdaDelta算法
除了RMSProp算法以外另一个常用优化算法AdaDelta算法也针对AdaGrad算法在迭代后期可能较难找到有用解的问题做了改进 [1]。有意思的是AdaDelta算法没有学习率这一超参数。
Adadelta是一种自适应学习率的方法用于神经网络的训练过程中。 它的基本思想是避免使用手动调整学习率的方法来控制训练过程而是自动调整学习率使得训练过程更加顺畅。
7.7.1 算法
AdaDelta算法也像RMSProp算法一样使用了小批量随机梯度 g t \boldsymbol{g}_t gt按元素平方的指数加权移动平均变量 s t \boldsymbol{s}_t st。在时间步0它的所有元素被初始化为0。给定超参数 0 ≤ ρ 1 0 \leq \rho 1 0≤ρ1对应RMSProp算法中的 γ \gamma γ在时间步 t 0 t0 t0同RMSProp算法一样计算 s t ← ρ s t − 1 ( 1 − ρ ) g t ⊙ g t . \boldsymbol{s}_t \leftarrow \rho \boldsymbol{s}_{t-1} (1 - \rho) \boldsymbol{g}_t \odot \boldsymbol{g}_t. st←ρst−1(1−ρ)gt⊙gt.
与RMSProp算法不同的是AdaDelta算法还维护一个额外的状态变量 Δ x t \Delta\boldsymbol{x}_t Δxt其元素同样在时间步0时被初始化为0。我们使用 Δ x t − 1 \Delta\boldsymbol{x}_{t-1} Δxt−1来计算自变量的变化量 g t ′ ← Δ x t − 1 ϵ s t ϵ ⊙ g t , \boldsymbol{g}_t \leftarrow \sqrt{\frac{\Delta\boldsymbol{x}_{t-1} \epsilon}{\boldsymbol{s}_t \epsilon}} \odot \boldsymbol{g}_t, gt′←stϵΔxt−1ϵ ⊙gt,
其中 ϵ \epsilon ϵ是为了维持数值稳定性而添加的常数如 1 0 − 5 10^{-5} 10−5。接着更新自变量 x t ← x t − 1 − g t ′ . \boldsymbol{x}_t \leftarrow \boldsymbol{x}_{t-1} - \boldsymbol{g}_t. xt←xt−1−gt′.
最后我们使用 Δ x t \Delta\boldsymbol{x}_t Δxt来记录自变量变化量 g t ′ \boldsymbol{g}_t gt′按元素平方的指数加权移动平均 Δ x t ← ρ Δ x t − 1 ( 1 − ρ ) g t ′ ⊙ g t ′ . \Delta\boldsymbol{x}_t \leftarrow \rho \Delta\boldsymbol{x}_{t-1} (1 - \rho) \boldsymbol{g}_t \odot \boldsymbol{g}_t. Δxt←ρΔxt−1(1−ρ)gt′⊙gt′.
可以看到如不考虑 ϵ \epsilon ϵ的影响AdaDelta算法跟RMSProp算法的不同之处在于使用 Δ x t − 1 \sqrt{\Delta\boldsymbol{x}_{t-1}} Δxt−1 来替代学习率 η \eta η。
7.7.2 从零开始实现
AdaDelta算法需要对每个自变量维护两个状态变量即 s t \boldsymbol{s}_t st和 Δ x t \Delta\boldsymbol{x}_t Δxt。我们按AdaDelta算法中的公式实现该算法。
%matplotlib inline
import torch
import sys
sys.path.append(..)
import d2lzh_pytorch as d2lfeatures, labels d2l.get_data_ch7()def init_adadelta_states():s_w, s_b torch.zeros((features.shape[1], 1), dtypetorch.float32), torch.zeros(1, dtypetorch.float32)delta_w, delta_b torch.zeros((features.shape[1], 1), dtypetorch.float32), torch.zeros(1, dtypetorch.float32)return ((s_w, delta_w), (s_b, delta_b))def adadelta(params, states, hyperparams):rho, eps hyperparams[rho], 1e-5for p, (s, delta) in zip(params, states):s[:] rho * s (1 - rho) * (p.grad.data**2)g p.grad.data * torch.sqrt((delta eps) / (s eps))p.data - gdelta[:] rho * delta (1 - rho) * g * g使用超参数 ρ 0.9 \rho0.9 ρ0.9来训练模型。
d2l.train_ch7(adadelta, init_adadelta_states(), {rho: 0.9}, features, labels)输出
loss: 0.243728, 0.062991 sec per epoch7.7.3 简洁实现
通过名称为Adadelta的优化器方法我们便可使用PyTorch提供的AdaDelta算法。它的超参数可以通过rho来指定。
d2l.train_pytorch_ch7(torch.optim.Adadelta, {rho: 0.9}, features, labels)输出
loss: 0.242104, 0.047702 sec per epoch小结
AdaDelta算法没有学习率超参数它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。
参考文献
[1] Zeiler, M. D. (2012). ADADELTA: an adaptive learning rate method. arXiv preprint arXiv:1212.5701. 注除代码外本节与原书此节基本相同原书传送门
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/86781.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!