吴恩达深度学习课程二: 改善深层神经网络 第二周:优化算法(四)RMSprop

news/2025/11/11 13:13:42/文章来源:https://www.cnblogs.com/Goblinscholar/p/19209820

此分类用于记录吴恩达深度学习课程的学习笔记。
课程相关信息链接如下:

  1. 原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai
  2. github课程资料,含课件与笔记:吴恩达深度学习教学资料
  3. 课程配套练习(中英)与答案:吴恩达深度学习课后习题与答案

本篇为第二课的第二周内容,2.7的内容。


本周为第二课的第二周内容,和题目一样,本周的重点是优化算法,即如何更好,更高效地更新参数帮助拟合的算法,还是离不开那句话:优化的本质是数学
因此,在理解上,本周的难道要相对较高一些,公式的出现也会更加频繁。
当然,我仍会补充一些更基础的内容来让理解的过程更丝滑一些。
本篇的内容关于RMSprop,同样是应用了指数加权平均逻辑的一种优化算法。

1. RMSprop 算法

在上一部分中,我们通过 Momentum 解决了“方向震荡”的问题:

它利用 EMA 平滑梯度的方向,让模型在主方向上走得更快,在乱方向上走得更稳。

但这时,其实还有一个问题没解决:
不同参数的梯度幅度差异巨大,导致统一学习率无法同时适应所有参数。
这句话是什么意思?我们开始展开阐述:

1.1 参数间的梯度差异现象

在训练神经网络时,我们希望通过梯度下降不断更新参数:

\[W := W - \alpha \cdot \frac{\partial L}{\partial W} \]

但实际运行中会存在一种很难发现的问题,因为它并不明显,而是隐藏在传播内部:
不同参数的梯度幅度差异巨大,导致统一学习率无法同时适应所有参数。
造成这种现象的原因大致有以下几类:

  • 不同输入特征的“数值范围”不同。
  • 接近输入的梯度更容易变小。
  • 偏置与权重的梯度规模天然不同。
    我们用几个实例来理解一下这种现象:

(1)输入特征的数值范围差异造成梯度差异

我们来看一组线性组合:

\[y = W_1 x_1 + W_2 x_2 \]

现在假设:

  • \(x_1\) 的范围是 1~10
  • \(x_2\) 的范围只有 0.0001~0.001
    我们知道:

\[\frac{\partial L}{\partial W} \propto x (权重的梯度和输入成正相关) \]

也就是说,量级较小的输入一定会得到量级较小的梯度。
因此就可能得到以下梯度:

\[\frac{\partial L}{\partial W_1} = 5.3 \]

\[\frac{\partial L}{\partial W_2} = 0.00042 \]

可以发现:两者差了上万倍
这时,对二者应用统一学习率就会出现:

  • 梯度大的参数更新飞快,容易发散
  • 梯度小的参数几乎不动
    在这种情况下,如果 \(x_2\) 反而是核心特征,那这个参数的梯度消失是不是就严重阻碍了拟合?

虽然但是,实际上,我们之前就已经介绍了这种问题的解决方法,那就是归一化。
我们之前就介绍过,归一化在保持特征信息的同时消除上面提到的量纲差距
我们用之前学到标准化再次处理这个例子看看:
假设我们对输入做了标准化,将两项输入都转化为均值 0、方差 1 的数据:

  • 标准化后的 \(x_1\) 分布在 \([-1,1]\) 附近
  • 标准化后的 \(x_2\) 也分布在 \([-1,1]\) 附近
    此时,两者的尺度不再相差上万倍,重新计算梯度:

\[\frac{\partial L}{\partial W_1} \approx 0.84 \]

\[\frac{\partial L}{\partial W_2} \approx -1.13 \]

这两个梯度的量级已经处于同一数量级,这样一来:

  • 用统一学习率更新时不再一快一慢
  • 所有参数都能被“公平地”学习
  • 梯度不再因为输入值差异而畸形缩小或放大
    可以看到,归一化确实解决了“输入尺度不同 → 梯度差异巨大”的问题

那RMSprop是不是还没出现就没用了?不至于不至于。

因为,归一化只能解决输入特征量级差别导致的梯度差异,而梯度差异不只来自输入数据的尺度,还来自网络结构与梯度自身的性质。
我们继续看下面几个例子:

(2)网络中层级间的梯度差异

我们用最简单的举例,假如现在有这样一个逻辑回归网络:

\[a^{(1)} = W^{(1)} x \]

\[\hat y = W^{(2)} a^{(1)} \]

而我们知道,在多层网络结构中,梯度的计算是通过链式法则来传递的,而经过从后向前的层层相乘,网络中靠前层的参数梯度和靠后层的参数梯度就会出现较大差异。
在这种情况下,我们假定这样一个可能的梯度情况:

\[\frac{\partial L}{\partial W^{(1)}} = 0.00003 \quad \text{(靠近输入层,梯度很小)} \]

\[\frac{\partial L}{\partial W^{(2)}} = 1.2 \quad \text{(靠近输出层,梯度较大)} \]

差距可能超过几千倍。
这时,对二者应用统一学习率就会出现:

  • 梯度大的层更新快,甚至梯度爆炸
  • 梯度小的层更新慢,可能几乎不动,梯度消失。
  • 模型整体收敛受阻,尤其前层学习慢会影响特征提取

那这时候就需要 RMSProp 登场了?还得等等。
回想一下,针对这种层层传播导致的梯度差异,我们是不是还介绍了一种技术,叫权重初始化?
权重初始化即通过控制权重的方差,让信号方差保持恒定,这样既避免了梯度爆炸,又避免了梯度消失。
可是,权重初始化可以像归一化解决输入数据差异一样完全解决层间传播差异吗?

很可惜答案是不能,我们再展开一下:
权重初始化(如 Xavier/He 等)的主要目的是:控制信号方差在前向传播时不爆炸或消失这样可以保证前向传播的输出方差大致和输入方差相当,避免信号在网络中逐层放大或缩小。
而我们刚刚又提过,反向传播的梯度是链式相乘的,如果每一层权重方差合适,梯度也能大致保持稳定,所以权重初始化可以降低深层网络训练早期出现梯度爆炸或消失的概率

这是权重初始化能起到的正面效果,现在我们来看看它的不足之处,即为什么权重初始化不能完全保证训练中梯度恒定?

  1. 梯度依赖于训练中的权重:初始化只是训练的起点,随着迭代,权重会不断更新,可能偏离初始分布,如果权重变得过大或过小,梯度仍可能出现爆炸或消失。
  2. 非线性激活函数的影响:ReLU、sigmoid、tanh 等激活函数会改变信号方差,例如 sigmoid 的输出在饱和区,梯度几乎为零。因此,即便初始化合适,深层网络仍可能出现梯度消失。
  3. 梯度放大或缩小的累积效应始终存在:链式法则让每层梯度相乘,当网络很深时,即便每层梯度稍微偏大或偏小,累积起来也会导致前层梯度消失或爆炸。
    因此,针对层间的梯度差异现象,我们仍需要解决方法。

(3)权重梯度和偏置梯度的天然规模差异

在我们现在所学的内容里,我们知道:

\[dW = \frac{1}{m} X^T dZ \]

\[db = \frac{1}{m} \sum_{i=1}^{m} dZ^{(i)} \]

也就是说,权重梯度取决于输入 \(x\),偏置梯度只与误差相关。
因此,就可能出现这种情况:

\[\frac{\partial L}{\partial W} = 0.8 \]

\[\frac{\partial L}{\partial b} = 0.03 \]

偏置更新会慢很多,因此,同一个学习率也不适合它们俩。
而这种梯度性质本身导致的差异,我们目前还不知道怎么处理。

1.2 RMSprop 算法

经过上面一大段的铺垫,我们已经知道了“不同参数的梯度幅度差异巨大,导致统一学习率无法同时适应所有参数” 这句话的含义。
千呼万唤始出来,我们来看看RMSprop 算法是如何解决这个问题的。

RMSProp(Root Mean Square Propagation)提出了按参数自适应调整梯度的思路,它的核心目标是:对梯度小的参数放大步长,让它们加快学习;对梯度大的参数缩小步长,避免爆炸。
现在来详细展开一下:

(1)梯度平方的指数加权平均

RMSProp 为每个参数维护一个梯度平方的EMA变量: \(S[g^2]_t\)

\[S[g^2]_t = \beta S[g^2]_{t-1} + (1-\beta) g_t^2 \]

  • \(g_t\):当前梯度
  • \(\beta\):衰减因子或平滑系数,通常取 0.9
  • \(S[g^2]_t\):记录梯度历史大小的“记忆”,刻画了参数梯度的量级
    这一步的作用是:**用历史梯度平方的平均来衡量该参数“走得快不快”。

(2)按参数自适应缩放学习率

现在的参数更新公式为:

\[\theta_{t+1} = \theta_t - \frac{\alpha}{\sqrt{S[g^2]_t + \epsilon}} g_t \]

  • \(\alpha\):基础学习率
  • 分母 \(\sqrt{S[g^2]_t + \epsilon}\)将梯度幅度大的参数步长缩小,梯度幅度小的参数步长放大
  • \(\epsilon\):防止除零,通常取 \(10^{-8}\)
    其核心思想是:动态缩放每个参数的步长,使得梯度大小差异不会导致更新过快或过慢。
    只摆公式还是不太清晰,我们举一个实例来看看效果。

(3)RMSProp 的应用实例

我们还是用最开始的例子,来看看使用RMSProp的过程:

参数 当前梯度 \(g\) 历史均方 \(S[g^2]\) RMSProp 步长 \(\alpha/\sqrt{S[g^2]}\) 更新量
\(W^{(2)}\) 1.2 1.44 0.01 0.012
\(W^{(1)}\) 0.00003 0.0000001 100 0.003
\(b\) 0.03 0.0009 1.05 0.0315

可以发现:

  • 梯度大的 \(W^{(2)}\) 被自动“抑制”,避免发散
  • 梯度小的 \(W^{(1)}\) 被放大,避免前层学习过慢
  • 偏置 \(b\) 的更新量也被合理调节,收敛速度更统一

现在就可以看到,RMSProp 有效解决了我们之前讨论的三类梯度差异问题

  • 输入尺度差异(归一化+RMSProp)
  • 层间梯度差异(权重初始化+RMSProp)
  • 权重与偏置梯度差异(RMSProp 自适应缩放)

厉不厉害你RMSProp?
好了,最后再看看RMSProp和上一篇中Momentum的对比。

(4)RMSProp 与 Momentum 的对比

特性 Momentum RMSProp
解决问题 梯度方向震荡 参数间梯度幅度差异,步长自适应
核心机制 指数加权平均梯度方向 指数加权平均梯度平方,按参数缩放步长
适用场景 梯度方向不稳定的深层网络 梯度量级差异大或深层网络训练
学习率 全局统一 每个参数自适应

有没有发现,这两个优化算法好像并不冲突?
那我可不可以把Momentum 和 RMSProp 结合使用

  • Momentum 负责加速收敛主方向
  • RMSProp 负责动态调节步长

那么你就得到了目前可以说是最常用的优化器:Adam 优化算法,我们下一篇就会展开介绍它。

2."人话版总结"

概念 原理 比喻
梯度差异问题 不同参数的梯度大小差别太大,同一个学习率对每个参数都不合适:有人走太快差点摔下山,有人走太慢一直原地踏步。 一群人下山,有人腿长一步五米,有人腿短一步十厘米;统一步长根本不公平。
RMSProp 的核心思想 给每个参数量身定制学习率:梯度大的 → 走慢点不摔;梯度小的 → 放大步子走快点。 给腿太长的人绑沙袋,让他慢点;给腿短的人装弹簧,让他快点。
梯度平方的 EMA 记录参数过去的“梯度大小平均值”,用来判断它平常走得快还是慢。 给每个人戴个运动手环,看他过去走路多快。
按参数缩放学习率 步长公式变成:大梯度 → 被除以大数 → 变小;小梯度 → 被除以小数 → 变大。 走太快的人车速被限速,老慢的人给他开绿色通道。
解决输入尺度差异 特征太大导致梯度大、特征太小导致梯度小 → RMSProp 自动调节。 富二代每次花钱花太快 → 限额;穷小孩花太慢 → 提额。
解决层间梯度衰减 前层梯度本来就小,RMSProp 会自动给它“放大步长”。 队伍最后的人落后太多 → RMSProp 给他上电动车。
解决权重 vs 偏置差异 偏置的梯度常常比较小 → 自动放大;权重有时很大 → 自动缩小。 偏置像个小孩 → 给他增高垫;权重像大人 → 给他减速带。
Momentum vs RMSProp Momentum 解决“方向乱”;RMSProp 解决“步子不均匀”。 Momentum = 帮你稳方向;RMSProp = 帮你调步幅。
两者能否结合? 可以,而且非常常用 → Adam = Momentum + RMSProp。 Momentum 是指南针,RMSProp 是鞋子;Adam 直接给你导航 + 智能跑鞋。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/962290.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CF 980 Div.2 解题报告

A 略。 B 最优策略是:我们假设当前数组最小值是 \(mn\),然后按每一个按扭 \(mn\) 次;如果某一次按按钮不出水,那么之后就再也不按了;按完后如果不够,就剔除已不出水的按钮,然后重复上述过程。 保证必出就是视为…

2025年评价高的pp储罐优质厂家推荐榜单

2025年评价高的PP储罐优质厂家推荐榜单行业背景与市场趋势聚丙烯(PP)储罐作为化工、制药、环保等行业的重要设备,近年来随着我国制造业的升级和环保要求的提高,市场需求持续增长。根据中国化工装备协会最新数据显示…

2025年质量好的废气处理工程行业内知名厂家排行榜

2025年质量好的废气处理工程行业内知名厂家排行榜行业背景与市场趋势随着我国环保政策的日益严格和"双碳"目标的持续推进,废气处理工程行业迎来了前所未有的发展机遇。据中国环境保护产业协会最新数据显示,…

2025年知名的印刷PET片热门厂家推荐榜单

2025年知名的印刷PET片热门厂家推荐榜单行业背景与市场趋势随着全球环保意识的不断提升和包装行业的快速发展,印刷PET片材市场正迎来前所未有的增长机遇。据最新行业报告显示,2024年全球PET片材市场规模已达到285亿美…

实用指南:Echarts 5.6.0 Grid 坐标系中 Y 轴可视化的优化之路

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

使用 Java、Spring Boot 和 Spring AI 开发符合 A2A 标准的 AI 智能体

AI 智能体指的是一种软件实体,它能够利用自然语言处理、机器学习或推理系统等人工智能技术,自主感知、推理和行动,以实现特定目标。我为 Telex 开发了一个 AI 智能体,该智能体接收一个正则表达式模式,并就该模式所…

2025年热门的上柴发电机组厂家最新权威实力榜

2025年热门的上柴发电机组厂家最新权威实力榜行业背景与市场趋势随着全球能源结构的转型和电力需求的持续增长,柴油发电机组作为重要的备用电源和移动电源解决方案,在工业、商业、医疗、数据中心等领域发挥着不可替代…

2025年质量好的空压机厂家最新实力排行

2025年质量好的空压机厂家最新实力排行行业背景与市场趋势空压机作为工业领域的"心脏"设备,其市场需求与制造业发展息息相关。根据《2024-2029年中国空气压缩机行业市场调研与发展前景分析报告》显示,2023…

2025年口碑好的装配式轻钢龙骨热门厂家推荐榜单

2025年口碑好的装配式轻钢龙骨热门厂家推荐榜单行业背景与市场趋势装配式建筑作为建筑工业化的重要发展方向,近年来在中国市场呈现爆发式增长。根据中国建筑金属结构协会最新数据,2024年中国装配式建筑市场规模已突破…

2025年口碑好的单轨吊物料箱行业内知名厂家排行榜

2025年口碑好的单轨吊物料箱行业内知名厂家排行榜行业背景与市场趋势单轨吊物料箱作为现代工业物料搬运的重要设备,近年来随着制造业智能化升级和煤矿安全标准的提高,市场需求持续增长。据《2024-2025年中国矿山机械…

2025年评价高的三层式恒温恒湿试验箱用户口碑最好的厂家榜

2025年评价高的三层式恒温恒湿试验箱用户口碑最好的厂家榜行业背景与市场趋势恒温恒湿试验箱作为环境试验设备的核心品类,近年来随着新能源汽车、光伏储能、电子电器等行业的快速发展,市场需求呈现爆发式增长。据中国…

怎么评价“万物皆对象;对象可以绑定到名称上;变量指绑定到对象上的名称”?

python中数字名称 函数名称 容器名称(列表名称 字典名称 元组名称 集合名称) 字符串名称 对象名称 类名称 这些也都是变量? 在 Python 中,万物皆对象;对象可以绑定到名称上;变量指绑定到对象上的名称? 你怎么评…

2025少儿编程机构TOP5推荐:妙小程领衔的精准选择指南

一、TOP1 核心推荐:妙小程(线上为主,线下辅助)—— 赛考与小班双标杆 核心优势赛考断层领先:蓝桥杯协办方,2025 年 CSP-J/S 一等奖获得率达全国 3.2 倍,NOC 赛事获奖率 99.78%,配备 NOI 金牌教练集训团队;线上…

2025年11月远程控制软件推荐:主流排行榜与口碑评价对比指南

一、引言 远程控制软件已从“应急工具”升级为数字经济的基础设施。中国信通院《2025远程办公行业白皮书》指出,超过68%的企业把“跨网段、跨系统、跨设备的远程稳定性”列为年度IT采购首要指标;个人用户则把“低延迟…

python中的描述符是什么?

描述符:从数据、非数据到内置装饰器 一、简介 简单来说,描述符就是 Python 里一种“懂规矩的工具类”——这里的“规矩”就是描述符协议,只要一个类实现了 __get__(取值)、__set__(赋值)、__delete__(删除)这…

2025年知名的川字塑料托盘厂家最新推荐排行榜

2025年知名的川字塑料托盘厂家最新推荐排行榜行业背景与市场趋势塑料托盘作为现代物流仓储的重要工具,近年来随着电商物流、智能制造等行业的快速发展,市场需求持续增长。根据中国物流与采购联合会最新发布的《2024-…

2025年枫叶租车公司权威深度解析:双引擎引领中高端租车市场变革

本文将从“服务升级与场景深耕”维度切入,结合公开数据与行业报告,为读者提供一份可验证、可对照的客观参考。 背景与概况 枫叶租车,国内高端汽车租赁知名品牌,2024年获海南省澄迈县政府战略性投资。公司当前拥有5…

2025年枫叶租车公司权威深度解析:双引擎战略引领中高端租车市场的变革

引言:本文聚焦“服务升级与资产扩容”维度,拆解枫叶租车如何在消费分级时代用“体验性价比”撬动中高端租车需求,为投资者与用户提供可验证的决策参考。 背景与概况:枫叶租车,国内高端汽车租赁知名品牌,2024-202…

2025全焊接板式换热器实力厂家推荐榜:苏州科睿泽领衔,四大品牌以高效传热赋能工业节能

在工业能效升级与低碳转型的趋势下,全焊接板式换热器凭借高效传热、结构紧凑、耐腐稳定等优势,成为化工、能源、暖通等领域的核心设备。基于技术实力、场景适配性与行业口碑,2025 年四大优质企业脱颖而出,为行业提…

2025年11月北京离婚律师排名榜:真实口碑与对比评价精选

在北京,婚姻家事纠纷往往伴随高价值财产、跨境因素或子女抚养争议,当事人既需要熟悉《民法典》婚姻家庭编的精细条文,又希望律师能快速共情、降低情绪损耗。2025年第三季度北京中院公开数据显示,离婚诉讼调解率不足…