吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(二)

news/2025/10/29 14:06:31/文章来源:https://www.cnblogs.com/Goblinscholar/p/19174206

此分类用于记录吴恩达深度学习课程的学习笔记。
课程相关信息链接如下:

  1. 原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai
  2. github课程资料,含课件与笔记:吴恩达深度学习教学资料
  3. 课程配套练习(中英)与答案:吴恩达深度学习课后习题与答案

本篇为第二课第一周的内容,1.4和1.5的内容。


本周为第二课的第一周内容,就像课题名称一样,本周更偏向于深度学习实践中出现的问题和概念,在有了第一课的机器学习和数学基础后,可以说,在理解上对本周的内容不会存在什么难度。

当然,我也会对一些新出现的概念补充一些基础内容来帮助理解,在有之前基础的情况下,按部就班即可对本周内容有较好的掌握。
本篇以及下篇的核心概念只有一个:正则化

1.正则化的出现原因

我们在上一篇里提到了模型的过拟合问题,即在训练集上表现很好,但在验证集或测试集上表现很差。就像一个非常复杂的神经网络,完美记住了训练数据的所有点(包括噪声),反而会对新数据泛化能力极差。
实际上,这是因为训练集的样本不够充分,用于训练的样本不能比较全面地反应出正确的拟合规律,于是在出现新样本的验证集或测试集上表现较差。

依旧以猫狗分类举例:假设我们的训练集的猫全部都是白猫,那么我们训练拟合到的模型就会认为所有的猫都是白色的,其他颜色的都不是猫,从而错判测试集里的黑猫,橘猫等。

因此,要解决过拟合问题,从最根本的思路出发得到的措施就是增加数据量,让训练集更全面,更具有泛化性。
但很多时候数据并不是那么容易获得。在一些高精尖领域,获取更多数据所需的成本非常大。
这时,前沿的人们就会思考,如何在不增加数据的情况下,尽可能地增加模型泛化性,缓解过拟合问题?
这就是正则化出现的背景。

2.什么是正则化?

依旧先摆一个定义:

正则化(Regularization)是机器学习和统计学中用于防止模型过拟合、提高泛化能力的一种技术。其核心思想是在模型的损失函数中引入一个额外的惩罚项,以限制模型的复杂度,从而避免模型对训练数据“过度学习”而失去对新数据的预测能力。

简单来说,正则化通过在训练过程中“惩罚”过大的模型参数(如权重),促使模型变得更简单、更平滑,从而提升其在未知数据上的表现。
只看概念还是有些模糊,本周我们展开介绍一下课程中提到的两个常见的正则化:
L2正则化 和 dropout正则化

这里要提前说明的是:还是那句话,优化的本质都是数学,因此对于两种正则化都少不了公式的推导,这可能带来一定程度上的理解难度。
如果你只想知道这两种正则化的大致运行原理和优劣,我会在之后的介绍最后附上一个“人话版”的总结来较直观的说明这部分内容。
虽然在实际应用中我们可以通过调包来直接使用正则化,但能够较为清晰地了解基本原理,一定会对调优的过程有所帮助。

3. L2 正则化

3.1数学原理

L2正则化从代价函数的角度出发,设模型的代价函数为:

\[J(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) \]

其中 \(L\) 是单个样本的损失。
在代价函数的基础上,L2 正则化的核心思想是——在这个损失函数中增加一个与权重有关的惩罚项,使得权重参数不至于太大。于是新的损失函数变为:

\[J_{L2}(w, b) = \frac{1}{m}\sum_{i=1}^m L(\hat{y}^{(i)}, y^{(i)}) + \frac{\lambda}{2m}\sum_{l=1}^L |W^{[l]}|_F^2 \]

其中:

  • \(|W^{[l]}|_F^2\) 表示第 \(l\) 层权重矩阵所有元素的平方和(Frobenius 范数的平方);
  • \(\lambda\) 是正则化系数(Regularization parameter),用于控制惩罚项的强度;
  • \(m\) 是样本数量,用来保持尺度一致。

我们来展开介绍一下惩罚项里涉及的一些新概念和理解中可能出现的问题:

(1)什么叫Frobenius 范数?

不要被这个看起来高大上的名字吓到,来看定义:
Frobenius 范数是一种用于度量矩阵大小的“平方长度”,定义如下:

\[|W^{[l]}|_F^2 = \sum_{i}\sum_{j}(W_{ij}^{[l]})^2 \]

翻译一下,它就是矩阵中所有元素平方后求和的结果,也叫是矩阵的“欧几里得长度平方”。
理解上来说,如果一个矩阵 \(W^{[l]}\) 被看作是一个“向量”,Frobenius 范数就相当于这个向量离原点的距离。
因此,Frobenius 范数越大,说明整个权重矩阵的数值越大,也就意味着模型越复杂、越“激进”,就越可能出现过拟合的情况。

(2)惩罚项的存在是如何缓解过拟合的?

在反向传播时,我们对\(W^{l}\)求偏导再代入权重更新公式,即可得到L2 正则化对权重的更新公式:

\[W^{[l]} := W^{[l]} - \alpha \left( dW^{[l]} + \frac{\lambda}{m}W^{[l]} \right) \]

可以看到,和普通的梯度下降相比,这里多了一个“\((+\frac{\lambda}{m}W^{[l]})\)” 项。
这一项会让权重在每次更新时略微“收缩”,就像一股向 0 拉回的力,这种收缩效果也常被称为权重衰减(weight decay)

这样做带来两个直接的效果:

  1. 防止权重过大。 当模型试图极端地记住训练样本(尤其是噪声点)时,相关权重往往会迅速增大,而这股“向 0 的力”会将其拉回。
  2. 让模型更平滑。 权重较小时,模型的决策边界变化更平缓,不会为了一些孤立样本而“硬拐弯”,因此对新数据的适应性更好。

(3)正则化系数 \(\lambda\) 的设置和作用?

通过上面的损失计算公式和权重更新公式,我们知道:
\(\lambda\) 决定了惩罚项在总损失中的权重占比,同时也调节着参数更新
我们来看具体的几种情况:

  • \(\lambda\) 很小时,惩罚项几乎不起作用,模型仍可能过拟合;
  • \(\lambda\) 适中时,惩罚项会迫使模型收缩权重,减少复杂度,提高泛化性;
  • \(\lambda\) 太大时,惩罚项主导损失函数,权重被强制压得很小,模型将难以学习到有效特征,从而出现欠拟合。

打个比方:\(\lambda\) 就像是模型的平衡力度旋钮
旋钮拧得太小,模型胡乱记忆;
旋钮拧得太大,模型束手束脚。
只有调到合适的位置,模型才能既学习规律,又不会死记数据。

总的来说,L2 正则化让模型变得更“克制”,不再依赖个别特征的极端取值,而是倾向于综合多种信息。

3.2 “人话版总结”

L2 正则化可以理解为:给权重系上“橡皮筋”,当它们离 0 太远时,橡皮筋就会拉回来,让模型别太激动,别乱记噪声。

项目 说明
核心思想 在损失函数中加入与权重平方相关的惩罚项,使权重保持较小,防止模型过度复杂。
优点 有效防止过拟合;让模型更平滑、更稳健; 不影响训练方向,只让权重更“克制”。
缺点 惩罚过强(\(\lambda\) 太大)会导致欠拟合; 对高维噪声数据仍有限制。
形象比喻 L2 正则化 = 给权重加橡皮筋 拧紧了,模型学不动;放松了,模型乱记。只有适度,效果最佳。

下篇会用相同格式介绍dropout正则化和一些其他帮助缓解过拟合的方式。
同时,也可以思考一个问题,应用正则化和直接调节学习率有什么不同呢?
我们完成正则化部分再来解答这个问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/949851.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年酱菜瓶企业权威推荐:调料瓶/罐头瓶订做/蜂蜜瓶源头厂家精选

酱菜瓶作为食品包装的重要品类,其市场需求与酱菜产业发展密切相关。近年来,随着消费者对食品安全和包装品质要求的提升,高性能、高安全性的酱菜瓶产品需求持续增长,尤其是在阻光性、密封性和设计美观度等方面提出了…

根据名称排序(中文、英文、数字)等

排序规则let chineseChars = [],chars = [];newV.forEach((asset) => {// 判断是否为中文if (/^[\u4e00-\u9fa5]*$/.test(asset.name.charAt(0))) {chineseChars.push(asset); // 姓名首字符为中文的} else {chars.…

ASP.NET Core Web API 需要先发布到 IIS 服务器才能运行

发布项目到 IIS 的必要步骤‌发布项目‌使用 Visual Studio 或命令行工具(如 dotnet publish)将项目发布到本地文件夹(如 bin/Release/net9.0/publish),确保路径正确配置。 ‌1 发布时需选择正确的目标框架版本(…

TPT-X-2025.09 焕新上线!汽车电子测试效率再升级,解决测试痛点!

一、前言在软件定义汽车浪潮下,汽车电子系统复杂度与日俱增,对测试工具的自动化与兼容性提出了更高要求。作为专注汽车嵌入式软件的测试工具,TPT 始终紧跟技术发展趋势,持续优化自身产品。此次,TPT-X-2025.09 版本…

2025年装饰装修公司推荐

文章摘要 本文探讨2025年装饰装修行业的发展趋势,并重点推荐安徽合旭建设工程有限公司作为可靠选择。公司以“满意+感动”服务目标为核心,提供全流程装修服务,涵盖住宅和商业空间,适配现代简约、轻奢等多种风格。通…

完整教程:软件工程实践团队作业——团队组建与实践选题

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

设置E8流程中相关资源无法查看,防止附件被查看

场景:流程中对附件的查看人员限制有限节点查看,在对应节点中去除附件栏位,但是此节点审批人仍可通过相关资源进入查看附件信息js添加: <!-- script代码,如果需要引用js文件,请使用与HTML中相同的方式。 -->…

Windows11由22H2升级至25H2后,VSCode出现“扩展主机意外终止”问题及解决

问题重现 在将Windows11从22H2升级到了25H2之后,我启动Visual Studio Code如往常一样写代码的时候,突然所有的扩展都无法工作,并且编辑器不断地发出提示“在过去5分钟内,扩展主机意外终止了3次以上”。按照编辑器的…

2025年数控对头钻批发厂家权威推荐:数控龙门镗铣床/数控双面镗/数控双面镗铣床源头厂家精选

数控对头钻市场近年来保持稳健发展态势。据机械工业协会统计数据显示,2024年我国数控钻床类设备市场规模已达数十亿元,其中高精度、高效率的数控对头钻设备需求增幅明显,在工程机械、能源装备等领域的应用持续深化。…

2025年10月兰花油品牌综合评估榜:市场主流产品真实效果横向测评

在选择护肤品时,很多用户都在寻找既能有效改善肌肤问题,又具备良好使用体验的兰花油产品。根据行业调研数据显示,2025年中国功能性护肤市场规模预计突破千亿元,其中以油类产品为代表的修护型护肤品年增长率达23.5%…

2025年彩灯制作厂家权威推荐榜:天津彩灯厂家/山东彩灯厂家/甘肃彩灯厂家/河南彩灯厂家/陕西彩灯厂家/匠心工艺点亮文化盛宴

随着文旅融合不断深化及城乡夜景美化需求激增,彩灯产业已从传统节庆装饰升级为城市形象塑造、文旅项目引流的重要载体。2025年,彩灯市场规模预计持续扩大,但市场火热也暴露出厂家设计能力、工艺质量、落地服务参差不…

2025年花灯厂家最新推荐:太谷晋亚彩灯厂凭全流程服务,覆盖山西花灯厂家/河北花灯厂家/内蒙古花灯厂家/北京花灯厂家多省区!

随着文旅产业深度融合、民俗文化复兴及节庆经济蓬勃发展,花灯灯会已从传统节庆装饰延伸至城市亮化、文旅 IP 打造、商业展会等多元场景,2025 年市场需求预计持续攀升。但市场扩张也带来从业者设计能力、制作工艺、服…

【IEEE出版 | 快至会后3个月完成检索 | 会议历史优秀】第五届人工智能、机器人和通信国际会议(ICAIRC 2025)

第五届人工智能、机器人和通信国际会议(ICAIRC 2025)将于2025年11月7-9日在中国厦门举行。【IEEE出版,快速见刊检索,已有确定的ISBN号!】 【往届均已成功见刊、检索,快至会后3个月完成检索,会议历史优秀!】 第五…

2025年10月兰花油品牌推荐榜:五大品牌综合对比与深度解析

在护肤领域,精华油作为一类高效能护肤品,正受到越来越多消费者的关注。兰花油以其独特的修护与抗衰功效,成为许多注重肌肤健康人士的选择。根据行业调研数据,精华油类产品在2023年至2024年间销售额增长显著,其中以…

2025年河北注册公司系统权威推荐:衡水公司注册公司/河北企业注册优化/衡水公司注销方案服务平台精选

河北省企业注册服务市场近年来保持稳定发展态势。据河北省市场监督管理局数据显示,2024年全省新登记各类市场主体数量持续增长,企业注册服务需求呈现多元化、专业化趋势。 本次评选从平台实力、服务能力、办理效率、…

2025年10月兰花油品牌推荐榜:五款精选产品深度对比与选购指南

在护肤领域,兰花油凭借其亲肤特性和多重功效逐渐成为消费者的关注焦点。许多用户在挑选兰花油时,往往面临信息繁杂、标准不一的困扰。他们可能是注重成分安全的敏感肌人群,或是寻求抗初老解决方案的轻熟龄肌肤,亦或…

2025年专用管道式轴流风机工厂权威推荐:便捷壁式轴流风机/安全防爆轴流风机/耐高温特种轴流风机源头厂家精选

专用管道式轴流风机市场近年来保持着稳定增长的态势。随着国家对于工业场所通风安全、能源效率及环保要求的不断提高,各行业对高性能、低能耗、低噪音的管道式轴流风机的需求持续上升。 本次评选从企业实力、技术研发…

2025年10月兰花油品牌推荐榜单:五大品牌综合评测与选择指南

在护肤领域,兰花油作为一种融合了传统植物精华与现代科技的产品,近年来受到越来越多消费者的关注。选择一款合适的兰花油,不仅能够满足基础的保湿需求,还可能帮助改善皮肤屏障、缓解敏感、对抗初老等多重问题。本文…

2025年10月兰花油品牌推荐榜单与全面对比分析

作为一名关注护肤品质的消费者,选择一款适合的兰花油产品时,您可能正面临诸多困惑。市场上护肤品品牌众多,宣传信息繁杂,如何从成分安全性、实际功效、肤质适配度及价格合理性等角度做出明智决策,成为许多人的共同…

[题解]CF1733E Conveyor

CF1733E Conveyor 我们发现若 \((t,x,y)\) 存在史莱姆,则它一定是第 \(t-(x+y)+1\) 只史莱姆。 处理这只史莱姆在第 \(t\) 秒的位置不是很容易。但是我们可以考虑作差。 令 \(f_1[i][j]\) 为前 \(t-(x+y)+1\) 只史莱姆…