吴恩达深度学习课程一:神经网络和深度学习 第四周:深度神经网络的关键概念

news/2025/10/24 18:24:32/文章来源:https://www.cnblogs.com/Goblinscholar/p/19164008

此分类用于记录吴恩达深度学习课程的学习笔记。
课程相关信息链接如下:

  1. 原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai
  2. github课程资料,含课件与笔记:吴恩达深度学习教学资料
  3. 课程配套练习(中英)与答案:吴恩达深度学习课后习题与答案

本篇为第一课第四周的内容,即4.1到4.7的内容。
4.8 这和大脑有什么关系?是吴恩达老师的一个3分钟拓展,不涉及具体知识,因此就不在笔记里出现了。


本周为第一课的最后一周内容,就像标题一样,我们从第二周的逻辑回归,到第三周的浅层神经网络, 再到本周的深度神经网络的概念层层递进,第一课内容主要还是对神经网络框架的基本介绍,因此本周实际上的主要内容还是对深层神经网络传播过程的梳理。

但对于公式的推导,我们在之前的部分已经重复过不止一次了,因此,针对本周的深层神经网络,我会结合课程内容,尽量少列公式计算,多做概念的推导和理解,并在相关部分附上之前对公式详细推导内容的链接。
本篇即是本周的全部理论内容。

1. 深层神经网络

1.1深层神经网络长什么样?

说实话,当进行到这一部分,想必大家也已经猜到深层神经网络的形状了,我们直接用课程里的图:
Pasted image 20251024101212

简单来说,相比浅层神经网络,深层神经网络就是神经元更多,隐藏层更复杂的神经网络。

1.2 直观理解深层网络的效果

依旧看课程里的一张图:
Pasted image 20251024154207

图下方的三幅图可以比较好的表现深层网络的效果,我们在浅层提取低级特征,而低级特征经过线性组合和激活后有作为下一层的输入提取更高级些的特征,就像图里的从边缘到整张脸。
要说明的一点是图里的图像处理实际上更常出现在卷积神经网络中,这是后面吴恩达老师在这个系列里单独作为一门的内容。
这里我们只要理解到,随着网络规模的增加,更深的层数能让我们提取更高级的特征即可

1.3 符号规范

Pasted image 20251024103416

同样如图所示,这些符号我们也在之前使用过很多次了,并不陌生,就不再重复描述了。

1.4 深层神经网络的正向传播

我们用刚刚的网络为例:
Pasted image 20251024110122

我在图中绘制了这个网络从输入到最终输出的向量化正向传播过程,待会我们会再补充上反向部分。
不难发现,这只是之前的浅层神经网络中又增加了两个隐藏层传播。
我们之前在浅层神经网络中已经推导过这部分的公式计算了,就不再展开了。
正向传播的详细公式推导在这里

1.5 向量化神经网络中的维度变化

我们已经计算过不少次输入在神经网络里的传播,在向量化的计算过程中往往使用矩阵乘法来实现并行计算,这也就伴随着维度的变化。
这里便总结一下维度变化的规律
先看贯穿始终的两个公式:

\[\mathbf{Z^{[L]}} = \mathbf{W^{[L]}} \mathbf{A^{[L-1]}} + \mathbf{b^{[L]}} \]

\[ \mathbf{A^{[L]}} = g(\mathbf{Z^{[L]}}) \]

首先,这里的 \(\mathbf{W^{[L]}}\) 的维度应该是\((该层的神经元数量,输入该层样本的特征数)\)
这是因为\(W\)每行的元素个数应和输入的特征数相等,作为每一个特征的权重。
而每多一个神经元就会多一次这样的行为。
推广起来,用符号表示就是:

\[\mathbf{W^{[L]}}: (n^{[L]},n^{[L-1]}) \]

于此同时,每有一组权重,就会有与之配合的一个偏置,因此:

\[\mathbf{b^{[L]}}: (n^{[L]},1) \]

现在,我们通过矩阵乘法即可计算得到:

\[\mathbf{Z^{[L]}}: (n^{[L]},m) \]

而激活函数和求导都不会改变输入维度,所以:

\[\mathbf{A^{[L]}}: (n^{[L]},m) \]

我们总结一下:

维度
\(\mathbf{W^{[L]}}\) \((n^{[L]},n^{[L-1]})\)
\(\mathbf{b^{[L]}}\) \((n^{[L]},1)\)
\(\mathbf{Z^{[L]}}\) \((n^{[L]},m)\)
\(\mathbf{A^{[L]}}\) \((n^{[L]},m)\)
导数 与求导量维度相同

2.模块化网络传播

我们通常在代码里才说模块化,这代表着我们对一些需要重复使用的函数进行了一定程度的封装,或者干脆定义了一些对象。
那么当网络深度不断增加,那层级之间的正向传播和反向传播也在不断重复,因此进行模块化也就十分必要,我们来简单看一看这个框架。

2.1.文字传播

我们先补充完刚刚的传播过程,用文字理顺一下各个量的传递。
Pasted image 20251024165709

这便是上面的网络结构一批次训练的完整传播过程。
反向传播的详细推导过程在这里
理顺逻辑后,我们把这个过程模块化,用函数,函数的参数,函数的输出的格式再来看一看

2.2 模块化函数

我们定义层间的正向传播函数forward和反向传播函数backward如下:
Pasted image 20251024173357

直接解释两个函数的各个属性可能不太清晰,我们直接用右侧的网络来演示这两个函数的使用

2.3 模块化传播流程

Pasted image 20251024175609

对比图中的过程,我们就可以比较容易的理顺模块化后的传播。

2.4 总结

以上便是第四周课程的全部内容,课程里还提到了超参数的概念,我们在第二周的习题实践部分就已经对其进行了介绍,就不再重复了。
总的来说,经过较多的基础补充,第四周的内容并不多,我们从浅层神经网络再拓展到深层一些的神经网络,并对传播过程中的计算变化进行了总结,给编码实现提供了思路。
下一篇就是本周课程的习题和编码,同时也是课程一的最后一篇。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/945583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第171-172天:代理通讯篇无外网或不可达SockS全协议规则配置C2正反向上线解决方案

内网渗透代理scoks代理 解决漏洞利用和信息收集打点部分的问题 使用CS使用4a和5都可以,只是scoks5需要进行账号密码的认证 建立隧道之后,可以使用proxifier进行连接,然后填上CS服务器的IP和端口,隧道是目标主机和C…

cn域名隐私保护

cn域名隐私保护MU5735 R.I.P

城市基础设施安全运行监管平台

当我们漫步在城市街头,或许很少会想到脚下纵横交错的管网、头顶横跨而过的桥梁、地下穿梭的轨道交通,这些城市基础设施如同人体的“生命线”,时刻维系着城市的正常运行。而如今,一套名为“城市基础设施安全运行监管…

ZR 2025 NOIP 二十连测 Day 7

100 + 25 + 25 + 30 = 185, Rank 75/130.想 1h B 的正解 vs 打 D 15pts 的部分分。25noip二十连测day7 链接:link 题解:题目内 时间:4h (2025.10.24 14:00~18:00) 题目数:4 难度:A B C D\(\color{#FFC116} 黄\)*1…

CSP-S 37

10.2410.24 连续inf场没有切掉 t1 了\(\ldots\) 0+100+70+30=200 甚至 t1 是唯一爆蛋的。 2h 写 t1 获得 0pts 好成绩,剩下 2h 获得 200pts 。 难崩。 t1 第一眼:好像那道\(O(n^3)\) dp 。 第二眼:坏了回文串咋转移…

SpringBoot整合缓存1-Ehcache

一、缓存是什么? 缓存是一种将数据临时存储在高速存储介质(如内存)中的技术,目的是减少对数据库等低速存储的访问,提升系统响应速度。 Ehcache 是一个成熟的 Java 缓存框架,支持本地缓存和分布式缓存(需配合 Te…

【开题答辩全过程】以 M11289生鲜商城为例,具备答辩的问题和答案

【开题答辩全过程】以 M11289生鲜商城为例,具备答辩的问题和答案pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

如何在一台 Linux 机器上管理不同版本的 CMake

目录🧩 为什么需要多版本 CMake?✅ 核心原则📦 步骤 1:下载并安装多个 CMake 版本(推荐预编译包)1.1 创建安装目录1.2 下载预编译二进制包1.3 复制到目标目录🔗 方法一:使用 update-alternatives 管理(推荐…

90 天打造可持续交付:12 条 DevOps 实践要点与避坑

DevOps 不是工具堆砌,而是“从需求到价值”的系统工程。本文用可量化指标(DORA)作为牵引,给出12 项关键实践与90 天落地路线图,并示例如何用 ONES 研发管理平台把需求、任务、测试、发布与复盘串成一条可追踪的价…

CSharp: word,excel,powerpoint convert to pdf,hrml etc using Aspose.Office

/// <summary>/// 目标文件类型/// Aspose是商业软件需要购买/// </summary>public enum FileFormat{None,Pdf,Html,Text,Doc,Docx,Xls,Xlsx,CSV,PPT,PPTx,SVG,Webp,Rtf,Dwg,Psd}/// <summary>/// 文…

Offsec Nibbles CTF 实战解析:PostgreSQL漏洞利用与权限提升

本文详细记录了Offsec Nibbles CTF挑战的完整解题过程,重点分析了PostgreSQL CVE-2022-1552漏洞的利用方法,通过Python脚本实现远程代码执行,并分享了权限提升的实战经验,最后讨论了系统加固建议。Offsec Nibbles …

Linux基础——iptables常规操作

Linux基础——iptables常规操作一、iptables概述iptables 的核心是四表五链,四表:raw, connecting tracking, mangle, nat 五链:PREOUTING, INPUT, FORWAED, OUTPUT, POSTROUTING 每种表可以包含的链种类TablesPRER…

MySQLdump 常用参数说明 - 实践

MySQLdump 常用参数说明 - 实践2025-10-24 18:04 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !importa…

2025 10 24日报

上午 写了周作业的F题,一开始以为很难,后面发现字符串的长度小于等于100,于是就可以直接设 dp[i,j,k], 表示 [1∼i] 里面有 j 个 1,总贡献为 k 的方案中与 s [1∼i] 最小的不同个数,然后转移就很明显了dp[i,j,k]…

Linux手动安装最新版 CMake

目录🔽 步骤 1:进入临时目录并下载 CMake 二进制包🔧 步骤 2:解压安装包🧩 步骤 3:将 CMake 添加到系统 PATH方法 A:全局生效(需 root 权限)方法 B:仅对当前用户生效(无 root 权限也可用)✅ 步骤 4:验…

2025年新疆喀纳斯旅游服务权威推荐榜单:新疆/阿勒泰/禾木深度游旅行社综合评测

碧蓝的喀纳斯湖倒映着雪山林海,三湾的晨雾缭绕如仙境,图瓦村落的木屋错落于林间,这片北疆雪域明珠正吸引着越来越多游客的目光。 据新疆文旅厅数据显示,2024年新疆接待游客总量突破2.5亿人次,但随之而来的是投诉量…

一天一款实用的AI工具,第9期,AI转黏土风格

一键将图片转成黏土风格,呈现立体质感与柔和色彩的可爱画面。工具介绍 本期推荐这款【AI转黏土风格】工具,它能将任何照片瞬间变成软萌圆润的黏土动画风! 它完美模拟了真实黏土的柔和质感与磨砂纹理,让人物如同定制…

题解:P8930 「TERRA-OI R1」神,不惧死亡

$O(m \sqrt[3]{\frac{n^2}{m}log^2{n}})$P8930 「TERRA-OI R1」神,不惧死亡 大水紫 首先发现是神秘区间问题,考虑支持区间操作的数据结构。 发现数据范围是 \(1e5\) ,而且维护的东西很神秘,直接考虑分块或莫队。 如…

生产环节最容易出问题的三个点,老板必须盯紧

之前我们企业在做大之前,生产靠的是人盯人。订单少的时候还能勉强跑得动,一旦订单量起来,问题就暴露出来了:计划排不准,执行乱套,质量失控。 在企业规模升级的那几年,我学到了很多,总结起来,生产环节最容易出…

CS50ai: week2 Uncertainty我的笔记A版 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …