吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(一)

news/2025/10/28 15:00:25/文章来源:https://www.cnblogs.com/Goblinscholar/p/19171795

此分类用于记录吴恩达深度学习课程的学习笔记。
课程相关信息链接如下:

  1. 原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai
  2. github课程资料,含课件与笔记:吴恩达深度学习教学资料
  3. 课程配套练习(中英)与答案:吴恩达深度学习课后习题与答案

本篇为第二课第一周的内容,1.1到1.3的内容。


本周为第二课的第一周内容,就像课题名称一样,本周更偏向于深度学习实践中出现的问题和概念,在有了第一课的机器学习和数学基础后,可以说,在理解上对本周的内容不会存在什么难度。

当然,我也会对一些新出现的概念补充一些基础内容来帮助理解,在有之前基础的情况下,按部就班即可对本周内容有较好的掌握。

1.数据划分

我们在第一课的第二周习题部分就已经简单介绍了训练集,验证集,测试集的概念,这里跟随课程进度,我们再补充一些细节:
Pasted image 20251028101804

这便是一些常用的数据划分方式,此外,在实际应用中,我们还应注意一点,就是训练集和后二者的来源,分布可能不同,这也需要我们有相应的措施,具体看一下:
Pasted image 20251028104121

这便是在数据划分部分课程补充的一些内容,接下来我们引入两个新概念:偏差和方差

2.偏差和方差

2.1 什么是偏差和方差

还是先摆一下概念吧,这事好久没做了:

偏差是指模型的预测值与真实值之间的系统性误差。它衡量的是模型对数据真实规律的拟合能力

方差是指模型对训练数据中随机噪声或小波动的敏感程度。它衡量的是模型在不同训练集上训练时,其预测结果的不稳定性

我们用课程里的具体例子来理解一下这两个概念:
Pasted image 20251028111705

依旧是二分类:
我们先看第一幅图,这里,我们用一条直线来进行分类,很明显,出现了很多被错误分类的样本。
对于这种不能较好的拟合,误差较大的结果,就是高偏差。
高偏差的基本表现就是欠拟合(Underfitting),即在训练集和验证集上的表现都很差。如用一条直线去拟合一组明显呈抛物线分布的数据。

然后再看第三幅图,这里,我们非常准确的区分了每一个样本。
但是要注意,我们观察发现,在图中,有两个样本偏离了大部分该类样本的位置。
对于这种变异的,无法正确反应类别规律的样本数据,我们就称为噪声

而在第三幅图中,我们的模型敏感度较高,为了拟合这两个无法正确反应规律的样本,反而降低了最终的准确率,这种过于敏感以至于拟合噪声导致性能下降的结果,就是高方差。
高方差的基本表示就是过拟合(Overfitting),即在训练集上表现很好,但在验证集或测试集上表现很差。就像一个非常复杂的神经网络,完美记住了训练数据的所有点(包括噪声),反而会对新数据泛化能力极差。

而我们在第二份图标注合适的原因,就是因为它做到了拟合大部分数据的规律实现低偏差,又没有被噪声干扰偏离正确规律从而实现低方差。
低偏差和低方差,就是我们追求的模型目标。

2.2 从数据分析偏差和方差高低

现在,我们已经知道了偏差和方差的概念,而在实际代码运行中,我们则需要从代码的结果,即评估指标来判断这两点,来继续看猫狗分类的例子,我们从代码结果上看看如何分析偏差和方差的高低。
Pasted image 20251028140230

简单来说:
偏差高低就看数据在训练集上的表现好不好。
方差高低就看数据在训练集和验证集上的差别大不大。

此外,并不是说只有0.5%或以下才是低方差或者低误差。
这涉及到一个基本误差的概念:我们人眼判断错误的概率
假设我们人眼只有1%的概率会错误分类猫狗,那我们的方差和偏差的高低标准就会以1%为标准判断。
基本误差根据任务不同,自然也不同。

等等,好像还有一点不太清晰。
我们刚刚引出概念的时候谈到,高偏差的表现是欠拟合,高方差的表现是过拟合,但从二者的定义上来看,欠拟合和过拟合不是冲突的吗?那为什么高偏差和高方差可以同时存在呢?
对于这个问题,从表面上看:

  • 高偏差 → 欠拟合(模型太简单,对规律学得不够)
  • 高方差 → 过拟合(模型太复杂,对噪声学得太多)
    似乎一个模型“学的不够”,另一个“学的太多”,那怎么可能又多又少?
    问题就在于——我们用“表现”来简化这两个概念,但其实它们真正反映的是模型表现的两个不同维度
    举一个飞镖的例子 :
  • 每次都扔偏了靶心(高偏差);
  • 而且每次落点都不一样(高方差)。
    这就是“又不准又不稳”的情况,即 高偏差 + 高方差同时存在
    其次,欠拟合和过拟合都可以是局部的,我们可能在图像某一区域发生了欠拟合,又在另一区别发生了过拟合,从这个角度看,即 欠拟合 + 过拟合同时存在
    这样便可以比较好的回答这个问题。

2.3 如何调整偏差和方差

现在我们已经知道如何判断算法的偏差和误差情况了,那相应的,采取什么样的措施才能调整二者,从而实现算法的调优呢?
总结成一张图如下:
Pasted image 20251028143646

这是一些基本措施。
要说明的一点是,方差和误差往往是联动的,我们的一些措施往往会同时增加或减少二者,用什么算法,什么样的超参数等等都会产生影响,而随着技术的发展,才出现了可以单独影响二者之一的新方法技术,我们遇到再说。
总结来说,构建更大,更复杂的网络往往能起到更好的效果,但实际上,在这方面,目前并没有数学概念上的“最优解”,即可以在所有问题上实现最好效果的架构或算法。
这便是为什么我们往往把训练模型称为“炼丹”的原因,我们需要一点点,一步步地调试,来摸索出针对自己的问题效果最好的模型,有些时候,我们自己也不知道为什么某样组合能达到更好的效果。

这便是本篇的内容,下一篇,我们就会介绍到刚刚的图里新出现的概念:正则化,它可以帮我们缓解过拟合的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/948818.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云端微信 - 随时随地在浏览器访问

项目介绍基于 Docker 的微信/QQ Linux 客户端,使用 Selkies WebRTC 技术提供浏览器访问支持。 将官方Linux版本的微信和QQ封装在容器里面运行,通过Web访问,可用本地输入,可支持复制粘贴文字/图片,上传下载文件等。…

Ollama 运行模型

Ollama 运行模型使用 ollama run 命令。 例如我们要运行 Llama 3.2 并与该模型对话可以使用以下命令: ollama run llama3.2 执行以上命令如果没有该模型会去下载 llama3.2 模型:等待下载完成后,我们在终端中,输入以…

【往届EI、Scopus已检索|ACM独立出版】第二届经济数据分析与人工智能国际学术会议 (EDAI 2025)

第二届经济数据分析与人工智能国际学术会议(EDAI 2025)将于2025年11月14日至16日召开。本次会议旨在汇聚全球经济、数据科学、人工智能等领域的顶尖学者和行业专家,深入探讨经济数据分析与人工智能技术的前沿发展及…

win11后台程序cpu高占用问题

win11 两个高占用CPU的服务 ![win11- 两个服务占用cpu资源,导致笔记发热](D:\20365\Desktop\win11- 两个服务占用cpu资源,导致笔记发热.png) 发现win11 笔记本 的这两个程序cpu占用了10%, 导致笔记无故发热。于是在…

2025 年矿井轴流通风机,矿井抽出式轴流对旋通风机,矿井压入式对旋轴流通风机,FKD 系列矿井压入式对旋轴流通风机厂家最新推荐,实力品牌深度解析采购无忧之选

引言 在矿井生产中,矿井轴流通风机等设备是保障井下空气流通、保障作业安全的关键。为给采购方提供可靠参考,通用机械工业协会风机分会联合行业专家开展 2025 年矿井通风机厂家测评。测评从技术实力(专利数量、研发…

2025 年矿用隔爆型压入式轴流通风机,FKZ 系列矿井轴流通风机,FKCDZ 系列矿井抽出式轴流对旋通风机厂家最新推荐,聚焦资质、案例、售后的五家机构深度解读

引言 为精准筛选 2025 年矿用通风机优质厂家,通用机械工业协会风机分会联合矿山设备检测机构开展专项测评。测评采用 “三维九项” 体系,从资质维度(含防爆认证、生产许可证、质量体系认证)、案例维度(大型矿山合…

2025 年矿井压入式轴流通风机,矿用隔爆型压入式对旋轴流通风机,煤矿地面用抽出式轴流对旋通风机厂家最新推荐,精准检测与稳定性能深度解析

引言 矿用通风机作为矿山安全生产的 “生命线”,其隔爆性能、风量稳定性与运行可靠性直接关系到井下作业安全。当前市场中同类产品质量差异显著,部分产品存在隔爆等级不达标、高效区覆盖范围窄等问题,给采购决策带来…

第一次编程作业完结撒花!!!

本学期软件工程第一个结对编程作业完成啦!(完结撒花!!!) 作为一个0基础选手,这一次更多的体验是:原来这是编程!原来这是结对编程(但我们组来说,可能我的旁听学习更多,能给我的伙伴提供路线规划、具体实施的…

LangGraph MCP - 使用LangGraph实现多智能体架构(七)

在 LangChain 体系中,LangChain 主要集成了和大语言模型交互的能力,而 LangGraph 主要实现了复杂的流程调度。将这两个能力结合起来,就可以实现一个复杂的多智能体。 一、多智能体典型的组装方式 https://langchain…

DP 复习 - L

本文写于2025.10.28,旨在复习所有做过的 DP 题目,以及它们引出的 DP 思想。 一、DP 概念 1. 概念 DP 是 Dynamic Programming 的简称,专指动态规划算法。 2. 性质 能用 DP 求解的问题,必须满足如下三个性质:最优子…

完整教程:swin-transformer架构解析和源码解析

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年沈阳/北京/东三省制造业企业商业秘密保护权威推荐榜单:高新技术企业与上市公司数据安全解决方案精选

2025年沈阳/北京/东三省制造业企业商业秘密保护权威推荐榜单:高新技术企业与上市公司数据安全解决方案精选 在当今数字化经济时代,商业秘密保护已成为制造业企业特别是高新技术企业和上市公司的核心竞争力所在。随着…

2025沈阳/北京/东三省制造业企业商业秘密保护厂家推荐大宸商业,专业合规护航企业发展

2025沈阳/北京/东三省制造业企业商业秘密保护厂家推荐大宸商业,专业合规护航企业发展在当今激烈的市场竞争环境中,商业秘密保护已成为制造业企业核心竞争力的重要组成部分。随着数字化转型的加速推进,制造业企业的技…

LangGraph MCP - 使用LangGraph构建多智能体工作流(六)

一、流式输出大模型调用结果 之前提到 Graph 的流式输出有几种不同的模式,这里展示 messages 模式,是用来监控大语言模型的 Token 记录的。 代码在 stream_mode_messages.py 文件中,内容如下:# -*- coding: utf-8 …

告别卡顿与等待,Rancher Vai 让集群操作“秒响应”

有时候,创新不只是功能更多,而是让等待更少。Rancher Vai,让每一次操作都快得刚刚好。如果你正用 Rancher 在大规模环境中管理 Kubernetes,那么你一定知道,UI 性能不只是“锦上添花”——它对效率至关重要。Ranch…

2025 年机械设备铝型材,轻型铝型材,定制铝型材厂家最新推荐,产能、专利、环保三维数据透视

引言 随着工业自动化进程加速,机械设备、轻型结构等领域对铝型材的定制化需求持续攀升,但市场产品质量与服务能力差异显著。为精准筛选优质厂家,本次测评联合行业权威机构,依据 GB/T 6892-2025 及 ISO 9001 标准体…

2025 年铝型材框架、铝型材围栏、6063 铝型材、重型铝型材厂家最新推荐 —— 产能、专利、环保三维数据透视

引言 随着工业自动化与高端制造领域的快速发展,铝型材框架、围栏等结构件的应用场景持续拓展,6063 合金因优异的成型性与重型铝型材的高承载性成为核心需求材料。但市场中厂家产能差异达 10 倍以上,专利密度悬殊,部…

LangGraph MCP - Graph(五)

Graph 是 LangGraph 的核心,它以有向无环图的方式来整合多个 Agent,构建更复杂的 Agent 大模型应用,形成更复杂的工作流。并且提供了很多产品级的特性,保证这些应用可以更稳定高效的执行。 Graph 主要包含三个基本…