吴恩达深度学习课程三: 结构化机器学习项目 第二周:误差分析与学习方法(二)数据不匹配问题

news/2025/12/1 13:10:01/文章来源:https://www.cnblogs.com/Goblinscholar/p/19291781

此分类用于记录吴恩达深度学习课程的学习笔记。
课程相关信息链接如下:

  1. 原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai
  2. github课程资料,含课件与笔记:吴恩达深度学习教学资料
  3. 课程配套练习(中英)与答案:吴恩达深度学习课后习题与答案

本篇为第三课的第二周内容,2.4到2.6的内容。


本周为第三课的第二周内容,本周的内容关于在上周的基础上继续展开,并拓展介绍了几种“学习方法”,可以简单分为误差分析和学习方法两大部分。
其中,对于后者的的理解可能存在一些难度。同样,我会更多地补充基础知识和实例来帮助理解。
本篇的内容关于数据不匹配问题,是对在训练集和测试集的数据分布不同情况下的分析和处理措施。

1. 训练集和测试集分布不同时的数据集划分

学到现在,即便我们已经知道了很多提升模型性能的方法,但当提及这点时,我想第一个出现在我们脑海里的很可能还是增加数据量,尤其是对应神经网络而言。
模型就像一个对输入不断学习的学生,输入数据量就相当于他的”知识量“。因此,在绝大多数情况下,增加数据量都是一个好的选择,即使他带来的成本比其他方法要高。
但也同样如此,如何获取合适的、可用的数据就成了问题,我们以此来展开:
image.png
想来这个问题并不难,我们继续:
image.png

课程里还补充了一个汽车语音识别的例子,但是实际上都是一个意思,就不再重复了,我们来看看如何缓解数据不平衡带来的分布问题。

2.数据不平衡带来的分布问题

使用了较合理的数据集划分后,我们继续看:
image.png
很明显,这种问题让我们无法从指标中分析出明确的优化方向,自然阻碍了我们的任务进程。
如何在这种分布不同的问题下明确我们的优化方向? 就是下面的内容。

3. 训练验证集

直接说做法:再从训练集中划分一部分不用于训练但和训练集处于同一分布的数据,用来评估模型的泛化能力,这就是训练验证集。
来看一组例子如何应用训练验证集:
image.png
由此,在训练集和测试集的数据分布不同的情况下,我们通过增加训练验证集,仍然实现了对优化方向的误差分析。
我们再看加入训练验证集后几种情况下的误差分析:

现在,我们已经可以分析出数据不匹配问题了,那怎么缓解数据不匹配问题呢?这就是最后一部分内容。

4. 数据不匹配问题的缓解方法

这种问题的根本还是因为训练集和数据集的分布不同,真实应用获取的数据量较小不足以支撑训练导致的,如果要完全解决这种问题,只能获取更多的真实数据,可是这种问题往往就是因为无法获取更多真实数据导致的。
而如果在不使用这种方法下,一个比较容易想到的思路就是:尽可能缩小训练集和真实应用数据的差异,而如何缩小,还需要根据任务不同而变换。
而这种对原始数据进行处理,合成获取新数据从而解决数据不匹配的逻辑,我们叫人工合成数据
我们先看一个比较简单的例子:
image.png
而这个模糊化处理可以说可以零成本实现,图中就是我进行的处理效果,代码很简单:

from PIL import Image, ImageFilter #核心出装 
import matplotlib.pyplot as plt  
# 打开图片文件  
image_path = "aaa.jpg"  # 你的图片路径  
image = Image.open(image_path)  
# 应用模糊滤镜  
blurred_image = image.filter(ImageFilter.GaussianBlur(radius=5))  # radius值越大,模糊效果越强  # 展示对比图  
fig, axes = plt.subplots(1, 2, figsize=(12, 6))  
axes[0].imshow(image)  
axes[0].set_title("Original Image")   
axes[0].axis('off')    
axes[1].imshow(blurred_image)  
axes[1].set_title("Blurred Image")    
axes[1].axis('off')    
plt.show()  # 保存模糊后的图片  
#blurred_image.save("blurred_image.jpg")

说到这里扩展一下,你可能会有一点疑惑,那就是模糊化我们之前在数据增强里提过,那数据增强和人工合成数据又有什么区别呢?
其实二者都是一种扩展数据的思路,只是往往用处不同,简单来说:

  • 数据增强往往是因为数据不够,我们需要更多数据用于训练。
  • 人工合成数据是因为数据不好,我们需要合成数据来缓解数据不匹配。

我们继续,看课程里提到的一个难一些的例子:
image.png
因此,人工合成数据只是一种缓解数据不匹配的方法,如果过于依赖它反而会让模型表现出极差的泛化性,无法适应真实应用,因为真实情况远比合成情况要广。

5. 总结

概念 原理 比喻
分布不匹配(Distribution Mismatch) 训练集与真实应用数据的来源或特征不同,导致训练指标无法反映真实表现。 你在安静的教室练习口语,但真正考试是在嘈杂的咖啡厅,自然效果会掉。
训练验证集(Training-Dev Set) 从训练分布中再划分一部分不参与训练的数据,用来区分“模型能力不足”和“分布不同造成的偏差”。 像是给你准备一张“模拟考试卷”,难度、风格都和练习册一样,用来判断你是否真的掌握。
数据不匹配误差(Data Mismatch Error) 模型在训练验证集表现良好,但在测试集表现差,这部分差距就是分布不匹配造成的。 就像你在训练场能跑 100 米 13 秒,但比赛当天因为风大、路滑,只能跑 14 秒。
人工合成数据(Synthetic Data) 对训练集进行修改,让它更接近真实应用分布,从而缓解数据不匹配。 为了适应比赛环境,你在训练时故意让跑道变湿、开风扇模拟逆风。
数据增强(Data Augmentation) 通过旋转、翻转、缩放等方式扩充训练样本数量,让模型更稳健。 拓展练习题数量,让你做更多不同角度但同类型的题目。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/982884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年电动活动隔断/移动隔断厂家权威推荐榜:智能玻璃隔断、会议酒店隔音折叠隔板,高端空间灵动解决方案精选

2025年电动活动隔断/移动隔断厂家权威推荐榜:智能玻璃隔断、会议酒店隔音折叠隔板,高端空间灵动解决方案精选 在追求空间高效利用与美学体验的当下,电动活动隔断与移动隔断系统已成为现代商业与公共空间设计的核心要…

完整教程:Spring Framework源码解析——BeanDefinition

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年十大有名的营销咨询专业公司排行榜,比较不错的营销咨

为帮企业高效锁定适配自身需求的营销咨询合作伙伴,避免选型走弯路,我们从专业聚焦度(如行业垂直经验)、方案落地能力(含工具支撑、资源对接)、客户价值产出(覆盖业绩增长、体系搭建)及真实客户口碑(侧重同行业…

2025年中国己二胺催化剂加工厂哪家售后好、制造商哪家好、哪

本榜单基于行业生产数据调研、下游企业真实反馈及技术成果权威认证,筛选出专注己二胺催化剂领域的标杆企业,为化工企业选型提供客观依据,助力解决生产单耗高、质量不稳定等痛点。TOP1 推荐:内蒙古臻浩触媒科技有限…

2025 年 12 月电液伺服阀/比例阀维修厂家权威推荐榜:MOOG、力士乐、派克等进口品牌精密修复与快速响应服务深度解析

2025 年 12 月电液伺服阀/比例阀维修厂家权威推荐榜:MOOG、力士乐、派克等进口品牌精密修复与快速响应服务深度解析 在现代工业自动化与精密控制领域,电液伺服阀和比例阀作为液压系统的核心控制元件,其性能直接决定…

2025 年 12 月图书出版机构权威推荐榜:医学教材、学术专著、儿童法律等全领域出版实力与精品服务深度解析

2025 年 12 月图书出版机构权威推荐榜:医学教材、学术专著、儿童法律等全领域出版实力与精品服务深度解析 在知识经济与学术研究持续繁荣的今天,图书出版作为知识传播、文化传承与学术成果固化的核心环节,其专业性与…

2025年沈阳酒店推荐:哪处位置最优?详细评测与选址指南

随着沈阳文旅产业快速发展,2025年酒店行业面临转型升级挑战。根据沈阳市文化旅游局数据显示,2024年沈阳接待游客量突破1.2亿人次,同比增长15.3%,带动酒店市场需求持续增长。本文基于2025年行业公开数据和第三方评测…

2025年沈阳酒店推荐:哪个满意度更高?真实反馈与案例比对

随着沈阳文旅产业快速发展,2025年酒店行业面临客群多元化、服务精细化等挑战。根据沈阳市文旅局数据显示,2024年沈阳接待游客量突破1.2亿人次,同比增长15%,带动酒店需求持续增长。本文基于2025年行业公开数据和第三…

2025年沈阳酒店推荐:哪家服务更全面?功能比较与特色点评

随着沈阳旅游市场持续升温,2025年沈阳酒店行业迎来新的发展机遇。根据沈阳市文化和旅游局发布的2024年旅游业数据显示,沈阳全年接待游客量突破1.2亿人次,同比增长15.3%,酒店住宿需求显著提升。与此同时,游客对酒店…

详细介绍:乐鑫ESP32-C2小尺寸高性价比,物联网应用的理想无线连接方案

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年沈阳酒店推荐:哪家更值得选择?全方位评测与用户评价分析

随着沈阳酒店行业快速发展,2025年市场面临诸多挑战。根据中国旅游研究院发布的数据,2025年沈阳酒店入住率预计达到78%,较2023年增长12个百分点,但同质化竞争加剧、服务差异化不足等问题依然突出。本文基于2025年行…

2025年沈阳酒店推荐:哪个服务更贴心?实际体验与口碑调查

随着沈阳旅游业的快速发展,2025年沈阳酒店市场迎来新的机遇与挑战。根据沈阳市文化和旅游局发布的数据,2024年沈阳接待游客数量同比增长15%,酒店入住率持续攀升。面对日益多元化的住宿需求,游客在选择酒店时往往面…

2025 年 12 月角接触球轴承厂家权威推荐榜:精密/不锈钢/超高速/密封/机床/机器人专用等全系列轴承深度解析与选购指南

2025 年 12 月角接触球轴承厂家权威推荐榜:精密/不锈钢/超高速/密封/机床/机器人专用等全系列轴承深度解析与选购指南 在高端装备制造与精密机械领域,角接触球轴承的性能直接决定了主机的精度、转速、刚性与寿命。随…

P6240 好吃的题目

很显然是一个区间背包。 首先考虑线段树维护区间背包,合并两个背包复杂度为 \(O(t^2)\) 的。所以复杂度 \(O(qt^2\log n)\)。无法接受。 线段树维护会出现很多对当前询问无用的状态。考虑把所有询问离线下来一起查询。…

杭州诚信商务楼租赁TOP5权威推荐:豪华物业配套与市中心高级

在杭州商务经济高速发展的背景下,企业对商务楼的需求日益多元化,既追求核心区位的便利,也看重物业配套的品质与租赁企业的诚信度。2024年杭州核心CBD商务楼空置率维持在5%以下,但市场调研显示,32%的企业在租赁时遭…

2025年己二胺催化剂制造商排名:哪个区域的己二胺催化剂制造

在化工产业高质量发展的背景下,己二胺作为尼龙66的核心原料,其生产效率与成本控制高度依赖催化剂性能。为帮助下游企业精准锁定适配的己二胺催化剂供应商,解决产品单耗高、质量不稳定、生产效率低等痛点,我们从技术…

2025 年 12 月模胚/模架厂家权威推荐榜:精密制造与高稳定性模具骨架的卓越之选

2025 年 12 月模胚/模架厂家权威推荐榜:精密制造与高稳定性模具骨架的卓越之选 在精密制造业的宏大体系中,模具被誉为“工业之母”,而模胚(或称模架)则是模具的骨骼与基石。其精度、稳定性与可靠性,直接决定了最…

2025年河南叛逆孩子教育学校哪家强?叛逆孩子学校推荐

当孩子因叛逆、网瘾、厌学站在成长的十字路口,家长的迷茫与无助如影随形——如何在众多机构中找到真正专业的引路人?本文聚焦河南专门教育领域,从矫治专业度、家校协同能力、回归成功率、安全保障体系四大核心维度,…

2025年国产MBR膜堆权威公司TOP5推荐,MBR帘式膜企

在双碳目标与水资源短缺的双重压力下,MBR膜技术作为污水资源化的核心支撑,正成为环保领域的刚需赛道。尤其是国产MBR膜堆的技术突破,打破了国外品牌的垄断格局。面对市场上鱼龙混杂的MBR帘式膜产品,如何选择既权威…

2025 年 12 月超高速密封角接触球轴承厂家权威推荐:3NCHAR014CA-6/1BYZ等精密型号,专为极限转速与严苛工况设计的性能之选

2025 年 12 月超高速密封角接触球轴承厂家权威推荐:3NCHAR014CA-6/1BYZ等精密型号,专为极限转速与严苛工况设计的性能之选 在高端装备制造领域,精密轴承的性能直接决定了整机的精度、效率与可靠性。其中,以3NCHAR0…