机器学习之数据集划分及验证和测试

news/2025/11/17 10:29:18/文章来源:https://www.cnblogs.com/guxuanqing/p/19231411

1. 数据集划分

在标准的机器学习流程中,数据集通常被划分为以下几个主要部分:
1). 训练集 (Training Set)
  • 作用:用于训练模型,即通过学习数据中的特征和模式来优化模型的内部参数。
  • 用途:模型接触的绝大部分数据都在这里,是模型“学习”的基础。
2). 验证集 (Validation Set)
  • 作用:用于在训练过程中调优模型超参数(Hyperparameters),例如神经网络的层数、学习率、树模型的深度等。
  • 用途:验证集的结果指导我们选择最佳的模型配置。它既不直接参与模型的参数优化(训练),也不是最终评估的依据。
3). 测试集 (Testing Set / Holdout Set)
  • 作用:用于对最终确定超参数的模型进行无偏见的最终评估。
  • 用途:测试集的数据必须是模型在训练和验证过程中完全没有接触过的“新”数据。评估结果代表了模型在实际应用中的预期性能。

2. 常见的数据集划分方法

主要有两种策略来划分数据集:
1). 留出法(Hold-out Method / 简单划分)
这是最基础的划分方法,将数据集一次性划分为训练集和测试集(有时也包括验证集)。
  • 划分比例:常见的比例有 80% 训练 / 20% 测试,或者 70% 训练 / 15% 验证 / 15% 测试。
  • 优点:简单、快速、计算成本低。
  • 缺点:划分结果具有随机性,可能导致样本偏差,评估结果不稳定。如果数据集较小,会进一步减少训练数据量。
2). 交叉验证(Cross-Validation, CV)
为了克服留出法的随机性和数据利用率低的问题,交叉验证被广泛使用,其中最常用的是 K 折交叉验证(K-Fold CV)。
  • 方法:
    1. 将数据集随机平均分成 K 个大小相似的子样本(折,Fold)。
    2. 进行 K 次独立的模型训练和评估。每一次,都使用其中 K-1 个子集作为训练集,剩下的那 1 个子集作为验证集(或测试集)。
    3. 最终,将 K 次评估结果取平均值,得到一个更稳定、更可靠的模型性能估计。
  • 优点:数据利用率高,评估结果更稳定、可靠。
  • 缺点:计算成本高,需要训练 K 次模型。
在机器学习领域,验证(Validation)测试(Testing)是模型开发过程中两个不同且关键的阶段,使用的数据集也不同。
  • 验证(Validation):用于调优模型,在训练过程中选择最佳超参数模型架构
  • 测试(Testing):用于评估最终模型的泛化能力,确保其在未见过的新数据上的表现符合预期。
在机器学习和深度学习中,**验证(Validation)**的核心目标是评估模型的泛化能力,并据此调整模型的超参数或进行模型选择。主要的验证方法可以分为以下几大类:
 
1. 标准单次划分验证
这是最基本、最常用的方法,将数据集一次性划分为训练集、验证集和测试集。
  • 数据集划分比例:常见的比例有 70% 训练集,15% 验证集,15% 测试集;或者在深度学习中(数据量很大时),使用 98% 训练集,1% 验证集,1% 测试集。
  • 优点:实现简单,计算成本低。
  • 缺点:验证结果依赖于具体的随机划分方式,如果数据划分不具有代表性,验证结果可能存在偏差。
 
2. 交叉验证 (Cross-Validation, CV)
交叉验证是一种更鲁棒的验证方法,尤其适用于中小型数据集的机器学习模型调优。它通过多次不同的划分来全面评估模型性能。
 
a. K折交叉验证 (K-Fold Cross-Validation)
这是最流行的交叉验证形式。
  • 方法:将训练数据集分成 K 个大小相等的“折”(Fold)。每次训练时,使用 K-1 折作为训练数据,剩下的一折作为验证数据。重复 K 次,每次使用不同的折作为验证集。
  • 结果:最终的模型性能取 K 次验证结果的平均值。
  • 优点:更全面地评估模型性能,减少了划分方式带来的偏差,更好地利用了有限的数据。
  • 缺点:计算成本高,需要训练 K 个模型,在深度学习中很少直接用于调优(耗时太长)。
 
b. 留一法交叉验证 (Leave-One-Out Cross-Validation, LOOCV)
  • 方法:K折交叉验证的特例,K等于样本总数 N。每次只留一个样本做验证,其余 N-1 个样本做训练。
  • 优点:提供了最无偏的性能估计。
  • 缺点:计算成本极高,通常只用于非常小的数据集。
 
c. 分层K折交叉验证 (Stratified K-Fold CV)
  • 方法:确保在每次划分中,训练集和验证集中的类别比例与原始数据集的比例保持一致。
  • 用途:强烈推荐用于处理样本不平衡问题的数据集。
 
3. 时间序列交叉验证 (Time Series Cross-Validation)
  • 方法:对于时间序列数据,不能随机打乱顺序。必须按照时间顺序进行划分,确保模型只能使用过去的数据预测未来的数据(例如,使用 2023 年的数据预测 2024 年 Q1 的数据)。
  • 用途:金融、天气预报等时间依赖性强的数据集。
 
4. 深度学习中的验证方法
在深度学习中,由于模型训练时间长、数据量大,通常使用标准单次划分验证结合早停法:
  • 标准划分 + 早停法 (Early Stopping):在训练过程中,周期性地(例如每个 Epoch 结束时)在验证集上评估模型损失或准确率。如果模型在验证集上的性能连续几个周期没有改善甚至开始下降,就提前停止训练。这既能有效防止过拟合,又能节省大量计算时间。
总结与推荐
  • 传统机器学习(小数据集):优先使用K折交叉验证进行模型选择和超参数调优。
  • 深度学习(大数据集):使用标准单次划分验证集,并结合早停法。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/967664.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年靠谱的石塑地板墙板厂家推荐及选择指南

2025年靠谱的石塑地板墙板厂家推荐及选择指南行业背景与市场趋势石塑地板作为一种新型环保建材,近年来在全球建材市场呈现爆发式增长。根据中国林产工业协会最新发布的《2024-2025年中国石塑地板行业发展报告》显示,…

网闸文件交换一体机是什么?一文读懂新型网闸的最新机制

网闸文件交换一体机是什么?通俗的解释,就是传统网闸+文件摆渡系统的综合体,类似于《Ftrans网络安全隔离与信息交换系统》这样的,以标准网闸产品为基础,扩展增强了面向终端用户的跨网文件安全交换应用功能,既能够…

2025年2.0mm养殖防渗土工膜环保材料推荐榜

2025年2.0mm养殖防渗土工膜环保材料推荐榜行业背景与市场趋势随着我国畜禽养殖业规模化、集约化发展,养殖场防渗工程已成为环境保护的重要环节。据中国土工合成材料工程协会2024年统计数据显示,我国养殖防渗土工膜市…

2025年优秀的北京分段式母线槽用户好评厂家排行

2025年优秀的北京分段式母线槽用户好评厂家排行随着中国城市化进程的加速和电力基础设施建设的不断推进,母线槽作为现代建筑和工业设施中不可或缺的电力传输设备,市场需求持续增长。据中国电力企业联合会最新数据显示…

泵业龙头君禾泵业如何用CRM驱动销售效率倍增?

在制造业数字化浪潮中,君禾泵业股份有限公司(下简称“君禾泵业”)积极探索数字化升级。为进一步提升业务效率和管理水平,君禾泵业携手纷享销客 CRM,进行业务流程的全面数字化管控,打造高效业务闭环。君禾泵业信息…

2025年正规的特种电缆品牌厂家排行榜

2025年正规的特种电缆品牌厂家排行榜特种电缆行业发展现状与市场趋势特种电缆作为电力传输和信号控制的关键材料,在国民经济建设中发挥着不可替代的作用。根据中国电器工业协会电线电缆分会最新发布的《2024-2025中国…

2025年优质的适老化医养家具高评价厂家推荐榜

2025年优质的适老化医养家具高评价厂家推荐榜行业背景与市场趋势随着中国老龄化进程加速,适老化医养家具市场迎来了前所未有的发展机遇。根据国家统计局数据显示,截至2023年底,我国60岁及以上人口已达2.8亿,占总人…

2025年优秀的五星酒店家具厂家最新实力排行

2025年优秀的五星酒店家具厂家最新实力排行行业背景与市场趋势随着全球旅游业的持续复苏和高端酒店业的蓬勃发展,五星级酒店家具市场迎来了新一轮增长机遇。根据《2024-2025中国酒店家具行业白皮书》显示,2024年中国…

大气Rossby波

大气Rossby波罗斯贝波是地球大气中一种波长可达3000至10000千米的大尺度波动,由瑞典裔美国气象学家卡尔古斯塔夫罗斯贝于1939年提出。其形成与地球自转导致的纬度间角速度差异及地转偏向力变化有关,分布于对流层中下…

2025年靠谱的五金淋浴房配件厂家最新实力排行

2025年靠谱的五金淋浴房配件厂家最新实力排行行业背景与市场趋势随着中国家居建材行业的持续发展,淋浴房作为卫浴空间的重要组成部分,其市场需求稳步增长。据中国建筑卫生陶瓷协会最新数据显示,2024年中国淋浴房市场…

MySQL EXPLAIN执行计划:SQL性能翻倍的秘密武器

在数据库性能优化领域,Explain执行计划是MySQL开发者与DBA必须掌握的利器。它揭示了SQL语句的执行路径、索引使用情况及资源消耗模型,是诊断慢查询和优化索引策略的核心工具。本文将全方位解析Explain的机制与实践技…

2025年优秀的学生宿舍铁床厂家最新TOP实力排行

2025年优秀的学生宿舍铁床厂家最新TOP实力排行行业背景与市场趋势随着我国教育事业的持续发展和高校扩招政策的推进,学生宿舍家具市场迎来了新一轮增长机遇。据中国家具协会最新数据显示,2024年我国学生宿舍家具市场…

2025年跨境电商ERP系统权威推荐榜:赛狐ERP领跑亚马逊卖家精细化运营

面对海量的订单、复杂的物流和繁琐的财务数据,一套高效的ERP系统已成为跨境电商卖家不可或缺的管理利器。 跨境电商行业的蓬勃发展带来了日益复杂的管理需求,众多ERP系统应运而生。本文将基于产品技术实力、用户基础…

基于MATLAB的双树复小波变换和双树复小波包变换的代码实现

基于MATLAB的双树复小波变换(DTCWT)和双树复小波包变换(DTCWPT)的代码实现一、双树复小波变换(DTCWT)实现 1. 核心函数代码 % 加载预置滤波器(需下载dtcwt_toolbox4_3工具箱) load(qshift_b.mat); % 包含qshif…

2025年诚信的电缆桥架优质厂家推荐榜单

2025年诚信的电缆桥架优质厂家推荐榜单行业背景与市场趋势电缆桥架作为现代建筑电气工程中的重要组成部分,承担着保护、支撑和敷设电缆的关键功能。随着我国基础设施建设的持续投入和工业4.0的深入推进,电缆桥架行业…

2025年靠谱的网红别墅电梯厂家实力及用户口碑排行榜

2025年靠谱的网红别墅电梯厂家实力及用户口碑排行榜行业背景与市场趋势随着中国高端住宅市场的持续增长和老龄化社会的加速到来,别墅电梯行业迎来了前所未有的发展机遇。据中国电梯行业协会最新数据显示,2024年中国别…

人脸识别初识原理及实现

要从检测到的行人中判断是否有特定目标人物存在,其技术流程和关键技术可以分为以下几个核心环节: 整个流程可以概括为:**人脸检测 → 人脸对齐 → 特征提取 → 特征比对与识别**。人脸识别原理 要从检测到的行人中判…

2025年评价高的公寓床厂家最新权威实力榜

2025年评价高的公寓床厂家最新权威实力榜行业背景与市场趋势随着中国城市化进程加速和住房租赁市场蓬勃发展,公寓床行业迎来了前所未有的发展机遇。根据中国家具协会最新发布的《2024-2025年中国宿舍家具行业白皮书》…

分享精选文章合集 2025-11-17

分享精选文章合集 2025-11-172025-11-17的精选文章内容。今日热门信息 - jobleap4u.com 内容概览:共 100 篇内容(按发布时间倒序排列,数据源自提供的 ArticleCollection) 官方链接:https://mp.jobleap4u.com/disc…

2025年热门的污水处理池hdpe土工膜推荐TOP品牌厂家

2025年热门的污水处理池HDPE土工膜推荐TOP品牌厂家一、行业背景与市场趋势随着全球环保意识的提升和污水处理需求的不断增长,HDPE土工膜作为污水处理池防渗工程的核心材料,其市场需求呈现持续上升态势。据中国土工合…