【机器学习】划分训练集和测试集的方法

在机器学习中,我们的模型建立完成后,通常要根据评估指标来对模型进行评估,以此来判断模型的可用性。而评估指标主要的目的是让模型在未知数据上的预测能力最好。因此,我们在模型训练之前,要对训练集和测试集进行划分。一般数据集划分的方法有四种:留出法、交叉验证法、留一法、自助法。

在这里插入图片描述
注:数据集D划分为两个互斥的的集合,其中一个集合作为训练集S,另一个作为测试集T

数据集的具体划分方法

1.留出法
留出法直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S ,另一部分用作测试集T。用训练集T进行模型训练,测试集S来评估误差。

在这里插入图片描述
在此划分数据集上,训练/测试集的划分要尽可能保持数据分布的一致性,避免因为数据的分布差距较大对模型的训练结果产生影响。例如在二分类问题上,要保证数据样本的类别分布均匀,则我们通常采用分层采样对数据进行划分比如,现在有1000个数据样本,其中500个正例,500个反例,如果训练集:测试集为7:3,则我们采用分层采样随机取70%的训练集和30%的测试集。划分结果中训练集中包含350个正例和350个反例;测试集中包含150个正例和150个反例。
留出法在选择划分比例时,常常会出现很多问题,如果训练集的比例较大,可能会导致训练出的模型更接近于用D训练出的模型,同时测试集较小,会使评估结果不准确,模型的方差较大;若测试集的比例较大,则有可能导致训练的模型偏差较大,从而降低了评估的保真性。因此,常见的做法是将大约2/3~4/5的样本用于训练,比例划分两类训练集:测试集可以是6:4、7:3或8:2。 如果是三类训练集:验证集:测试集可以是6.2.2,验证集是可选值,但项目越庞大越需要验证集。

2.交叉验证法
(1)首先将数据集D划分为k个大小相似的互斥子集, 每个子集 都尽可能保持数据分布的一致性,即从 D 中通过分层采样得到。( 2 )其次,每次用 k − 1 个子集的并集作为训练集,剩余下的子集作为测试集。( 3 )最后,可获得 k 组训练 / 测试集,从而可进行 k 次训练和测试,取 k 个测试结果的均值 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。 (2)其次,每次用k-1个子集的并集作为训练集,剩余下的子集作为测试集。 (3)最后,可获得k组训练/测试集,从而可进行k次训练和测试,取k个测试结果的均值 都尽可能保持数据分布的一致性,即从D中通过分层采样得到。(2)其次,每次用k1个子集的并集作为训练集,剩余下的子集作为测试集。(3)最后,可获得k组训练/测试集,从而可进行k次训练和测试,取k个测试结果的均值

交叉验证法评估结果的稳定性和保真性在很大程度上取决于k的取值,因此,交叉验证法称为”k折交叉验证”(k-fold cross validation),k通常取10,称10折交叉验证。

在这里插入图片描述
与留出法类似,k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的10次10折交叉验证。

3.留一法
留一法作为交叉验证法的一种特殊情况,具体方法就是使k等于数据集中数据的个数,每次只使用一个作为测试集,剩余的全部作为训练集,重复采样取平均值。这种方法得出的结果与训练整个测试集的期望值最为接近,具有确定性。但是成本要求较高,没有采用分层采样,存在偏差。

4.自助法
自助法是一种从给定训练集中有放回的均匀抽样,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。

自助法以自助采样法为基础,给定包含 m 个样本的数据集 D,每次随机从 D 中挑选一个样本,放入 D ′ 中,然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到;重复执行 m 次后,则包含 m 个样本的数据集。 D'中,然后再将该样本放回初始数据集 D 中,使得该样本在下次采样时仍有可能被采到;重复执行 m 次后,则包含m个样本的数据集 。 D中,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;重复执行m次后,则包含m个样本的数据集。

自助法中样本在m 次采样中始终不被采到的概率是 , 取极限得到 : 即中约有 36.8 ,取极限得到: 即 中约有36.8%的样本未出现在 中。于是将 用作训练集, 用作测试集。通过概率计算,经过m次抽样后会有约1/3的样本,始终不会被抽到,这部分数据可以用来测试。 ,取极限得到:即中约有36.8

自助法在数据集较小、难以有效划分训练/测试集时很有用;然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/148460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Python数据结构与算法】——(线性结构)精选好题分享,不挂科必看系列

&#x1f308;个人主页: Aileen_0v0&#x1f525;系列专栏:<<Python数据结构与算法专栏>>&#x1f4ab;个人格言:"没有罗马,那就自己创造罗马~" 时间复杂度大小比较 1.time complexity of algorithm A is O(n^3) while algorithm B is O(2^n). Which o…

大数据-之LibrA数据库系统告警处理(ALM-12053 主机文件句柄使用率超过阈值)

告警解释 系统每30秒周期性检测主机文件句柄使用率&#xff0c;并把实际使用率和阈值&#xff08;系统默认阈值80%&#xff09;进行比较&#xff0c;当检测到主机文件句柄使用率连续多次&#xff08;默认值为5&#xff09;超过阈值时产生该告警。 用户可通过“系统设置 > …

创新研报|新业务发展是CEO推动企业增长的必要选择 – Mckinsey研究

&#x1f50d;&#x1f4c8; 创新研究报告 |新业务拓展&#xff1a;CEO推动企业成长的必然选择 – 麦肯锡研究 &#x1f525;&#x1f4bc; 所有执行长和商界领袖请注意&#xff01;您是否正在寻找为您的组织释放成长机会的钥匙&#xff1f; &#x1f310; 麦肯锡最近的一份研究…

股东入股可用的出资形式主要有哪些

股东入股&#xff0c;可用的出资形式主要包括货币以及实物、知识产权、土地使用权等可以用货币估价并可以依法转让的非货币财产。 第一&#xff0c;货币。设立公司必然需要一定数量的流动资金。以支付创建公司时的开支和启动公司运营。因此&#xff0c;股东可以用货币出资。 第…

fully_connected与linear

1、tf.contrib.layers.fully_connected与tf.contrib.layers.linear的区别 tf.contrib.layers.fully_connected与tf.contrib.layers.linear实现一致&#xff0c;使用tf.contrib.layers.fully_connected一般将激活函数选项至None,因为线性变换不需要非线性变换&#xff0c;与此同…

自学嵌入式,已经会用stm32做各种小东西了

自学嵌入式&#xff0c;已经会用stm32做各种小东西了 1、stm32 工程中&#xff0c;定义一个变量&#xff0c;记录复位次数&#xff0c;即复位一次变量加一。要求不许用备份寄存器和 flash 保存信息。本题只讨论不断电热启动情况&#xff0c;至于冷启动&#xff0c;不在此讨论。…

【MATLAB源码-第80期】基于蚯蚓优化算法(EOA)的无人机三维路径规划,输出做短路径图和适应度曲线

操作环境&#xff1a; MATLAB 2022a 1、算法描述 蚯蚓优化算法&#xff08;Earthworm Optimisation Algorithm, EOA&#xff09;是一种启发式算法&#xff0c;灵感来源于蚯蚓在自然界中的行为模式。蚯蚓优化算法主要模仿了蚯蚓在寻找食物和逃避天敌时的行为策略。以下是蚯蚓…

【论文阅读】基于隐蔽带宽的汽车控制网络鲁棒认证(二)

文章目录 第三章 识别CAN中的隐藏带宽信道3.1 隐蔽带宽vs.隐藏带宽3.1.1 隐蔽通道3.1.2 隐藏带宽通道 3.2 通道属性3.3 CAN隐藏带宽信道3.3.1 CAN帧ID字段3.3.2 CAN帧数据字段3.3.3 帧错误检测领域3.3.4 时间通道3.3.5 混合通道 3.4 构建信道带宽公式3.5通道矩阵3.6 结论 第四章…

视频集中存储/云存储平台EasyCVR级联下级平台的详细步骤

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

Linux CentOS 8(MariaDB概述)

Linux CentOS 8&#xff08;MariaDB概述&#xff09; 目录 一、项目描述二、相关知识2.1 数据库的基本介绍2.2 数据库的分类介绍 三、项目分析3.1 安装并启动 MariaDB3.2 登录 MariaDB 数据库3.3 提高 MariaDB 安装安全性 一、项目描述 Jan16 公司为满足部门之间数据共享、减少…

前台页面从数据库中获取下拉框值

后端&#xff1a;查询所有信息 前台&#xff1a;elementUI <el-select v-model"searchData.stationName" clearable> <el-option :label"item.stationName" :value"item.stationName" v-for"item in stationNameList&quo…

GoLong的学习之路,进阶,标准库之并发(context)补充并发三部曲,你真的明白context吗?

其实对于&#xff0c;context来说&#xff0c;如果只是用来做并发处理就有些不太合适。因为对于golang来说&#xff0c;context应用场景不仅在并发有用&#xff0c;并且在网络链接&#xff0c;http处理&#xff0c;gorm中都有体现。但是其实&#xff0c;本质来说。以上这些场景…

【Java 进阶篇】JQuery 事件绑定:`on` 与 `off` 的奇妙舞曲

在前端开发的舞台上&#xff0c;用户与页面的互动是一场精彩的表演。而 JQuery&#xff0c;作为 JavaScript 的一种封装库&#xff0c;为这场表演提供了更为便捷和优雅的事件绑定方式。其中&#xff0c;on 和 off 两位主角&#xff0c;正是这场奇妙舞曲中的核心演员。在这篇博客…

store下的getter.js什么作用

在 Vue.js 应用中&#xff0c;Vuex 是一种用于集中管理应用状态的状态管理工具。Vuex 中的 getters 允许你在获取 state 中的数据时进行一些计算或处理。通常&#xff0c;getters 可以用于从 store 中获取派生的状态&#xff0c;类似于计算属性。 在 Vuex 中&#xff0c;gette…

小米路由器AX1800降级后的SSH登录和关墙等命令

​​​​​​​​​​​​​​​​​​​​​http://192.168.31.1/cgi-bin/luci/;stok429aaa9c7f05ee7d0816a00257b8414a/api/misystem/set_config_iotdev?bssidXiaomi&user_idlongdike&ssid-h%3B%20nvram%20set%20ssh_en%3D1%3B%20nvram%20commit%3B%20sed%20-i%20s%…

云原生是整个信息化行业的未来,一文彻底搞懂云原生

云原生这个词来自英语的Cloud Native的翻译&#xff0c;云原生是已经存多年在术语&#xff0c;真正开始获得关注的是在2015年到2016年。 这归因于这几年逐渐发布的Docker的兴起。 会有越来越多的企业和组织开始关注到它&#xff0c;并把他们的工作负载运行在云端的益处。无论是…

Flask 接口

目录 前言 代码实现 简单接口实现 执行其它程序接口 携带参数访问接口 前言 有时候会想着开个一个接口来访问试试&#xff0c;这里就给出一个基础接口代码示例 代码实现 导入Flask模块&#xff0c;没安装Flask 模块需要进行 安装&#xff1a;pip install flask 使用镜…

Redis数据的持久化

Redis的持久化有两种方式&#xff1a; RDB&#xff08;Redis Database&#xff09;和AOF&#xff08;Append Only File&#xff09; 目录 一、RDB 保存方式 2、rdb在redis.conf文件中的配置 二、AOF 1、保存方式 2、aof方式持久化在redis.conf文件中的配置 三、持久化建…

小迪安全笔记(2)——web应用架构搭建漏洞HTTP数据包代理服务器

Web应用环境架构类 开发语言&#xff1a;php、java、python、ASP、ASPX等程序源码&#xff1a;用的人多了&#xff0c;就成CMS了。中间件容器&#xff1a;IIS、Apache、Nginx、Tomcat、Weblogic、Jboos、glasshfish等数据库类型&#xff1a;Access、Mysql、Mssql、Oracle、Redi…

【迅搜01】安装运行并测试XunSearch

安装运行并测试XunSearch 这回的新系列&#xff0c;我们将学习到的是一个搜索引擎 迅搜 XunSearch 的使用。这个搜索引擎在 PHP 圈可能还是有一点名气的&#xff0c;而且也是一直在更新的&#xff0c;虽说现在 ElasticSearch 已经是实际上的搜索引擎霸主了&#xff0c;而且还有…