机器学习第十九讲:交叉验证 → 用五次模拟考试验证真实水平

机器学习第十九讲:交叉验证 → 用五次模拟考试验证真实水平

资料取自《零基础学机器学习》。
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


交叉验证是模型考试的防作弊系统,通过多次划分考卷验证真实能力[^8-2]。通过驾校考试案例详解:

一、核心原理(驾照科目模拟考)

假设驾校有100名学员的考试数据,采用5折交叉验证:

总数据集
分5份试卷
轮流出题
成绩取平均

考试流程

  1. 将100人分5组(每组20人)
  2. 4组当题库,1组当考题 → 五轮考试不重复 [参考材料3]
  3. 最终成绩 = (88%+85%+90%+92%+87%)/5 = 88.4%

类比说明:就像高考前五套模拟卷覆盖全部知识点,比单次考试更客观[^3]

二、操作步骤(心脏病预测案例)

数据集:300例患者数据(200例患病,100例健康)

原始数据300例
拆成5份各60例
训练集240例
模型1成绩85%
验证集60例
训练集240例
模型2成绩83%
验证集60例
...
模型5成绩88%

代码实现

from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
print("平均准确率:", scores.mean())  # 输出:86.2%

关键优势:避免因单次抽题偏差(如考题全是疑难病例)影响评估[^3]

三、分场景应用(不同考试模式对比)

| 验证方式 | 特点 | 适用场景 | [参考材料3] |
|----------------|---------------------------|-----------------------|
| 简单划分验证 | 快速但成绩波动大 | 大数据集初步筛选 |
| 5折交叉验证 | 均衡效率与准确性 | 中小数据集标准流程 |
| 10折交叉验证 | 更精准但耗时增加10倍 | 精细调参研究 |

案例对比

  • 单次验证成绩:92%(可能抽到简单题)
  • 5次交叉验证:88.4%(反映真实水平)
  • 实际考试结果:86%(接近交叉验证均值)[^2]

四、注意事项(防止无效验证)

  1. 数据打乱:需先随机排序,避免时间顺序干扰 [参考材料3]
    from sklearn.utils import shuffle
    X, y = shuffle(X, y, random_state=0)
    
  2. 分层抽样:保持正负样本比例相同,如每组保持2:1病患健康比例[^3]
  3. 避免泄漏:预处理步骤(如标准化)应在每次训练时重新计算[^5]

典型错误

错误流程
全数据标准化
后分割训练集测试集
分数虚高
正确流程
先分割训练测试
训练集统计
应用到测试集

目录:总目录
上篇文章:机器学习第十八讲:混淆矩阵 → 诊断模型在医疗检查中的误诊情况
下篇文章:机器学习第二十讲:网格搜索 → 像尝试所有密码组合找最佳解锁方式


[2][3][^5]《零基础学机器学习》第八章第三节验证方法
[^8-2]《零基础学机器学习》第八章第三节验证方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/80768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux面试题集合(6)

创建多级目录或者同级目录 mkdir -p 文件名/文件名/文件名 mkdir -p 文件名 文件名 文件名 Linux创建一个文件 touch 文件名 DOS命令创建文件 echo 内容>文件名(创建一个有内容的文件) echo >文件名(创建一个没有内容的文件&#xff09…

Vue百日学习计划Day46-48天详细计划-Gemini版

Day 46: <KeepAlive> - 组件缓存与优化 (~3 小时) 本日目标: 理解 <KeepAlive> 的作用&#xff0c;学会如何使用它来缓存组件实例&#xff0c;从而优化应用性能和用户体验。所需资源: Vue 3 官方文档 (<KeepAlive>): https://cn.vuejs.org/guide/built-ins/…

SpringBean模块(三)具有生命周期管理能力的类(1)AutowireCapableBeanFactory

一、介绍 1、简介 AutowireCapableBeanFactory 是 Spring 框架中的一个接口&#xff0c;位于 org.springframework.beans.factory 包下&#xff0c;它提供了更底层的 Bean 实例化、依赖注入和生命周期管理能力&#xff0c;即使这些 Bean 没有通过常规的 Component 或 XML 注册…

Service Mesh

目录 一、Service Mesh 的核心特点 二、Service Mesh 的典型架构 1. Sidecar 模式 2. 控制平面与数据平面分离 三、Service Mesh 解决的核心问题 四、典型应用场景 五、主流 Service Mesh 框架对比 六、挑战与局限性 七、未来趋势 总结 Istio 一、Istio 核心组件与…

黑马Java基础笔记-13常用查找算法

查找算法 基本查找(也叫顺序查找&#xff0c;线性查找) 二分查找&#xff08;需要有序数据&#xff09; public static int binarySearch(int[] arr, int number){//1.定义两个变量记录要查找的范围int min 0;int max arr.length - 1;//2.利用循环不断的去找要查找的数据wh…

Go 语言 vs C+Lua(Skynet)游戏服务器方案对比分析

为啥挑这两个呢&#xff1f;因为两种技术分别对应CSP模型和Actor模型&#xff0c;都是经过时间检验的成熟且可靠的并发模型&#xff0c;问了很多地方&#xff0c;经过gpt整理得出如下报告。 从开发效率、运行性能、热更新扩展、云部署与水平扩展能力、多类型游戏支持等五个维度…

LeetCode 925. 长按键入 java题解

双指针。不会写。 https://leetcode.cn/problems/long-pressed-name/description/ class Solution {public boolean isLongPressedName(String name, String typed) {int len1name.length();int len2typed.length();int i0,j0;while(i<len1&&j<len2){if(name.ch…

如何使用通义灵码提高前端开发效率

工欲善其事&#xff0c;必先利其器。对于前端开发而言&#xff0c;使用VSCode已经能够极大地提高前端的开发效率了。但有了AI加持后&#xff0c;前端开发的效率又更上一层楼了&#xff01; 本文采用的AI是通义灵码插件提供的通义千问大模型&#xff0c;是目前AI性能榜第一梯队…

【小明剑魔视频Viggle AI模仿的核心算法组成】

Viggle AI 作为一款先进的生成式视频AI工具&#xff0c;其核心技术栈融合了多项前沿算法。以下是深度解析其核心算法架构及实现原理&#xff1a; 一、核心算法组成 1. 运动控制生成&#xff08;Motion Control Generation&#xff09; 算法框架&#xff1a;基于扩散模型&…

解决Power BI Desktop导入Excel数据第一行不是列标题问题

选中第一行不是列标题的表→鼠标右键→选择编辑查询→进入Power Query界面→点击“将第一行用作标题”→点击左边的“关闭并应用” 第一行就提升为标题了

对 Lambda 架构问题的深入理解

感谢 GPT&#xff0c;对很多问题的理解有机会更深。 大家攻击 Lambda 架构&#xff0c;常说的一个点就是 “实时离线指标存在差异”。“实时离线指标存在差异”&#xff0c;是一个真实困扰运营方的问题吗&#xff1f; 答案&#xff1a;是的&#xff0c;这是一个真实生活中的痛…

React中使用ahooks处理业务场景

// 从 ahooks 引入 useDynamicList 钩子函数&#xff0c;用于管理动态列表数据&#xff08;增删改&#xff09; import { useDynamicList } from ahooks;// 从 ant-design/icons 引入两个图标组件&#xff1a;减号圆圈图标和加号圆圈图标 import { MinusCircleOutlined, PlusCi…

蓝桥杯2114 李白打酒加强版

问题描述 话说大诗人李白, 一生好饮。幸好他从不开车。 一天, 他提着酒显, 从家里出来, 酒显中有酒 2 斗。他边走边唱: 无事街上走&#xff0c;提显去打酒。 逢店加一倍, 遇花喝一斗。 这一路上, 他一共遇到店 N 次, 遇到花 M 次。已知最后一次遇到的是花, 他正好把酒喝光了。…

小土堆pytorch--神经网路-卷积层池化层

神经网路-卷积层&池化层 一级目录二级目录三级目录 1. 神经网路-卷积层2. 神经网路最大池化的应用 一级目录 二级目录 三级目录 1. 神经网路-卷积层 在PyTorch中&#xff0c;torch.nn.Conv2d函数定义了一个二维卷积层&#xff0c;其常用参数包括&#xff1a; in_channel…

C++显式声明explicit

C显示声明explicit 在 C 中&#xff0c;explicit 关键字用于修饰单参数构造函数或多参数构造函数&#xff08;C11 起&#xff09;&#xff0c;其核心作用是禁止编译器的隐式类型转换。 一、必须加 explicit 的典型场景 1. 单参数构造函数 当构造函数只有一个参数时&#xff…

【springboot】HttpClient快速入门

介绍 HttpClient 是Apache Jakarta Common 下的子项目&#xff0c;可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包&#xff0c;并且它支持 HTTP 协议最新的版本和建议 就是我们可以在java程序中使用HttpClient构造http请求&#xff0c;还可以发送h…

安全版4.5.8开启审计后,hac+读写分离主备切换异常

文章目录 环境BUG/漏洞编码症状触发条件解决方案 环境 系统平台&#xff1a;UOS &#xff08;飞腾&#xff09; 版本&#xff1a;4.5.8 BUG/漏洞编码 3043 症状 BUG安装包&#xff1a; hgdb-see-4.5.8-db43858.aarch64.rpm 异常&#xff1a;hac集群一主两备环境&#xff…

企业级 Go 多版本环境部署指南-Ubuntu CentOS Rocky全兼容实践20250520

&#x1f6e0;️ 企业级 Go 多版本环境部署指南-Ubuntu / CentOS / Rocky 全兼容实践 兼顾 多版本管理、安全合规、最小权限原则与 CI/CD 可复现性&#xff0c;本指南以 Go 官方 toolchain 为主&#xff0c;结合 asdf 实现跨语言统一管理&#xff0c;并剔除已过时的 GVM。支持 …

Linux 的 TCP 网络编程 -- 回显服务器,翻译服务器

目录 1. 相关函数介绍 1.1 listen() 1.2 accept() 1.3 connect() 2. TCP 回显服务器 2.1 Common.hpp 2.2 InetAddr.hpp 2.3 TcpClient.cc 2.4 TcpServer.hpp 2.5 TcpServer.cc 2.6 demo 测试 3. TCP 翻译服务器 3.1 demo 测试 1. 相关函数介绍 其中一些函数在之前…

Unity3D仿星露谷物语开发46之种植/砍伐橡树

1、目标 种植一棵橡树&#xff0c;从种子变成大树。 然后可以使用斧头砍伐橡树。 2、删除totalGrowthDays字段 修改growthDays的含义&#xff0c;定义每个值为到达当前阶段的累加天数。此时最后一个阶段就是totalGrowthDays的含义。所以就可以删除totalGrowthDays字段。 &…