数据分析系列--⑦RapidMiner模型评价(基于泰坦尼克号案例含数据集)

一、前提

二、模型评估

        1.改造⑥

        2.Cross Validation算子说明

                2.1Cross Validation 的作用

                        2.1.1 模型评估

                        2.1.2 减少过拟合

                        2.1.3 数据利用

                2.2 Cross Validation 的工作原理

                        2.2.1 数据分割

                        2.2.2 迭代训练与测试

                ​​​​​​​        2.2.3 结果汇总

                ​​​​​​​        2.2.4 Cross Validation 的参数

                ​​​​​​​        2.2.5 Cross Validation 的流程

                ​​​​​​​        2.2.6 示例

                ​​​​​​​        2.2.7 总结

        3 实践

        4 结果说明

        ​​​​​​​5 决策依据


一、前提

请确保已有第⑥小节中所完成的模型,没有可以点击数据分析系列--⑥RapidMiner构建决策树(泰坦尼克号案例含数据)

链接学习.

二、模型评估

1.改造⑥

⑥小节完成后的模型如下,复制粘贴保存为EvaluatingTheTitanicModel.

2.Cross Validation算子说明

在RapidMiner中,Cross Validation又称为交叉验证,用于评估模型的性能和泛化能力。它是一种统计方法,通过将数据集分成多个子集来训练和测试模型,从而减少过拟合评估偏差

2.1Cross Validation 的作用

2.1.1 模型评估


    - 交叉验证通过多次训练和测试模型,提供更可靠的性能评估(如准确率、精确率、召回率等)。
   - 与简单的训练-测试分割相比,交叉验证能更全面地反映模型的表现。

2.1.2 减少过拟合


   - 通过多次使用不同的训练和测试子集,交叉验证可以检测模型是否过拟合训练数据。

2.1.3 数据利用


   - 交叉验证充分利用所有数据,既用于训练也用于测试,适合数据量较少的情况。

2.2 Cross Validation 的工作原理

2.2.1 数据分割


   - 将数据集分成 \( k \) 个大小相似的子集(称为“折”或“folds”)。
   - 例如,\( k=10 \) 表示 10 折交叉验证。

2.2.2 迭代训练与测试


   - 每次迭代中,选择一个子集作为测试集,其余 \( k-1 \) 个子集作为训练集。
   - 训练模型并在测试集上评估性能。

2.2.3 结果汇总


   - 所有迭代完成后,计算性能指标的平均值,作为模型的最终评估结果。

2.2.4 Cross Validation 的参数

在 RapidMiner 中,Cross Validation 算子有以下关键参数:
2.2.4.1 Number of folds(折数)
   - 决定将数据集分成多少个子集。常见值为 5 或 10。

2.2.4.2 Sampling type(采样类型)
   - 决定如何分割数据,例如分层采样(Stratified Sampling)可以保持类别分布。

2.2.4.3 Use local random seed(使用本地随机种子)
   - 控制数据分割的随机性,确保结果可重复。

2.2.5 Cross Validation 的流程

在 RapidMiner 中,Cross Validation 算子的典型流程如下:
1. 将数据集连接到 Cross Validation 算子的输入端口。
2. 在 Cross Validation 算子内部:
   - 将模型(如决策树、逻辑回归等)放入 Training 子流程。
   - 将性能评估算子(如 Performance)放入 Testing 子流程。
3. 运行流程后,Cross Validation 会输出模型的平均性能指标。

2.2.6 示例

假设使用 5 折交叉验证评估决策树模型:
1. 数据集被分成 5 个子集。
2. 进行 5 次迭代:
   - 每次使用 4 个子集训练模型,1 个子集测试模型。
3. 最终输出 5 次测试的平均准确率、F1 分数等。

2.2.7 总结

Cross Validation 算子的主要作用是:
- 提供更可靠的模型性能评估。
- 减少过拟合风险。
- 充分利用数据,特别适合小数据集。

它是模型开发和评估中不可或缺的工具,帮助确保模型在实际应用中的稳定性和泛化能力。

3 实践

4 结果说明

这是一个混淆矩阵,根据混淆矩阵可知如下结果:

 

 5 决策依据

 

Ending,  congratulations, you're done. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/69296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Deepseek-v3 / Dify api接入飞书机器人go程序

准备工作 开通了接收消息权限的飞书机器人,例如我希望用户跟飞书机器人私聊,就需要开通这个权限:读取用户发给机器人的单聊消息 im:message.p2p_msg:readonly准备好飞书机器人的API key 和Secretdeepseek-v3的api keysecret:http…

电话号码的字母组合(力扣17)

这道题注意两个点。一是根据题目所给的键盘布局进行数字到英文字符串的映射,这一步可以用二维数组实现。二是这道题在递归的时候不需要缩小范围,这与之前写的组合题目有所不同。此题并不是在一个集合中不断递归遍历,而是递归另一个集合&#…

红黑树原理及C语言实现

目录 一、原理 二、操作示例 三、应用场景 四、C语言实现红黑树 五、代码说明 六、红黑树和AVL树对比 一、原理 熟悉红黑树之前,我们需要了解二叉树与二叉查找树概念,参见前述相关文章:二叉查找树BST详解及其C语言实现-CSDN博客 红黑…

DeepSeek V2报告阅读

概况 MoE架构,236B参数,每个token激活参数21B,支持128K上下文。采用了包括多头潜在注意力(MLA)和DeepSeekMoE在内的创新架构。MLA通过将KV缓存显著压缩成潜在向量来保证高效的推理,而DeepSeekMoE通过稀疏计…

TCP服务器与客户端搭建

一、思维导图 二、给代码添加链表 【server.c】 #include <stdio.h> #include <sys/socket.h> #include <sys/types.h> #include <fcntl.h> #include <arpa/inet.h> #include <unistd.h> #include <stdlib.h> #include <string.…

【自动化测试】使用Python selenium类库模拟手人工操作网页

使用Python selenium类库模拟手人工操作网页 背景准备工作安装Python版本安装selenium类库下载selenium驱动配置本地环境变量 自动化脚本输出页面表单自动化填充相关代码 背景 待操作网页必须使用IE浏览器登录访问用户本地只有edge浏览器&#xff0c;通过edge浏览器IE模式访问…

如何通过Davinci Configurator来新增一个BswM仲裁规则

本文框架 前言1.增加一个Mode Declaration Group2.增加一个Mode Request RPorts3.与操作Port的SWC连线4.新建一个Expression5.新建ActionList6.将表达式新建或加进现有Rule内7.生成BswM及Rte模块代码8.在代码中调用RTE接口前言 在Autosar模式管理系列介绍01-BswM文章中,我们对…

智慧交通:如何通过数据可视化提升城市交通效率

随着城市化进程的加速&#xff0c;交通管理面临着前所未有的挑战。为了应对日益复杂的交通状况&#xff0c;智慧交通系统应运而生&#xff0c;其中数据可视化技术成为了提升交通管理效率的关键一环。本文将探讨如何利用山海鲸可视化软件来优化交通管理&#xff0c;并展示其在智…

Android Studio:如何利用Application操作全局变量

目录 一、全局变量是什么 二、如何把输入的信息存储到全局变量 2.1 MainApplication类 2.2 XML文件 三、全局变量读取 四、修改manifest ​编辑 五、效果展示 一、全局变量是什么 全局变量是指在程序的整个生命周期内都可访问的变量&#xff0c;它的作用范围不限于某个…

DeepSeek模型构建与训练

在完成数据预处理之后,下一步就是构建和训练深度学习模型。DeepSeek提供了简洁而强大的API,使得模型构建和训练变得非常直观。无论是简单的全连接网络,还是复杂的卷积神经网络(CNN)或循环神经网络(RNN),DeepSeek都能轻松应对。本文将带你一步步构建一个深度学习模型,并…

Chrome 浏览器 支持多账号登录和管理的浏览器容器解决方案

根据搜索结果&#xff0c;目前没有直接提到名为“chrometable”的浏览器容器或插件。不过&#xff0c;从功能描述来看&#xff0c;您可能需要的是一个能够支持多账号登录和管理的浏览器容器解决方案。以下是一些可能的实现方式&#xff1a; 1. 使用 Docker 容器化部署 Chrome …

UdpServer

Udp服务端&#xff1a; using System; using System.Collections.Generic; using System.Linq; using System.Net.Sockets; using System.Net; using System.Text; using System.Threading; using System.Threading.Tasks; using System.Diagnostics; using System.IO; using …

Kafka 可靠性探究—副本刨析

Kafka 的多副本机制提升了数据容灾能力。 副本通常分为数据副本与服务副本。数据副本是指在不同的节点上持久化同一份数据&#xff1b;服务副本指多个节点提供同样的服务&#xff0c;每个节点都有能力接收来自外部的请求并进行相应的处理。 1 副本刨析 1.1 相关概念 AR&…

智能化转型2.0:从“工具应用”到“价值重构”

过去几年&#xff0c;“智能化”从一个模糊的概念逐渐成为企业发展的核心议题。2024年&#xff0c;随着生成式AI、大模型、智能体等技术的爆发式落地&#xff0c;中国企业正式迈入智能化转型的2.0时代。这一阶段的核心特征是从单一场景的“工具应用”转向全链条的“价值重构”&…

Unity Dots学习

ISystem和SystemBase的区别 Archetype和Chunk 相同组件的实体放在一起&#xff0c;也就是我们所说的内存块&#xff08;Chunk&#xff09; Chunk有一个大小 https://blog.csdn.net/weixin_40124181/article/details/103716338 如果批量操作的entity都是同一个chunk下的效率会更…

【1】高并发导出场景下,服务器性能瓶颈优化

高并发导出场景下&#xff0c;服务器性能瓶颈通常出现在 CPU、内存、磁盘 I/O 或网络带宽等方面。为了解决这些问题&#xff0c;可以从以下几个方面进行优化&#xff1a; 1. 优化导出逻辑 减少计算复杂度&#xff1a;检查导出逻辑中是否存在不必要的计算或重复操作&#xff0c;…

使用 Axios 获取用户数据并渲染——个人信息设置

目录 1. HTML 部分&#xff08;前端页面结构&#xff09; HTML 结构解析&#xff1a; 2. JavaScript 部分&#xff08;信息渲染逻辑&#xff09; JavaScript 解析&#xff1a; 3. 完整流程 4. 总结 5. 适用场景 本文将介绍如何通过 Axios 从服务器获取用户信息&#xff0…

能否通过蓝牙建立TCP/IP连接来传输数据

前言&#xff1a; 最近在做一个项目时&#xff0c;产生了一个疑问&#xff1a;能否通过蓝牙建立TCP/IP连接来传输数据 查阅了一些文章&#xff0c;可以得出结论&#xff1a;不行 下面是我截取的两篇个人认可的文章的回答&#xff1a; 文章一&#xff1a; 蓝牙是一种短距离无…

C06S02-Docker网络和资源限制

一、Docker网络模式 1. 桥接模式 Docker的默认网络模式&#xff0c;工作在第二层&#xff0c;也就是数据链路层。 启动Docker的时候会在宿主机上创建一个虚拟的网桥&#xff0c;工作方式类似于交换机。创建容器的时候&#xff0c;会分配一个和网桥相同网段的IP地址给容器使用…

生产环境的 MySQL事务隔离级别

MySQL 数据库的默认隔离级别是 RR( 可重复读 )&#xff0c;但是很多大公司把隔离级别改成了 RC(读已提交)&#xff0c;主要原因是为了提高并发和降低死锁概率 为了解决幻读的问题 RR 相比 RC 多了间隙锁( gap lock )和临键锁( next-keylock )。而 RC 中修改数据仅用行锁&#…