【机器学习300问】34、决策树对于数值型特征如果确定阈值?

        还是用之前的猫狗二分类任务举例(这个例子出现在【机器学习300问】第33问中),我们新增一个数值型特征(体重),下表是数据集的详情。如果想了解更多决策树的知识可以看看我之前的两篇文章:

【机器学习300问】28、什么是决策树?icon-default.png?t=N7T8http://t.csdnimg.cn/Tybfj

【机器学习300问】33、决策树是如何进行特征选择的?icon-default.png?t=N7T8http://t.csdnimg.cn/iaxSA 这里我就不赘述啦,直接进入正题。

 如果我选择用体重特征作为根节点的决策策略,那么我们会面临这样一个问题。

一、什么阈值才能更好的区分数据集?

        所用到的工具还是信息增益,我们可以将一些列可能比较不错的能区分数据集的阈值列举出来,例如,在连续数值区间上,可以测试每个唯一值或者每隔一定步长选取值作为潜在的阈值,画出下面这样的一幅图。

  • 首先,遍历数据集中所有猫和狗的体重值
  • 对于每一个可能的体重阈值,将样本集划分为两个子集:一组是体重低于该阈值的动物,另一组是体重等于或高于该阈值的动物
  • 计算划分前的数据集的信息熵以及每个子集的信息熵,并根据子集内样本数目的比例加权求和得到条件熵(就像下面这幅图中所示)
  • 通过比较不同阈值下所对应的信息增益,选择信息增益最大的那个阈值作为分割点

在这个例子中我们最终选定了,体重<=9,作为最合适的阈值,因为此时的信息增益最大。

二、如何停止决策树的分叉?

        这里再讲一个知识点,虽然这个知识点和题目无关(偷笑),但因为讲到了信息增益所以补充一个通过信息增益停止构建决策树防止过拟合的方法。决策树停止分叉(即停止生长或停止构建子节点)的常见条件包括但不限于以下几种:

  1. 最大深度限制:预先设定一个整数值,作为决策树的最大允许深度。当当前节点所在的分支达到这个深度时,无论当前节点的信息增益或其他指标如何,都不再进行分割。

  2. 最小节点样本数:规定每个内部节点(非叶子节点)所包含的最少样本数量,若某节点划分后某个子节点中的样本数量小于这个阈值,则不再继续分割。

  3. 信息增益阈值设置一个信息增益的最小值,如果某个特征划分数据集后的信息增益低于此阈值,则停止该节点的进一步划分

  4. 叶子节点数目限制:可以设定决策树允许的最大叶子节点数量,当到达这个数量时停止构建新节点。

  5. 无更多可分特征:所有特征都已经被用于划分,并且当前节点下的样本已经无法通过剩余特征得到更优的划分结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/740388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

按键+串口发送实验

摸鱼记录 Day_15 &#xff5e;(&#xffe3;▽&#xffe3;&#xff5e;)(&#xff5e;&#xffe3;▽&#xffe3;)&#xff5e; review 前边已经学习了&#xff1a; 串口发送Vivado 串口通信(UART)------串口发送-CSDN博客 按键基于状态机的按键消抖实现-CSDN博客 1. …

STM32外设分类--学习笔记

简介: 本文在于根据自己的理解&#xff0c;将stm32f103外设按照功能分个类别&#xff0c;便于记忆。下面的几张图一定要熟悉&#xff0c;后期编写代码时能够快速找到想要的功能和对应的引脚。 我使用的工具链是&#xff1a;使用CubeMX完成keil5工程搭建和引脚初始化功能,然后用…

Grafana

介绍 官网&#xff1a;https://grafana.com/ Grafana 是一个开源的指标分析和可视化工具&#xff0c;它被广泛用于展示和监控云基础设施和应用程序的实时数据。Grafana 提供了一个强大且易于使用的界面&#xff0c;允许用户创建各种图表、图形和仪表盘&#xff0c;以直观地展…

探索HDFS读写流程、节点机制和数据完整性

目录 写在前面一、HDFS的读写流程1.1 HDFS写数据流程1.2 机架感知1.3 HDFS读数据流程1.4 小结 二、 NameNode和SecondaryNameNode2.1 NN和2NN工作机制2.2 Fsimage和Edits解析2.2.1 oiv查看Fsimage文件2.2.2 oev查看Edits文件 2.3 CheckPoint时间设置 三、DataNode3.1 DataNode工…

案例分析篇14:信息系统安全设计考点(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

专栏系列文章推荐: 2024高级系统架构设计师备考资料(高频考点&真题&经验)https://blog.csdn.net/seeker1994/category_12593400.html 【历年案例分析真题考点汇总】与【专栏文章案例分析高频考点目录】(2024年软考高级系统架构设计师冲刺知识点总结-案例分析篇-…

Unity URP 如何写基础的几何着色器

这是使用几何着色器在点中心生成一个点并根据这个点把原本的面片分成三个三角形的操作。 对于几何着色器构造相对简单&#xff0c;网上的信息也相对较多&#xff0c;需要注意的点就是需要提供一个新的数据结构供几何着色器输出&#xff0c;因为几何着色器在顶点之后&#xff0…

哈达玛矩阵与克罗内克积

哈达玛矩阵与克罗内克积在计算机视觉中发挥着重要作用,例如哈希感知等场景下都可能用到这两个知识点。 例如: 论文:Visually meaningful image encryption scheme based on new-designed chaotic map and random scrambling diffusion strategy 中有一句: “Construct a Ha…

UVC 设备框架在 Linux 4.15 内核的演变

1. 概述 发现之前的uvc框架和现在的还是有一些差别的&#xff08;比如从videobuf 过渡到videobuf2&#xff09;&#xff0c;写个blog记录一下&#xff0c;方便以后查询&#xff0c;我的内核版本&#xff1a;Linux 4.15 UVC&#xff08;USB Video Class&#xff09;设备框架是…

探秘Nutch:揭秘开源搜索引擎的工作原理与无限应用可能(三)

本系列文章简介&#xff1a; 本系列文章将带领大家深入探索Nutch的世界&#xff0c;从其基本概念和架构开始&#xff0c;逐步深入到爬虫、索引和查询等关键环节。通过了解Nutch的工作原理&#xff0c;大家将能够更好地理解搜索引擎背后的原理&#xff0c;并有能力利用Nutch构建…

Idea、VsCode、WebStorm常用插件

持续更新&#xff0c;见&#xff1a;工具库/Idea、VsCode、WebStorm常用插件.md 1. Idea 常用插件 MybatisX&#xff1a;mybatis选手必备&#xff0c;一键跳转&#xff0c;自动生成&#xff0c;节省开发效率。&#xff08;Java玩家必备&#xff09; GitToolBox&#xff1a;gi…

CPU服务器安装运行智谱大模型ChatGLM-6B

CPU运行智谱大模型ChatGLM-6B 说明 我的服务器配置是16C32G&#xff0c;跑大模型最好内存要大一些才行&#xff0c;不然跑不起来。 下载 git clone https://github.com/THUDM/ChatGLM-6B.git 安装依赖包 pip install -r requirements.txt 下载模型文件 在huggingface上…

什么是Java中的接口?

Java中的接口 在Java编程语言中&#xff0c;接口是一种定义方法但不包含方法实现的抽象类型。它是一组抽象方法的集合&#xff0c;这些方法通常由实现该接口的类来具体实现。接口在Java中扮演着非常重要的角色&#xff0c;尤其是在面向对象的设计和编程中。接口定义了类应该遵…

Leetcode 3.12

leetcode hot 100 链表1.两两交换链表中的节点2.随机链表的复制3.排序链表 链表 1.两两交换链表中的节点 两两交换链表中的节点 1.必须要设置一个dummy (temp) 结点2.保存第二个节点3.先让第一个节点指向第三个节点4.再让第二个节点指向第一个节点5.最后让dummy指向第二个节点…

蓝鲸作业平台升级openssh执行方案分享

本文来自腾讯蓝鲸智云社区用户&#xff1a;AK47 蓝鲸的运维系统在我们单位使用已经快四个年头了&#xff0c;从刚开始的5到现在最新的7.1都有部署、测试、验证和使用。在实际的使用过程中&#xff0c;给我们运维提供了非常大的帮助。其中有一个场景分享给大家。这个场景是关于o…

从SQL质量管理体系来看SQL审核(1)

经常看到一些SQL审核产品宣称自己有多少条审核规则&#xff0c;似乎规则数目多少是衡量SQL审核工具能力的标准。事实真的如此吗&#xff1f;肯定不是&#xff0c;那我们该如何评价一个SQL审核工具呢&#xff1f; SQL脚本和Java/C等编程脚本一样&#xff0c;都是程序代码&#…

接口测试工具【Postman】相关的面试题

Postman是一种接口调试与http接口测试的工具&#xff0c;可以非常方便的模拟get、post或其他请求来调试和测试接口 文章目录 Postman优点Postman使用流程Postman参数化有哪几种方式Postman如何设置关联 Postman优点 1.支持各种请求类型&#xff1a;get、post、put、patch、del…

Linux——磁盘文件

磁盘文件 通过前一篇文章Linux——系统文件I/O&#xff0c;我们知道了如何对加载在内存中的文件进行读写等操作&#xff0c;并了解了其内在的原理。同时我们也应该清楚&#xff0c;并不是所有的文件都会被加载入内存&#xff0c;而没有被加载入内存的文件&#xff0c;就被存放…

酷开科技智慧AI助力酷开系统千屏千面

每台智能电视都有一个专属的操作系统&#xff0c;而酷开系统作为一款基于人工智能技术的智能电视操作系统&#xff0c;深受大众喜爱&#xff0c;其最大的特点就是“千屏千面”。这意味着每一位消费者在使用酷开系统时&#xff0c;通过酷开科技的智慧AI&#xff0c;都能根据自己…

常用网络命令的使用

1.Ping 命令 Ping 命令用于测试网络连接的程序。Ping 是工作在 TCP/IP 网络体系结构中应用层的一个服务命令&#xff0c;主要是向特定目的主机发送 ICMP (Internet Control Message Protocol&#xff0c;因特网报文控制协议 )Echo 请求报文&#xff0c;测试目的站是否可达及了…

用户管理测试用例

1. 功能测试&#xff1a; 用户管理页面测试 1、左侧为组织机构树 2、列表上方为功能按钮&#xff0c;分别有&#xff1a;添加、删除、启用、禁用、导入导出、移动、批量修改属性 3、列表组成有&#xff1a;复选框、用户、状态、真实姓名、组织机构、手机、邮箱 4、页面右上方…