AI学习日记 - 实践

news/2025/9/20 12:11:12/文章来源:https://www.cnblogs.com/ljbguanli/p/19102239

AI学习日记 - 实践

目录

一、决策树

1.定义

2.算法步骤

(1)特征选择

(2)节点分裂

(3)递归停止条件

(4)剪枝处理

3.特殊特征

(1)独热编码

(2)连续值特征

二、熵

1.定义

2.公式

3.信息增益

总结


一、决策树

1.定义

决策树是一种基于树状结构的监督学习算法,用于分类和回归任务。通过递归划分数据集,决策树模拟人类决策过程,每个内部节点代表一个特征判断分支代表判断结果叶节点代表最终预测类别或数值

适用场景:结构化数据(不适用于处理图片,音频,文本等非结构化信息)

2.算法步骤

(1)特征选择

根据算法(如信息增益、基尼指数)选择能获得纯度最高的子集作为最佳划分特征。

例1,就是:以下四个特征中,选择catdna是作为特征得到的结果纯度最高。有dna的全是猫,没有dna的全不纯度拉满

(2)节点分裂

将材料集按特征值划分为子集,生成分支。

(3)递归停止条件

(4)剪枝处理

凭借预剪枝(限制树深度)或后剪枝(代价复杂度剪枝)防止过拟合。

3.特殊特征

(1)独热编码

决策树无法直接处理在二分类以上的特征(比如耳朵形状有三种),需凭借独热编码(热=1)转换为数值形式。将具有k个类别的特征展开为k个二进制列,每列对应一个类别值,样本属于该类别则标记为1,否则为0。

(2)连续值特征

决策树的特征不再是非0即1,而是从一个特定的区间取值(比如体重15kg),尝试选定不同的阈值(体重<=8),计算信息增益公式来获取信息增益最大的阈值。

二、熵

1.定义

熵(Entropy)是信息论中的核心概念,用于衡量系统的不确定性或混乱程度

在决策树中用于评估材料集的纯度(特征选择)。熵值越高,数据的不确定性越大;熵值越低,数据的纯度越高。

熵=不纯度

2.公式

  • H(p1) 表示数据集p1 的熵
  • 猫概率,p1为非猫概率)就是p0=1-p1(p0为

log以2为底是为了刚好峰值是1

例2:当数据集中一半猫一半狗混乱程度最大,H(p1)=1;反之材料集要是只有猫或只有狗,H(p2)=0,混乱程度最小

3.信息增益

信息增益是决策树算法中用于选择最优划分特征在选择分裂某个特征时,素材集就是的算法,基于熵(Entropy)概念。它衡量的混乱性(熵)减少的程度。信息增益越大,意味着使用该属性进行划分能带来更多的信息量,从而更有效地分类资料。

父节点的熵 -左右子节点的熵加权和= 混乱性(熵)减少的程度

例3:父节点共有十个样本,五猫五狗,H(5/10)=1。左右子节点按照有无胡须划分,左边三猫一狗,右边2猫4狗,所以分别是H(3/4)和H(2/6)。按照加权求和即使按照子节点分得的样本数加权,左边四只有胡须的,右边六只有胡须的,所以是4/10H(3/4)+6/10H(2/6)。最终我要计算他的熵减少的程度:H(5/10)-( 4/10H(3/4)+6/10H(2/6)


总结

本文介绍了决策树算法的首要过程,详细聚焦于特征选择于递归停止条件,并且引入了熵的概念从而引出信息增益的公式,此外还简单提及了一些特殊特征取值的处理方式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/908319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

es中的端点

_doc端点 用于对单个****文档的crud操作(如创建、获取、更新、删除单个文档),常见用法如下向指定索引添加新文档: POST /索引名/_docES会自动生成唯一文档ID,例:POST /books/_doc → 向 books索引添加新文档。 根…

解码C语言宏

预处理概述 基本概念 预处理是C语言编译过程的第一步,所有以#开头的指令都由预处理器处理,这些指令不属于C语言语法本身。 预处理指令类型头文件包含:#include 宏定义:#define 宏取消:#undef 条件编译:#if, #ifd…

es中的索引

索引的概念 在ES中,索引(Index) 是核心的数据存储和检索单元,其本质是一组结构相似的文档(Document)的集合,同时包含了文档的元数据(如字段类型、分词器配置)和检索所需的 “倒排索引” 结构。ES软件的索引类…

es中的数据类型

字符串 文本(Text)作用:适用于全文搜索的文本字段,例如文章内容、电子邮件正文、产品描述等长文本。 特点:ES会对文本内容进行分词处理,将字符串转换为单个术语的列表,支持全文搜索和模糊查询。但通常不用于排序或…

防御安全播客第214期:数据泄露与漏洞攻防实战

本期播客深入探讨GDPR隐私规则与安全的平衡、伊朗黑客攻击美国大学数据泄露事件、Guccifer 2.0身份揭秘、Orbitz支付卡盗窃案及SamSam勒索软件攻击亚特兰大事件,并分析网络犯罪分子最常利用的顶级漏洞。媒体链接音频源…

windows使用kibana

下载Kibana安装包 https://www.elastic.co/downloads/past-releases#kibana(如果知道版本号也可以直接将最后的kibana换成对应的版本号)上图中两个下拉框分别选择对应的产品和版本,选择好之后点击右边蓝色的Downloa…

VIVADO的IP核 DDS快速采用——生成正弦波,线性调频波

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

03作业

03作业 一、关于static修饰符的问题适合用static修饰的方法:工具类方法(如Math类的abs()、StringUtils的isEmpty()) 工厂方法(用于创建对象的方法) 单例模式的getInstance()方法 与类本身相关而非实例相关的操作不…

软工作业个人项目

这个作业属于哪个课程 计科23级12班这个作业要求在哪里 [个人项目-作业](个人项目 - 作业 - 计科23级12班 - 班级博客 - 博客园)这个作业的目标 设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改…

rapidxml中接口函数

引言 RapidXML 是一个轻量级 XML 解析库,核心接口围绕 文档解析、节点操作、属性操作 三大类展开。(基于 rapidxml.hpp 核心头文件) 一、文档操作(xml_document<> 类) xml_document<> 是 XML 文档的核心…

YOLO进阶提升 6模型训练与测试

进阶提升 6模型训练与测试 核心概念训练过程:通过迭代(epoch)不断优化损失函数,直至收敛。 Checkpoints(模型权重保存点):训练中定期保存模型参数,用于恢复或测试。 测试/推理(Inference):利用训练好的模型…

深入解析:C语言---判断语句

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

vue基于Springboot框架网上电子书店商城好书推荐管理系统 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

YOLO进阶提升 4训练准备与数据处理

进阶提升 4训练准备与数据处理 核心概念参数配置:训练前需指定数据路径和预训练模型权重。 迁移学习:利用已有的预训练模型作为初始化,提高收敛速度和效果。 数据加载(DataLoader/Generator):分批按需读取,避免…

YOLO进阶提升 5标注与配置

进阶提升 5标注与配置 核心概念数据标注 (Labeling):通过工具(如 LabelMe)对图像中的目标进行框选或分割,生成 JSON 格式的标注文件。 配置文件 (Config):定义模型结构、类别数、路径等关键信息,使训练过程与任…

【学术会议前沿信息|科研必备】IEEE/EI/Scopus三检护航!人工智能+自动化控制+人文社科+遥感+地理信息+视觉领域国际会议征稿启动,硕博生速来! - 教程

【学术会议前沿信息|科研必备】IEEE/EI/Scopus三检护航!人工智能+自动化控制+人文社科+遥感+地理信息+视觉领域国际会议征稿启动,硕博生速来! - 教程2025-09-20 11:43 tlnshuju 阅读(0) 评论(0) 收藏 举报pre {…

YOLO进阶提升 3YOLOv4 改进

进阶提升 YOLOv4 改进 核心概念YOLOv4:YOLO 系列的重要升级版本,目标是在保证高精度的同时,让普通 GPU 用户也能训练。 迁移学习:利用在大规模数据集上训练好的模型参数,作为新任务的初始化,提高小数据集上的表…

解码C语言位字段

一、位字段的定义 位字段允许在结构体中按 位(bit) 为单位分配成员空间,用于紧凑存储布尔标志或小范围整数值,节省内存。常用于硬件寄存器操作、协议数据解析等场景。 二、位字段的语法 1. 基本声明 struct 结构体…

Sql Server 多层嵌套事务的执行结果

在标准的事务模型中,嵌套的内部事务的“提交”在外层事务失败时是无效的。所有操作,包括内部事务的操作,都将被回滚。数据库事务处理的核心概念:在标准的事务模型中,嵌套的内部事务的“提交”在外层事务失败时是无…

深入解析:数据库入门实战版

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …