CatBoost算法原理及Python实现

一、概述

  CatBoost 是在传统GBDT基础上改进和优化的一种算法,由俄罗斯 Yandex 公司开发,于2017 年开源,在处理类别型特征和防止过拟合方面有独特优势。

  在实际数据中,存在大量的类别型特征,如性别、颜色、类别等,传统的算法通常需要在预处理中对这些特征进行独热编码(One-Hot Encoding)或标签编码(Label Encoding)。但这些方法存在一些问题,独热编码会增加数据的维度,导致模型训练时间变长;标签编码可能会引入不必要的顺序关系,影响模型的准确性。CatBoost 采用了一种独特的处理方式,称为 “Ordered Target Statistics”(有序目标统计),它通过对数据进行排序,利用数据的顺序信息来计算类别型特征的统计量,从而将特征有效地融入到模型中,避免了传统编码方式的弊端。

  另外,在构建决策树时,CatBoost 采用了对称树的结构,与传统的非对称决策树相比,对称树在生长过程中,每层的节点数量相同,结构更加规整。这种结构使得模型在训练过程中更加稳定,能够减少过拟合的风险,同时也有助于提高训练速度。

二、算法原理

1.对称树结构

  对称树结构在形式上是完全二叉树结构,是指在构建决策树时,对于每个节点的分裂,都考虑所有可能的特征和阈值组合,并且在树的同一层中,所有节点的分裂方式是对称的。具体可描述为

  特征选择:在构建对称树时,CatBoost 会对所有可用的特征进行评估,计算每个特征对于目标变量的重要性。通过一些统计指标,如信息增益、基尼系数等,来衡量特征对数据划分的有效性,选择具有最高重要性的特征作为当前节点的分裂特征。

  阈值确定:对于选定的分裂特征,CatBoost 会遍历该特征的所有可能取值,寻找一个最优的分裂阈值,使得分裂后的两个子节点能够最大程度地分离不同类别的数据,或者使目标变量在两个子节点上的分布具有最大的差异。

  对称分裂:一旦确定了分裂特征和阈值,就在当前节点上按照这个特征和阈值进行分裂,将数据集分为左右两个子节点。在树的同一层中,所有节点都按照相同的特征选择和阈值确定方法进行分裂,形成对称的树结构。

2.训练过程

(1) 初始化弱学习器
  首先,初始化一个弱学习器,通常是一个决策树(是否对称树结构均可),记为 f 0 ( X ) f_0(X) f0(X),其预测结果为初始的预测值 y ^ 0 \hat y_0 y^0。此时,初始预测值与真实值之间存在误差。

(2) 计算残差或负梯度
  在回归任务中,计算每个样本的残差,即真实值 y i y_i yi与当前模型预测值 y ^ i , t − 1 \hat y_{i,t-1} y^i,t1的差值 r i , t = y i − y ^ i , t − 1 r_{i,t}=y_i-\hat y_{i,t-1} ri,t=yiy^i,t1,其中表示迭代的轮数。在分类任务中,计算损失函数关于当前模型预测值的负梯度
g i , t = − ϑ L ( y i , y ^ i , t − 1 ) ϑ y ^ i , t − 1 g_{i,t}=-\frac{\vartheta L(y_i,\hat y_{i,t-1})}{\vartheta \hat y_{i,t-1}} gi,t=ϑy^i,t1ϑL(yi,y^i,t1)

(3) 构建决策树
  使用计算得到的残差(回归任务)或负梯度(分类任务)作为新的目标值,使用“对称树结构” 的方式来构建一棵新的决策树 f t ( X ) f_t(X) ft(X)。同时采用一些限制决策树深度、控制叶子节点数量的正则化技术。

(4) 更新模型
  根据新训练的决策树,更新当前模型。更新公式为 y ^ i , t = y ^ i , t − 1 + α f t ( x i ) \hat y_{i,t}=\hat y_{i,t-1}+\alpha f_t(x_i) y^i,t=y^i,t1+αft(xi),其中是学习率(也称为步长),用于控制每棵树对模型更新的贡献程度。学习率较小可以使模型训练更加稳定,但需要更多的迭代次数;学习率较大则可能导致模型收敛过快,甚至无法收敛。

(5) 重复迭代
  重复步骤 (2)–(4)步,不断训练新的决策树并更新模型,直到达到预设的迭代次数、损失函数收敛到一定程度或满足其他停止条件为止。最终,CatBoost模型由多棵决策树组成,其预测结果是所有决策树预测结果的累加。


过程示意图

在这里插入图片描述

三、应用场景

1. 结构化数据预测
  在金融领域,CatBoost 可以用于信用评估、风险预测等任务。通过分析客户的各种属性(如年龄、收入、信用记录等分类和数值特征),预测客户的信用等级和违约风险,帮助金融机构做出更准确的决策。在电商领域,它可以用于商品推荐、销售预测等。根据用户的购买历史、浏览行为等特征,预测用户对不同商品的兴趣,为用户提供个性化的推荐服务,同时也可以帮助商家预测商品的销量,合理安排库存。

2.时间序列分析
  CatBoost 在时间序列预测方面也有一定的应用。它可以处理具有复杂模式和趋势的时间序列数据,如股票价格预测、能源消耗预测等。通过提取时间序列中的各种特征(如趋势、季节性、周期性等),结合其他相关的影响因素,构建预测模型,为决策提供支持。

3.图像和文本数据的辅助分析
  虽然 CatBoost 主要适用于结构化数据,但在一些情况下,它也可以与其他深度学习算法结合,用于图像和文本数据的辅助分析。例如,在图像分类任务中,可以先使用深度学习模型提取图像的特征,然后将这些特征与其他相关的结构化数据(如拍摄时间、地点等)一起输入到 CatBoost 模型中,进行进一步的分类和预测。

四、Python实现

(环境:Python 3.11,scikit-learn 1.6.1)

分类情形

from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import catboost as cb
from sklearn import metrics# 生成数据集
X, y = make_classification(n_samples = 1000, n_features = 6, random_state = 42)
# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)# 创建CatBoost分类模型
model = cb.CatBoostClassifier()
# 训练模型
model.fit(X_train, y_train)# 预测
y_pre = model.predict(X_test)
# 性能评价
accuracy = metrics.accuracy_score(y_test,y_pre)print('预测结果为:',y_pre)
print('准确率为:',accuracy)

在这里插入图片描述

回归情形

from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
import catboost as cb
from sklearn.metrics import mean_squared_error# 生成数据集
X, y = make_regression(n_samples = 1000, n_features = 6, random_state = 42)
# 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)# 创建CatBoost回归模型
model = cb.CatBoostRegressor()
# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算均方误差评估模型性能
mse = mean_squared_error(y_test, y_pred)print(f"均方误差: {mse}")

在这里插入图片描述

五、小结

  CatBoost 算法凭借其独特的算法原理和核心特点,在机器学习领域中占据了一席之地。它在处理类别型特征、防止过拟合、训练速度和易用性等方面都表现出色,适用于多种应用场景。无论是在结构化数据预测、时间序列分析还是与其他类型数据的结合应用中,CatBoost 都展现出了强大的能力。随着数据科学的发展,CatBoost 可逐渐在更多领域得到应用,为解决实际问题提供更多有效的帮助。


End.



下载

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/79787.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

五一假期作业

sub_process.c #include <stdio.h> // 标准输入输出库 #include <pthread.h> // POSIX线程库 #include <sys/ipc.h> // IPC基础定义&#xff08;如消息队列/共享内存&#xff09; #include <sys/msg.h> // 消息队列操作相关…

Liunx安装Apache Tomcat

目录 一、了解tomcat 二、下载 三、启动tomcat 四、网页访问tomcat 五、Tomcat修改默认8080端口 六、Tomcat创建项目步骤-实现项目对外访问 一、了解tomcat Apache Tomcat 是一个开源的 Java Servlet 容器 和 Web 服务器&#xff0c;主要用于运行基于 Java 的 Web 应用…

破局者手册 Ⅰ:测试开发核心基础,解锁未来测试密钥!

目录 一、引入背景 二、软件测试基础概念 2.1 软件测试的定义 2.2 软件测试的重要性 2.3 软件测试的原则 三、测试类型 3.1 功能测试 3.2 接口测试 3.2.1 接口测试的概念 3.2.2 接口测试的重要性 3.2.3 接口测试的要点 3.2.4 接口测试代码示例&#xff08;Python r…

C++ 适配器模式详解

适配器模式&#xff08;Adapter Pattern&#xff09;是一种结构型设计模式&#xff0c;它允许不兼容的接口之间能够协同工作。 概念解析 适配器模式的核心思想是&#xff1a; 接口转换&#xff1a;将一个类的接口转换成客户希望的另一个接口 兼容性&#xff1a;使原本由于接…

【NLP】 28. 语言模型的评估方式:MRR, PERPLEXITY, BLEU, WER从困惑度到实际效果

语言模型的评估方式&#xff1a;从困惑度到实际效果 评估语言模型&#xff08;LLM&#xff09;是否有效&#xff0c;并不仅仅是看它生成句子是否“听起来通顺”&#xff0c;我们需要定量的指标对模型性能做出系统性评价。评估方法主要分为两大类&#xff1a; 内在评价&#x…

Java 企业级开发设计模式全解析

Java 企业级开发设计模式全解析 在 Java 企业级开发的复杂领域中&#xff0c;设计模式如同精湛的工匠工具&#xff0c;能够帮助开发者构建高效、可维护、灵活且健壮的软件系统。它们是无数开发者在长期实践中总结出的解决常见问题的最佳方案&#xff0c;掌握这些模式对于提升开…

小刚说C语言刷题—1038编程求解数学中的分段函数

1.题目描述 编程求解数学中的分段函数。 …………x1 (当 x>0 )。 yf(x)…0 (当 x0 )。 ………x−1 (当 x<0 )。 上面描述的意思是&#xff1a; 当x>0 时 yx1 ; 当 x0 时 y0 ; 当 x<0 时 yx−1 。 输入 输入一行&#xff0c;只有一个整数x(−30000≤x≤30…

滚珠螺杆的精度如何保持?

滚珠螺杆通常用于需要精确定位的地方&#xff0c;高机械效率、低传递扭矩和几乎为零的轴向游隙&#xff0c;使滚珠螺杆成为工具定位和飞机副翼驱动等应用中的重要设备。但是&#xff0c;连续工作产生的阻力和热量会导致较大的摩擦力和定位误差。那么&#xff0c;滚珠螺杆的精度…

在 Laravel 中深度集成 Casbin 到原生 Auth 系统

在 Laravel 中深度集成 Casbin 到原生 Auth 系统需要实现多层次的融合&#xff0c;以下是专业级实现方案&#xff1a; 一、核心集成架构 #mermaid-svg-WYM1aoAyHrR5bCdp {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-…

JavaScript 实现输入框的撤销功能

在 Web 开发中&#xff0c;为输入框添加撤销功能可以极大地提升用户体验&#xff0c;方便用户快速回滚到之前的输入状态。本文将通过一段简单的 HTML、CSS 和 JavaScript 代码&#xff0c;详细介绍如何实现输入框的撤销功能。 整体实现思路 利用 JavaScript 监听输入框的inpu…

计算机视觉与深度学习 | 点云配准算法综述(1992-2025)

点云配准算法综述(1992-2025) 点云配准 点云配准算法综述(1992-2025)一、传统方法(1992-2020)1. **ICP(Iterative Closest Point)**2. **NDT(Normal Distributions Transform)**3. **4PCS(4-Points Congruent Sets)**二、深度学习驱动的方法(2018-2025)1. **Poin…

数据库的二级索引

二级索引 10.1 二级索引作为额外的键 表结构 正如第8章提到的&#xff0c;二级索引本质上是包含主键的额外键值对。每个索引通过B树中的键前缀来区分。 type TableDef struct {// 用户定义的部分Name stringTypes []uint32 // 列类型Cols []string // 列名Indexes …

Java IO流核心处理方式详解

一、IO流概述 Java IO&#xff08;Input/Output&#xff09;流是处理输入输出操作的核心机制&#xff0c;通过流&#xff08;Stream&#xff09;的形式实现设备间的数据传输。所有操作都基于以下两个核心抽象&#xff1a; InputStream/OutputStream&#xff1a;字节流基类 Re…

WidowX-250s 机械臂的简单数字孪生案例

前面一段时间记录了一下WidowX-250s机械臂的学习与遥操作演示&#xff0c;相关链接如下&#xff1a; WidowX-250s 机械臂学习记录&#xff1a; https://blog.csdn.net/qq_54900679/article/details/145556979 WidowX-250s 机械臂遥操作演示记录&#xff1a; https://blog.c…

uniapp 云开发全集 云开发的概念

一、云开发的概念 1.1 云开发介绍 云开发 unicloud 是 DCloud 联合阿里云、腾讯云、支付宝云&#xff0c;为开发者提供的基于 serverless 模式和 js 编程的云开发平台&#xff0c;可以使用极小的成本代价开发具轻松实现前后台整体业务。 1.2 云开发的核心组成 云开发的核心组…

GGD独立站的优势

GGD模式(基于Google生态的独立站模式)越来越受欢迎&#xff0c;主要有以下原因&#xff1a; 1. 全球化覆盖 GGD独立站依托Google强大的生态系统&#xff0c;能够帮助企业轻松触达全球用户&#xff0c;实现国际化布局&#xff0c;拓展业务范围。Google作为全球最大的搜索引擎&…

签名去背景图像处理实例

一、前言 在生活中我们经常用到电子签名&#xff0c;但有时候我们所获取的图像的彩色图像&#xff0c;我们需要获取白底黑字的电子签名&#xff0c;我们可以通过下面程序对彩色图像进行处理达到我们的处理目的。 原始彩色图像如下&#xff1a; 二、程序和运行结果 clear all;c…

WebAssembly(Wasm):现代Web开发的超级加速器

在当今的Web开发领域&#xff0c;性能和效率是开发者们永恒的追求目标。随着Web应用的复杂度不断增加&#xff0c;传统的JavaScript在某些场景下已经难以满足高性能计算和复杂逻辑处理的需求。此时&#xff0c;WebAssembly&#xff08;Wasm&#xff09;作为一种新兴的Web技术&a…

简单理解MCP:AI如何使用工具

简单理解MCP&#xff1a;AI如何使用工具&#xff08;以天气/新闻服务为例&#xff09; 你是否注意到人工智能(AI)助手正变得越来越智能&#xff1f;它们不再仅仅是聊天&#xff0c;还能执行实际操作&#xff0c;比如查询天气、在线搜索&#xff0c;甚至预订会议。这通常涉及到…

护网奇谈: 红队工程师手记

零、引言&#xff1a;在演练中活着&#xff0c;在现实中消失 人们常说&#xff0c;护网是网络安全界的“大阅兵”。 每年一次&#xff0c;红蓝对阵&#xff0c;政企联动&#xff0c;战鼓擂响&#xff0c;态势大屏高挂&#xff0c;PPT如潮&#xff0c;报告成山。 你在屏幕前看…