机器学习中的性能指标

摘要:机器学习性能指标是评估模型表现的关键工具。分类问题常用指标包括:混淆矩阵(TP/TN/FP/FN)、准确率、精确率、召回率、F1分数、ROC-AUC和对数损失;回归问题则使用MAE、MSE和R²分数。这些指标从不同角度量化模型性能,如准确率衡量总体正确率,精确率和召回率侧重正例预测质量,F1分数平衡两者,ROC-AUC反映分类器区分能力,MAE和MSE评估回归误差。选择合适的指标对模型优化至关重要,需根据具体任务需求权衡不同指标。Python的sklearn库提供了计算这些指标的便捷函数。

目录

机器学习中的性能指标

分类问题的性能指标

混淆矩阵(Confusion Matrix)

分类准确率(Classification Accuracy)

分类报告(Classification Report)

精确率(Precision)

召回率(Recall)或灵敏度(Sensitivity)

特异度(Specificity)

支持度(Support)

F1 分数(F1 Score)

ROC 曲线下面积分数(ROC AUC Score)

对数损失(LOGLOSS / Logarithmic Loss)

示例

输出结果

回归问题的性能指标

平均绝对误差(Mean Absolute Error, MAE)

均方误差(Mean Square Error, MSE)

决定系数(R² Score)

示例

输出结果


机器学习中的性能指标

机器学习中的性能指标用于评估机器学习模型的表现。这些指标提供了定量衡量标准,可评估模型的性能优劣,并对不同模型的性能进行比较。性能指标至关重要,因为它们能帮助我们了解模型的运行情况,判断其是否满足需求,进而让我们就是否使用某个特定模型做出明智决策。

我们必须谨慎选择评估机器学习性能的指标,原因如下:

  • 机器学习算法性能的衡量与比较方式完全取决于所选的指标。
  • 所选指标会直接影响我们对结果中各类特征重要性的权重分配。

评估机器学习算法(包括分类算法和回归算法)性能的指标有多种。下面我们将分别针对分类问题和回归问题讨论这些指标。

分类问题的性能指标

在前几章中,我们已经探讨了分类及其相关算法。本节将介绍可用于评估分类问题预测结果的各类性能指标:

  • 混淆矩阵(Confusion Matrix)
  • 分类准确率(Classification Accuracy)
  • 分类报告(Classification Report)
  • 精确率(Precision)
  • 召回率(Recall)或灵敏度(Sensitivity)
  • 特异度(Specificity)
  • 支持度(Support)
  • F1 分数(F1 Score)
  • ROC 曲线下面积分数(ROC AUC Score)
  • 对数损失(LOGLOSS / Logarithmic Loss)

混淆矩阵(Confusion Matrix)

混淆矩阵是衡量分类问题性能最简便的方法,适用于输出结果为两类或多类的场景。它本质上是一个二维表格,维度分别为 “实际类别(Actual)” 和 “预测类别(Predicted)”,且两个维度均包含 “真正例(True Positives, TP)”“真负例(True Negatives, TN)”“假正例(False Positives, FP)”“假负例(False Negatives, FN)” 四个指标,具体如下表所示:

实际类别 = 1实际类别 = 0
预测类别 = 1真正例(TP)假正例(FP)
预测类别 = 0假负例(FN)真负例(TN)

混淆矩阵相关术语的解释如下:

  • 真正例(TP):数据点的实际类别和预测类别均为 1 的情况。
  • 真负例(TN):数据点的实际类别和预测类别均为 0 的情况。
  • 假正例(FP):数据点的实际类别为 0,但预测类别为 1 的情况。
  • 假负例(FN):数据点的实际类别为 1,但预测类别为 0 的情况。

我们可以使用sklearn.metrics库中的confusion_matrix函数计算分类模型的混淆矩阵。

分类准确率(Classification Accuracy)

准确率是分类算法最常用的性能指标,定义为正确预测的数量占总预测数量的比例。借助混淆矩阵,可通过以下公式轻松计算:

我们可以使用sklearn.metrics库中的accuracy_score函数计算分类模型的准确率。

分类报告(Classification Report)

该报告包含精确率、召回率、F1 分数和支持度的得分,各指标解释如下:

精确率(Precision)

精确率衡量的是所有预测为正例的实例中,真正例的比例,计算公式为真正例数量除以真正例与假正例的数量之和(可通过混淆矩阵推导):

在文档检索场景中,精确率可定义为模型返回的正确文档数量。

召回率(Recall)或灵敏度(Sensitivity)

召回率衡量的是所有实际为正例的实例中,真正例的比例,计算公式为真正例数量除以真正例与假负例的数量之和(可通过混淆矩阵推导):

特异度(Specificity)

与召回率相对,特异度定义为模型返回的负例数量,计算公式为真负例数量除以真负例与假正例的数量之和(可通过混淆矩阵推导):

支持度(Support)

支持度指的是目标值中每个类别所包含的真实响应样本数量。

F1 分数(F1 Score)

F1 分数是精确率和召回率的调和平均数,是兼顾两者的平衡指标,在数学上表现为精确率和召回率的加权平均值。F1 分数的最佳值为 1,最差值为 0,计算公式如下:

F1 分数中精确率和召回率的相对贡献相等。

我们可以使用sklearn.metrics库中的classification_report函数获取分类模型的分类报告。

ROC 曲线下面积分数(ROC AUC Score)

ROC(受试者工作特征)曲线下面积(AUC)分数用于衡量分类器区分正例和负例的能力。其计算方式是:在不同的分类阈值下,绘制真正例率(TPR)与假正例率(FPR)的曲线,然后计算该曲线下的面积。

顾名思义,ROC 是一条概率曲线,AUC 则衡量模型的分离能力。简单来说,ROC-AUC 分数能反映模型区分不同类别的能力,分数越高,模型性能越好。

我们可以使用sklearn.metrics库中的roc_auc_score函数计算 ROC-AUC 分数。

对数损失(LOGLOSS / Logarithmic Loss)

对数损失又称逻辑回归损失或交叉熵损失,基于概率估计定义,用于评估输入为 0 到 1 之间概率值的分类模型性能。通过与准确率对比,能更清晰地理解其含义:准确率统计的是模型中预测值与实际值一致的数量,而对数损失则衡量预测结果与实际标签的偏离程度所带来的不确定性。借助对数损失值,我们能更准确地了解模型的性能。

我们可以使用sklearn.metrics库中的log_loss函数计算对数损失。

示例

以下是一个简单的 Python 代码示例,展示如何在二分类模型中使用上述性能指标:

python

运行

from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.metrics import classification_report from sklearn.metrics import roc_auc_score from sklearn.metrics import log_loss X_actual = [1, 1, 0, 1, 0, 0, 1, 0, 0, 0] # 实际值 Y_predic = [1, 0, 1, 1, 1, 0, 1, 1, 0, 0] # 预测值 results = confusion_matrix(X_actual, Y_predic) print('混淆矩阵:') print(results) print('准确率:', accuracy_score(X_actual, Y_predic)) print('分类报告:') print(classification_report(X_actual, Y_predic)) print('ROC-AUC分数:', roc_auc_score(X_actual, Y_predic)) print('对数损失值:', log_loss(X_actual, Y_predic))
输出结果

plaintext

混淆矩阵: [[3 3] [1 3]] 准确率: 0.6 分类报告: precision recall f1-score support 0 0.75 0.50 0.60 6 1 0.50 0.75 0.60 4 micro avg 0.60 0.60 0.60 10 macro avg 0.62 0.62 0.60 10 weighted avg 0.65 0.60 0.60 10 ROC-AUC分数: 0.625 对数损失值: 13.815750437193334

回归问题的性能指标

在前几章中,我们已经探讨了回归及其相关算法。本节将介绍可用于评估回归问题预测结果的各类性能指标:

  • 平均绝对误差(Mean Absolute Error, MAE)
  • 均方误差(Mean Square Error, MSE)
  • 决定系数(R² Score)

平均绝对误差(Mean Absolute Error, MAE)

平均绝对误差是回归问题中最简单的误差指标,定义为预测值与实际值之间绝对差值的平均值。简单来说,通过 MAE 我们可以了解预测结果的误差程度,但它无法指示模型误差的方向(即无法判断模型是预测不足还是预测过度)。计算公式如下:

其中,= 实际输出值,= 预测输出值。

我们可以使用sklearn.metrics库中的mean_absolute_error函数计算 MAE。

均方误差(Mean Square Error, MSE)

均方误差与平均绝对误差类似,不同之处在于它先对预测值与实际值的差值进行平方,再求和取平均。计算公式如下:

其中,= 实际输出值,= 预测输出值。

我们可以使用sklearn.metrics库中的mean_squared_error函数计算 MSE。

决定系数(R² Score)

决定系数通常用于解释性场景,用于衡量预测输出值与实际输出值的拟合优度。计算公式如下:

上述公式中,分子为均方误差(MSE),分母为实际输出值Y的方差(Yˉ为Y的平均值)。

我们可以使用sklearn.metrics库中的r2_score函数计算决定系数。

示例

以下是一个简单的 Python 代码示例,展示如何在回归模型中使用上述性能指标:

python

运行

from sklearn.metrics import r2_score from sklearn.metrics import mean_absolute_error from sklearn.metrics import mean_squared_error X_actual = [5, -1, 2, 10] # 实际值 Y_predic = [3.5, -0.9, 2, 9.9] # 预测值 print('决定系数(R²)=', r2_score(X_actual, Y_predic)) print('平均绝对误差(MAE)=', mean_absolute_error(X_actual, Y_predic)) print('均方误差(MSE)=', mean_squared_error(X_actual, Y_predic))
输出结果

plaintext

决定系数(R²)= 0.9656060606060606 平均绝对误差(MAE)= 0.42499999999999993 均方误差(MSE)= 0.5674999999999999

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179822.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

打包 Python 项目

本教程将带你一步步打包一个简单的 Python 项目。你将学习如何添加必要的文件和目录结构来创建一个可发布的包,如何构建这个包,并将其上传到 Python Package Index (PyPI)。 部分命令需要较新版本的 pip,因此请先确保你已安装最新版&#xf…

搞定提示工程优化文本生成

💓 博客主页:借口的CSDN主页 ⏩ 文章专栏:《热点资讯》 提示工程的优化艺术:从理论到高效文本生成的实践指南目录提示工程的优化艺术:从理论到高效文本生成的实践指南 引言:提示工程的核心价值与时代挑战 一…

尺寸约束下商业卫星编码器系统的抗辐照MCU性能边界研究

摘要:随着低轨商业卫星星座的规模化部署,星载编码器系统对抗辐照微控制器单元(MCU)的性能、体积及成本提出了严苛的多重要求。本文基于国科安芯AS32S601系列MCU的完整辐照试验数据体系,系统性地研究在LQFP144塑封封装所…

AI原生应用可解释性:如何说服利益相关者?

AI原生应用可解释性:从技术落地到利益相关者说服的全维指南 关键词 AI可解释性(XAI)、利益相关者沟通、决策透明度、信任构建、合规性工程、可解释性成熟度模型、多模态解释框架 摘要 本报告系统解析AI原生应用可解释性的核心机制与利益相关者…

无人驾驶物流车网关的多路CANFD冗余架构与通信可靠性分析

摘要:随着L4级自动驾驶技术在末端物流场景的规模化部署,无人驾驶物流车对车载网关系统的实时性、可靠性与功能安全性提出了前所未有的严苛要求。控制器局域网络灵活数据率(CANFD)协议作为新一代车载通信标准,在兼容传统…

json库使用教程

json库 json库通常用于解析json文件以及生成json文件,通常读入json文件需要伴随着文件的打开模式 前置学习-文件打开模式 r 代表只读模式 w 可写 r+ 可读可写,文件必须存在,才能读写 w+ 可读可写,文件不存在时,会…

西门子PLC S7-1200实现4ms精准周期数据采集(带时间戳)

一、前言工业自动化数据高速采集一直是行业内一大难题与痛点。高速数据采集要保证速度,也要保证时刻的准确性。而在windows系统平台下,时间稳定性是个很难的问题。PLC-Recorder通过不断升级迭代,程序内部架构优化,…

2026.1.15总结

了解机器学习基础内容和scikit-learn 2. 机器学习基础 # scikit-learn 入门 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.linear_model import Logis…

2026年普通人有什么机会?

宗旨: 1、最好能有长期发展。 2、不触及法律法规。 3、成本低,收益递增。 方向: 符合社会发展的大潮流。类似雷军当年看到手机的发展。 具体内容: AI带来的社会变革。普通人拥抱AI,利用AI带来的社会变革趋势。 …

Linux操作系统(1)

前引:在Linux系统的高并发领域,I/O处理效率直接决定了服务的性能上限。当我们面对每秒数万甚至数十万的连接请求时,传统的“一连接一线程”模型会因线程切换开销暴增而迅速崩溃,而早期的I/O多路转接技术如select和poll&#xff0c…

Linux操作系统(3)

前引:在Linux系统的高并发领域,I/O处理效率直接决定了服务的性能上限。当我们面对每秒数万甚至数十万的连接请求时,传统的“一连接一线程”模型会因线程切换开销暴增而迅速崩溃,而早期的I/O多路转接技术如select和poll&#xff0c…

<Linux基础第5集>关于apt命令的细节

零 先看目录 紧接上一集Linux命令 apt update 与 apt upgrade apt update # 更新本地软件源仓库 # 刷新一下软件商店 apt upgrade # 把所有软件包都更新到最新版本 # 更具本地软件商店,把系统下载的软件全部更新到最新版本 # 一般先执行apt update,在执行pat upgrade apt insta…

Linux操作系统(2)

前引:在Linux系统的高并发领域,I/O处理效率直接决定了服务的性能上限。当我们面对每秒数万甚至数十万的连接请求时,传统的“一连接一线程”模型会因线程切换开销暴增而迅速崩溃,而早期的I/O多路转接技术如select和poll&#xff0c…

11-3 register integration

文章目录 原始代码 详细解读:Direct vs Layered UVM验证框架 一、第一段代码(Direct框架)详细解读 1. APB从设备模块(slave) 2. 寄存器模型(dut_regmodel) 3. 测试平台(tb_top) 4. 测试环境(tb_env)关键代码 二、第二段代码(Layered框架)详细解读 1. APB从设备模块…

智能驾驶三剑客:NDS、KIWI与ADASIS

NDS、KIWI 和 ADASIS 是智能驾驶与高精度地图领域中三个关键的技术标准或协议,分别服务于导航数据格式标准化、嵌入式地图数据存储和高级驾驶辅助系统(ADAS)与地图之间的信息交互。下面分别对它们进行简明扼要的解释,并说明三者之…

day147—递归—二叉树的最近公共祖先(LeetCode-236)

题目描述 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个节点 p、q,最近公共祖先表示为一个节点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以…

题解:P9353 [JOI 2023 Final] 现代机器 / Modern Machine

感觉很好的题啊。 题意:感觉总结不是很总结地明白,直接看题面吧。 Bitaro 收到了一个 JOI 机器作为生日礼物。 JOI 机器由一个球、\(N\) 个灯光瓷砖和 \(M\) 个按钮组成。灯光瓷砖从 \(1\) 到 \(N\) 编号。当 Bitaro…

12款论文AI工具横向对比:数学建模论文复现效率提升与格式优化方法

还在为论文写作头痛?特别是数学建模的优秀论文复现与排版,时间紧、任务重,AI工具能帮上大忙吗?今天,我们评测10款热门AI论文写作工具,帮你精准筛选最适合的助手。 aibiye:专注于语法润色与结构…

12款论文AI工具横向对比:数学建模论文复现效率提升与格式优化方法

还在为论文写作头痛?特别是数学建模的优秀论文复现与排版,时间紧、任务重,AI工具能帮上大忙吗?今天,我们评测10款热门AI论文写作工具,帮你精准筛选最适合的助手。 aibiye:专注于语法润色与结构…

12款AI论文工具深度分析:数学建模论文快速复现与格式精准调整方案

还在为论文写作头痛?特别是数学建模的优秀论文复现与排版,时间紧、任务重,AI工具能帮上大忙吗?今天,我们评测10款热门AI论文写作工具,帮你精准筛选最适合的助手。 aibiye:专注于语法润色与结构优…