混淆矩阵入门

混淆矩阵从入门到精通教程

本教程面向机器学习初学者,从核心概念、公式推导到实战案例,循序渐进讲解混淆矩阵的使用方法,结合工业场景(石油、燃气)和通用场景,每个案例都完整计算准确率、精确率、召回率、F1分数等核心指标,帮助你快速掌握并应用到实际项目中。

一、 入门篇:混淆矩阵核心概念与公式

1. 什么是混淆矩阵?

混淆矩阵是评估分类模型性能的表格工具,行代表真实标签,列代表模型预测标签,单元格数值表示“真实为A、预测为B”的样本数量。
它的核心价值是:超越单一的准确率,精准定位模型的错误类型(误检/漏检)

2. 二分类混淆矩阵的4个核心元素

二分类是混淆矩阵的基础(标签只有两类:正例/负例),4个元素是所有指标计算的核心:

真实\预测正例(Positive)负例(Negative)
正例TP(真正例):真实正例,预测正例FN(假负例):真实正例,预测负例(漏检)
负例FP(假正例):真实负例,预测正例(误检)TN(真负例):真实负例,预测负例

3. 核心评估指标公式(必背)

所有指标的取值范围都是[0,1],越接近1表示模型性能越好。

指标名称公式含义
准确率(Accuracy)(TP+TN)/(TP+TN+FP+FN)(TP+TN)/(TP+TN+FP+FN)(TP+TN)/(TP+TN+FP+FN)模型预测正确的样本占总样本的比例
精确率(Precision)TP/(TP+FP)TP/(TP+FP)TP/(TP+FP)预测为正例的样本中,真实为正例的比例(降低误检率
召回率(Recall)TP/(TP+FN)TP/(TP+FN)TP/(TP+FN)真实为正例的样本中,被预测为正例的比例(降低漏检率
F1分数(F1-Score)2×(Precision×Recall)/(Precision+Recall)2\times (Precision\times Recall)/(Precision+Recall)2×(Precision×Recall)/(Precision+Recall)精确率和召回率的调和平均,平衡两者的矛盾

4. 多分类混淆矩阵的指标计算逻辑

当类别数n≥3n\ge3n3时,混淆矩阵为n×nn\times nn×n方阵,指标计算需先算每个类别的精确率/召回率,再计算宏观平均微观平均

  • 宏观平均(Macro-average):先计算每个类别的指标,再取算术平均(平等对待每个类别,适合样本均衡场景)。
  • 微观平均(Micro-average):先汇总所有类别的TP/FP/FN,再计算整体指标(适合样本不均衡场景)。

二、 实战篇:4个经典案例(指标全计算+结果分析)

例1:二分类 - 石油钻井井下工具故障检测

场景:模型判断钻具是否“故障”(正例=故障,负例=正常),测试集共100个样本。
混淆矩阵

真实\预测故障(正例)正常(负例)行合计(真实样本数)
故障TP=18FN=220
正常FP=5TN=7580
列合计(预测样本数)2377总样本=100

指标计算

  1. 准确率 =(18+75)/100=0.93(18+75)/100 = 0.93(18+75)/100=0.93
  2. 精确率 =18/(18+5)≈0.782618/(18+5) \approx 0.782618/(18+5)0.7826
  3. 召回率 =18/(18+2)=0.918/(18+2) = 0.918/(18+2)=0.9
  4. F1分数 =2×(0.7826×0.9)/(0.7826+0.9)≈0.83722\times(0.7826\times0.9)/(0.7826+0.9) \approx 0.83722×(0.7826×0.9)/(0.7826+0.9)0.8372

结果分析

  • 召回率高达0.9,说明90%的故障钻具被识别,漏检率低(工业场景优先保障召回率,避免故障漏检引发事故)。
  • 精确率0.7826,说明有5个正常钻具被误判为故障,会增加检修成本,后续可优化特征降低误检。

例2:二分类 - 邮件垃圾分类

场景:模型判断邮件是否为“垃圾邮件”(正例=垃圾邮件,负例=正常邮件),测试集共200个样本。
混淆矩阵

真实\预测垃圾邮件(正例)正常邮件(负例)行合计
垃圾邮件TP=60FN=1070
正常邮件FP=5TN=125130
列合计65135总样本=200

指标计算

  1. 准确率 =(60+125)/200=0.925(60+125)/200 = 0.925(60+125)/200=0.925
  2. 精确率 =60/(60+5)≈0.923160/(60+5) \approx 0.923160/(60+5)0.9231
  3. 召回率 =60/(60+10)≈0.857160/(60+10) \approx 0.857160/(60+10)0.8571
  4. F1分数 =2×(0.9231×0.8571)/(0.9231+0.8571)≈0.8892\times(0.9231\times0.8571)/(0.9231+0.8571) \approx 0.8892×(0.9231×0.8571)/(0.9231+0.8571)0.889

结果分析

  • 精确率高(0.9231),说明预测为垃圾邮件的样本中,真实垃圾邮件占比高,避免正常邮件被误删
  • 召回率略低,说明有10封垃圾邮件被漏判,可调整模型阈值提升召回率。

例3:三分类 - 手写数字识别(0/1/2)

场景:模型识别0、1、2三类数字,测试集共90个样本(每类30个)。
混淆矩阵

真实\预测012行合计
0282030
1129030
2032730
列合计293427总样本=90

指标计算步骤
步骤1:计算每个类别的精确率、召回率、F1分数

类别TP(对角线值)FP(列和-TP)FN(行和-TP)精确率召回率F1分数
02829-28=130-28=228/(28+1)≈0.965528/(28+2)=0.93332*(0.9655*0.9333)/(0.9655+0.9333)≈0.949
12934-29=530-29=129/(29+5)≈0.852929/(29+1)=0.96672*(0.8529*0.9667)/(0.8529+0.9667)≈0.906
22727-27=030-27=327/(27+0)=127/(27+3)=0.92*(1*0.9)/(1+0.9)≈0.947

步骤2:计算宏观平均指标

  • 宏观精确率 =(0.9655+0.8529+1)/3≈0.9395(0.9655+0.8529+1)/3 ≈ 0.9395(0.9655+0.8529+1)/30.9395
  • 宏观召回率 =(0.9333+0.9667+0.9)/3=0.9333(0.9333+0.9667+0.9)/3 = 0.9333(0.9333+0.9667+0.9)/3=0.9333
  • 宏观F1分数 =(0.949+0.906+0.947)/3≈0.934(0.949+0.906+0.947)/3 ≈ 0.934(0.949+0.906+0.947)/30.934

步骤3:计算整体准确率
准确率 =(28+29+27)/90=84/90=0.9333(28+29+27)/90 = 84/90 = 0.9333(28+29+27)/90=84/90=0.9333

结果分析

  • 数字2的精确率为1,说明模型预测为2的样本全是真实2,无错误;但有3个真实2被误判为1,需优化1和2的特征区分(如笔画末端形态)。
  • 数字1的精确率最低,因有5个非1样本被误判为1,需调整模型对1的识别阈值。

例4:四分类 - 燃气调压器故障诊断

场景:模型诊断调压器4种状态:正常、堵塞、漏气、阀杆卡滞,测试集共120个样本(每类30个)。
混淆矩阵

真实\预测正常堵塞漏气阀杆卡滞行合计
正常2910030
堵塞0272130
漏气0326130
阀杆卡滞0022830
列合计29313030总样本=120

指标计算步骤
步骤1:计算每个类别的核心指标

类别TPFPFN精确率召回率F1分数
正常2929-29=030-29=129/(29+0)=129/(29+1)=0.9667≈0.9831
堵塞2731-27=430-27=327/(27+4)≈0.87127/(27+3)=0.9≈0.885
漏气2630-26=430-26=426/(26+4)≈0.866726/(26+4)=0.8667≈0.8667
阀杆卡滞2830-28=230-28=228/(28+2)=0.933328/(28+2)=0.9333≈0.9333

步骤2:宏观平均指标

  • 宏观精确率 =(1+0.871+0.8667+0.9333)/4≈0.9178(1+0.871+0.8667+0.9333)/4 ≈ 0.9178(1+0.871+0.8667+0.9333)/40.9178
  • 宏观召回率 =(0.9667+0.9+0.8667+0.9333)/4≈0.9167(0.9667+0.9+0.8667+0.9333)/4 ≈ 0.9167(0.9667+0.9+0.8667+0.9333)/40.9167
  • 宏观F1分数 ≈(0.9831+0.885+0.8667+0.9333)/4≈0.917(0.9831+0.885+0.8667+0.9333)/4 ≈ 0.917(0.9831+0.885+0.8667+0.9333)/40.917

步骤3:整体准确率
准确率 =(29+27+26+28)/120=110/120≈0.9167(29+27+26+28)/120 = 110/120 ≈ 0.9167(29+27+26+28)/120=110/1200.9167

结果分析

  • 正常状态识别效果最好,精确率100%;堵塞和漏气的混淆最严重(2个堵塞误判为漏气,3个漏气误判为堵塞),需增加压力波动曲线气体流速等核心特征。
  • 阀杆卡滞的精确率和召回率均衡,模型对该状态的识别能力稳定。

三、 精通篇:模型优化与常见误区

1. 精确率与召回率的权衡(核心技巧)

  • 优先保召回率:工业故障检测、疾病诊断等场景(漏检代价 > 误检代价),可降低模型预测阈值,让更多样本被判定为正例。
  • 优先保精确率:垃圾邮件分类、广告推荐等场景(误检代价 > 漏检代价),可提高模型预测阈值,减少误判。

2. 避免准确率陷阱(初学者最易踩坑)

样本不均衡场景(如1000个样本中,990个正常、10个故障),模型全部预测为“正常”,准确率也能达到99%,但毫无实用价值。
解决方案:用召回率、F1分数替代准确率评估模型,或通过采样(过采样正例/欠采样负例)平衡数据。

四、 总结:从入门到精通的核心路径

  1. 入门:牢记二分类4个元素(TP/TN/FP/FN)和核心指标公式。
  2. 进阶:掌握多分类的“类别指标→宏观平均”计算逻辑。
  3. 实战:结合业务场景分析指标(优先保精确率/召回率)。
  4. 精通:避开准确率陷阱,用工具辅助模型优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1189484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CTF竞赛入门指南:用Python从零开始编写自动化解题脚本

CTF网络安全大赛中的Python应用 CTF(Capture The Flag)网络安全大赛是一个在网络安全社区中广泛流行的竞赛形式。它通过各种挑战来检验参赛者的网络安全技能,包括逆向工程、漏洞利用、密码学、Web安全等。Python作为一种高效而强大的编程语言…

【文献速递】从基因到蛋白质的“信使”与“搬运工”:详解mRNA、rRNA与tRNA的生成与使命

在生命这台精密的分子机器中,遗传信息从DNA的“蓝图”转化为功能蛋白质的“实体”,是一个高度复杂且有序的过程。这一过程的核心,依赖于三类关键核糖核酸(RNA)的精密协作:信使RNA(mRNA&#xff…

机械制造行业如何实现大文件的分块上传?

2023年XX月XX日 外包项目攻坚日志 - 20G级文件传输系统开发实录 (关键词:信创环境兼容/海量文件存储/企业级断点续传/简历镀金项目) 凌晨3点:需求风暴会议复盘 客户作为省级档案数字化服务商,提出的变态需求&#xff…

互联网大厂 1000 道 Java 面试八股文整理(2026 年最新版)

很多 Java 工程师的技术不错,但是一面试就头疼,10 次面试 9 次都是被刷,过的那次还是去了家不知名的小公司。 问题就在于:面试有技巧,而你不会把自己的能力表达给面试官。 应届生:你该如何准备简历&#x…

gb28181点播流程中INVITE消息需要注意的点

1. Content-Length必须正确,否则设备会报415。2. sip 服务器给设备发 INVITE 消息时,sdp 携带的是媒体服务器的能力描述,正确的报文示例如下INVITE sip:{camera_id}3402000000:{local_port} SIP/2.0 Via: SIP/2.0/TCP {local_ip}:{local_port…

大模型微调常见问题解决方案汇总

一、环境配置类问题 环境配置是微调的第一步,也是最基础的环节,框架、硬件、依赖之间的兼容性问题,会直接导致后续工作无法开展,这类问题的排查优先级最高。 问题1:依赖版本冲突,安装后导入包时报错 这是最…

2026年诚信的叉车塑料托盘,网格塑料托盘,塑料托盘厂家选型推荐指南 - 品牌鉴赏师

引言在现代物流与仓储领域,塑料托盘、叉车塑料托盘、网格塑料托盘、九脚塑料托盘、平板塑料托盘以及仓储塑料托盘等塑料制品扮演着至关重要的角色。它们的质量、性能和适用性直接影响着物流效率、货物安全以及企业的运…

关于MoE(混合专家模型):看这篇就对了

一、MoE的诞生背景与核心定义 要理解MoE,首先要明确它解决的核心问题——传统稠密Transformer的固有瓶颈。Transformer是当前大模型的基础架构,其核心的前馈神经网络(FFN)层是模型做特征加工的关键,但传统的FFN是稠密层…

2026 年风味酱生产厂家推荐榜:山东晶荣食品有限公司 ,香菇风味酱/大葱风味酱/洋葱风味酱/牛肉风味酱/鲍菇风味酱全系供应

在调味酱市场中,风味酱凭借其独特的口感和广泛的应用场景,逐渐成为消费者餐桌上的常客。据行业数据显示,2025年风味酱市场规模已突破120亿元,年复合增长率达8.7%,其中香菇风味酱、牛肉风味酱等细分品类增速显著。…

吃透JVM深层原理:从内存模型到垃圾回收,面试生产排障全攻略

一、JVM内存模型:不止是“堆栈”那么简单 很多人对JVM内存的理解停留在“堆存对象、栈存方法”,但这只是表层认知。JVM规范定义的内存区域,每个都有明确职责和溢出场景,吃透这些才能避开90%的内存异常坑。 1. 内存区域细分&…

智能马桶哪家好?十大品牌深度测评给您一个选择(市场+用户+网评+销量四维认证) - 提酒换清欢

2026智能马桶品牌星级排名(市场+用户+网评+销量四维认证) 排名核心标准说明 本次排名综合四大核心维度:市场表现(渠道覆盖、政策适配、产能规模)、用户口碑(满意度、复购率、场景适配度)、网评数据(平台好评率…

江苏省聚乙二醇4000优质厂家推荐榜 - 优质品牌商家

江苏省聚乙二醇4000优质厂家推荐榜一、行业背景与推荐依据据《2026中国聚醚醇类化工原料行业发展白皮书》数据显示,聚乙二醇4000作为多功能化工中间体,近年在制药、化妆品、油田化学品等领域的年需求增长率达8.2%,已…

基于SpringBoot的校园疫情防控管理系统毕业设计源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。 一、研究目的 本研究旨在开发一套基于SpringBoot框架的校园疫情防控管理系统,以应对当前新冠疫情对校园生活带来的挑战。具体研究目的如下: 首先&a…

拉床(数控/榫槽)制造商口碑分析:行业翘楚深度剖析 - 品牌推荐大师

在制造业智能化、高端化转型的浪潮中,拉床作为金属切削领域的关键装备,其性能、精度与售后服务对企业生产至关重要。据市场调研,2026年中国拉床市场规模有望突破62亿元,数控机型占比超40%,行业竞争呈现“高端技术…

厦门装修省钱秘籍:高性价比公司大揭秘 - 品牌测评鉴赏家

厦门装修省钱秘籍:高性价比公司大揭秘一、厦门装修,钱要花在刀刃上 在厦门这座美丽的海滨城市,拥有一套温馨舒适的家是许多人的梦想。装修作为实现梦想的重要环节,既充满期待感,也需要精准把控细节,尤其对于追求…

2026年江北彩印店综合实力TOP榜:服务、技术、资信三维度权威排行 - 华Sir1

前言:一站式能力成为决策关键 随着2026年企业降本增效与品牌化建设的需求持续深化,商业印刷市场已悄然完成一轮洗牌。根据《2026中国印刷业智能化发展报告》指出,单纯的价格优势正在让位于“一站式解决方案”的综合…

成都恒利泰:一只功分器如何止损20万?

成都恒利泰:一只功分器如何止损20万?客户案例: 凌晨一点的胡志明市港口,潮水声混着汽笛。 越南代理商小阮把最后一箱设备搬上岸,却接到紧急电话:“海关临时抽检,目前只剩一路射频,要同时接三副天线,通不过今天…

基于SpringBoot的校园疫情防控系统毕业设计源码

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一套基于SpringBoot框架的校园疫情防控系统,以满足当前疫情防控形势下校园管理工作的实际需求。具体研究目的如下:构…

权威解读:2026年化污水处理设备厂家十大品牌排行榜单! - 深度智识库

面对日益严格的环保法规和多样化的处理需求,一张权威的污水处理设备推荐榜单,能让决策者拨开市场迷雾,看清行业真正的实力派。污水处理行业正迎来高质量发展的关键时期。在“双碳”目标深入实施的背景下,市场对高效…

2026年污水处理设备厂家TOP5品牌推荐:成都远锦环保推动绿色环保 - 深度智识库

2026年3月1日,《城镇污水处理厂污染物排放标准》(GB 18918—2002)修改单将正式实施,总磷日均值≤0.5mg/L、COD瞬时排放限值≤75mg/L的“双限值管控”要求,推动污水处理行业从“达标排放”向“资源循环”升级。全球…