深度学习篇---模型训练评估参数


文章目录

  • 前言
  • 一、Precision(精确率)
    • 1.1定义
    • 1.2意义
    • 1.3数值接近1
    • 1.4数值再0.5左右
    • 1.5数值接近0
  • 二、Recall(召回率)
    • 2.1定义
    • 2.2意义
    • 2.3数值接近1
    • 2.4数值在0.5左右
    • 2.5数值接近0
  • 三、Accuracy(准确率)
    • 3.1定义
    • 3.2意义
    • 3.3数值接近1
    • 3.4数值接近0.5左右
    • 3.5数值接近0
  • 四、F1 值
    • 4.1定义
    • 4.2意义
    • 4.3数值接近1
    • 4.4数值0.5左右
    • 4.5数值接近0
  • 五、ROC 曲线与 AUC
    • 5.1ROC曲线
    • 5.2AUC
    • 5.3AUC接近1
    • 5.4AUC接近0.5
    • 5.5AUC小于0.5
  • 六、平均绝对误差(MAE)
    • 6.1定义
    • 6.2意义
    • 6.3数值接近0
    • 6.4数值较大
  • 七、均方误差(MSE)
    • 7.1定义
    • 7.2意义
    • 7.3数值接近0
    • 7.4数值较大


前言

本文简单介绍了深度学习中模型训练好坏的评估参数。


一、Precision(精确率)

1.1定义

定义:预测为正例的样本中,真正为正例的比例。计算公式为:
Precision= TP/(TP+FP)
其中TP(True Positive)表示真正例,即实际为正例且被预测为正例的样本数量;FP(False Positive)表示假正例,即实际为负例但被预测为正例的样本数量。

1.2意义

意义:精确率反映了模型预测出的正例中真正正确的比例,用于衡量模型预测正例的准确性。例如,在垃圾邮件分类中,精确率高意味着模型预测为垃圾邮件的邮件中,确实是垃圾邮件的比例较高,可减少将正常邮件误判为垃圾邮件的情况。

1.3数值接近1

数值接近 1:说明模型预测为正例的样本中,真正为正例的比例很高。例如在文本分类任务中,若精确率达到 0.9 以上,表明模型预测为某一类别的文本,绝大部分确实属于该类别,模型在识别正例时具有较高的准确性,误判为正例的情况很少。

1.4数值再0.5左右

数值在 0.5 左右:表示模型预测正例的准确性一般,有一半左右预测为正例的样本可能是错误的判断。这意味着模型在区分正例和负例时,存在较大的混淆,可能需要进一步调整模型参数或特征工程,以提高其对正例的精确识别能力。

1.5数值接近0

数值接近 0:说明模型几乎无法准确识别正例,预测为正例的样本中大部分是错误的,模型在正例识别方面表现很差,可能存在严重的过拟合或欠拟合问题,或者数据集中存在噪声干扰等因素影响了模型的判断。

二、Recall(召回率)

2.1定义

定义:实际为正例的样本中,被预测为正例的比例。计算公式为:
Recall= TP/(TP+FN),其中FN(False Negative)表示假反例,即实际为正例但被预测为负例的样本数量。

2.2意义

意义:召回率体现了模型能够正确识别出的正例的能力。在一些场景中,如疾病检测,希望尽可能多地检测出真正患病的人,即使可能会有一些误判,此时召回率就非常重要。较高的召回率表示模型能够找到大部分实际为正例的样本,不会遗漏太多真正的正例。

2.3数值接近1

数值接近 1:表明模型能够几乎找出所有实际为正例的样本。例如在疾病检测场景中,召回率接近 1 意味着几乎所有患病的样本都被模型检测出来了,很少有漏检的情况,模型在捕捉正例方面具有很强的能力。

2.4数值在0.5左右

数值在 0.5 左右:说明模型只能识别出一半左右的实际正例样本,存在较多的漏检情况。这可能是因为模型对正例的特征学习不够充分,或者正例样本在数据集中分布不均衡,导致模型未能很好地学习到正例的各种特征,从而无法准确识别所有正例。

2.5数值接近0

数值接近 0:表示模型几乎无法找到实际的正例样本,漏检情况非常严重。模型可能根本没有学习到正例的有效特征,或者模型过于保守,将大量正例错误地判断为负例,需要对模型进行重新训练或调整,以提高其对正例的捕捉能力。

三、Accuracy(准确率)

3.1定义

定义:预测正确的样本数占总样本数的比例。计算公式为:
Accuracy= TP+TN/(TP+TN+FP+FN),其中TN(True Negative)表示真反例,即实际为负例且被预测为负例的样本数量。

3.2意义

意义:准确率是一个较为直观的指标,用于衡量模型整体的预测正确程度。但当数据集中正负样本比例不均衡时,准确率可能会产生误导。例如,在一个正负样本比例为 9:1 的数据集上,即使模型将所有样本都预测为正例,也能获得 90% 的准确率,但实际上模型并没有很好地学习到负例的特征。

3.3数值接近1

数值接近 1:表示模型整体的预测准确性很高,无论是正例还是负例,模型都能准确地进行分类。在数据分布较为均衡的情况下,准确率高说明模型对数据的拟合效果好,能够学习到数据中的有效特征,从而做出准确的预测。

3.4数值接近0.5左右

数值在 0.5 左右:说明模型的预测结果与随机猜测差不多,模型可能没有学习到数据中的任何有效信息,无法对样本进行准确分类。这可能是由于数据特征与目标变量之间没有明显的关联,或者模型过于简单,无法捕捉到数据中的复杂模式。

3.5数值接近0

数值接近 0:表示模型的预测结果几乎都是错误的,这是一种极端情况,通常是由于模型存在严重的问题,如模型结构错误、数据预处理不当、训练过程出现异常等,导致模型完全无法对数据进行正确的分类。

四、F1 值

4.1定义

定义:精确率和召回率的调和平均数,计算公式为:
F1= 2×Precision×Recall/(Precision+Recall)。

4.2意义

意义:F1 值综合了精确率和召回率两个指标,能够更全面地反映模型的性能。当精确率和召回率都较高时,F1 值也会较高。在实际应用中,F1 值常用于平衡精确率和召回率,特别是在两者之间存在权衡时,F1 值可以作为一个综合的评估指标来选择最优的模型。

4.3数值接近1

数值接近 1:说明模型在精确率和召回率上都表现出色,能够在准确识别正例的同时,尽可能地找出所有正例,模型的综合性能优秀。例如在信息检索系统中,F1 值接近 1 表示系统既能准确地返回相关的检索结果(精确率高),又能涵盖大部分相关的信息(召回率高),能够很好地满足用户的需求。

4.4数值0.5左右

数值在 0.5 左右:意味着模型在精确率和召回率之间存在一定的平衡,但整体性能一般。可能是精确率和召回率其中一个指标较高,而另一个指标较低,导致两者的调和平均数不高。此时需要分析具体是哪个指标拖了后腿,进而针对性地改进模型,以提高 F1 值。

4.5数值接近0

数值接近 0:表明模型在精确率和召回率方面的表现都很差,可能存在严重的分类错误或对正例的识别能力不足,模型需要进行全面的优化和调整,包括重新选择特征、调整模型结构、优化训练参数等,以提高精确率和召回率,进而提升 F1 值。

五、ROC 曲线与 AUC

5.1ROC曲线

ROC 曲线: Receiver Operating Characteristic 曲线,以假正率(FPR)为横坐标,真正率(TPR)为纵坐标绘制的曲线。其中
FPR= FP/(FP+TN),TPR= TP/(TP+FN)。ROC 曲线展示了模型在不同阈值下的分类性能,曲线越靠近左上角,说明模型的性能越好。

5.2AUC

AUC: Area Under the Curve,即 ROC 曲线下的面积。AUC 的值介于 0 到 1 之间,AUC 越大,说明模型的性能越好。AUC 为 1 表示模型能够完美地将正负样本区分开,AUC 为 0.5 表示模型的预测结果与随机猜测相当。

5.3AUC接近1

AUC 接近 1:说明 ROC 曲线靠近左上角,模型具有很强的区分正负样本的能力。在不同的阈值下,模型都能较好地将正例和负例区分开来,很少出现将正例误判为负例或负例误判为正例的情况,模型的性能非常优秀。
AUC 在 0.5 到 0.8 之间:表示模型具有一定的区分正负样本的能力,但性能一般。ROC 曲线位于对角线(AUC = 0.5)上方,说明模型的预测结果优于随机猜测,但还有较大的提升空间。可能需要进一步优化模型,调整特征或参数,以提高模型的性能。

5.4AUC接近0.5

AUC 接近 0.5:说明模型的区分能力与随机猜测相当,ROC 曲线接近对角线。这意味着模型可能没有学习到有效的特征来区分正负样本,需要重新审视数据和模型,查找问题所在,可能需要重新进行特征工程或选择更合适的模型。

5.5AUC小于0.5

AUC 小于 0.5:这种情况比较罕见,通常表示模型存在严重问题,其预测结果甚至不如随机猜测。可能是模型训练过程出现错误,或者数据存在严重的偏差或噪声,导致模型学到了错误的模式,需要对整个建模过程进行全面检查和修正。

六、平均绝对误差(MAE)

6.1定义

定义:预测值与真实值之间绝对误差的平均值。

6.2意义

意义:MAE 直观地反映了模型预测值与真实值之间的平均误差大小,其值越小,说明模型的预测结果越接近真实值,预测精度越高。

6.3数值接近0

数值接近 0:表示模型的预测值与真实值之间的平均差异非常小,模型能够准确地预测出目标值,预测精度很高。例如在预测股票价格走势时,MAE 接近 0 说明模型能够准确地预测出股票的实际价格,误差在可接受的范围内,模型具有很强的预测能力。

6.4数值较大

数值较大:说明模型的预测值与真实值之间存在较大的平均差异。例如在房价预测中,如果 MAE 较大,意味着模型预测的房价与实际房价有较大的偏差,可能是模型没有充分考虑到影响房价的各种因素,或者数据中存在一些异常值影响了模型的准确性,需要对模型进行改进或对数据进行进一步的处理。

七、均方误差(MSE)

7.1定义

定义:预测值与真实值之间误差平方的平均值。

7.2意义

意义:MSE 也用于衡量模型预测值与真实值之间的差异程度。由于对误差进行了平方运算,MSE 会对较大的误差给予更大的权重,因此对异常值更为敏感。MSE 越小,模型的性能越好。在一些优化问题中,常以最小化 MSE 为目标来训练模型。

7.3数值接近0

数值接近 0:表明模型的预测值与真实值之间的误差平方和很小,模型的预测效果非常好。与 MAE 类似,MSE 接近 0 表示模型能够准确地拟合数据,对目标值的预测精度高,在各种预测任务中都属于理想的状态。

7.4数值较大

数值较大:由于 MSE 对误差进行了平方运算,所以较大的 MSE 值说明模型存在较大的误差,而且对较大的误差给予了更大的权重。这可能是因为模型过于简单,无法捕捉到数据中的复杂关系,或者存在过拟合现象,导致在训练集上表现良好,但在测试集上误差较大。需要对模型进行调整,如增加模型的复杂度、采用正则化方法等,以降低 MSE 值,提高模型的性能。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/76137.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化(十一)

注册表设置 GPU虚拟化标志 GpuVirtualizationFlags 注册表项用于设置半虚拟化 GPU 的行为。 密钥位于: DWORD HKLM\System\CurrentControlSet\Control\GraphicsDrivers\GpuVirtualizationFlags 定义了以下位: 位描述0x1 ​ 为所有硬件适配器强制设置…

Vue 的 nextTick 是如何实现的?

参考答案: nextTick 的本质将回调函数包装为一个微任务放入到微任务队列,这样浏览器在完成渲染任务后会优先执行微任务。 nextTick 在 Vue2 和 Vue3 里的实现有一些不同: 1. Vue2 为了兼容旧浏览器,会根据不同的环境选择不同包装策…

安卓开发之LiveData与DataBinding

LiveData——生命周期感知 LiveData 是 Android Jetpack 提供的一个生命周期感知的数据持有者类,它可以用于持有数据并在数据发生变化时通知观察者。LiveData 常与 ViewModel 配合使用,帮助简化 UI 层和数据层之间的交互,确保 UI 在合适的生…

TCP协议与wireshark抓包分析

一、tcp协议格式 1. 源端口号 : 发送方使用的端口号 2. 目的端口号 : 接收方使用的端口号 3. 序号: 数据包编号 , tcp 协议为每个数据都设置编号,用于确认是否接收到相应的包 4. 确认序列号 : 使用 tcp 协议接收到数据包&#xff0c…

《HelloGitHub》第 108 期

兴趣是最好的老师,HelloGitHub 让你对开源感兴趣! 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等,涵盖多种编程语言 Python、…

VITA 模型解读,实时交互式多模态大模型的 pioneering 之作

写在前面:实时交互llm 今天回顾一下多模态模型VITA,当时的背景是OpenAI 的 GPT-4o 惊艳亮相,然而,当我们将目光投向开源社区时,却发现能与之匹敌的模型寥寥无几。当时开源多模态大模型(MLLM),大多在以下一个或多个方面存在局限: 模态支持不全:大多聚焦于文本和图像,…

VLAN的高级特性

前言: 1:华为VLAN聚合通过逻辑分层设计,将广播域隔离与子网共享结合,既解决了IP地址浪费问题,又实现了灵活的网络管理 2:MUX VLAN(Multiplex VLAN)提供了一种通过VLAN进行网络资源控…

制作cass高程点块定义——cad c#二次开发——待调试

public class Demo{[CommandMethod("xx")]public void Demo1(){using var tr1 new DBTrans();var doc Application.DocumentManager.MdiActiveDocument; var db doc.Database;var ed doc.Editor;var 圆心 new Point3d(0, 0, 0); var 半径 10.0;using (var tr …

pod几种常用状态

在 Kubernetes 中,Pod 是最小的可部署单元,Pod 的状态反映了其当前的运行状况。以下是几种常见的 Pod 状态: 1. Pending 描述: Pod 已被 Kubernetes API Server 接收并创建,但还没有开始运行在任何节点上。原因: Pod 资源不足&a…

04 单目标定实战示例

看文本文,您将获得以下技能: 1:使用opencv进行相机单目标定实战 2:标定结果参数含义和数值分析 3:Python绘制各标定板姿态,查看图像采集多样性 4:如果相机画幅旋转90,标定输入参数该如何设置? 5:图像尺寸缩放,标定结果输出有何影响? 6:单目标定结果应用类别…

DevEco Studio编辑器的使用-代码code Linter检查

Code Linter代码检查 Code Linter针对ArkTS/TS代码进行最佳实践/编程规范方面的检查。检查规则支持配置,配置方式请参考配置代码检查规则。 开发者可根据扫描结果中告警提示手工修复代码缺陷,或者执行一键式自动修复,在代码开发阶段&#x…

wokwi arduino mega 2560 - 模数与数模转换AD和DA

截图&#xff1a; 20.53 黄灯灭 不报警 205.77 黄灯亮 报警 链接&#xff1a; https://wokwi.com/projects/415345595312267265 代码&#xff1a; 详细注释版&#xff1a;AD和I2C仿真实验案例程序 cpp #include <LiquidCrystal_I2C.h>// 定义I2C地址和LCD的行列数 #de…

如何使不同的窗体控件,适应不同分辨率的屏幕?

问题 当屏幕分辨率提高或降低时&#xff0c;原分辨率显示正常的控件&#xff0c;将变得很小或很大&#xff0c;字体也变得太大或太小。 解决办法 当分辨率变化时&#xff0c;采用递归的方法&#xff0c;对所有的控件放大或缩小。 public static void MainForm_Load(object s…

虚拟机(一):Java 篇

虚拟机&#xff08;一&#xff09;&#xff1a;Java 篇 虚拟机&#xff08;二&#xff09;&#xff1a;Android 篇 架构 运行时数据区&#xff1a; 栈&#xff1a; 堆&#xff1a; 堆&#xff1a;通过new创建的对象都在堆中分配。OutOfMemoryError TLAB(Thread Local All…

硬件基础--14_电功率

电功率 电功率:指电流在单位时间内做的功(表示用电器消耗电能快慢的一个物理量)。 单位:瓦特(W)&#xff0c;简称瓦。 公式:PUI(U为电压&#xff0c;单位为V&#xff0c;i为电流&#xff0c;单位为A&#xff0c;P为电功率&#xff0c;单位为W)。 单位换算:进位为1000&#xff…

更高的效率——MyBatis-plus

一、什么是MyBatis-plus&#xff1f; MyBatis-plus是MyBatis的增强工具&#xff0c;在MyBatis基础上只做增强不做改变&#xff0c;可以简化基础的CRUD操作&#xff08;通过继承 BaseMapper 接口可直接使用预定义的增删改查方法&#xff09; 二、MyBatis-plus快速入门 2.1 准备…

【算法基础】递归与递推

目录 递归实现指数型枚举 题目 算法解析 递归实现排列型枚举 题目 算法解析 费解的开关 题目 算法解析 递归实现组合型枚举 题目 算法解析 带分数 题目 算法解析 飞行员兄弟 题目 算法解析 翻硬币 题目 算法解析 递归实现指数型枚举 题目 算法…

Java 大视界 -- Java 大数据在智慧矿山设备故障预测与预防性维护中的技术实现(163)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

综合实验一

实验拓扑图&#xff1a; 实验要求&#xff1a; 1,内网IP地址使用172.16.0.0/16分配 2,SW1和SW2之间互为备份 3,VRRP/STP/VLAN/Eth-trunk均使用 4,所有PC均通过DHCP获取IP地址 5,ISP只能配置IP地址 6,所有电脑可以正常访问ISP路由器环回 实验步骤&#xff1a; 步骤1&…

snort检测端口扫描工具

前面两篇文章介绍了snort3相关知识和Ubuntu上的安装配置Ubuntu22.04上Snort3的安装与基本配置 -CSDN博客 和Snort规则定义并进行的简单的测试Snort规则定义与测试 -CSDN博客&#xff0c;接下来我将介绍如何编写一个简单的检测端口扫描的规则进行检测 一、实验环境 攻击机&…