一、箱线图
1.概念:
箱线图,也称为盒须图,是一种用于显示数据分布情况的标准化方法。它通过五个核心统计量来呈现一组数据的整体特征,让我们能够快速了解数据的集中趋势、离散程度和偏态,并识别出可能的异常值。
2.五大要素
1.中位数(Q2,50th Percentile):
定义:将数据从小到大排列后,处于最中间的那个数。
图中表示:箱体内的一条线。
作用:代表数据的集中趋势,比平均值更稳健,不受极端异常值的影响。
2.第一四分位数(Q1,25th Percentile):
定义:数据中所有由小到大排列后,处于第25%位置的数字。
图中表示:箱体的下边缘。
作用:有25%的数据小于它。
3.第三四分位数(Q3,75th Percentile):
定义:数据中所有由小到大排列后,处于第75%位置的数字。
图中表示:箱体的上边缘。
作用:有75%的数据小于它。
4.上限(Upper Whisker):
定义:非异常值范围内的最大值。计算公式通常为 Q3 + 1.5 * IQR。
图中表示:从箱体上边缘延伸出去的须线的顶端。
作用:显示正常数据的最大范围。
5.下限(Lower Whisker):
定义:非异常值范围内的最小值。计算公式通常为 Q1 - 1.5 * IQR。
图中表示:从箱体下边缘延伸出去的须线的底端。
作用:显示正常数据的最小范围。
3.作用与价值
3.1.中心位置:直接看中位数线的位置,了解数据的平均水平。
3.2离散程度:
箱体的高度(IQR):IQR = Q3 - Q1。IQR越大,说明中间50%的数据越分散,波动性越大。
须线的长度:须线越长,说明头部或尾部的数据(非异常值部分)分布越广。
3.3数据偏态:
对称分布:中位数在箱体中央,上下须线长度大致相等。
右偏分布:中位数更靠近箱体底部(Q1),上须线比下须线长得多。说明大部分数据较小,存在少数大值将分布向右拉。(如:个人收入数据)
左偏分布:中位数更靠近箱体顶部(Q3),下须线比上须线长得多。说明大部分数据较大,存在少数小值将分布向左拉。
3.4异常值检测:所有独立在须线之外的点都是潜在的异常值,需要进一步分析其产生原因。
二、 直方图
1.核心概念:用于展示单个连续变量的分布情况。它通过将数据分成若干个区间(称为“箱”或“柱”),然后统计每个区间内数据点的频数(或频率)来绘制。
X轴:连续变量,被划分为连续的区间。
Y轴:频数(该区间内有多少个数据点)或频率(百分比)。
柱子的特点:柱子之间没有间隙,这强调了数据的连续性。
2.作用:
了解分布形状:数据是正态分布、偏态分布(左偏/右偏)还是均匀分布
查看集中趋势和离散程度:数据主要集中在哪个范围
发现异常值:是否存在远离主要分布的极端值
三、条形图
1.核心概念:用于比较不同类别之间的离散数据。每个条形的长度代表该类别的数值大小。
X轴:代表不同的类别(如商品名称、城市、分类标签)。
Y轴:代表该类别的数值(如数量、金额、百分比)。
柱子的特点:柱子之间有间隙,这强调了类别的离散性。
2.与直方图的根本区别:
直方图展示一个连续变量的分布。
条形图比较多个类别的数值。
3.作用:
比较类别:一目了然地看出哪个类别最大、哪个最小。
排名:通常会将条形按高度排序以便于比较。
四、热力图
1.核心概念:使用颜色深浅来表示矩阵中数值大小的二维图像。
基本元素:一个由彩色方块组成的网格,每个方块的颜色代表一个值。
颜色映射:通常使用渐变色系(如蓝-白-红),中间色代表中间值,两端色代表极值。
2.作用:
可视化相关性矩阵:这是最常见用途。快速识别特征之间相关性的强弱和方向(正相关/负相关)。
显示混淆矩阵:用颜色深浅直观表示分类模型预测的正确与错误数量。
展示任何二维矩阵数据:如地理数据、网页点击图等。
五、混淆矩阵
核心概念:用于评估分类模型性能的特定表格,它总结了模型的预测结果与真实标签的对应关系。
结构:一个NxN的矩阵(N为类别数),对于二分类,就是2x2矩阵。
四个核心术语:
真正例:实际是正类,模型也预测为正类。
真负例:实际是负类,模型也预测为负类。
假正例:实际是负类,模型错误预测为正类。(第一类错误)
假负例:实际是正类,模型错误预测为负类。(第二类错误)
衍生评估指标:准确率、精确率、召回率、F1分数等都基于此矩阵计算。
六、ROC曲线与AUC
核心概念:用于评估二分类模型在不同分类阈值下性能的综合指标。
ROC曲线:
X轴:假正率(FPR) - 所有负样本中被误判为正的比例(越小越好)。
FPR = FP / (FP + TN)
Y轴:真正率(TPR,即召回率) - 所有正样本中被正确找出的比例(越大越好)。
TPR = TP / (TP + FN)
曲线生成:通过不断改变模型预测概率的分类阈值(从1到0),计算出每一组(FPR, TPR)点,连接而成。
AUC:
定义:ROC曲线下的面积。
含义:模型将随机一个正样本排在随机一个负样本之前的概率。
AUC = 0.5:模型没有区分能力,等同于随机猜测。
AUC = 1.0:完美模型。
0.7 < AUC < 0.9:有一定区分度。
AUC > 0.9:模型非常优秀。
作用:ROC曲线不受类别不平衡和分类阈值的影响,提供了一个稳定、全面的模型性能视图。