细说机器学习算法之ROC曲线用于模型评估

系列文章目录

第一章：Pyhton机器学习算法之KNN

第二章：Pyhton机器学习算法之K—Means

第三章：Pyhton机器学习算法之随机森林

第四章：Pyhton机器学习算法之线性回归

第五章：Pyhton机器学习算法之有监督学习与无监督学习

第六章：Pyhton机器学习算法之朴素贝叶斯

第七章：Pyhton机器学习算法之XGBoost

第八章：Pyhton机器学习算法之GBDT

第九章：Pyhton机器学习算法之岭回归

第十章：Pyhton机器学习算法之lasso回归

第十一章：Pyhton机器学习算法之逻辑回归

第十二章：Pyhton机器学习算法之ROC曲线

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

系列文章目录

前言

一、基本概念：

二、二分类ROC原理：

三、多分类ROC原理：

四、代码实战：

五、选择阈值：

六、适用场景：

总结

前言

ROC曲线（Receiver Operating Characteristic curve）是一种用于评价分类模型性能的工具，尤其适用于二分类问题，在多分类问题上也有相对广泛的应用。通过在不同阈值下计算模型的真阳性率（True Positive Rate, TPR）和假阳性率（False Positive Rate, FPR）来全面评估分类器的表现，随着机器学习的发展，尤其是在医疗诊断、欺诈检测和金融风险控制等领域，ROC曲线成为衡量分类器性能的标准方法

一、基本概念：

真阳性率（True Positive Rate, TPR）：

也被称为召回率（Recall）或灵敏度（Sensitivity），是评估二分类模型性能的一个重要指标。它衡量的是在所有实际为正类的样本中，被模型正确预测为正类的比例。

假阳性率（False Positive Rate, FPR）：

假阳性率反映了在所有实际为负类的样本中，被错误地预测为正类的样本所占的比例。

AUC值：

ROC曲线下的面积。AUC值介于0到1之间，AUC越接近1，模型的区分能力越强。一般情况下，AUC值可以这样理解

（1）0.5：模型没有区分能力，和随机猜测差不多

（2）0.5-0.7：模型具有较低的区分能力

（3）0.7-0.9：模型具有较好的区分能力

（4）0.9-1.0：模型的区分能力非常强

二、二分类ROC原理：

真阳性率（True Positive Rate, TPR）：TPR = TP / (TP + FN)

其中，TP 表示真正例（True Positive），即实际为正类且被模型预测为正类的样本数；FN 表示假负例（False Negative），即实际为正类但被模型预测为负类的样本数。

真阳性率越高，说明模型在识别正类样本方面的能力越强，即模型能够识别出更多的实际正类样本。然而，提高真阳性率可能会以增加假阳性率（False Positive Rate, FPR）为代价，因为模型可能会将更多的负类样本误判为正类。

假阳性率（False Positive Rate, FPR）：FPR = FP / (FP + TN)

其中，FP表示假正例（False Positive），即实际为负类但被模型预测为正类的样本数；TN表示真负例（True Negative），即实际为负类且被模型预测为负类的样本数。

反映了模型或检测方法在区分负类样本时的能力，即模型将实际未患病的个体误判为患病的概率。

三、多分类ROC原理：

1.多分类问题中的宏平均ROC曲线：

（1）一对多（One-vs-Rest，OvR）：将多分类问题中的每个类别当作正类，其他类别作为负类，分别计算每个类别的ROC曲线，并计算其AUC值。

宏平均ROC曲线：首先为每个类别分别计算ROC曲线，然后对这些曲线的TPR和FPR在每个阈值下进行平均，得到宏观的ROC曲线。

宏平均AUC：对所有类别的AUC值进行平均，得到一个全局的AUC值，衡量多分类模型的整体性能。

（2）一对一（One-vs-One，OvO）：在每两个类别之间计算二分类的ROC曲线和AUC值，最后通过一定的加权方式计算整体的AUC。

2.扩展到多分类的宏平均ROC曲线：

（1）针对每一个类别，计算它与所有其他类别的ROC曲线，即将该类别视为正类，其他类别视为负类

（2）对于每一类ROC曲线，记录不同阈值下的TPR和FPR

（3）将所有类别的ROC曲线进行平均，得到宏观的ROC曲线

四、代码实战：

二分类模型：

#以上根据你的数据集训练二分类模型。。。。#绘制roc曲线
from sklearn.metrics import roc_curve, auc
# 预测概率
y_score = rf_model.predict_proba(X_test)[:, 1]
# 计算ROC曲线
fpr_rf, tpr_rf, _ = roc_curve(y_test, y_score)roc_auc_rf = auc(fpr_rf, tpr_rf)# 绘制ROC曲线
plt.figure(dpi=1200)
plt.plot(fpr_rf, tpr_rf, color='darkorange', lw=2, label='ROC curve (area = %0.4f)' % roc_auc_rf)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.savefig("Receiver Operating Characteristic_1.pdf", bbox_inches='tight')
plt.show()

多分类模型：

#以上为根据数据集训练多分类模型from sklearn import metrics
from sklearn.preprocessing import label_binarize
# 预测并计算概率
ytest_proba_rf = rf_model.predict_proba(X_test)
# 将y标签转换成one-hot形式
ytest_one_rf = label_binarize(y_test, classes=[0, 1, 2])# 宏平均法计算AUC
rf_AUC = {}
rf_FPR = {}
rf_TPR = {}for i in range(ytest_one_rf.shape[1]):rf_FPR[i], rf_TPR[i], thresholds = metrics.roc_curve(ytest_one_rf[:, i], ytest_proba_rf[:, i])rf_AUC[i] = metrics.auc(rf_FPR[i], rf_TPR[i])
print(rf_AUC)#合并所有的fpr并排列去重
rf_FPR_final = np.unique(np.concatenate([rf_FPR[i] for i in range(ytest_one_rf.shape[1])]))# 计算宏平均
TPRrf_TPR_all = np.zeros_like(rf_FPR_final)
for i in range(ytest_one_rf.shape[1]):    rf_TPR_all += np.interp(rf_FPR_final, rf_FPR[i], rf_TPR[i])
rf_TPR_final = rf_TPR_all / ytest_one_rf.shape[1]# 计算最终的宏平均
AUCrf_AUC_final = metrics.auc(rf_FPR_final, rf_TPR_final)AUC_final_rf = rf_AUC_final 
# 最终AUC
print(f"Macro Average AUC with Random Forest: {AUC_final_rf}")plt.figure(figsize=(10, 10), dpi=1200)
# 使用不同的颜色和线型
plt.plot(rf_FPR[0], rf_TPR[0], color='#1f77b4', linestyle='-', label='Class 0 ROC  AUC={:.4f}'.format(rf_AUC[0]), lw=2)
plt.plot(rf_FPR[1], rf_TPR[1], color='#ff7f0e', linestyle='-', label='Class 1 ROC  AUC={:.4f}'.format(rf_AUC[1]), lw=2)
plt.plot(rf_FPR[2], rf_TPR[2], color='#2ca02c', linestyle='-', label='Class 2 ROC  AUC={:.4f}'.format(rf_AUC[2]), lw=2)
# 宏平均ROC曲线
plt.plot(rf_FPR_final, rf_TPR_final, color='#000000', linestyle='-', label='Macro Average ROC  AUC={:.4f}'.format(rf_AUC_final), lw=3)
# 45度参考线
plt.plot([0, 1], [0, 1], color='gray', linestyle='--', lw=2, label='45 Degree Reference Line')
plt.xlabel('False Positive Rate (FPR)', fontsize=15)
plt.ylabel('True Positive Rate (TPR)', fontsize=15)
plt.title('Random Forest Classification ROC Curves and AUC', fontsize=18)
plt.grid(linestyle='--', alpha=0.7)
plt.legend(loc='lower right', framealpha=0.9, fontsize=12)
plt.savefig('RF_optimized.pdf', format='pdf', bbox_inches='tight')
plt.show()

示意图：