做疏通什么网站推广好建设网站外贸
做疏通什么网站推广好,建设网站外贸,最新站长seo网站外链发布平台,神秘入口一、逻辑回归
应用场景#xff1a;解决二分类问题
1、sigmoid函数 1. 公式#xff1a; 2. 作用#xff1a;把 (-∞#xff0c;∞) 映射到 (0#xff0c; 1) 3. 数学性质#xff1a;单调递增函数#xff0c;拐点在x0#xff0c;y0.5的位置 4. 导函数公式#xff1a;f…一、逻辑回归
应用场景解决二分类问题
1、sigmoid函数 1. 公式 2. 作用把 (-∞∞) 映射到 (0 1) 3. 数学性质单调递增函数拐点在x0y0.5的位置 4. 导函数公式f ′(x) f(x) (1 – f(x))
2、相关概念 概率事件发生的可能性 联合概率两个或多个随机变量同时发生的概率 条件概率表示事件A在另外一个事件B已经发生条件下的发生概率P( A | B ) 极大似然估计根据 观测到的结果 来估计模型算法中的未知参数即通过极大化概率事 件来估计最优参数 对数函数如果a^b N (a 0b ! 1)那么 b 叫做以 a 为底 N 的对数。 性质aMN 0 3、概念 一种分类模型把线性回归的输出作为逻辑回归的输入输出是0, 1之间的值
4、假设函数 5、损失函数对数似然损失 工作原理真实类别对应的位置概率值越大越好 6、API
sklearn.linear_model.LogisticRegression ( solver liblinear penalty l2 C 1.0 )
solver损失函数优化方法 liblinear 对小数据集场景训练速度更快sag 和 saga 对大数据集更 快一些。 penalty正则化的种类L1 或者 L2 C正则化力度
tips默认将类别数量少的当做正例sag、saga 支持 L2 正则化或者没有正则化liblinear 和 saga 支持 L1 正则化 二、模型评估
1、混淆矩阵 真正例 TPTrue Positive伪反例 FNFalse Negative
伪正例 FPFalse Positive真反例 TNTrue Negative
TP FN FP TN 总样本数量
1. 导包from sklearn.metrics import confusion_matrix
2. 使用result confusion_matrix ( y_truey_pred1labels labels)
from sklearn.metrics import confusion_matrixresult confusion_matrix ( y_truey_pred1labels labels) 2、精确率 ( Precision ) 概述查准率对正例样本的预测准确率 计算方法 1. 导包from sklearn.metrics import precision_score 2. 使用result precision_score(y_truey_pred1pos_label 恶性 )
from sklearn.metrics import precision_scoreresult precision_score(y_truey_pred1pos_label 恶性 ) 3、召回率 ( Recall ) 概述查全率指的是预测为真正例样本占所有真实正例样本的比重 计算方法 1. 导包from sklearn.metrics import recall_score 2. 使用result recall_score(y_truey_pred1pos_label 恶性 )
from sklearn.metrics import recall_scoreresult recall_score(y_truey_pred1pos_label 恶性 ) 4、F1- score 概述对模型的精度 (Precision)、召回率 (Recall) 都有要求评估综合预测能力 ( 精确率和 召回率 的调和平均数 ) 计算方法 1. 导包from sklearn.metrics import f1_score 2. 使用result f1_score ( y_truey_pred1pos_label 恶性 )
from sklearn.metrics import f1_scoreresult f1_score ( y_truey_pred1pos_label 恶性 ) 5、ROC 曲线 真正率TPR正样本中被预测为正样本的概率True Positive Rate 假正率FPR负样本中被预测为正样本的概率False Positive RateFP / FP TN 概述Receiver Operating Characteristic curve是一种常用于 评估 分类模型 性能 的可视化工具。ROC曲线以模型的 真正率TPR 为纵轴假正率FPR 为横轴它将模型在 不同阈值下的表现以曲线的形式展现出来。 6、AUC 曲线下面积 概述ROC曲线的优劣可以通过曲线下的面积(AUC)来衡量AUC越大表示分类器 性能越好 当AUC 0.5 时表示分类器的性能等同于随机猜测 当AUC 1时表示分类器的性能完美能够完全正确地将正负例分类。 点(0, 0) 所有的负样本都预测正确所有的正样本都预测错误相当于点的 (FPR值0, TPR值0
点(1, 0) 所有的负样本都预测错误所有的正样本都预测错误。相当于点的 (FPR值1, TPR值0) 即最不好的效果
点(1, 1)所有的负样本都预测错误所有的正样本都预测正确。相当于点的 (FPR值1TPR值1)
点(0, 1)所有的负样本都预测正确所有的正样本都预测正确。相当于点的 (FPR值0TPR值1) 即最好的效果 API 1.导包from sklearn.metrics import roc_auc_score 2. 使用sklearn.metrics.roc_auc_score ( y_truey_score ) y_true每个样本的真实类别必须为0 ( 反例 )1 ( 正例 )标记 y_score预测得分可以是正例的估计概率、置信值或者分类器方法的返回值
from sklearn.metrics import roc_auc_scoresklearn.metrics.roc_auc_score ( y_truey_score ) 7、EDA探索性数据分析 概述围绕目标值进行分析找到和目标值相关性比较强的特征 8、分类评估报告 sklearn.metrics.classification_report ( y_truey_predlabels [ ]target_names None ) y_true真实目标值 y_pred估计器预测目标值 labels指定类别对应的数字 target_names目标类别名称 return每个类别精确率与召回率
sklearn.metrics.classification_report ( y_truey_predlabels [ ]target_names None ) 样本不均衡问题处理思路希望 0、1 标签样本占比 11方案class_weight balanced 特征编码处理类别型数据做 one - hot 编码churn_pd pd.get_dummies ( churn_pd )
churn_pd pd.get_dummies ( churn_pd )
模型保存1. 导包import joblib 2. 保存 joblib.dump ( estimator . / 文件名.pth )
import joblibjoblib.dump ( estimator . / 文件名.pth )
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/89542.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!