关掉wordpress站点图片seo优化是什么意思
关掉wordpress站点,图片seo优化是什么意思,北京的电商平台网站有哪些内容,社交网站开发项目计划报告机器学习#xff1a;从源数据清洗到特征工程建立谈金融反欺诈模型训练 本文旨在通过一个完整的实战例子#xff0c;演示从源数据清洗到特征工程建立#xff0c;再到模型训练#xff0c;以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习#xff0c;会比较多的…机器学习从源数据清洗到特征工程建立谈金融反欺诈模型训练 本文旨在通过一个完整的实战例子演示从源数据清洗到特征工程建立再到模型训练以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习会比较多的困惑希望通过借助这个实战的例子可以帮助大家对机器学习了一个初步的认识。 本文旨在通过一个完整的实战例子演示从源数据清洗到特征工程建立再到模型训练以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习会比较多的困惑希望通过借助这个实战的例子可以帮助大家对机器学习了一个初步的认识。 【数据来源】 本文的数据来源于Lending Club网站的公开数据数据集为自LendingClub平台发放的2016年Q3的总计99122条贷款记录。 Lending Club是美国最大的P2P网贷交易平台利用网络技术直接连接了个人投资者和个人借贷者缩短资金流通的细节绕过传统的大银行等金融机构使得投资者和借贷者都能得到更多实惠。对于投资者来说可以获得更好的回报;对于借贷者来说则可以获得相对较低的贷款利率。 在借贷行业中投资者向借贷者提供贷款以获取利息。如果借贷者顺利偿还贷款投资者则获得利息收益。如果借贷者无法偿还贷款投资者则损失贷款本金。因此对于投资者来说需要预测借贷者无法偿还贷款的风险最大程度地避免投资损失最大程度地实现投资回报。 【实施步骤】 一、 总体流程说明 数据分析的开始是从了解你要分析的数据以及了解你本次机器学习的目标开始的。需要分清是分类问题还是回归问题同时需要了解数据的构造哪些是自变量(特征)哪个是因变量(目标变量)。就本次目标来看因为目标变量是loan_statas(还款状态)它是一个标称值因此本次是一个分类问题。 进入数据清洗阶段主要是去除一些缺失严重的样式或者特征同时去除一些跟业务无关的特征以及方差比较小的特征。建立特征工程时主要是对里面字符特征进行处理将其转成数值型以及对一些数据值特征进行归一化等处理;模型训练时主要是选择合适的算法以及选择合适的超参数;模型评估就是将在训练集上运行好的模型在测试集上进行验证评估。 二、了解数据集 使用pandas读取数据集然后查看数据信息 可以看出一共包含了99122条记录一共有121个特征和一个目标变量这些列的类型分布float64有97个字符型有25个。 三、 数据清洗 ▲取出特征X以及目标变量y 其中load_data是自己封装的一个函数用于根据targetCol来分割原来的df。 ▲根据业务去掉不需要的列 目前主要包含:无关的标识字段以及贷后字段 ▲调用自定义函数进行清理 主要包含的以下操作 ▪ 去除所有行以及所有的列均为nan的数据▪ 去除缺失率高的特征,这里超过0.9则不考虑▪ 去除特征中包含实例类别太多的特征默认包含1000个实例则不考虑▪ 对于数值型如果标准差太小的则不考虑该特征 可以从打印出的日志上看出经过上一步的清洗步骤已经从原来的121个特征变量降成75个特征变量。 再看一下清洗完后目前的特征中样本缺失度情况 由图可以目前缺失最高的mths_since_last_record在80%左右在预设范围内整体情况还相对理想。 ▲查看特征的相关程度 如果特征之间相关度比较高的话那就会影响分析结果这里对这些特征的相关度进行排序 从上述的相关系数的关联情况可以看出:funded_amnt,loan_amnt,funded_amnt_inv这几个特征的关联比较强仅保留funded_amnt去除其它两个特征经过清洗后只剩下了73个特征。 四、特征工程 ▲对目标变量的处理 查看目标变量y的值的分布情况 根据业务来理解Current和Fully Paid用户是属于信用良好的样本用1表示Late (31-120 days)和Late (16-30 days)逾期的用户就归于信用不好的样本用0表示其它的几类就暂时用np.nan来代替,本次暂时不分析先删除这些空的3912个样本。 处理完后目标变量的分布如下 ▲对字符型特征的处理 查看当前特征中字符型的特征主要包含 通过数据的分布可以看出特征pymnt_planapplication_type分布很不均衡暂时不考虑这两个特征。 同时将init_rate转成float类型将emp_length处理成int类型对剩下的三个home_ownershipverification_statusinitial_list_status类型变量做独热编码,使用pd.get_dummies函数同时去除原始的那三个字段。 经过如上的处理将其全部字符型的特征转成了数值型。 ▲对整体数值型特征的处理 这里主要对缺失值处理使用每个特征的中位数进行缺失值填充。 到此已全部完成了特征工程的建立最终特征工程包含95210个样本以及 77特征建好的特征工程进入下一阶段的模型训练。 五、 模型训练 因为考虑到样本的不均衡性交叉验证的方法使用StratifiedShuffleSplit方式来划分样本同时学习器使用GBRT算法同时RandomizedSearchCV进行最优参数选择。目前只是设置了基本的参数 通过训练集的充分训练后得到目前GBRT最优的参数如下 然后使用这个最优的模型来对测试集进行预测: 这样我们就得到了测试集在这个模型中跑出来的结果y_predicted数组然后将它与y_test进行比对就可以对该模型进行评估具体的可以查看2.6小结的结果。 六、模型评估 ▲查看分类报告 可以看出整体平均的精确度和召回率和F1值还是可以的不过对于样本0的召回率和F1值为0可能需要进一步优化。 ▲查看学习曲线 学习曲线是一条关于样本个数和经验损失函数之间的曲线通过学习曲线可以看到关于偏差、方差用于改善机器学习算法的决策提供依据;从目前的曲线可以看出训练得分和测试得分基本稳定在0.972这个点相对来说比较理想。 【结论与展望】 本文只是简单的演示了一个完整的机器学习的流程重点在于突出机器学习的各个实施步骤对于整体的模型可能还有以下几点可以优化与完善 ▪ 如何更好的处理样本的不平衡性▪ 是否考虑其它的算法进行比对效果比如xgboost▪ 算法的超参数调优可以增加几个变量调优▪ 特征工程的建立还是稍微粗糙了些还是可以再细化(比如特征的组合特征的重要性排序数值型特征的归一化处理等) 转载于:https://www.cnblogs.com/ldt-/p/10236889.html
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/91533.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!