网站建设 核算外贸公司推广

news/2025/9/24 8:13:12/文章来源:
网站建设 核算,外贸公司推广,wordpress底部居中,百度公司图片本文主要从 单特征分析#xff0c;多特征筛选#xff0c;特征监控#xff0c;外部特征评估的几个方面对特征数据进行阐述。 来源 #xff1a; 特征筛选_特征覆盖度怎么算_adamyoungjack的博客-CSDN博客 1. 单特征分析 1.1 简介 好特征可以从几个角度衡量#xff1a;覆…本文主要从 单特征分析多特征筛选特征监控外部特征评估的几个方面对特征数据进行阐述。 来源  特征筛选_特征覆盖度怎么算_adamyoungjack的博客-CSDN博客 1. 单特征分析 1.1 简介 好特征可以从几个角度衡量覆盖度区分度相关性稳定性 1.2 覆盖度 1. 应用场景 采集类授权类第三方数据在使用前都会分析覆盖度 2. 分类 采集类 如APP list Android 手机 90%授权类如爬虫数据20% 30%覆盖度GPS 有些产品要求必须授权 3. 计算 一般会在两个层面上计算覆盖度覆盖度 有数据的用户数/全体用户数 全体存量客户全体有信贷标签客户 4. 衍生 覆盖度可以衍生两个指标缺失率零值率 缺失率一般就是指在全体有标签用户上的覆盖度零值率很多信贷类数据在数据缺失时会补零所以需要统计零值率业务越来越成熟覆盖度可能会越来愈好可以通过运营策略提升覆盖度 1.3 区分度 1. 简介 评估一个特征对好坏用户的区分性能的指标 2. 应用场金 可以把单特征当做模型使用AUC, KS来评估特征区分度在信贷领域常用Information Value (IV)来评估单特征的区分度 3. 计算 Information Value刻画了一个特征对好坏用户分布的区分程度 IV值越大IV值越小 IV值最后ln的部分跟WOE是一样的 IV计算举例数据为了方便计算填充不代表实际业务 IV0.02 区分度小 建模时不用 xgboost,lightGMB 对IV值要求不高IV [0.02,0.5] 区分度大 可以放到模型里(IV 0.1 考虑是否有未来信息)IV 0.5 单独取出作为一条规则使用不参与模型训练 4. 注意 模型中尽可能使用区分度相对较弱的特征将多个弱特征组合得到评分卡模型连续变量的IV值计算先离散化再求IV跟分箱结果关联很大一般分3-5箱 1.4 相关性 1. 简介 对线性回归模型有一条基本假设是自变量x1x2…xp之间不存在严格的线性关系 2. 分类 需要对相关系数较大的特征进行筛选只保留其中对标签区分贡献度最大的特征即保留IV较大的 皮尔逊相关系数斯皮尔曼相关系数肯德尔相关系数 3. 选择 考察两个变量的相关关系首先得清楚两个变量都是什么类型的 连续型数值变量无序分类变量、有序分类变量连续型数值变量如果数据具有正态性此时首选Pearson相关系数如果数据不服从正态分布此时可选择Spearman和Kendall系数两个有序分类变量相关关系可以使用Spearman相关系数一个分类变量和一个连续数值变量可以使用kendall相关系数 总结就适用性来说kendall spearman pearson 4. 计算 import pandas as pd  df pd.DataFrame({A:[5,91,3],B:[90,15,66],C:[93,27,3]})  df.corr() # 皮尔逊  df.corr(spearman)#斯皮尔曼  df.corr(kendall)#肯德尔 可以使用toad库来过滤大量的特征高缺失率、低iv和高度相关的特征一次性过滤掉 import pandas as pd import toad data pd.read_csv(data/germancredit.csv) data.replace({good:0,bad:1},inplaceTrue) data.shape#缺失率大于0.5,IV值小于0.05,相关性大于0.7来进行特征筛选 selected_data, drop_list toad.selection.select(data,target creditability, empty 0.5, iv 0.05, corr 0.7, return_dropTrue) print(保留特征:,selected_data.shape[1],缺失删除:,len(drop_list[empty]),低iv删 除,len(drop_list[iv]),高相关删除,len(drop_list[corr]))1.5 稳定性 1. 简介 主要通过计算不同时间段内同一类用户特征的分布的差异来评估 2. 分类 常用的特征稳定性的度量有Population Stability Index (PSI)当两个时间段的特征分布差异大则PSI大当两个时间段的特征分布差异小则PSI小 3. PSI和IV对比 IV是评估好坏用户分布差异的度量PSI是评估两个时间段特征分布差异的度量都是评估分布差异的度量并且公式其实一模一样只是符号换了而已 2. 多特征筛选 1. 简介 当构建了大量特征时接下来的调整就是筛选出合适的特征进行模型训练 过多的特征会导致模型训练变慢学习所需样本增多计算特征和存储特征成本变高 2. 方法 星座特征Boruta方差膨胀系数后向筛选L1惩罚项业务逻辑 2.1 星座特征 1. 简介 星座是公认没用的特征区分度低于星座的特征可以认为是无用特征 2. 步骤 把所有特征加上星座特征一起做模型训练拿到特征的重要度排序多次训练的重要度排序都低于星座的特征可以剔除 2.2 Boruta 1. 简介 Boruta算法是一种特征选择方法使用特征的重要性来选取特征 网址https://github.com/scikit-learn-contrib/boruta_py安装pip install Boruta 2.原理 创建阴影特征 (shadow feature) : 对每个真实特征R随机打乱顺序得到阴影特征矩阵S拼接到真实特征后面构成新的特征矩阵N [R, S].用新的特征矩阵N作为输入训练模型能输出feature_importances_的模型如RandomForest lightgbmxgboost都可以得到真实特征和阴影特征的feature importances,取阴影特征feature importance的最大值S_max真实特征中feature importance小于S_max的被认为是不重要的特征删除不重要的特征重复上述过程直到满足条件 3. 应用 import numpy as np import pandas as pd import joblib from sklearn.ensemble import RandomForestClassifier from boruta import BorutaPy #加载数据 pd_data joblib.load(data/train_woe.pkl) pd_data#处理数据去掉id 和 目标值 pd_x pd_data.drop([SK_ID_CURR, TARGET], axis1) x pd_x.values # 特征 y pd_data[[TARGET]].values # 目标 y y.ravel() # 将多维数组降位一维使用Boruta选择features # 先定义一个随机森林分类器 rf RandomForestClassifier(n_jobs-1, class_weightbalanced, max_depth5) BorutaPy function estimator : 所使用的分类器 n_estimators : 分类器数量, 默认值 1000 max_iter : 最大迭代次数, 默认值 100 feat_selector BorutaPy(rf, n_estimatorsauto, random_state1, max_iter10) feat_selector.fit(x, y)展示选择出来的feature dic_ft_select dict() # feat_selector.support_ # 返回特征是否有用false可以去掉 for ft, seleted in zip(pd_x.columns.to_list(), feat_selector.support_): dic_ft_select[ft] seleted pd_ft_select pd.DataFrame({feature:pd_x.columns.to_list(), selected: feat_selector.support_}) pd_ft_selec2.3 方差膨胀系数 VIF 1. 简介 方差膨胀系数 Variance inflation factor (VIF)如果一个特征是其他一组特征的线性组合则不会在模型中提供额外的信息可以去掉评估共线性程度 2. 计算  VF计算 VIF越大说明拟合越好该特征和其他特征组合共线性越强就越没有信息量可以剔除 3 应用 加载数据 import numpy as np  import pandas as pd  import joblib  from statsmodels.stats.outliers_influence import variance_inflation_factor  pd_data joblib.load(./train_woe.pkl) #去掉ID和目标值  pd_x pd_data.drop([SK_ID_CURR, TARGET], axis1) 计算方差膨胀系数 #定义计算函数 def checkVIF_new(df): lst_col df.columns x np.matrix(df) VIF_list [variance_inflation_factor(x,i) for i in range(x.shape[1])] VIF pd.DataFrame({feature:lst_col,VIF:VIF_list}) max_VIF max(VIF_list) print(max_VIF) return VIF df_vif checkVIF_new(pd_x) df_vif选取方差膨胀系数 3的features df_vif[df_vif[VIF] 3]2.4 RFE 递归特征消除 (Recursive Feature Elimination) 1. 简介 使用排除法的方式训练模型把模型性能下降最少的那个特征去掉反复上述训练直到达到指定的特征个数 6.2 api sklearn.feature_selection.RFE6.3 应用 加载数据 import numpy as np import pandas as pd import joblib from sklearn.feature_selection import RFE from sklearn.svm import SVR pd_data joblib.load(data/final_data.pkl) pd_data特征目标提取 pd_x pd_data.drop([SK_ID_CURR, TARGET], axis1) x pd_x.values y pd_data[[TARGET]].values y y.ravel()使用RFE选择features #定义分类器 estimator SVR(kernellinear) selector RFE(estimator, 3, step1) # step 一次去掉几个特征 selector selector.fit(x, y) #展示选择参数 dic_ft_select dict() for ft, seleted in zip(pd_x.columns.to_list(), selector.support_): dic_ft_select[ft] seleted pd_ft_select pd.DataFrame({feature:pd_x.columns.to_list(), selected: selector.support_}) pd_ft_select2.5 基于L1的特征选择 (L1-based feature selection) 1. 简介 使用L1范数作为惩罚项的线性模型(Linear models)会得到稀疏解大部分特征对应的系数为0希望减少特征维度用于其它分类器时可以通过 feature_selection.SelectFromModel 来选择不为0的系数 特别指出常用于此目的的稀疏预测模型有 linear_model.Lasso回归 linear_model.LogisticRegression 和 svm.LinearSVC分类   7.3 应用 from sklearn.svm import LinearSVC from sklearn.datasets import load_iris from sklearn.feature_selection import SelectFromModel iris load_iris() X, y iris.data, iris.target X.shapelsvc LinearSVC(C0.01, penaltyl1, dualFalse).fit(X, y) model SelectFromModel(lsvc, prefitTrue) X_new model.transform(X) X_new.shape3. 内部特征的监控 3.1 前端监控授信之前 特征稳定性 大多数情况下随着业务越来越稳定缺失率应该呈现逐渐降低的趋势如下表所示Week3缺失率突然增加到28%大概率是数据采集或传输过程出问题了PSI特征维度的PSI如果0.1可以观察一段时间 3.2 后端监控放款之后 特征区分度 AUC/KS 波动在10%以内KS 如果是线上A卡 0.2是合格的水平IV值的波动稍大可以容忍和分箱相关每周数据分布情况可能不同对IV影响大一些 分箱样本比例 分箱风险区分要重视每个特征的风险趋势单调性 每一箱 的bad_rate有波动容忍度相对高一些要高度重视不同箱之间风险趋势发生变化如分箱1分箱2在week2和week3 风险趋势发生了变化如果风险趋势单调性发生变化要考虑特征是不是要进行迭代 4. 外部特征评估 4.1 数据评估标准 覆盖度、区分度、稳定性 4.2 使用外部数据注意事项 1. 避免未来信息 使用外部数据的时候可能出现训练模型的时候效果好上线之后效果差 取最近一个时间周期的数据之前3~4个月或者更长时间的数据做验证看效果是不是越来越差 2. 外部数据覆盖度计算 交集用户数 / 内部用户数外部数据选择 如果外部数据免费那么全部调用但付费的三方数据要在有必要的时候在调用在计算外部数据覆盖度前首先应该明确什么客群适合这个第三方数据内部缺少数据且这个第三方数据能提升区分度那这个第三方数据才有用覆盖度 交集用户数 / 内部目标客群 3. 避免内部数据泄露 如果需要把数据交给外部公司让对方匹配一定要将内部信息做Hash处理再给对方匹配 匹配上的是共有的数据匹配不上的外部无法得知其身份 4. 避免三方公司对结果美化 内部自己调用接口测覆盖度直接调用即可如果是把样本交给外部公司让对方匹配一定要加假样本 这样他们只能匹配出结果但无法得知真实的覆盖度只有内部公司能区分出真假样本从而计算出真实覆盖度如果覆盖度高于真实样本比例说明结果作假 5. 评分型外部数据 区分度和稳定性的分析方法同单特征的分析一样区分度AUC, KS, IV, 风险趋势稳定性: PSI 6. 模型效果 内部特征训练的模型效果 vs 内部特征外部特征训练的模型效果 AUC有 2~3个点的提升就很好了 7. 黑名单型外部数据 使用混淆矩阵评估区分度 Precision: 外部命中的尽可能多的是内部的坏客户 Recall: 内部的坏客户尽可能多的命中外部名单 8. 回溯性 外部数据是否具有可回溯性无法得知所以尽可能取最近的样本去测 早期接入数据后要密切关注线上真实的区分度表现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

主要测试的测试用例

1. 内核态性能测试 # 测试要求# 测试用例步骤 0. 检查BIOS配置,确认设置满足场景要求(NUMA开启和关闭两种场景(海光平台覆盖channel/die),其余设置,请严格按照阿里招标参数BIOS出厂设置定制需求) 1.在被测端和辅…

成都h5模板建站动易网站管理系统教程

远程仓库的使用 要参与任何一个 Git 项目的协作,必须要了解该如何管理远程仓库。远程仓库是指托管在网络上的项目仓库,可能会有好多个,其中有些你只能读,另外有些可以写。同他人协作开发某个项目时,需要管理这些远程仓…

详细介绍Seata的AT模式分布式事务

一、在Seata的AT模式中,事务的提交也是分成了2阶段的 一阶段 1、RM 针对本次要执行的本地事务的SQL进行解析,得到SQL的类型、修改的表以及where条件等信息 2、RM 根据 SQL 解析的结果,先进行一次查询,根据查询结果…

网站建设流程图在线制作哪个网站做图文素材多

前言看见头文件中的条件编译就犯怵,不知什么意思,但是,你老师说:”就得那么写“,你照做,但是知其然而不知其所以然。今天分享下是自己的理解~~~纯属个人献丑,新手可阅,老鸟绕道。代码…

自媒体采集网站建设未来最紧缺的十大专业

作为一个打工人 电脑是不是黑屏简直是routine了 我们都知道重启能解决一切问题 但是!! 如果你只有一个鼠标 电脑因为种种原因没法重启 该怎么办呢? 别慌 下面的方法非常灵验 1.按住ctrlShiftEsc 调出任务管理器;此项为必须&#xf…

网站移动端生成器嵌入式软件开发工资

一.sprintf()语法 sprintf() 是一个 C 语言中的函数,用于将格式化的数据写入一个字符串中。它的用法与 printf() 函数相似,printf()函数是将内容输出到屏幕上,而sprintf()函数是将格式化的内容输…

网站并发要求网站程序设计

和之前的ASP.NET MVC中的使用LOG4NET的方法有些不同&#xff0c;这里先记录一下&#xff0c;使用步骤如下 &#xff1a; 1. 建立 ASP.NET CORE项目中&#xff0c;NUGET中搜索log4net后下载安装 2. 根目录建立 log4net.config文件&#xff0c;内容如下&#xff1a; <?xml ve…

dw属于什么网页制作工具seo自助建站平台

各位&#xff0c;vscode的坑&#xff1b; os.getcwd()获取当前文件的位置 例如文件目录级&#xff1a; g:\test\123 vscode 输出的是父目录的位置 实际输出的结果为&#xff1a;g:\test 预期结果:g:\test\123&#xff08;这个才是正确的&#xff09; pycharm os.getcwd() 输出…

高端html5网站建设的思路网站模糊效果

一、概述(Overview) 蓝牙是一种专有的开放式无线技术标准,用于在固定和移动设备之间进行短距离数据交换(使用2400–2480 MHz ISM波段的短波长无线电传输),从而创建具有高度安全性的个人局域网(PANs)。由电信供应商爱立信(telecoms vendor Ericsson)于1994年创建,[1…

知识产权网站建设域名申请哪家好

一.Checkpoints 理论说明有关GG的Checkpoints 在系列一&#xff0c; GG的架构中以说明&#xff1a;OracleGolden Gate 系列一 --GG 架构 说明http://blog.csdn.net/tianlesoftware/article/details/6925907这里在单独拿出来说明一下&#xff0c;因为这是一个较为重要的概念。Ch…

TensorFlow 和 PyTorch两大深度学习框架训练素材,并协作一个电商推荐系统

TensorFlow 和 PyTorch两大深度学习框架训练素材,并协作一个电商推荐系统2025-09-24 08:01 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: …

VMware VeloCloud 漏洞分析:未授权远程代码执行全链条攻破

本文深入分析VMware VeloCloud Orchestrator中存在的三个关键漏洞:认证绕过、SQL注入和目录遍历漏洞。通过组合利用这些漏洞,攻击者可在未授权情况下实现远程代码执行,最终控制企业整个国际网络基础设施。SD-PWN 第…

做网站需要的课程优化方案官网

一、Spring bean 1.1、概述 一句话&#xff0c;被Spring容器管理的bean就是Spring bean。 二、Java bean VS Spring bean 2.1、概述 Java bean是程序员自己new 出来的&#xff0c;Spring bean是Spring工厂创建出来的。 三、配置bean的方式 3.1、概述 所谓配置bean&#xff0…

做任务领佣金的网站中国室内设计大奖赛

🚀🚀🚀本文改进:Ghost bottleneck为堆叠Ghost模块 ,与YOLOV8建立轻量C2f_GhostBottleneck 🚀🚀🚀YOLOv8改进专栏:http://t.csdnimg.cn/hGhVK 学姐带你学习YOLOv8,从入门到创新,轻轻松松搞定科研; 1.Ghostnet介绍 论文: https://arxiv.org/pdf/1911.11907.…

网站建设黄页免费观看济南品牌网站建设价格

声明(lianxi a15018601872) 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; …

网站怎么备案工业软件开发需要学什么专业

恭喜微软连续 13 年被Gartner评为BI平台领导者。您可以插上耳机&#xff0c;打开音乐来一起欣赏这个过程。原文地址&#xff1a;https://powerbi.microsoft.com/zh-cn/blog/microsoft-named-a-leader-in-gartners-2020-magic-quadrant-for-analytics-and-bi-platforms/被评为第…

wordpress网站监测怎么进入官方网站查询

Docker是一种容器化平台&#xff0c;它可以轻松地封装、分发和运行应用程序和服务。 Docker的基本概念包括&#xff1a; 容器&#xff1a;一个独立运行的、可移植的软件包&#xff0c;包含应用程序、运行环境和依赖项。容器可以在不同的环境中运行&#xff0c;而不受环境差异的…

wordpress可以问答网站整站优化

与ChatGPT类似的国内网站&#xff0c;他们都能提供和ChatGPT相似的能力&#xff0c;而且可以在国内直接使用。 点击直达方式 百科GPT官网&#xff1a;baikegpt.cn ChatGPT是基于GPT-3.5架构的语言模型的一个实例&#xff0c;由OpenAI开发。以下是ChatGPT的发展历史&#xff1…

佛山建站公司排名苏州网站建设免费

需要对文件夹app_code下的AlipayConfig中的几个参数进行配置&#xff1a; 需要注意&#xff1a;只需要配置partner和private_key两个参数&#xff0c;支付宝的public_key无需更改 private_key是通过openssl工具进行PKCS8格式转换过后的私钥 static Config() {//↓↓↓↓↓↓↓…