成都网站优化海南北京网站建设

pingmian/2025/10/8 14:45:02/文章来源:
成都网站优化,海南北京网站建设,小程序开发费用多少钱,中国招标投标公共信息服务平台信用评分卡模型在国外是一种成熟的预测方法#xff0c;尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用#xff0c;其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广义线性模型。 本文重点介绍模型变量WOE以及IV原理为表述方便本文将模型目标标量为1记为违约用户对于目标变量为0记为正常用户则WOE(weight of Evidence)其实就是自变量取某个值的时候对违约比例的一种影响怎么理解这句话呢我下面通过一个图标来进行说明。 Woe公式如下 Age #bad #good Woe 0-10 50 200 ln((50/100)/(200/1000))ln((50/200)/(100/1000)) 10-18 20 200 ln((20/100)/(200/1000))ln((20/200)/(100/1000)) 18-35 5 200 ln((5/100)/(200/1000))ln((5/200)/(100/1000)) 35-50 15 200 ln((15/100)/(200/1000))ln((15/200)/(100/1000)) 50以上 10 200 ln((10/100)/(200/1000))ln((10/200)/(100/1000)) 汇总 100 1000   表中以age年龄为某个自变量由于年龄是连续型自变量需要对其进行离散化处理假设离散化分为5组至于如何分组会在以后专题中解释#bad和#good表示在这五组中违约用户和正常用户的数量分布最后一列是woe值的计算通过后面变化之后的公式可以看出woe反映的是在自变量每个分组下违约用户对正常用户占比和总体中违约用户对正常用户占比之间的差异从而可以直观的认为woe蕴含了自变量取值对于目标变量违约概率的影响。再加上woe计算形式与logistic回归中目标变量的logistic转换(logist_pln(p/1-p))如此相似因而可以将自变量woe值替代原先的自变量值 讲完WOE下面来说一下IV IV公式如下 其实IV衡量的是某一个变量的信息量从公式来看的话相当于是自变量woe值的一个加权求和其值的大小决定了自变量对于目标变量的影响程度从另一个角度来看的话IV公式与信息熵的公式极其相似。 事实上为了理解WOE的意义需要考虑对评分模型效果的评价。因为我们在建模时对模型自变量的所有处理工作本质上都是为了提升模型的效果。在之前的一些学习中我也总结了这种二分类模型效果的评价方法尤其是其中的ROC曲线。为了描述WOE的意义还真的需要从ROC说起。仍旧是先画个表格。 数据来自于著名的German credit dataset取了其中一个自变量来说明问题。第一列是自变量的取值N表示对应每个取值的样本数n1和n0分别表示了违约样本数与正常样本数p1和p0分别表示了违约样本与正常样本占各自总体的比例cump1和cump0分别表示了p1和p0的累计和woe是对应自变量每个取值的WOEln(p1/p0)iv是woe*(p1-p0)。对iv求和(可以看成是对WOE的加权求和)就得到IV(information value信息值)是衡量自变量对目标变量影响的指标之一(类似于gini,entropy那些)此处是0.666貌似有点太大了囧。 上述过程研究了一个自变量对目标变量的影响事实上也可以看成是单个自变量的评分模型更进一步地可以直接将自变量的取值当做是某种信用评分的得分此时需要假设自变量是某种有序变量也就是仅仅根据这个有序的自变量直接对目标变量进行预测。 正是基于这种视角我们可以将“模型效果的评价”与“自变量筛选及编码”这两个过程统一起来。筛选合适的自变量并进行适当的编码事实上就是挑选并构造出对目标变量有较高预测力(predictive power)的自变量同时也可以认为由这些自变量分别建立的单变量评分模型其模型效果也是比较好的。 就以上面这个表格为例其中的cump1和cump0从某种角度看就是我们做ROC曲线时候的TPR与FPR。例如此时的评分排序为A12,A11,A14,A13若以A14为cutoff则此时的TPRcumsum(p1)[3]/(sum(p1))FPRcumsum(p0)[3]/(sum(p0))就是cump1[3]和cump0[3]。于是我们可以画出相应的ROC曲线。 可以看得出来这个ROC不怎么好看。之前也学习过了ROC曲线有可以量化的指标AUC指的就是曲线下方的面积。这种面积其实衡量了TPR与FPR之间的距离。根据上面的描述从另一个角度看TPR与FPR可以理解为这个自变量也就是某种评分规则的得分关于0/1目标变量的条件分布例如TPR即cump1也就是当目标变量取1时自变量评分得分的一个累积分布。当这两个条件分布距离较远时说明这个自变量对目标变量有较好的辨识度。   既然条件分布函数能够描述这种辨识能力那么条件密度函数行不行呢这就引出了IV和WOE的概念。事实上我们同样可以衡量两个条件密度函数的距离这就是IV。这从IV的计算公式里面可以看出来IVsum((p1-p0)*log(p1/p0))其中的p1和p0就是相应的密度值。IV这个定义是从相对熵演化过来的里面仍然可以看到x*lnx的影子。 至此应该已经可以总结到评价评分模型的效果可以从“条件分布函数距离”与“条件密度函数距离”这两个角度出发进行考虑从而分别得到AUC和IV这两个指标。这两个指标当然也可以用来作为筛选自变量的指标IV似乎更加常用一些。而WOE就是IV的一个主要成分。  那么到底为什么要用WOE来对自变量做编码呢主要的两个考虑是提升模型的预测效果提高模型的可理解性。  首先对已经存在的一个评分规则例如上述的A12,A11,A14,A13对其做各种函数变化可以得到不同的ROC结果。但是如果这种函数变化是单调的那么ROC曲线事实上是不发生变化的。因此想要提高ROC必须寄希望于对评分规则做非单调的变换。传说中的NP引理证明了使得ROC达到最优的变换就是计算现有评分的一个WOE这似乎叫做“条件似然比”变换。 用上述例子我们根据计算出的WOE值对评分规则也就是第一列的value做排序得到新的一个评分规则。 此处按照WOE做了逆序排列因为WOE越大则违约概率越大照例可以画出ROC线。 可以看出来经过WOE的变化之后模型的效果好多了。事实上WOE也可以用违约概率来代替两者没有本质的区别。用WOE来对自变量做编码的一大目的就是实现这种“条件似然比”变换极大化辨识度。  同时WOE与违约概率具有某种线性关系从而通过这种WOE编码可以发现自变量与目标变量之间的非线性关系例如U型或者倒U型关系。在此基础上我们可以预料到模型拟合出来的自变量系数应该都是正数如果结果中出现了负数应当考虑是否是来自自变量多重共线性的影响。 另外WOE编码之后自变量其实具备了某种标准化的性质也就是说自变量内部的各个取值之间都可以直接进行比较WOE之间的比较而不同自变量之间的各种取值也可以通过WOE进行直接的比较。进一步地可以研究自变量内部WOE值的变异波动情况结合模型拟合出的系数构造出各个自变量的贡献率及相对重要性。一般地系数越大woe的方差越大则自变量的贡献率越大类似于某种方差贡献率这也能够很直观地理解。  总结起来就是做信用评分模型时自变量的处理过程包括编码与筛选很大程度上是基于对单变量模型效果的评价。而在这个评价过程中ROC与IV是从不同角度考察自变量对目标变量的影响力基于这种考察我们用WOE值对分类自变量进行编码从而能够更直观地理解自变量对目标变量的作用效果及方向同时提升预测效果。 这么一总结似乎信用评分的建模过程更多地是分析的过程而不是模型拟合的过程也正因此我们对模型参数的估计等等内容似乎并不做太多的学习而把主要的精力集中于研究各个自变量与目标变量的关系在此基础上对自变量做筛选和编码最终再次评估模型的预测效果并且对模型的各个自变量的效用作出相应的评价。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/89189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

德阳公司做网站微信公众平台号申请注册

即时设计资源广场 即时设计资源广场是中国优秀的UI设计网站,全中文环境,非常适合中国人使用。UI设计网站即时设计资源广场内置阿里、字节、腾讯、京东、谷歌、华为等设计系统,3000多个UI组件库,每月更新数百个高质量模板&#xf…

关于大创做网站的项目计划书网站建设与开发课程内容

1、【精选】NPOI使用手册 (操作Excel)-CSDN博客 2、NPOI导入Excel日期格式的处理 - 附类型格式匹配表 https://www.cnblogs.com/keitsi/p/8572093.html 3、[编程工具]使用NPIO(C#)读取xls,xlsx(Excel)表格 http://t.csdnimg.cn/PPiya

电子商务网站建设目标及利益分析淳安网站建设

物联网库,使用这个轻量级组件库,可以在任何平台上的应用程序中轻松实现物联网 (IoT) 通信协议。 nSoftware IPWorks IoT 最新的 IPWorks IoT 现已推出!最新版本的 IPWorks IoT 具有现代化和简化的体验,包括 .NET 中的异步和跨平台…

城乡建设吧部网站全总基层组织建设网站

红黑树略胜AVL树 AVL树是一颗高度平衡搜索二叉树: 要求左右高度差不超过1(严格平衡) 有的大佬认为AVL树太过严格,对平衡的要求越严格,会带来更多的旋转(旋转也还是会有一定的消耗!!…

网站建设过程中要注意沟通找做牙工作上哪个网站

1写在前面 今天可算把key搞好了,不得不说🏥里手握生杀大权的人,都在自己的能力范围内尽可能的难为你。😂 我等小大夫也是很无奈,毕竟奔波霸、霸波奔是要去抓唐僧的。 🤐 好吧,今天是词云&#x…

平面设计师常用网站旅游的便宜的网站建设

给定一个整数,编写一个函数来判断它是否是 2 的幂次方。 示例 1: 输入: 1 输出: true 解释: 20 1 示例 2: 输入: 16 输出: true 解释: 24 16 示例 3: 输入: 218 输出: false 菜鸡方法: class Solution { public boolean isPowerOfTwo(int n)…

辽宁朝阳哪家做网站好网站怎么建立支付平台

这两天玩了一下漫威争锋Marvel Rivals,发现是UE5做的,对里面一些角色技能挺感兴趣的,想简单复刻一下技能功能,顺便复习一下学过的知识 首先把摄像机设置调整一下 CameraBoom里搜索lag 把摄像机延迟关掉 ,这样摄像机就…

一般网站建设费用预算抚顺市建设银行网站

Service Worker 是一种在 Web 浏览器中运行的脚本,它独立于网页的上下文,并且可以在用户关闭网页后仍然在后台运行。Service Worker 可以用于实现许多功能,包括离线缓存、消息推送和网络代理等。 Service Worker 是一种浏览器技术&#xff0…

怎样自己做商场网站wordpress新建页面位置

MySQL 中使用浮点数和定点数来表示小数。 浮点类型有两种,分别是单精度浮点数(FLOAT)和双精度浮点数(DOUBLE);定点类型只有一种,就是 DECIMAL。 浮点类型和定点类型都可以用(M, D)来表示&…

网络建设企业网站做网站贵

本主要介绍以Java为基础,搭建Selenium自动化测试环境,并且实现代码编写的过程。 1.Selenium介绍 Selenium 1.0 包含 core、IDE、RC、grid 四部分,selenium 2.0 则是在两位大牛偶遇相互沟通决定把面向对象结构化(OOPP&#xff09…

长春网站开发推荐网站访问速度优化工具

插入排序 算法描述: 1. 从第一个元素开始,该元素可以认为已经被排序 2. 取出下一个元素,在已经排序的元素序列中从后向前扫描 3. 如果该元素(已排序)大于新元素,将该元素移到下一位置 4. 重复步骤 3&am…

建设集团有限公司网站首页济南建设工程交易网官网

一、海量数据实时去重说明 借助redis的Set,需要频繁连接Redis,如果数据量过大, 对redis的内存也是一种压力;使用Flink的MapState,如果数据量过大, 状态后端最好选择 RocksDBStateBackend; 使用布隆过滤器,…

铁岭做网站的网站建设需要哪些功能

​ 结构体 结构体是一些值的集合,这些值称为成员变量,结构的成员可以是标量、数组、指针,甚至是其他结构体。 成员名可以与程序中其它变量同名,互不干扰。 结构体的定义 (struct结构名{}) struct books {int a;c…

做织梦网站的心得体会长春火车站时刻表

乾明 发自 凹非寺 量子位 报道 | 公众号 QbitA耗费2个多亿,耗时2年多,连一个可用的网站或者APP都没有交付出来。想要完工?那就再交1000万美元。这件事的受害方、美国汽车租赁公司赫兹(Hertz)一怒之下, 将顶级咨询公司埃森哲(Accen…

SEO参与网站建设注意WordPress抓去微信

我叫范华万,今天22岁,来自于福建省。目前在闽江学院就学。我学的是软件工程软件服务开发专业,能从事网站设计、java工程师、ps技术、c、数据库管理。本人性格乐观、开朗,有上进心、进取心,对学习认真负责,I…

网站建设公司天强科技个人做网站可以盈利么

文章目录 一、验证码的处理1、验证码概述1、2 什么是图片验证码?1、2 验证码的作用1、3 图片验证码使用场景1、4 图片验证码的处理方案 2、图片在网页页面中的形式2、1 如何进行图片形式的转化 3、打码平台 二、代理的使用2、1 付费代理2、1、1 找付费代理服务站点2…

镇江网站关键字优化如何扬中网站建设价格

修饰 实体属性or实体类 //枚举值:ALWAYS,NON_NULL,NON_ABSENT,NON_EMPTY,NON_DEFAULT,CUSTOM,USE_DEFAULTS JsonInclude(Include.NON_EMPTY)//将该标记放在属性上,如果该属性为NULL则不参与序列化 //如果放在类上边,那对这个类的全部属性起作用 Inclu…

南沙定制型网站建设网站建设特色

题目链接 这个挑战赛的 F F F是我出的,最后 zhoukangyang 爆标了。。。orzorz 记所有有颜色的边的属性集合 S S S 。 首先在外层容斥,枚举 S ∈ [ 0 , 2 w ) S\in [0,2^w) S∈[0,2w),计算被覆盖的的边中不包含 S S S 中属性&#xff0c…

百度移动网站建设有几种喀喇沁旗网站建设公司

354. 俄罗斯套娃信封问题 - 力扣(LeetCode) 给你一个二维整数数组 envelopes ,其中 envelopes[i] [wi, hi] ,表示第 i 个信封的宽度和高度。 当另一个信封的宽度和高度都比这个信封大的时候,这个信封就可以放进另一…

成都网站制作龙兵科技照片合成制作app

http://www.bvbcode.com/app/downloadfile1?type2&down_key684b999e03e30a3e29cf1ada84d62b55&fileid1674791&softkeysul6vt9o&t1578129576