风控模型中的KS值

文章目录

  • 1 KS值概述
  • 2 KS值的计算原理
    • 2.1 基本概念
    • 2.2 计算步骤
  • 3 KS曲线(KS Plot)
    • 理想情况下的KS曲线:
  • 4 KS值的解读标准
  • 5 计算示例
  • 6 KS值的优缺点
    • 优点:
    • 缺点:
  • 7 KS值 vs AUC
  • 8 总结

1 KS值概述

KS(Kolmogorov-Smirnov)值是一种衡量分类模型(尤其是二分类模型)区分能力的指标。它通过比较正负样本的累积分布来评估模型将"好客户"和"坏客户"分开的能力。

核心思想:一个完美的模型应该能够将所有的"坏客户"(正样本)和"好客户"(负样本)完全分开。

2 KS值的计算原理

2.1 基本概念

在计算KS值时需要得到:

  • 模型预测概率:模型对每个样本预测为正类(如"坏客户")的概率
  • 真实标签:样本的真实类别(好/坏)

2.2 计算步骤

  1. 按预测概率排序:将样本按照模型预测的概率从高到低排序
  2. 等分分组:将排序后的样本分成若干组(通常10-20组)
  3. 计算累积分布
    • 累积好客户占比:从概率最高组开始,累计好客户数量占总好客户的比例
    • 累积坏客户占比:从概率最高组开始,累计坏客户数量占总坏客户的比例
  4. 计算KS值:找到累积坏客户占比与累积好客户占比的最大差值

数学公式
K S = max ⁡ i = 1 n ∣ F bad ( i ) − F good ( i ) ∣ KS = \max_{i=1}^{n} |F_{\text{bad}}(i) - F_{\text{good}}(i)|KS=i=1maxnFbad(i)Fgood(i)

其中:

  • F bad ( i ) F_{\text{bad}}(i)Fbad(i):前i组中坏客户的累积占比
  • F good ( i ) F_{\text{good}}(i)Fgood(i):前i组中好客户的累积占比
  • n nn:分组数量

3 KS曲线(KS Plot)

KS值通常通过KS曲线来可视化:

  • 横轴:分组序号(从预测概率最高到最低)
  • 纵轴:累积百分比
  • 两条曲线
    • 坏客户累积分布曲线:上升较快,因为坏客户集中在高分区域
    • 好客户累积分布曲线:上升较慢,因为好客户相对均匀分布
  • KS值:两条曲线之间的最大垂直距离

理想情况下的KS曲线:

  • 坏客户曲线迅速上升到1,然后保持平稳
  • 好客户曲线缓慢上升
  • 两条曲线分离度很大

4 KS值的解读标准

根据经验,KS值的评价标准如下:

KS值范围模型区分能力评价
< 0.2模型基本没有区分能力
0.2 - 0.3一般有一定的区分能力,但较弱
0.3 - 0.5较好模型有较好的区分能力
0.5 - 0.75模型有很强的区分能力
> 0.75极强(可能可疑)需要检查是否存在数据泄露

注意

  • 在金融风控领域,KS值通常要求大于0.3
  • KS值不是越高越好,过高的KS值可能意味着过拟合或数据泄露
  • KS值对样本分布比较敏感

5 计算示例

假设我们有10个样本,按预测概率排序后的结果:

样本预测概率真实标签累积坏客户占比累积好客户占比差值
10.950.200.2
20.900.400.4
30.850.40.1250.275
40.800.60.1250.475
50.750.60.250.35
60.700.80.250.55
70.650.80.3750.425
80.600.80.50.3
90.551.00.50.5
100.501.01.00

计算过程

  • 总坏客户数:5个
  • 总好客户数:5个
  • 在第6个样本处,差值最大:0.55

因此,KS值 = 0.55

6 KS值的优缺点

优点:

  1. 直观易懂:通过单一数值反映模型区分能力
  2. 业务解释性强:在金融风控中广泛使用
  3. 不受类别不平衡影响:关注的是分布差异,而不是绝对数量
  4. 阈值无关:不像准确率那样依赖于特定分类阈值

缺点:

  1. 对样本分布敏感:样本分布变化会影响KS值
  2. 只关注最大差异:可能忽略了整体的分布信息
  3. 在深度学习中较少使用:更多使用AUC等指标
  4. 受分组数量影响:不同的分组方式可能得到不同的KS值

7 KS值 vs AUC

特征KS值AUC
关注点累积分布的最大差异ROC曲线下的面积
范围[0, 1][0.5, 1]
业务解释模型最大区分程度整体排序能力
敏感性对分布敏感相对稳定
应用场景金融风控、信用评分通用分类问题

关系:一般来说,KS值和AUC有正相关关系,但不是严格的线性关系。

8 总结

KS值是风险评分模型中至关重要的评估指标:

  • 核心:衡量模型区分正负样本的能力
  • 计算:通过比较累积分布的最大差异
  • 标准:通常要求KS > 0.3
  • 可视化:通过KS曲线直观展示
  • 应用:特别适用于金融风控、信用评分等场景

掌握KS值不仅有助于模型评估,还能帮助理解模型的业务表现,是在风险建模领域必须掌握的核心指标之一。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1150458.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 系统规范配置:建立标准目录结构、 repo 源获取、修改终端变色

Linux 系统规范配置&#xff1a;建立标准目录结构、 repo 源获取、修改终端变色一&#xff1a;建立标准目录结构1&#xff09;配置作用2&#xff09;目录规划说明3&#xff09;配置方法二&#xff1a;repo 源获取1&#xff09;配置作用2&#xff09;配置方法三&#xff1a;修改…

揭秘AI论文降重内幕:9款工具实测,AI率从64%降至8%

开头&#xff1a;90%的学生都不知道的AI论文“生死劫” 你是否经历过这样的绝望&#xff1f;花3天用AI生成的论文初稿&#xff0c;提交后被导师打回&#xff0c;理由是“AI痕迹过重”&#xff1b;熬夜改了5版&#xff0c;查重时AI率仍高达40%&#xff0c;甚至被系统标记为“疑…

2026必备!MBA论文痛点TOP8 AI论文软件深度测评

2026必备&#xff01;MBA论文痛点TOP8 AI论文软件深度测评 2026年MBA论文写作工具测评&#xff1a;为何需要一份权威榜单&#xff1f; 随着人工智能技术的不断进步&#xff0c;AI论文软件已成为MBA学生和研究者不可或缺的辅助工具。然而&#xff0c;面对市场上琳琅满目的产品&a…

AI应用架构师的认知升级:接受AI的“不完美”,拥抱人机协作的灰度

AI应用架构师的认知升级&#xff1a;从“追求完美AI”到“设计灰度协作” 副标题&#xff1a;如何在不完美的AI中构建可靠的人机协同系统 摘要/引言&#xff1a;从“完美AI”的幻想到现实的耳光 两年前&#xff0c;我参与了一个互联网公司的AI客服系统研发项目。产品经理拍着桌…

巴菲特的品牌价值理论:无形资产的重要性

巴菲特的品牌价值理论:无形资产的重要性 关键词:巴菲特、品牌价值理论、无形资产、企业竞争力、投资策略 摘要:本文深入探讨了巴菲特的品牌价值理论,着重阐述无形资产在企业运营和投资领域的重要性。首先介绍了研究此理论的背景,包括目的、预期读者、文档结构和相关术语。…

基于STM32单片机的汽车疲劳驾驶监测系统设计

基于STM32单片机的汽车疲劳驾驶监测系统设计摘要随着汽车保有量的持续增长&#xff0c;交通安全问题日益受到社会关注。疲劳驾驶和酒后驾驶是导致交通事故的主要人为因素之一。本文设计了一种基于STM32单片机的汽车疲劳驾驶监测系统&#xff0c;通过集成MAX30102心率血氧传感器…

DeepSeek开源再升级:从22页到86页,揭秘29.4万美元训练顶级推理模型的完整技术账单

DeepSeek在发布V4前&#xff0c;将R1论文从22页扩充至86页&#xff0c;首次公开训练成本(29.4万美元)、数据配方(约15万条)、失败尝试和基础设施架构。这种"Open"方式回应了"只给权重不给训练细节"的批评&#xff0c;也为V4铺路。DeepSeek的技术哲学是&quo…

环境配置kkkk

鸿蒙-hdc https://blog.csdn.net/m0_60880588/article/details/144987980

CoDeSys入门实战一起学习(五):CoDeSys V3 车库门控制编程全解析系列(手册基础第一篇)

第一篇&#xff1a;入门篇——CoDeSys V3 与车库门控制任务拆解对于工业自动化初学者而言&#xff0c;选择一个贴近实际的小型项目入门&#xff0c;能快速提升对编程工具和控制逻辑的理解。CoDeSys V3 作为主流的工业控制编程软件&#xff0c;支持 IEC 61131-3 标准编程语言&am…

CoDeSys入门实战一起学习(五):CoDeSys V3 车库门控制编程全解析系列(手册基础第三篇)

第三篇&#xff1a;编程基础篇——变量声明与 FBD 核心逻辑入门完成工程配置后&#xff0c;就进入核心的编程环节。在 CoDeSys 中&#xff0c;所有输入/输出信号、中间逻辑变量都需要先进行声明&#xff0c;才能在程序中使用。本文就带大家完成变量声明&#xff0c;并入门 FBD&…

CoDeSys入门实战一起学习(五):CoDeSys V3 车库门控制编程全解析系列(手册基础第二篇)

第二篇&#xff1a;配置篇——CoDeSys V3 工程搭建与软 PLC 连接在上一篇中&#xff0c;我们明确了车库门控制的核心任务与整体框架。今天就进入实操环节&#xff0c;带大家完成 CoDeSys V3 工程的创建、目标设备配置&#xff0c;以及软 PLC 的连接——这是所有编程工作的基础&…

深度学习毕设项目推荐-基于python-CNN卷积神经网络的宠物行为训练识别

博主介绍&#xff1a;✌️码农一枚 &#xff0c;专注于大学生项目实战开发、讲解和毕业&#x1f6a2;文撰写修改等。全栈领域优质创作者&#xff0c;博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围&#xff1a;&am…

格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现

格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现 关键词:格雷厄姆特价股票策略、数字监管沙盒、股票投资、策略表现、监管环境 摘要:本文深入探讨了格雷厄姆特价股票策略在不同数字监管沙盒环境中的表现。首先介绍了研究的背景、目的、预期读者等内容,阐述了核心概念及…

强烈安利!10款AI论文写作软件测评:研究生科研写作全攻略

强烈安利&#xff01;10款AI论文写作软件测评&#xff1a;研究生科研写作全攻略 2026年AI论文写作工具测评&#xff1a;精准匹配研究生科研需求 随着人工智能技术的不断进步&#xff0c;AI论文写作工具逐渐成为研究生科研过程中不可或缺的辅助工具。然而&#xff0c;面对市场上…

巴菲特的创新能力评估:量子创新生态系统的价值网络分析

巴菲特的创新能力评估:量子创新生态系统的价值网络分析 关键词:巴菲特、创新能力评估、量子创新生态系统、价值网络分析、投资策略 摘要:本文旨在从量子创新生态系统的价值网络视角对巴菲特的创新能力进行全面评估。通过深入剖析量子创新生态系统的核心概念与架构,阐述相关…

EDCA Admission Protocols 发布:AI 系统进入“可拒绝接入”时代

在现有 AI 系统中&#xff0c;一个长期被忽视却至关重要的问题正在逐渐显现&#xff1a;当人类表达进入 AI 系统时&#xff0c; 是否存在一个明确、可裁决、可拒绝的接入阶段&#xff1f;现实情况是&#xff0c;大多数系统默认“表达即执行”。 一旦输入被接收&#xff0c;就会…

【性能测试】4_性能测试基础 _流程(重点)

文章目录一、如何开展工作二、性能测试流程2.1 性能测试需求分析2.2 性能测试计划及方案2.3 性能测试用例2.4 建立测试环境2.5 测试脚本编写/录制2.6 执行测试脚本2.7 性能测试监控2.8 性能分析和调优2.9 性能测试报告总结一、如何开展工作 思考&#xff1a;为什么要掌握性能测…

HuggingFace项目实战之填空任务实战

目录&#xff1a;一、使用场景二、代码分析一、使用场景 大模型在填空任务中的应用主要涉及自动补全、内容生成和知识推理等场景&#xff0c;其核心能力在于基于上下文预测缺失信息。 二、代码分析 import torchfrom transformers import AutoTokenizer#加载tokenizer token…

【软件测试】5_性能测试 _常用性能测试工具对比

文章目录 一、Loadrunner二、JMeter三、Loadrunner和Jmeter对比3.1 相同点3.2 不同点 一、Loadrunner HP Loadrunner是一种工业级标准性能测试负载工具&#xff0c;可以模拟上万用户实施测试&#xff0c;并在测试时可实时检测应用服务器及服务器硬件各种数据&#xff0c;来确认…

Alignment Protocol v3.0:定义 AI 系统的合法接入语义

Alignment Protocol v3.0 是 EDCA Admission Protocols 中的首个正式协议规范。它不描述模型如何思考&#xff0c; 不描述系统如何生成结果&#xff0c; 而是明确一件事&#xff1a;人类主张在进入 AI 系统前&#xff0c;必须经过合法接入判定。核心语义Alignment Protocol v3.…