【风控】逻辑回归算法

一、逻辑回归算法原理与公式

逻辑回归是风控领域最核心的信用评分与违约预测算法之一,它本质上是一种广义线性模型,用于预测二分类问题(如用户违约与否)。相比普通线性回归,逻辑回归能够保证预测结果落在[0,1][0,1][0,1]区间,适合概率预测。

1.1 线性回归与逻辑回归关系

普通线性回归模型为:y=β0+β1x1+⋯+βnxn+ϵ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n + \epsilony=β0+β1x1++βnxn+ϵ
但若直接用线性回归预测违约概率,输出yyy可能超过[0,1][0,1][0,1]范围,这在概率预测中不合理。因此引入Sigmoid函数(Logistic函数)将线性组合映射到[0,1][0,1][0,1]p=P(Y=1∣X)=σ(z)=11+e−z,z=β0+∑i=1nβixi p = P(Y=1|X) = \sigma(z) = \frac{1}{1 + e^{-z}}, \quad z = \beta_0 + \sum_{i=1}^{n} \beta_i x_ip=P(Y=1∣X)=σ(z)=1+ez1,z=β0+i=1nβixi
其中:

  • ppp为正类(如违约)的概率
  • β0\beta_0β0为截距,βi\beta_iβi为特征权重
  • σ(z)\sigma(z)σ(z)为 Sigmoid 函数

1.2 对数几率(Log-Odds)形式

逻辑回归的核心思想是建模事件发生的对数几率logit(p)=ln⁡p1−p=β0+∑i=1nβixi \text{logit}(p) = \ln\frac{p}{1-p} = \beta_0 + \sum_{i=1}^{n} \beta_i x_ilogit(p)=ln1pp=β0+i=1nβixi

  • 对数几率将概率p∈(0,1)p \in (0,1)p(0,1)映射到实数范围(−∞,+∞)(-\infty, +\infty)(,+)
  • 线性关系便于解释和计算特征权重

1.3 损失函数与训练

逻辑回归采用最大似然估计MLEMLEMLE训练模型。对于样本集(x(i),y(i))i=1m{(x^{(i)}, y^{(i)})}_{i=1}^{m}(x(i),y(i))i=1m,似然函数为:L(β)=∏i=1mpiy(i)(1−pi)1−y(i) L(\beta) = \prod_{i=1}^{m} p_i^{y^{(i)}} (1-p_i)^{1-y^{(i)}}L(β)=i=1mpiy(i)(1pi)1y(i)
取对数得到对数似然:ℓ(β)=∑i=1m[y(i)ln⁡pi+(1−y(i))ln⁡(1−pi)] \ell(\beta) = \sum_{i=1}^{m} \left[ y^{(i)} \ln p_i + (1-y^{(i)}) \ln (1-p_i) \right](β)=i=1m[y(i)lnpi+(1y(i))ln(1pi)]
训练目标是最大化对数似然(或最小化负对数似然):β^=arg⁡max⁡βℓ(β) \hat{\beta} = \arg \max_{\beta} \ell(\beta)β^=argβmax(β)

二、逻辑回归的常用变形

在风控实践中,为增强模型性能和解释性,逻辑回归常做一些变形:

  1. 标准化/归一化

    • 对数值型特征进行标准化(z-score)或归一化,保证梯度下降收敛快速
  2. WOE(Weight of Evidence)编码

    • 类别变量分箱后转换成连续数值,使逻辑回归系数可直接解释
    • WOE 与违约率之间通常呈线性关系,满足逻辑回归假设
  3. 正则化(L1/L2)

    • L1(Lasso)用于特征选择,去掉无用变量
    • L2(Ridge)用于防止过拟合,提高模型稳定性
  4. 交互项和多项式扩展

    • 对特征组合或非线性关系建模
  5. 分段逻辑回归

    • 针对不同人群或不同产品建模,实现分层风险管理

三、风控场景下逻辑回归的使用流程

风控中逻辑回归模型主要用于信用评分卡(Credit Scoring)、逾期预测、欺诈识别等。流程可以分为以下几个阶段:

3.1 数据获取与处理

  1. 数据来源

    • 内部:交易记录、借款信息、账户信息
    • 外部:征信机构、公开金融数据
  2. 数据清洗

    • 异常值处理(如负债为负或异常高)
    • 缺失值填充(均值/中位数/插值/类别填充)
    • 重复数据剔除
  3. 标签构建

    • 二分类标签:如 0 = 正常还款,1 = 逾期 30 天以上
    • 根据业务规则确定观察期

3.2 特征处理

  1. 变量分箱(Binning)

    • 数值特征:等频、等宽或决策树分箱
    • 类别特征:按类别或合并低频类别
  2. WOE转换

    • 对每个箱计算:WOEi=ln⁡Goodi/Total GoodBadi/Total Bad \text{WOE}_i = \ln \frac{\text{Good}_i / \text{Total Good}}{\text{Bad}_i / \text{Total Bad}}WOEi=lnBadi/Total BadGoodi/Total Good
    • 线性化非线性关系,保证逻辑回归系数解释性
  3. IV(Information Value)评估特征

    • 衡量特征预测能力:IV=∑i(Goodi/Total Good−Badi/Total Bad)×WOEi IV = \sum_{i} (\text{Good}_i / \text{Total Good} - \text{Bad}_i / \text{Total Bad}) \times \text{WOE}_iIV=i(Goodi/Total GoodBadi/Total Bad)×WOEi
    • 一般 IV > 0.1 认为有预测价值

3.3 逻辑回归训练

  1. 划分训练集与测试集

    • 比例常用 7:3 或 8:2,保证样本平衡
  2. 模型拟合

    • 使用 Pythonsklearn.linear_model.LogisticRegression或 R 的glm
    • 设置正则化、迭代次数等参数
  3. 性能评估

    • AUC(ROC曲线)
    • KS值(风控特有指标)
    • 混淆矩阵(精度、召回率、F1-score)
  4. 系数解释

    • 正系数:特征值增加 → 违约概率增加
    • 负系数:特征值增加 → 违约概率降低

3.4 模型部署与应用

  1. 信用评分卡生成

    • 将逻辑回归输出概率ppp转换成评分:Score=Offset+Factor⋅ln⁡1−pp \text{Score} = \text{Offset} + \text{Factor} \cdot \ln\frac{1-p}{p}Score=Offset+Factorlnp1p
    • 通常设定“好客户分数高,坏客户分数低”,如 300-850 分制
  2. 实时风控决策

    • 线上审批:根据用户评分自动决策通过/拒绝
    • 额度管理:评分高 → 可授信额度高
  3. 模型监控

    • 数据漂移检测
    • 模型稳定性分析(Population Stability Index, PSI)
    • 定期再训练

四、风控逻辑回归案例流程示意

原始数据 └─> 数据清洗 (异常值, 缺失值) └─> 特征构建 (分箱, WOE, IV) └─> 特征筛选 └─> 逻辑回归训练 (最大似然估计) └─> 模型评估 (AUC, KS, 混淆矩阵) └─> 评分卡生成 └─> 线上审批 / 风险监控

五、风控逻辑回归的专业实践要点

  1. 线性假设验证

    • WOE转换后应保证每个特征与 logit 关系近似线性
  2. 类别变量分箱注意样本量

    • 小样本分箱会导致模型不稳定
  3. 多重共线性检查

    • 特征之间相关性过高会导致系数不稳定
    • 可用 VIF(Variance Inflation Factor)检查
  4. 偏斜样本处理

    • 逾期事件通常占比低,可用欠采样、过采样或加权训练
  5. 模型可解释性

    • 金融监管要求可解释性,逻辑回归是首选

六、总结

  • 逻辑回归:风控中核心二分类模型,输出概率,便于转化成评分卡
  • 关键公式:Sigmoid 函数 + 对数几率 + 最大似然估计
  • 风控实战流程:数据清洗 → 特征构建(分箱+WOE+IV)→ 模型训练 → 评估 → 评分卡生成 → 决策应用
  • 实践要点:特征线性化、类别处理、共线性检查、样本偏斜处理、模型可解释性

逻辑回归在风控中被广泛采用,主要原因是可解释性强、模型稳定、易于与评分卡结合,同时也可通过正则化和特征工程提升预测能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164535.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【收藏】大模型从入门到实战:程序员必学的AI技能,抓住技术红利就现在

写代码时被IDE的AI补全功能惊艳到拍手,用AI生成需求文档时感叹效率翻倍,就连调试难缠的Bug都能靠大模型快速定位——如今,人工智能大模型早已不是停留在PPT里的概念,而是实实在在融入程序员日常工作、甚至生活的“硬核帮手”。对于…

基于Django的天虹商场管理系统设计与实现

基于Django的天虹商场管理系统设计与实现 一、系统开发背景与意义 作为连锁零售标杆企业,天虹商场在多门店运营中面临管理协同难、数据割裂、决策滞后等挑战。传统模式下,各门店商品库存、销售数据需手动汇总,易出现信息滞后导致的补货不及时…

基于Django的鲜花预订购买管理系统设计与实现

基于Django的鲜花预订购买管理系统设计与实现 一、系统开发背景与意义 鲜花消费市场近年来呈现线上化加速趋势,但现有服务模式存在明显痛点:线下花店覆盖范围有限,线上平台普遍面临鲜花新鲜度难保障、配送时效差、个性化定制流程繁琐等问题。…

收藏!程序员转型难如蜀道?4大核心症结拆解+突破方向(附大模型时代适配指南)

此前在《大龄程序员的未来在何方》一文中,我们曾乐观探讨过程序员维系职场竞争力的多元路径,但现实往往更显残酷:不少程序员最终不得不告别深耕多年的软件开发领域,转向全新的职业赛道。 只有真正踏上转型之路,才能深切…

收藏!六模块Prompt结构精讲:让大模型精准听话的系统化方案

本文深度拆解六模块提示词核心结构(角色/任务、核心原则、上下文处理、CoT、输出规范、Few-Shot),为程序员与大模型初学者提供可直接复用的高效Prompt编写指南,助力快速掌握让大模型精准执行任务的关键技巧。文中同步分享借助大模…

基于Python的美团外卖数据分析系统设计与实现

基于Python的美团外卖数据分析系统设计与实现 一、系统总体设计 基于Python的美团外卖数据分析系统以“挖掘数据价值、辅助商业决策”为核心目标,针对外卖平台的海量订单、用户行为及商家运营数据,构建集数据采集、处理、分析与可视化于一体的分析体系&a…

PVE添加ssd硬盘默认新建pool,处理

查看当前的 OSD 分类:Bashceph osd tree确认哪些 OSD 现在的 CLASS 是 ssd。修改 OSD 的 Class: 假设 OSD ID 为 10(请替换为实际的 ID),执行以下命令:Bashceph osd crush rm-device-class osd.10 ceph osd…

‌当AI能自己写测试、执行、分析、报告,人类该做什么?

一、AI已全面接管测试执行链,但“自动化”不等于“智能化”‌ AI在软件测试领域的渗透已从边缘工具演变为核心引擎。GitHub Copilot 可根据代码上下文自动生成单元测试用例;Testim 与 Apifox 利用AI智能定位器实现界面变更自愈,将测试维护时…

基于springboot的毕业生招聘职位推荐系统

基于springboot的毕业生招聘职位推荐系统的设计与实现 一、系统总体设计 基于SpringBoot的毕业生招聘职位推荐系统以“精准匹配岗位需求、提升求职效率、优化招聘体验”为核心目标,解决传统招聘中毕业生与岗位信息不对称、匹配效率低、筛选成本高的问题,…

【计算机毕业设计案例】基于SpringBoot的药店商品管理、库存管理、销售管理、采购管理管理系统设计与实现基于SpringBoot的药店管理系统设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

告别查重 + AIGC 双重警报!宏智树 AI 教你给论文注入人工原创灵魂

作为深耕论文写作科普的教育博主,后台每天都被毕业生的求助刷屏:“查重率降到 15%,却因 AIGC 检测超标被打回”“降重后语句不通顺,导师吐槽像机器翻译”“AI 写的初稿怎么改才能躲过双重审查”。 随着高校学术审核标准升级&…

Formizee:把表单数据牢牢握在手里的开源神器

Formizee:把表单数据牢牢握在手里的开源神器 哈罗大家好!今天给大家安利一个在 GitHub 上挖到的宝藏开源项目——Formizee。是不是经常有这样的困扰:想在网站或应用里加个表单功能,自己写后端逻辑又太麻烦,用商业平台…

‌35岁测试人转型指南:AI时代,你的核心竞争力是什么?

‌一、时代剧变:AI不是替代者,而是质量新范式的缔造者‌2026年,软件测试的底层逻辑已被彻底重构。 不再是“写脚本、点按钮、报缺陷”的重复劳动,而是‌人机协同的质量决策系统‌。阿里巴巴通义团队验证:AI可基于需求文…

市场份额超三成,志凌海纳 SmartX 连续 11 个季度领跑超融合软件中国市场

2026 年 1 月 14 日——国际数据公司 IDC 发布《中国超融合市场跟踪报告,2025 年前三季度》,分别对超融合整体市场、独立销售的超融合软件市场,以及全栈超融合市场份额进行分析。 在 2025 年前三季度超融合软件排行中,SmartX 以 …

Java毕设项目推荐-基于Springboot实现药店管理系统基于SpringBoot的药店管理系统设计与实现【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

‌2026年,测试工程师会消失吗?

一、不是消失,是重构:测试角色的范式转移‌2026年的软件交付节奏,早已不是“测试阶段”后置的瀑布模型所能承载。CI/CD流水线每小时部署数十次,A/B测试在生产环境实时运行,AI驱动的异常检测系统在代码提交后3秒内反馈风…

软件测试面试题小结(一)

一、判断题 1.软件测试的目的是尽可能多的找出软件的缺陷。(Y) 2.Beta 测试是验收测试的一种。(Y) 3.验收测试是由最终用户来实施的。(N) 4.项目立项前测…

pve在迁移机器后更换vmbr物理网卡配置后导致默认虚拟网卡绑定到原始物理网卡下

1、迁移机器后导致配置残留,查看网卡配置文件里也没有对应的虚拟网卡配置图中的eno1的位置应该是eno2的才对,手动删除# 删除所有 eno1 的 VLAN 子接口 ip link show | grep eno1\. | awk {print $2} | sed s/eno1:// | xargs -I {} ip link delete eno1.…

Vercel 重磅发布 agent-browser:AI Agent 浏览器自动化的新纪元来了

Vercel 重磅发布 agent-browser:AI Agent 浏�览器自动化的新纪元来了 前几天 Vercel Labs 整了个大活,发布了专门给 AI Agent 用的无头浏览器自动化工具 agent-browser。这玩意儿据说比现在流行的 PlaywrightMCP 能减少高达 93% 的上下文信息…