【风控】逻辑回归算法

一、逻辑回归算法原理与公式

逻辑回归是风控领域最核心的信用评分与违约预测算法之一，它本质上是一种广义线性模型，用于预测二分类问题（如用户违约与否）。相比普通线性回归，逻辑回归能够保证预测结果落在[0,1][0,1][0,1]区间，适合概率预测。

1.1 线性回归与逻辑回归关系

普通线性回归模型为：y=β0+β1x1+⋯+βnxn+ϵ y = \beta_0 + \beta_1 x_1 + \cdots + \beta_n x_n + \epsilony=β0+β1x1+⋯+βnxn+ϵ
但若直接用线性回归预测违约概率，输出yyy可能超过[0,1][0,1][0,1]范围，这在概率预测中不合理。因此引入Sigmoid函数（Logistic函数）将线性组合映射到[0,1][0,1][0,1]：p=P(Y=1∣X)=σ(z)=11+e−z,z=β0+∑i=1nβixi p = P(Y=1|X) = \sigma(z) = \frac{1}{1 + e^{-z}}, \quad z = \beta_0 + \sum_{i=1}^{n} \beta_i x_ip=P(Y=1∣X)=σ(z)=1+e−z1,z=β0+i=1∑nβixi
其中：

ppp为正类（如违约）的概率
β0\beta_0β0为截距，βi\beta_iβi为特征权重
σ(z)\sigma(z)σ(z)为 Sigmoid 函数

1.2 对数几率（Log-Odds）形式

逻辑回归的核心思想是建模事件发生的对数几率：logit(p)=ln⁡p1−p=β0+∑i=1nβixi \text{logit}(p) = \ln\frac{p}{1-p} = \beta_0 + \sum_{i=1}^{n} \beta_i x_ilogit(p)=ln1−pp=β0+i=1∑nβixi

对数几率将概率p∈(0,1)p \in (0,1)p∈(0,1)映射到实数范围(−∞,+∞)(-\infty, +\infty)(−∞,+∞)
线性关系便于解释和计算特征权重

1.3 损失函数与训练

逻辑回归采用最大似然估计MLEMLEMLE训练模型。对于样本集(x(i),y(i))i=1m{(x^{(i)}, y^{(i)})}_{i=1}^{m}(x(i),y(i))i=1m，似然函数为：L(β)=∏i=1mpiy(i)(1−pi)1−y(i) L(\beta) = \prod_{i=1}^{m} p_i^{y^{(i)}} (1-p_i)^{1-y^{(i)}}L(β)=i=1∏mpiy(i)(1−pi)1−y(i)
取对数得到对数似然：ℓ(β)=∑i=1m[y(i)ln⁡pi+(1−y(i))ln⁡(1−pi)] \ell(\beta) = \sum_{i=1}^{m} \left[ y^{(i)} \ln p_i + (1-y^{(i)}) \ln (1-p_i) \right]ℓ(β)=i=1∑m[y(i)lnpi+(1−y(i))ln(1−pi)]
训练目标是最大化对数似然（或最小化负对数似然）：β^=arg⁡max⁡βℓ(β) \hat{\beta} = \arg \max_{\beta} \ell(\beta)β^=argβmaxℓ(β)

二、逻辑回归的常用变形

在风控实践中，为增强模型性能和解释性，逻辑回归常做一些变形：

标准化/归一化
- 对数值型特征进行标准化（z-score）或归一化，保证梯度下降收敛快速
WOE（Weight of Evidence）编码
- 类别变量分箱后转换成连续数值，使逻辑回归系数可直接解释
- WOE 与违约率之间通常呈线性关系，满足逻辑回归假设
正则化（L1/L2）
- L1（Lasso）用于特征选择，去掉无用变量
- L2（Ridge）用于防止过拟合，提高模型稳定性
交互项和多项式扩展
- 对特征组合或非线性关系建模
分段逻辑回归
- 针对不同人群或不同产品建模，实现分层风险管理

三、风控场景下逻辑回归的使用流程

风控中逻辑回归模型主要用于信用评分卡（Credit Scoring）、逾期预测、欺诈识别等。流程可以分为以下几个阶段：

3.1 数据获取与处理

数据来源
- 内部：交易记录、借款信息、账户信息
- 外部：征信机构、公开金融数据
数据清洗
- 异常值处理（如负债为负或异常高）
- 缺失值填充（均值/中位数/插值/类别填充）
- 重复数据剔除
标签构建
- 二分类标签：如 0 = 正常还款，1 = 逾期 30 天以上
- 根据业务规则确定观察期

3.2 特征处理

变量分箱（Binning）
- 数值特征：等频、等宽或决策树分箱
- 类别特征：按类别或合并低频类别
WOE转换
- 对每个箱计算：WOEi=ln⁡Goodi/Total GoodBadi/Total Bad \text{WOE}_i = \ln \frac{\text{Good}_i / \text{Total Good}}{\text{Bad}_i / \text{Total Bad}}WOEi=lnBadi/Total BadGoodi/Total Good
- 线性化非线性关系，保证逻辑回归系数解释性
IV（Information Value）评估特征
- 衡量特征预测能力：IV=∑i(Goodi/Total Good−Badi/Total Bad)×WOEi IV = \sum_{i} (\text{Good}_i / \text{Total Good} - \text{Bad}_i / \text{Total Bad}) \times \text{WOE}_iIV=i∑(Goodi/Total Good−Badi/Total Bad)×WOEi
- 一般 IV > 0.1 认为有预测价值

3.3 逻辑回归训练

划分训练集与测试集
- 比例常用 7:3 或 8:2，保证样本平衡
模型拟合
- 使用 Pythonsklearn.linear_model.LogisticRegression或 R 的glm
- 设置正则化、迭代次数等参数
性能评估
- AUC（ROC曲线）
- KS值（风控特有指标）
- 混淆矩阵（精度、召回率、F1-score）
系数解释
- 正系数：特征值增加 → 违约概率增加
- 负系数：特征值增加 → 违约概率降低

3.4 模型部署与应用

信用评分卡生成
- 将逻辑回归输出概率ppp转换成评分：Score=Offset+Factor⋅ln⁡1−pp \text{Score} = \text{Offset} + \text{Factor} \cdot \ln\frac{1-p}{p}Score=Offset+Factor⋅lnp1−p
- 通常设定“好客户分数高，坏客户分数低”，如 300-850 分制
实时风控决策
- 线上审批：根据用户评分自动决策通过/拒绝
- 额度管理：评分高 → 可授信额度高
模型监控
- 数据漂移检测
- 模型稳定性分析（Population Stability Index, PSI）
- 定期再训练

四、风控逻辑回归案例流程示意

原始数据 └─> 数据清洗 (异常值, 缺失值) └─> 特征构建 (分箱, WOE, IV) └─> 特征筛选 └─> 逻辑回归训练 (最大似然估计) └─> 模型评估 (AUC, KS, 混淆矩阵) └─> 评分卡生成 └─> 线上审批 / 风险监控

五、风控逻辑回归的专业实践要点

线性假设验证
- WOE转换后应保证每个特征与 logit 关系近似线性
类别变量分箱注意样本量
- 小样本分箱会导致模型不稳定
多重共线性检查
- 特征之间相关性过高会导致系数不稳定
- 可用 VIF（Variance Inflation Factor）检查
偏斜样本处理
- 逾期事件通常占比低，可用欠采样、过采样或加权训练
模型可解释性
- 金融监管要求可解释性，逻辑回归是首选

六、总结

逻辑回归：风控中核心二分类模型，输出概率，便于转化成评分卡
关键公式：Sigmoid 函数 + 对数几率 + 最大似然估计
风控实战流程：数据清洗 → 特征构建（分箱+WOE+IV）→ 模型训练 → 评估 → 评分卡生成 → 决策应用
实践要点：特征线性化、类别处理、共线性检查、样本偏斜处理、模型可解释性

逻辑回归在风控中被广泛采用，主要原因是可解释性强、模型稳定、易于与评分卡结合，同时也可通过正则化和特征工程提升预测能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/1164535.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！