1.银行反欺诈系统都运行在那些场景?
区分为实时交易监控和事后分析
| 场景类型 | 具体场景 | 风险特征 |
| 实时交易拦截 | 网银/手机银行转账 POS刷卡消费 ATM取现 第三方支付(如支付宝/微信快捷支付) 开放银行API调用(如代扣) |
毫秒级响应,需实时拦截盗刷、伪卡交易 |
| 准****实时监控 | 批量代发工资 大额预约转账 账户开户/信息变更(如绑定新设备) |
5-30分钟内处理,防范账户盗用、信息篡改 |
| 事后分析 | 日终交易流水分析 客户行为画像更新 诈骗案件回溯(如电信诈骗) |
用于模型迭代、规则优化,非实时拦截 |
高并发场景:双11/春节等高峰期需支撑每秒万级交易请求
新型风险场景:虚拟货币交易、跨境支付、API银行开放生态(如第三方APP调用银行接口)
2.反欺诈系统包涉及到那些系统,是如何实现的?
| 系统 | 功能 | 技术实现 |
| 数据采集层 | 整合多源数据: - 交易系统(核心银行系统) - 客户端行为日志(APP点击流) - 外部数据(公安黑名单、征信数据) |
Kafka + Flink(实时流) MaxCompute(离线) |
| 特征工程平台 | 构建动态特征: - 近1小时交易频次 - 设备指纹变化 - 地理位置跳跃(如北京→纽约5分钟内) |
Redis(实时特征缓存) Python Featuretools |
| 规则引擎 | 执行硬规则: - “单笔转账超5万且收款方为高风险地区” - “新设备登录后立即大额转账” |
Drools(Java规则引擎) Drools + Redis动态规则 |
| 机器学习模型 | 输出欺诈概率: - 逻辑回归(可解释性强) - XGBoost/LightGBM(高精度) - GNN(识别团伙欺诈) |
TensorFlow/Sklearn PMML模型部署 |
| 决策中心 | 综合规则+模型结果: - 规则触发=立即拦截 - 模型评分>阈值=转人工审核 |
自定义决策流(如Camunda工作流引擎) |
| 处置系统 | 执行动作: - 冻结账户 - 发送短信验证码二次验证 - 推送预警至风控大屏 |
对接核心银行系统API 短信网关(如阿里云) |
实现要点:
低延迟:规则引擎响应时间 ≤ 100ms(Visa标准)
可解释性:模型需输出“高风险原因”(如“与诈骗账户有资金往来”)供人工复核
灰度发布:新规则/模型先放行1%流量验证效果
3.可疑账号是如何筛选的?
三级漏洞机制
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}| 层级 | 筛选方法 | 案例 |
| 一级:规则过滤 | 硬性规则(高召回): - 账户在24小时内登录IP跨越3个以上国家 - 新绑定设备后10分钟内转账超历史90% |
某账户凌晨3点在巴西登录,5分钟后向尼日利亚转账 |
| 二级:模型评分 | 机器学习打分(平衡精度/召回): - 特征:交易时间异常度、收款方关联风险、行为序列相似度 - 输出:欺诈概率0~100分 |
模型评分85分 → 转人工审核 |
| 三级:人工研判 | 风控专家结合: - 客户历史行为(如常出差vs. 退休老人) - 外部情报(如公安最新诈骗手法) |
识别“AI换脸视频诈骗”等新型手法 |
关键指标:
规则层覆盖90%+已知风险(但误报率高)
模型层将误报率降至5%以下(行业优秀水平)
4.身为测试工程师,针对银行反欺诈,如何实际功能,性能,接口用例?
功能测试用例设计
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}| 测试类型 | 用例示例 | 验证点 |
| 规则覆盖 | 1. 模拟同一设备1小时内登录5个不同账户 → 触发“设备共享风险”规则 2. 新设备登录后立即转账50万(超历史单笔限额)→ 触发拦截 |
规则是否生效、拦截动作是否正确 |
| 模型验证 | 1. 构造“典型诈骗交易”数据(如向高风险地区转账+夜间交易)→ 模型评分>80 2. 用历史真实欺诈案例回放测试 |
模型召回率、误报率是否达标 |
| 边界场景 | 1. 转账金额=规则阈值(如50,000.00元)→ 是否拦截 2. 时区切换时(如UTC+8→UTC+0)的交易时间判定 |
边界值处理、时区兼容性 |
性能****测试用例
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}| 场景 | 测试方法 | 通过标准 |
| 高并发交易 | JMeter模拟5000TPS交易请求(含10%欺诈流量) | 99%请求响应时间<200ms,0%超时 |
| 规则引擎压力 | 注入1000条动态规则(如每分钟更新)+ 持续交易流 | 规则加载延迟<5s,无交易堆积 |
| 灾备切换 | 主节点宕机,验证备用节点接管时间 | 切换时间<30s,无交易丢失 |
接口****测试用例
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}| 接口类型 | 测试要点 |
| 内部系统接口 | - 规则引擎与核心银行系统接口:验证拦截指令是否准确传递 - 特征平台接口:测试特征超时(如Redis故障)时的降级策略 |
| 外部数据接口 | - 征信系统接口:模拟超时/返回错误码,验证系统是否走本地缓存兜底 - 公安黑名单接口:测试空返回时的处理逻辑 |
测试工具链:
数据构造:Faker 生成合规测试数据(脱敏)
流量回放:TCPCopy 复用生产流量
监控:Grafana 看板跟踪规则触发率、模型AUC
5.银行反欺诈和机器学习的应用,机器学习如何选用训练方法和数据清洗?
模型选择与训练方法
td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt;font-style:normal;font-weight:normal;vertical-align:middle;word-break:normal;word-wrap:normal;}| 问题类型 | 适用模型 | 选择原因 |
| 个体欺诈检测 | LightGBM/XGBoost | 处理高维特征快,支持特征重要性分析 |
| 团伙欺诈识别 | Graph Neural Network (GNN) | 捕捉资金网络中的异常子图(如环形转账) |
| 新型诈骗发现 | Isolation Forest | 无监督学习,识别未知模式(如0day攻击) |
关键实践原则
-
样本不平衡处理:
-
欺诈交易占比通常<0.1%,采用 SMOTE过采样 + 随机****欠采样
-
损失函数加权:
class_weight='balanced'(Scikit-learn参数)
-
-
特征工程****核心:
-
动态特征:滑动窗口统计(如“近10分钟登录失败次数”)
-
关联特征:收款方历史欺诈率、设备指纹关联账户数
-
-
避免特征穿越:
-
严格按时间切分数据:训练集用T-30天~T-1天数据,测试集用T日数据
-
特征计算仅使用T时刻前的信息(如T日10:00交易,特征仅用10:00前数据)
-
-
持续监控:
-
每日跟踪 PSI(Population Stability Index****),若特征分布漂移>0.25则触发模型重训
-
A/B测试:新模型与旧模型并行运行,对比拦截率/误报率
-
行业经验:
不要追求100%召回率:误报率每降低1%,客户投诉量下降30%(某国有大行数据)
模型可解释性 > 精度:监管要求必须说明“为什么拦截”,SHAP值/LIME是必备工具
总结建议
-
测试重点:功能测试聚焦规则覆盖度和边界场景,性能测试模拟极端流量峰值,接口测试验证故障降级能力
-
机器学习****落地:80%精力在数据清洗和特征工程,模型选择反而是最简单的部分
-
合规红线:测试数据必须脱敏(符合GDPR/《个人信息保护法》),禁止使用真实客户信息
工商银行总行 融安e信 风险信息平台 电诈防控 公安查获电信账号
渠道: 网银 自助终端 ATM
对转账汇款进行实时拦截和预警信息
网银
网点柜台
掌上银行
超柜
ATM
(可扩充)
方式:可疑账户提示 拒绝转账 冻结在途 强制落地 警台寻呼 sim卡物理断连 暂停非柜面业务
对公帐号 异常流水预警信息 对于新创 僵尸 未足缴纳 涉案涉信 涉诈灰
判断 转账账号 转账附言
App 后台数据监控 监控其录屏(强制黑屏) 非同名大额转账且共享屏幕
渤海银行风控平台(拓展)
基于客户交易多要素评分的反欺诈风控平台
名单规则、评分规则、调整规则的次序进行客户交易要素评分,结合客户交易习惯进行针对性的风险等级调整,之后采取相对应的强化认证和交易管控策略,可初步实现普遍适用规则与客户行为个性化之间的平衡,为实现千人千面的精准防控积累经验和数据。
名单规则
评分规则
调整规则
客户交易要素+客户交易习惯评估
强化认证+交易管控
普遍金融反诈政策和个性化客户(千人千面)
评分卡模型
1.流处理技术基础
融合cep
可增量计算缓存
时间切片
业务系统交易数据-数据流水流转嵌入流处理引擎-计算脚本,得到时间脚本可伸展的计算结果,合成一个多维度可计算数据魔方
2.综合评分和个性化调整确定客户交易风险等级
名单规则:黑白名单(行内/人行/监管/公安/涉外)
评分规则:对交易要素进行评估,按照重要性进行赋分
交易时间
交易地点
交易金额
交易对象
交易渠道
调整规则:客户日常交易行为的特征,对评分规则相应的改变
3.多数据源,评分和专家规则双轨制
多数据源:监管机构,合作机构,各级分行,友商银行,人行
(常见的满足银行反欺诈的数据源来源有哪些?)
评分和专家规则:不仅仅以来评分卡,也依赖专家判断和规则补充
项目效果评估(重点)
一、各渠道交易的全面覆盖
覆盖线上线下多个交易渠道,近20个业务系统,共计部署规则模型超过400余条,实现了对超过200支各类交易、月均超2500万笔的监控,通过月均超25万次的提醒、超5万次的强化认证,实现对客户资金超1亿元/月的风险防控。
如何实现消息提醒和强化认证?
消息提醒和强化认证的方式去有那些?
二.精准防控的有益探索
保证预警覆盖率和命中率
降低交易误报率和漏报率
华夏银行:手机银行反欺诈机器学习模型与信识模型项目
信息识别/风险控制
反欺诈机器学习模型
自然语言处理(NLP) 实体识别 样本打样
(长文本识别 提取信息 标识重要信息)
词频-逆文档频率(TF-IDF)算法挖掘欺诈特征,丰富了模型的数据维度
附言中正常:餐饮消费 超市购物
异常:赌博 套现 欺诈:充值 刷单 比特币 游戏币
自动量化这些可疑标签 并标识该数据
并将这些创建出新的维度
信识模型
用户画像:
数据收集-数据分析-加工用户画像
数据收集:用户信息 登录数据 交易数据 绑定设备信息 涉诈类名单数据
数据分析:选取多个观察点 不同时间窗口下的用户行为变化,数据时间和客户范围 统计用户交易记录,提取分析行为习惯
例:倾向于 大额 小额 消费类型 消费时间 消费区域 支付方式
加工用户画像:聚合客户信息,交易行为,交易方式,构建用户画像