随机森林原理_机器学习(29):随机森林调参实战(信用卡欺诈预测)

点击“机器学习研习社”,“置顶”公众号

重磅干货,第一时间送达
回复【大礼包】送你机器学习资料与笔记

0533fa30647ca9d271fd11c577fb8654.png

回顾

推荐收藏>机器学习文章集合:1-20

机器学习(21): Tensorflow Keras手写数字识别

机器学习(22): Tensorflow Keras识别猫狗

机器学习(23): 几张GIF理解K-均值聚类原理

机器学习(24):  k均值聚类数学推导与python实现

机器学习(25):聚类系列:层次聚类原理及案例

机器学习(26): 最大熵模型

机器学习(27):随机森林工作原理及调参实战(信用卡欺诈预测)

机器学习(28): Adaboost知识手册(理论篇)

本文我们重点讲一下:

1、集成学习、Bagging和随机森林概念

2、随机森林参数解释及设置建议 

3、随机森林模型调参实战

4、随机森林模型优缺点总结

集成学习、Bagging和随机森林

集成学习并不是一个单独的机器学习算法,它通过将多个基学习器(弱学习器)进行结合,最终获得一个强学习器。这里的弱学习器应该具有一定的准确性,并且要有多样性(学习器之间具有差异),比较常用的基学习器有决策树和神经网络。

ce307de25a59060ad92a6000228a2cab.png
图片来源:西瓜书

集成学习的核心就是如何产生并结合好而不同的基学习器,这里有两种方式是,一种是Bagging(基学习器之间没有强依赖关系,可同时生成的并行化方法),一种是Boosting(基学习器之间有强依赖关系,必须串行生成)。集成学习另一个关键问题是结合策略,主要有平均法、投票法和学习法,这里不再展开。

Bagging是Bootstrap AGGregaING的缩写,Bootstrap即随机采样,比如给定含有个样本的数据集,每次随机的从中选择一个样本,放入新的数据集,然后将其放回初始数据集,放回后有可能继续被采集到,重复这个动作次,我们就得到新的数据集。

f140cf192aec7e5a729a18086ede6a24.png
from:towardsdatascience

用这种方式,我们可以采样出含m个训练样本的采样集,然后基于每个采样集训练基学习器,再将基学习器进行结合,这便是Bagging的基本流程。

dc3ddaf29c284a114ec10a787b5e52cd.png
from:mrlevo520@简书

随机森林是非常具有代表性的Bagging集成算法,它在Bagging基础上进行了强化。它的所有基学习器都是CART决策树,传统决策树在选择划分属性时是在当前结点的属性集合(假定有d个属性)中选择最优属性。但是随机森林的决策树,现在每个结点的属性集合随机选择部分k个属性的子集,然后在子集中选择一个最优的特征来做决策树的左右子树划分,一般建议.

随机森林参数解释及设置建议

在scikit-learn中,RandomForest的分类类是RandomForestClassifier,回归类是RandomForestRegressor,需要调参的参数包括两部分,第一部分是Bagging框架的参数,第二部分是CART决策树的参数。

d69c1d66d17248aa0643efda2a0e07fa.png
cb28c291d7a585490a4a8b39832fb7e8.png
468fc261c4e3e494c92e1f8075ada50b.png
随机森林参数及设置建议

随机森林模型调参实战

这是一道kaggle上的题目,通过信用卡交易记录数据对欺诈行为进行预测,信用卡欺诈检测文件记录了2013年9月欧洲信用卡持有者所发生的交易。在284807条交易记录中共包含492条欺诈记录。 

数据集下载地址:请在公众号后台回复[56] 

需要说明的是,本文重点是RF模型调参,所以不涉及数据预处理、特征工程和模型融合的内容,这些我会在本栏目未来的章节中再做介绍。所以最终结果可能会不理想,这里我们只关注通过调参给模型带来的性能提升和加深对重要参数的理解即可。

1、导入模块

import numpy as np
import pandas as pd
from sklearn.model_selection import GridSearchCV,train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

2、导入数据

df = pd.read_csv("creditcard.csv")
data=df.iloc[:,1:31]

284807条交易记录中只有492条欺诈记录,样本严重不平衡,这里我们需要使用下采样策略(减少多数类使其数量与少数类相同)

X = data.loc[:, data.columns != 'Class']
y = data.loc[:, data.columns == 'Class']

number_records_fraud = len(data[data.Class == 1]) # class=1的样本函数
fraud_indices = np.array(data[data.Class == 1].index) # 样本等于1的索引值
normal_indices = data[data.Class == 0].index # 样本等于0的索引值
random_normal_indices = np.random.choice(normal_indices,number_records_fraud,replace = False)
random_normal_indices = np.array(random_normal_indices)
under_sample_indices = np.concatenate([fraud_indices,random_normal_indices]) # Appending the 2 indices
under_sample_data = data.iloc[under_sample_indices,:] # Under sample dataset
X_undersample = under_sample_data.loc[:,under_sample_data.columns != 'Class']
y_undersample = under_sample_data.loc[:,under_sample_data.columns == 'Class']
X_train, X_test, y_train, y_test = train_test_split(X_undersample,y_undersample,test_size = 0.3, random_state = 0)

3、先用默认参数训练RF

rf0 = RandomForestClassifier(oob_score=True, random_state=666)
rf0.fit(X_train,y_train)
print(rf0.oob_score_)
y_predprob = rf0.predict_proba(X_test)[:,1]
print("AUC Score (Train): %f" % roc_auc_score(y_test, y_predprob))

0.9244186046511628

 AUC Score (Train): 0.967082 

除oob_score将默认的False改为True, 我们重点优化n_estimators、max_depth、min_samples_leaf 这三个参数。为简单起见,模型评价指标,我们选择AUC值。

模型调优我们采用网格搜索调优参数(grid search),通过构建参数候选集合,然后网格搜索会穷举各种参数组合,根据设定评定的评分机制找到最好的那一组设置。

先优化n_estimators

param_test1 = {'n_estimators':range(10,101,10)}
gsearch1 = GridSearchCV(estimator = RandomForestClassifier(oob_score=True, random_state=666,n_jobs=2),
param_grid = param_test1, scoring='roc_auc',cv=5)
gsearch1.fit(X_train,y_train)
gsearch1.cv_results_, gsearch1.best_params_, gsearch1.best_score_

{'n_estimators': 50}, 0.9799524239675649

n_estimators=50,优化max_features

param_test2 = {'max_depth':range(2,12,2)}
gsearch2 = GridSearchCV(estimator = RandomForestClassifier(n_estimators= 50,oob_score=True, random_state=666,n_jobs=2),
param_grid = param_test2, scoring='roc_auc',cv=5)
gsearch2.fit(X_train,y_train)
gsearch2.cv_results_, gsearch2.best_params_, gsearch2.best_score_

{'max_depth': 6}, 0.9809897227343921

n_estimators=50,max_features=6,优化max_depth

param_test2 = {'min_samples_split':range(2,8,1)}
gsearch2 = GridSearchCV(estimator = RandomForestClassifier(n_estimators= 50,max_depth=6,
oob_score=True, random_state=666,n_jobs=2),
param_grid = param_test2, scoring='roc_auc',cv=5)
gsearch2.fit(X_train,y_train)
gsearch2.cv_results_, gsearch2.best_params_, gsearch2.best_score_

{'min_samples_split': 5}, 0.9819618127837587

最后我们将优化后的参数带入模型

rf1 = RandomForestClassifier(n_estimators= 50,max_depth=6,min_samples_split=5,oob_score=True, random_state=666,n_jobs=2)
rf1.fit(X_train,y_train)
print(rf1.oob_score_)
y_predprob1 = rf1.predict_proba(X_test)[:,1]
print("AUC Score (Train): %f" % roc_auc_score(y_test, y_predprob1))

0.9331395348837209 AUC Score (Train): 0.977811 

最终结果比默认参数时的模型袋外估计准确率得分、测试集上AUC值均有所提升。

随机森林优缺点总结

RF优点 

  1. 不容易出现过拟合,因为选择训练样本的时候就不是全部样本。

  2. 可以既可以处理属性为离散值的量,比如ID3算法来构造树,也可以处理属性为连续值的量,比如C4.5算法来构造树。

  3. 对于高维数据集的处理能力令人兴奋,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程度,这是一个非常便利的功能。

  4. 分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法

RF缺点 

  1. 随机森林在解决回归问题时并没有像它在分类中表现的那么好,这是因为它并不能给出一个连续型的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。

  2. 对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒子——你几乎无法控制模型内部的运行,只能在不同的参数和随机种子之间进行尝试。

参考:

https://www.jianshu.com/p/708dff71df3a https://www.cnblogs.com/pinard/p/6156009.html

往期阅读:

推荐收藏>机器学习文章集合:1-20

机器学习(21): Tensorflow Keras手写数字识别

机器学习(22): Tensorflow Keras识别猫狗

机器学习(23): 几张GIF理解K-均值聚类原理

机器学习(24):  k均值聚类数学推导与python实现

机器学习(25):聚类系列:层次聚类原理及案例

机器学习(25): 最大熵模型

机器学习(27):随机森林工作原理及调参实战(信用卡欺诈预测)

后台回复Python深度学习获取学习大礼包

09e7439d9dde063449f86d44ac68753e.png机器学习研习社:目前是由国内985博士,硕士组成的团体发起并运营。主要分享和研究机器学习、深度学习、NLP 、Python,大数据等前沿知识、干货笔记和优质资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/350668.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sudo 命令报错的解决方法

尝试着用终端打开Mac的安全权限(sudo spctl --master-disable),却显示以下提示,望高手解答。sudo: /etc/sudoers is world writablesudo: no valid sudoers sources found, quittingsudo: unable to initialize policy plugin 解决…

BGR转RGB

原图: 源代码: #codingutf-8#OpenCV读进来的图像,通道顺序为BGR, 而matplotlib的顺序为RGB,因此需要转换 import cv2 import numpy as np from matplotlib import pyplot as pltimg cv2.imread(./test1.jpg) B, G, R cv2.split…

C++ set的一些用法

set也是STL中比较常见的容器。set集合容器实现了红黑树的平衡二叉检索树的数据结构,它会自动调整二叉树的排列,把元素放到适当的位置。set容器所包含的元素的值是唯一的,集合中的元素按一定的顺序排列。 我们构造set集合的目的是为了快速的检…

ide在控制台输入编译命令_快速编译调试 Redis

一:开篇Redis 它是个宝,男女老少都说好。秒杀限流分布式,什么需求都能搞。Redis 主要的用途是分布式缓存,其实不用我多介绍,相信大家都用过Redis。之前也看过不少Redis的书,其中就包括《Redis设计与实现》。…

Java增强枚举的用例

Brian Goetz在消息“ 增强枚举-用例 ”中写道:“我们希望就现在实现的功能[ 增强枚举 ]获得用户反馈。” 他陈述了他的信息的第一个目的:“开始工作,这是一些通用枚举可能有用的典型用例。” 所提供的两个示例中的第一个示例是重构com.sun.to…

图片上传获取名字

Override public ResultResponse<String> uploadImg(MultipartFile file) { String imgUrl null; try { //MultipartFile类中两个方法区别&#xff1a;//getName : 获取表单中文件组件的名字//getOriginalFilename : 获取上传文件的原名 String name file.getOriginalF…

tf.nn.softmax

通过Softmax回归&#xff0c;将logistic的预测二分类的概率的问题推广到了n分类的概率的问题。通过公式 可以看出当月分类的个数变为2时&#xff0c;Softmax回归又退化为logistic回归问题。 下面的几行代码说明一下用法 # -*- coding: utf-8 -*- import tensorflow as tfA […

python easygui_python简单图形界面GUI入门——easygui

首先是easygui包下载&#xff0c;两种方式&#xff1a;1)在命令行提示符环境下&#xff0c;用pip install easygui直接安装&#xff1a;2)从http://easygui.sourceforge.net下载。将下载得到的easygui.py文件&#xff0c;复制到Python安装路 径下的Lib文件夹中。等待安装完成即…

使用 Python ElementTree 生成 xml

Python 处理 xml 文档的方法有很多&#xff0c;除了经典的 sax 和 dom 之外&#xff0c;还有一个 ElementTree。 首先 import 之&#xff1a; 1from xml.etree import ElementTree as etree然后开始构建 xml 树&#xff1a; 1234567891011121314from xml.etree.ElementTree imp…

卷积核输出维度计算

1&#xff09;卷积层&#xff1a; 参数&#xff1a;W&#xff1a;宽&#xff1b; H&#xff1a;高&#xff1b; D&#xff1a;深度&#xff1b; K&#xff1a;卷积核的个数&#xff1b; F&#xff1a;卷积核的大小&#xff1b; S&#xff1a;步长&#xff1b; P&#xff1a;…

接受与返回json数据

转载于:https://www.cnblogs.com/classmethond/p/10801606.html

归一化方法列举

归一化方法&#xff1a;除以序列最大值的&#xff0c;叫峰归一化&#xff1b;除以序列之和的&#xff0c;叫面积归一化&#xff1b;除以序列的模&#xff0c;叫数值归一化&#xff0c;得到序列的方差为0&#xff0c;均值为1&#xff1b;(1) 线性函数转换&#xff0c;表达式如下…

定时器和promise_手写Promise核心原理,再也不怕面试官问我Promise原理

整体流程的介绍 整体流程的介绍1. 定义整体结构2. 实现Promise构造函数3. 实现then方法3.实现catch方法4. 实现Promise.resolve5.实现Promise.reject6.实现Promise.all7.实现Promise.race文章会配合例子来讲解为什么要这么实现&#xff0c;尽我所能讲得粗俗易懂。有什么不理解或…

在Java 9中使用sun.misc.Unsafe

Java 9 EA版本已经发布&#xff0c;现在我们可以看到如何使用sun.misc.Unsafe。 我领导了公开运动&#xff0c;以保留对Java 9的访问&#xff0c;该访问最终成功&#xff0c;从而导致对JEP 260的修订。 那么&#xff0c;事情如何结束&#xff1f; 设定 首先&#xff0c;您需要…

惊现神作!!!

发现穿越类小说 《穿越位面的狂人》 起点地址&#xff1a; https://book.qidian.com/info/1010641845 小说名《位面穿梭之宿舍电梯》改为《穿越位面的狂人》nx大学大一学生柳风&#xff0c;因经济拮据&#xff0c;不得不住在宿舍楼顶的一间破屋子里&#xff0c;半夜下楼上厕…

[HNOI2019]校园旅行

题目 过于神仙啊&#xff0c;抄题解.jpg 首先\(n\)并不是很大啊&#xff0c;我们可以直接用\(f_{i,j}\)表示\(i\)到\(j\)是否存在一个回文路径 对于一条回文路径&#xff0c;如果在两端分别添加一个相同的字符&#xff0c;那么仍然是一个回文路径&#xff0c;于是我们可以利用这…

Your CPU supports instructions that this TensorFlow binary was not compiled to use AVX AVX2

大致的原因就是说&#xff1a;tensorflow觉得你电脑cpu还行&#xff0c;支持AVX&#xff08;Advanced Vector Extensions&#xff09;&#xff0c;运算速度还可以提升&#xff0c;所以可以开启更好更快的模式&#xff0c;但是你现在用的模式相对来说可能不是那么快&#xff0c;…

安卓 sharedpreferences可以被其它activity读取_Google|再见 SharedPreferences 拥抱 Jetpack DataStore...

Google 新增加了一个新 Jetpack 的成员 DataStore&#xff0c;主要用来替换 SharedPreferences&#xff0c; DataStore 应该是开发者期待已久的库&#xff0c;DataStore 是基于 Flow 实现的&#xff0c;一种新的数据存储方案&#xff0c;它提供了两种实现方式&#xff1a;Proto…

【20171025早】alert(1) to win 练习

本人黑绝楼&#xff0c;自称老黑&#xff0c;男&#xff0c;25岁&#xff0c;曾经在BAT工作过两年&#xff0c;但是一直都是底层人员&#xff0c;整天做重复性工作&#xff0c;甚敢无趣&#xff0c;曾和工作十年之久的同事聊天&#xff0c;发现对方回首过往&#xff0c;生活是寡…

Arduino 与 SPI 结合使用 以及SPI 深层理解

本文主要讲解两部分内容&#xff0c;不做任何转发&#xff0c;仅个人学习记录: 一. Arduino 与 SPI 结合使用 &#xff1a; 二. SPI 深层理解 有价值的几个好的参考&#xff1a; 1. 中文版&#xff1a; https://blog.csdn.net/xxxxxx91116/article/details/42620413 这版本适…