sklearn svm如何选择核函数_机器学习之支持向量机多种核模型对比

机器学习

xueyifeiyun1989zx,公众号:围着围巾的小黑机器学习之监督学习实战

        前文我们提到机器学习中的监督学习,其中有一个模型是我们提到的但是没有训练测试的,叫做支持向量机(简称SVM)。支持向量机也是监督学习里面一个非常容易理解的模型。概念和公式定义我们就不带大家看了,我们还是从代码实战的角度来学习。

        SVM本质原理是利用超平面将数据分割成可分的部分,对于可分的数据集来说不用做维度转换,那么对于不可分的数据集要想利用SVM怎么办呢,是有办法的,就是核函数。核函数的存在的意义就是将低维不可分的数据转化成高维可分的数据,从而实现对数据的分类。本文主要关注不同SVM中的核函数,因为我们主要是应用为主,所以只会提高各种核函数并做相关的代码实践,不会对各种核函数的原理进行分析。

        另外还有一个问题是需要在本文解决的,大家如果前文仔细看的话,会发现在整个训练和预测的过程中,我们生成了两个数据集,操作起来有点麻烦,那么是否有现成的方法可以自动帮我们将数据集切分成训练集和测试集呢,答案显然是肯定的。

1、导入依赖包、生成基础数据集

from sklearn.datasets import make_classificationimport matplotlib.pyplot as pltfrom sklearn import preprocessingfrom sklearn.model_selection import train_test_splitfrom sklearn.svm import SVCfrom sklearn.metrics import accuracy_scoreimport matplotlib.pyplot as pltimport mpl_toolkits.mplot3d# 生成基础特征数据,该数据包含100条记录,每条记录包含两个特征X,y = make_classification(n_samples = 10000,\n_features = 3,n_redundant = 0,n_repeated = 0)

2、对数据集合进行拆分和模型训练

# 生成训练集和测试集train_x,test_x,train_y,test_y = train_test_split(X,y)# 选择linear核函数,在sklearn中,其模型默认的核函数的rbfsvm = SVC(kernel = 'linear')svm.fit(train_x,train_y)

3、模型预测

# 在训练集上预测predict_train = svm.predict(train_x)# 在训练集上准确率accuracy_score(train_y,predict_train)# 0.8693# 在测试集上预测predict_test = svm.predict(test_x)# 在测试集上准确率accuracy_score(test_y,predict_test)# 0.8573

4、模型可视化

# 分别生成预测正确的和预测错误的数据集合predictTure = test_x[test_y == predict_test]predictFalse = test_x[test_y != predict_test]# 定义一个画图的方法,输入的参数为预测正确和预测错误的数据集合def plot3DPredictStatus(predictTure,predictFalse):    # 创建一个三维的绘图工程    ax = plt.subplot(projection = '3d')     # 设置图名称    ax.set_title('3d_predict_show')     # 绘制数据点 color: 'r'红色,'b'蓝色等颜色    # x代表预测错误的数据 ,o代表预测正确的数据    ax.scatter(predictTure[:,0], \    predictTure[:,1], predictTure[:,2],\     c = 'r',marker = 'o',cmap = 'coolwarm')     ax.scatter(predictFalse[:,0],\     predictFalse[:,1], predictFalse[:,2], \     c = 'b',marker = 'x',cmap = 'coolwarm')     # 设置x坐标轴    ax.set_xlabel('X')     # 设置y坐标轴    ax.set_ylabel('Y')      # 设置z坐标轴    ax.set_zlabel('Z')      # 画图     plt.show()# 画图函数调用plot3DPredictStatus(predictTure,predictFalse)

8327bd4d95a53cf11a1a1bc3a6c0972a.png

图、在预测集上正确的点(红色)和错误(蓝色)的点

5、对比不同核函数的效果

        通过查看sklearn的SVM相关的参数说明(如下图),知道其至少提供linear、poly、rbf、sigmod、precomputed等核函数。

d33b18f7714d03e00f6f3cc39f2e55cc.png

图、sklearn中SVM相关的核函数类型说明

# 定义模拟多个核函数的方法def multkernelCompare():    print('{:>10s}|{:8s}'.format('kernel','accuracy'))    for kernel in ['linear','poly','rbf','sigmoid']:        svm = SVC(kernel = kernel)        svm.fit(train_x,train_y)        accuracy =accuracy_score(test_y,svm.predict(test_x))        print('{:>10s}|{:8.4f}'.format(kernel,accuracy))# 不同核函数对比方法调用multkernelCompare()

0978491aca29da2071f095b6d540caf0.png

图、不同核函数预测结果的准确性对比

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/311209.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7的序列-数论

题目背景 墨家机关城即将被攻陷,墨家家主无意间发现了一道逃生密道,但这道密道需要密码,机智的你决定参与密码的破译。 题目描述 密码门上有两行数字序列,数字均为非负整数,根据门上的古语,你需要求出满足…

程序员过关斩将--从每秒6000写请求谈起

点击上方“蓝字”关注我们菜菜哥,紧急求助呀怎么回事?产品经理砍你了?没有,只是写了个新项目,上线就被压垮了什么功能,这么强悍?一个记录用户观看视频进度信息的功能那如果用户基数大&#xff0…

批量将PPM格式图片转化为JPG格式

将PPM格式图片转化为JPG格式 做图像识别的时候数据集常常是ppm格式的,虽然不影响建模训练,但是我们电脑往往不支持ppm格式的图像展示。 比如到做交通标志识别的时候用到的BelgiumTS交通数据集或者德国GTSRB数据集 下载后得到都是ppm格式的图像。 格式转…

python数据收集整理教案_数据收集整理教案讲解学习

一、数据收集整理第一课时教学目标初步体验数据收集、整理、描述的过程,会用分类数数的方法将数据整理成简单的统计表,初步认识统计表,能正确填写统计表,能从中获得简单统计的结果。通过对学生身边有趣事例的调查活动,…

hdu1873 看病要排队-优先队列

Problem Description 看病要排队这个是地球人都知道的常识。 不过经过细心的0068的观察,他发现了医院里排队还是有讲究的。0068所去的医院有三个医生(汗,这么少)同时看病。而看病的人病情有轻重,所以不能根据简单的先来…

Magicodes.IE 2.2里程碑需求和建议征集

简介Magicodes.IE是导入导出通用库,支持Dto导入导出以及动态导出,支持Excel、Word、Pdf、Csv和Html。已加入NCC开源组织。Magicodes.IE 2.0发布Github:https://github.com/dotnetcore/Magicodes.IE码云(手动同步,不维护…

启动azkaban报错_解决启动Azkaban报错问题:java.lang.NoSuchMethodError: com.google.comm

问题描述:启动Azkaban报错:java.lang.NoSuchMethodError:com.google.common.collect.ImmutableMap.toImmutableMap解决方法:从报错信息来看,是找不到toImmutableMap这个方法。首先找到类ImmutableMap对应的Jar包为guava&#xff0…

(一)tensorflow笔记:Tensor数据类型

常见的数据类型载体 listnp.arraytf.tensor list: 可以存储不同数据类型,缺点不适合存储较大的数据,如图片 np.array: 解决同类型大数据数据的载体,方便数据运算,缺点是在深度学习之前就设计好的,不支持GPU tf.ten…

吃鸡蛋-优先队列

题目描述 小林养了一只母鸡,一连 n 天,每天都可以生下若干个鸡蛋。在第 i 天,母鸡会生下 eggs[i] 个鸡蛋,这些鸡蛋将会在days[i] 天后(也就是说,第 i days[i] 天时)腐烂,变得无法食…

交通标志识别教程(二)

项目结构图 下载好项目压缩包后解压,得到以上的文件,首先将画红圈的文件删除(如果有) 安装软件 解压软件包 安装Anaconda 直接下一步,到了这个页面全部勾选,否则不会添加添加环境变量。 安装Pycharm …

深度长文:Power Automation 帮助企业实现数字化转型

01自动化始于您在Ignite 2019上,我们宣布将Flow更改为Power Automate,并在UI Flow连接器的公开预览中引入了机器人流程自动化(RPA)。我们对几种激动人心的功能感到兴奋,这些功能将在今年全面上市,并想花一点…

数字电路技术可能出现的简答题_数字电子技术复习题(本科)

1数字电子技术复习题(本科)一、简答题:1、简述组合电路和时序电路各自的特点是什么?答:组合电路的特点:任何时刻电路的稳定输出,仅取决于该时刻各个输入变量的取值,组合电路是由门电路组合而成,…

hdu2544 最短路-Floyd算法

Problem Description 在每年的校赛里,所有进入决赛的同学都会获得一件很漂亮的t-shirt。但是每当我们的工作人员把上百件的衣服从商店运回到赛场的时候,却是非常累的!所以现在他们想要寻找最短的从商店到赛场的路线,你可以帮助他们…

Pandas的Timestamp转为datetime 类型

在Pandas中我们在处理时间序列的时候常用的方法有: pd.to_datetime()pd.date_range() pandas生成时间索引 # pd.date_range() index pd.date_range("20210101",periods20) index Out[29]: DatetimeIndex([2021-01-01, 2021-01-02, 2021-01-03, 2021-…

什么样的女生适合学计算机?

我需要在这一行中加一些字数,为什么呢?因为我的字数不够300字,无法声明原创,所以我会在这里加一些字数,它们是白色的,你应该看不到,如果你此刻看到了,那你真的太机智了。300字&#…

ora-00923数据类型不一致_小白学 Python(2):基础数据类型(上)

如果我的文章对您有帮助,请关注支持下作者的公众号:极客挖掘机,获取最新干货推送:)人生苦短,我选Python引言前文传送门小白学 Python(1):开篇接触一门新的语言,肯定要先了解它的基础数据类型。啥…

Floyd最短路径算法

Floyd最短路径算法适用于节点(n<200)的图&#xff0c;允许边权值为负。 代码如下&#xff1a; #include <iostream> using namespace std; const int N 110; const int INF 1 << 30; int g[N][N]; int n, m;void Floyd() {for (int k 1; k < n; k)for (i…

如何将项目上传到github详细完整版

今天介绍如何利用pycharm创建一个新的项目&#xff0c;然后将项目上传到github&#xff0c;以便日后的学习记录&#xff0c;和版本管理。比如现在我想创建一个项目专门用来学习和研究时间序列算法。 创建虚拟环境 # 创建一个新的虚拟环境 conda create -n TimeSeries python3…

[Abp vNext微服务实践] - 搭建租户管理服务

一、简介ABP模板项目中已经提供了租户登录和管理功能&#xff0c;但是模板项目是单体应用结构&#xff0c;无法单独部署租户服务&#xff0c;所以难以满足微服务的需求。本篇文章将会介绍搭建ABP租户管理服务&#xff0c;并单独部署应用。二、创建工程2.1 创建TenantService.Ho…

hdu2544 最短路-邻接表+优先队列实现dijkstra

Problem Description 在每年的校赛里&#xff0c;所有进入决赛的同学都会获得一件很漂亮的t-shirt。但是每当我们的工作人员把上百件的衣服从商店运回到赛场的时候&#xff0c;却是非常累的&#xff01;所以现在他们想要寻找最短的从商店到赛场的路线&#xff0c;你可以帮助他们…