广东专业做网站排名哪家好宁城网站建设公司

pingmian/2026/1/27 7:03:02/文章来源:
广东专业做网站排名哪家好,宁城网站建设公司,如何启动wordpress,临沂科技网站建设这是Python程序开发系列原创文章#xff0c;我的第198篇原创文章。 一、问题 对于表格数据#xff0c;一套完整的机器学习建模流程如下#xff1a; 针对不同的数据集#xff0c;有些步骤不适用即不需要做#xff0c;其中橘红色框为必要步骤#xff0c;由于数据质量较高我的第198篇原创文章。 一、问题 对于表格数据一套完整的机器学习建模流程如下 针对不同的数据集有些步骤不适用即不需要做其中橘红色框为必要步骤由于数据质量较高本文有些步骤跳过了跳过的步骤将单独出文章总结同时欢迎大家关注翻看我之前的一些相关文章。 一文彻底搞懂机器学习中的归一化与反归一化问题 【Python机器学习系列】一文彻底搞懂机器学习中表格数据的输入形式理论源码 【Python特征工程系列】利用随机森林模型分析特征重要性源码 【Python特征工程系列】8步教你用决策树模型分析特征重要性源码 【Python机器学习系列】拟合和回归傻傻分不清一文带你彻底搞懂它 【Python机器学习系列】建立决策树模型预测心脏疾病完整实现过程 【Python机器学习系列】建立支持向量机模型预测心脏疾病完整实现过程 【Python机器学习系列】建立逻辑回归模型预测心脏疾病完整实现过程 K最近邻K-Nearest NeighborsKNN是一种基本的监督学习算法用于分类和回归问题。KNN算法基于实例之间的相似性度量通过将新样本与训练集中的最近邻样本进行比较来进行预测或分类。KNN算法的基本思想是如果一个样本在特征空间中的K个最近邻中的大多数属于某个类别那么该样本很可能属于该类别。KNN算法不需要显式的训练过程而是在预测阶段对每个新样本进行计算和比较。 KNN算法的关键参数是K值即选择的最近邻样本的数量。较小的K值会使模型更加敏感容易受到噪声的影响而较大的K值会使模型更加平滑但可能忽略了样本内部的细节。KNN算法的优点包括简单易懂、不需要训练过程即懒惰学习和对于非线性问题具有较好的适应性。然而KNN算法的缺点是计算复杂度高对于大型数据集和高维数据效果可能不佳并且对于不平衡数据集和噪声敏感。在实际应用中可以通过交叉验证或网格搜索等技术来选择合适的K值并对数据进行预处理如特征缩放以提高算法的性能。scikit-learn是一个流行的Python机器学习库提供了各种机器学习算法的实现包括K近邻KNN算法。在scikit-learn中KNN算法的实现主要集中在sklearn.neighbors模块中。 本文将实现基于心脏疾病数据集建立KNN模型对心脏疾病患者进行分类预测的完整过程。 二、实现过程 导入必要的库 import pandas as pd import matplotlib.pyplot as plt from sklearn.utils import shuffle from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score from sklearn.metrics import roc_curve from sklearn.metrics import auc from sklearn.metrics import confusion_matrix from sklearn.metrics import classification_report 1、准备数据 data pd.read_csv(rDataset.csv) df pd.DataFrame(data) df 数据基本信息 print(df.head()) print(df.info()) print(df.shape) print(df.columns) print(df.dtypes) cat_cols [col for col in df.columns if df[col].dtype object] # 类别型变量名 num_cols [col for col in df.columns if df[col].dtype ! object] # 数值型变量名 2、提取特征变量和目标变量 target target features df.columns.drop(target) print(data[target].value_counts()) # 顺便查看一下样本是否平衡 3、数据集划分 df shuffle(df) X_train, X_test, y_train, y_test train_test_split(df[features], df[target], test_size0.2, random_state0) 4、模型的构建与训练 # 模型的构建与训练 training_accuracy [] test_accuracy [] # try n_neighbors from 1 to 10 neighbors_settings range(1, 11) for n_neighbors in neighbors_settings:knn KNeighborsClassifier(n_neighborsn_neighbors) knn.fit(X_train, y_train) training_accuracy.append(knn.score(X_train, y_train)) test_accuracy.append(knn.score(X_test, y_test)) plt.figure() plt.plot(neighbors_settings, training_accuracy, labeltraining accuracy) plt.plot(neighbors_settings, test_accuracy, labeltest accuracy) plt.ylabel(Accuracy) plt.xlabel(n_neighbors) plt.legend()model KNeighborsClassifier(n_neighbors5) model.fit(X_train, y_train) 选择最佳的K5 参数详解 from sklearn.neighbors import KNeighborsClassifier KNeighborsClassifier(n_neighbors 5,weightsuniform,algorithm ,leaf_size 30,p 2,metric minkowski,metric_params None,n_jobs None) - n_neighbors这个值就是指 KNN 中的 “K”了。前面说到过通过调整 K 值算法会有不同的效果。 - weights权重最普遍的 KNN 算法无论距离如何权重都一样但有时候我们想搞点特殊化比如距离更近的点让它更加重要。这时候就需要 weight 这个参数了这个参数有三个可选参数的值决定了如何分配权重。参数选项如下        uniform不管远近权重都一样就是最普通的 KNN 算法的形式。        distance权重和距离成反比距离预测目标越近具有越高的权重。        自定义函数自定义一个函数根据输入的坐标值返回对应的权重达到自定义权重的目的。 - algorithm在 sklearn 中要构建 KNN 模型有三种构建方式1. 暴力法就是直接计算距离存储比较的那种放松。2. 使用 kd 树构建 KNN 模型 3. 使用球树构建。其中暴力法适合数据较小的方式否则效率会比较低。如果数据量比较大一般会选择用 KD 树构建 KNN 模型而当 KD 树也比较慢的时候则可以试试球树来构建 KNN。参数选项如下 • brute 蛮力实现 • kd_treeKD 树实现 KNN • ball_tree球树实现 KNN • auto默认参数自动选择合适的方法构建模型 不过当数据较小或比较稀疏时无论选择哪个最后都会使用 brute - leaf_size如果是选择蛮力实现那么这个值是可以忽略的当使用KD树或球树它就是是停止建子树的叶子节点数量的阈值。默认30但如果数据量增多这个参数需要增大否则速度过慢不说还容易过拟合。 - p和metric结合使用的当metric参数是minkowski的时候p1为曼哈顿距离 p2为欧式距离。默认为p2。 - metric指定距离度量方法一般都是使用欧式距离。 • euclidean 欧式距离 • manhattan曼哈顿距离 • chebyshev切比雪夫距离 • minkowski闵可夫斯基距离默认参数 - n_jobs指定多少个CPU进行运算默认是-1也就是全部都算。 5、模型的推理与评价 y_pred model.predict(X_test) y_scores model.predict_proba(X_test) acc accuracy_score(y_test, y_pred) # 准确率acc cm confusion_matrix(y_test, y_pred) # 混淆矩阵 cr classification_report(y_test, y_pred) # 分类报告 fpr, tpr, thresholds roc_curve(y_test, y_scores[:, 1], pos_label1) # 计算ROC曲线和AUC值,绘制ROC曲线 roc_auc auc(fpr, tpr) plt.figure() plt.plot(fpr, tpr, colordarkorange, lw2, labelROC curve (area %0.2f) % roc_auc) plt.plot([0, 1], [0, 1], colornavy, lw2, linestyle--) plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.xlabel(False Positive Rate) plt.ylabel(True Positive Rate) plt.title(Receiver Operating Characteristic) plt.legend(loclower right) plt.show() cm和cr ROC 三、小结 本文利用scikit-learn一个常用的机器学习库实现了基于心脏疾病数据集建立KNN模型对心脏疾病患者进行分类预测的完整过程。 作者简介 读研期间发表6篇SCI数据挖掘相关论文现在某研究院从事数据算法相关科研工作结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创以最简单的方式理解和学习关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/85265.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

淘宝客怎么建设自己网站怎么利用网站开发app

在使用USB OTG将“自己移植的固件”烧写到eMMC中时,串口会输出“Boot interface 6 not supported”,发现很多人踩坑,我也一样。 见下图: 解决办法: 1、打开终端 输入“ls回车”,列出当前目录下所有的文件…

怀化市建设局门户网站如何使用模板建设网站

springboot配置swagger Swagger 是什么Swagger配置springboot代码展示总结 Swagger 是什么 Swagger 是一个用于构建、文档和调用 RESTful Web 服务的强大工具。它提供了以下几方面的好处: 自动生成 API 文档: Swagger 可以自动生成 API 文档,包括接口的…

江苏省城乡建设厅建设网站无水印logo免费一键生成

文章目录 在 Python 中将数据类转换为 JSON在 Python 中将数据类实现为字典在 Python 中为每个 JSON 根节点创建一个数据类 在本篇文章中,我们将了解 Python 如何支持 JSON 来为每个 JSON 根节点创建数据类。 我们还将学习 dataclass 作为 Python 字典的实现。 在 P…

湖州 网站建设网站建设分金手指专业十六

本章概要 关系运算符 测试对象等价 逻辑运算符 短路 字面值常量 下划线指数计数法 位运算符 关系运算符 关系运算符会通过产生一个布尔(boolean)结果来表示操作数之间的关系。如果关系为真,则结果为 true,如果关系为假&#xf…

专门做水生植物销售网站无极修仙网站

用antlr解析简单的语法很简单 。 您要做的就是使用正则表达式描述您的语言,并让antlr生成词法分析器和解析器。 解析大型或复杂的语言有时会需要更多,因为仅使用正则表达式描述它们是困难的,甚至是不可能的。 语义谓词是在语法内部编写的Jav…

龙岩企业网站建设制作自己如何在家做网站

介绍 在实际项目中,MySQL数据库服务器有时会位于另外一台主机,需要通过网络来访问数据库;即使应用程序与MySQL数据库在同一个主机中,访问MySQL也涉及到磁盘IO操作(MySQL也有一些数据预读技术,能够减少磁盘I…

泰州专业网站建设制作西宁哪家公司做网站

转载于:https://www.cnblogs.com/BrightMoon/p/4479375.html

响应式网站如何设计h5响应式 wordpress

目录 1. 什么是零拷贝2. 传统的IO执行流程3. 零拷贝相关知识3-1. 内核空间和用户空间3-2. 什么是用户态、内核态3-3. 什么是上下文切换3-4. 虚拟内存3-5. DMA技术 4. 零拷贝实现的几种方式4-1. mmapwrite实现的零拷贝4-2. sendfile实现的零拷贝4-3. sendfileDMA scatter/gather…

江津做电子商务网站织梦移动网站模板

起因是公司的crm录入不规范,有重复数据。 之后考虑到需要手动处理,首先需要自动找出重复的数据 查重要求: 存在多个不允许重复的字段,任一字段重复,则判断为同一个客户。划分到同一重复组中。 查重sql如下 SELECT CONCAT(组, dense_rank() OVER (ORDER BY group_key)) …

wordpress二次开发seo推广网站

[申明]转载请保留原作网站:[url]http://www.sjhf.net[/url] 关键字[LINUX误删除数据恢复][摘要]国家认证认可监督管理委员会,用于正常工作的一个重要ORACLE数据库,存储于LINUX EXT3文件系统之上。一次,管理员在建立测试库时选错了…

网站国际互联网备案号用nas做网站

6月11日,山东省教育厅举行2021年第一次高考新闻发布会,介绍2021年高考基本情况、评卷安排、成绩公布等相关工作。山东省教育招生考试院新闻发言人、普招处处长李春光介绍,根据近期国家有关工作要求和强基计划招生工作需要,原定于6…

烟台哪里做网站学风建设网站

好的,我在select字段上有一个onchange事件。它现在很棒。当下拉“网络”更改时,它会刷新第二个下拉列表。我还希望顶部的ajax代码在页面加载和onchange上触发,以便填充第二个列表。这是因为它在编辑页面上。这是使用第一个的ajax调用function…

合肥网站建设制作价格手机网站首页经典案例

1.注意点: 该题递推公式为斐波那契数列,而n达到50,是非常大的数 , 故应用循环代替递归,同时记录数据 同时用long long数组储存 ​​ 2.注意点:初始化起点,切忌重新递归找数 可以直接初始化所…

专业仿站网站建设爱佳倍 北京网站

1> 自行封装一个栈的类,包含私有成员属性:栈的数组、记录栈顶的变量 成员函数完成:构造函数、析构函数、拷贝构造函数、入栈、出栈、清空栈、判空、判满、获取栈顶元素、求栈的大小 2> 自行封装一个循环顺序队列的类,包含…

做电影网站如何推广方案WordPress网站属于什么网站

“/CommonHelpServices”应用程序中的server错误。ServiceHost 仅支持类服务类型。说明: 运行当前 Web 请求期间,出现未经处理的异常。请检查堆栈跟踪信息,以了解有关该错误以及代码中导致错误的出处的具体信息。异常具体信息: System.ArgumentException…

成都武侯区建设厅官方网站中国建设银行网站个人客户官网

0 工具准备 1.EtherCAT主站 2.EtherCAT从站(本文使用步进电机驱动器) 3.Wireshark1 抓包分析 1.1 报文总览 本文设置从站1的对象字典,设置对象字典主索引为0x2000,子索引为0x00,设置值为1500。主站通过发送SDO写报文…

宜春建设局网站施工企业的安全生产责任制度

🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaEE 操作系统 Redis 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 JavaScript简介&引入方式 简介&#xf…

设计一个完整的静态网站wordpress 小工具 开发

一、钢筋机械连接介绍1、钢筋机械连接在连接区段内接头率的规定(35d):★接头宜设置在结构构件中受拉应力较小的部位,当需要在高应力部位设置时,在同一连接区段内Ⅲ接头的接头率不应大于25%,Ⅱ接头率不应大于50%,Ⅰ接头…

微商城网站建设怎么样c2c网站建设实例

一.流量控制 1.1 较高的发送速度和较低的接收能力的不匹配,因此流量控制也是数据链路层的一项重要工作。 1.2 数据链路层的流量控制是点对点的,而传输层的流量控制是端到端的。 1.3 数据链路层流量控制手段:接收方收不下就不回复确认。 传…

网站开发报价表的文档软件开发工程师证书含金量

一、简介 它的官网为:https://ffmpeg.org/,由Fabrice Bellard(法国著名程序员Born in 1972)于2000年发起创建的开源项目。该人是个牛人,在很多领域都有很大的贡献。 FFmpeg是多媒体领域的万能工具。只要涉及音视频领…