处理数据中的缺失值--删除缺少值的行

两个最主要的处理缺失值的方法是:
❏ 删除缺少值的行;
❏ 填充缺失值;

我们首先将serum_insulin的中的字段值0替换为None,可以看到缺失值的数量为374个;

print(pima['serum_insulin'].isnull().sum())
pima['serum_insulin'] = pima['serum_insulin'].map(lambda x:x if x != 0 else None)
print(pima['serum_insulin'].isnull().sum())
# 0
# 374

替换所有的缺失字段,可以看到不同字段缺失值的情况是不一样的;

columns = ['serum_insulin', 'bmi', 'plasma_glucose_concentration','diastolic_blood_pressure', 'triceps_thickness']
for c in columns:pima[c].replace([0], [None], inplace=True)print(pima.isnull().sum())
# times_pregnant                    0
# plasma_glucose_concentration      5
# diastolic_blood_pressure         35
# triceps_thickness               227
# serum_insulin                   374
# bmi                              11
# pedigree_function                 0
# age                               0
# onset_diabetes                    0
# dtype: int64

可以看到此时describe不会针对有缺失值的列进行计算

print(pima.describe())
#        times_pregnant  pedigree_function         age  onset_diabetes
# count      768.000000         768.000000  768.000000      768.000000
# mean         3.845052           0.471876   33.240885        0.348958
# std          3.369578           0.331329   11.760232        0.476951
# min          0.000000           0.078000   21.000000        0.000000
# 25%          1.000000           0.243750   24.000000        0.000000
# 50%          3.000000           0.372500   29.000000        0.000000
# 75%          6.000000           0.626250   41.000000        1.000000
# max         17.000000           2.420000   81.000000        1.000000

我们可以自己手动计算均值

# print(pima['plasma_glucose_concentration'].mean(), pima['plasma_glucose_concentration'].std())# 121.6867627785059 30.53564107280403

处理缺失数据最简单的方式就是丢弃数据行,我们使用dropna方法进行处理,可以看到将近丢弃一半的数据;从机器学习的角度考虑,尽管数据都有值、很干净,但是我们没有利用尽可能多的数据,忽略了一半以上的观察值。

pima_dropped = pima.dropna()
rows = pima.shape[0]
rows_dropped = pima_dropped.shape[0]
num_rows_lost = round(100*(rows-rows_dropped)/rows)
print('lost {}% rows'.format(num_rows_lost))
# lost 49% rows

通过以下我们可以看到糖尿病的患病概率影响并不是很大;

print(pima['onset_diabetes'].value_counts(normalize=True))
print(pima_dropped['onset_diabetes'].value_counts(normalize=True))
# onset_diabetes
# 0    0.651042
# 1    0.348958
# Name: proportion, dtype: float64
# onset_diabetes
# 0    0.668367
# 1    0.331633
# Name: proportion, dtype: float64

通过以下可以看到各个字段的均值处理前后的大小

pima_mean = pima.mean()
pima_dropped_mean = pima_dropped.mean()
print(pima_mean)
print(pima_dropped_mean)
# times_pregnant                    3.845052
# plasma_glucose_concentration    121.686763
# diastolic_blood_pressure         72.405184
# triceps_thickness                 29.15342
# serum_insulin                   155.548223
# bmi                              32.457464
# pedigree_function                 0.471876
# age                              33.240885
# onset_diabetes                    0.348958
# dtype: object# times_pregnant                     3.30102
# plasma_glucose_concentration    122.627551
# diastolic_blood_pressure         70.663265
# triceps_thickness                29.145408
# serum_insulin                   156.056122
# bmi                              33.086224
# pedigree_function                 0.523046
# age                              30.864796
# onset_diabetes                    0.331633
# dtype: object

可以看到进行数据处理之后,每个字段的变化率

mean_percent = (pima_dropped_mean - pima_mean) / pima_mean
print(mean_percent)
# times_pregnant                 -0.141489
# plasma_glucose_concentration    0.007731
# diastolic_blood_pressure       -0.024058
# triceps_thickness              -0.000275
# serum_insulin                   0.003265
# bmi                             0.019372
# pedigree_function               0.108439
# age                            -0.071481
# onset_diabetes                  -0.04965
# dtype: object

通过饼图查看各个字段的百分比变化;

ax = mean_percent.plot(kind='bar', title='% change in average column values')
ax.set_ylabel('% change')
plt.show()

可以看到,times_pregnant(怀孕次数)的均值在删除缺失值后下降了14%,变化很大!pedigree_function(糖尿病血系功能)也上升了11%,也是个飞跃。可以看到,删除行(观察值)会严重影响数据的形状,所以应该保留尽可能多的数据。

使用处理过的数据训练scikit-learn的K最近邻(KNN,k-nearest neighbor)分类模型,可以看到最好的邻居数是7个,此时KNN模型的准确率是74.5%;

from sklearn.neighbors import  KNeighborsClassifier
from sklearn.model_selection import  GridSearchCVX_dropped = pima_dropped.drop('onset_diabetes', axis= 1)
print('learning from {} rows'.format(X_dropped.shape[0]))
y_dropped = pima_dropped['onset_diabetes']knn_para = {'n_neighbors':[1,2,3,4,5,6,7]}
knn = KNeighborsClassifier()
grid = GridSearchCV(knn, knn_para)
grid.fit(X_dropped, y_dropped)
print(grid.best_score_, grid.best_params_)# learning from 392 rows
# 0.7348263550795197 {'n_neighbors': 7}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/172815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS(七)——@BuilderParam装饰器

前言: 前面我们认识了Builder装饰器:自定义构建函数,今天我们继续认识下一个装饰器——BuilderParam装饰器。 当开发者创建了自定义组件,并想对该组件添加特定功能时,例如在自定义组件中添加一个点击跳转操作。若直接…

常见树种(贵州省):022绣线菊、月月青、金合欢、胡枝子、白刺花

摘要:本专栏树种介绍图片来源于PPBC中国植物图像库(下附网址),本文整理仅做交流学习使用,同时便于查找,如有侵权请联系删除。 图片网址:PPBC中国植物图像库——最大的植物分类图片库 一、绣线菊…

100天精通Python(可视化篇)——第109天:Pyecharts绘制各种常用地图(参数说明+代码实战)

文章目录 专栏导读一、地图应用场景二、参数说明1. 导包2. add函数 三、地图绘制实战1. 省市地图2. 中国地图3. 中国地图(带城市)4. 中国地图(分段型)5. 中国地图(连续型)6. 世界地图7. 行程轨迹地图8. 人口…

WebUI自动化学习(Selenium+Python+Pytest框架)001

开启另一篇学习之路_WebUI自动化 先来一波基础概念 1.自动化适合什么类型的项目: 重复性高,迭代频率高的回归测试。数据量大、手工难以实现的压力测试,手工执行效率低的兼容测试 2.自动化的优点: 高效率、可重复、减少人为错误、克服手工测试的局限性 3.自动化…

光线追踪-Peter Shirley的RayTracingInOneWeekend系列教程(book1-book3)代码分章节整理

自己码完了一遍了,把代码分章节整理了一下,可以按章节独立编译,运行, 也可以直接下载编译好的release版本直接运行。 项目地址: Github: https://github.com/disini/RayTracingInOneWeekendChaptByChapt ​ ​ ​ ​

17 Go的文件操作

概述 在上一节的内容中,我们介绍了Go的反射,包括:reflect.TypeOf、reflect.ValueOf、reflect.Value等。在本节中,我们将介绍Go的文件操作。在Go语言中,文件是一个抽象的概念,表示的是一段连续的字节序列。文…

iframe实现跨域通信的方法

在前端开发中,我们经常会遇到跨域通信的问题。跨域通信是指在浏览器的同源策略下,不同源之间的通信。本文将介绍如何通过 iframe 实现跨域通信,以及不跨域通信的方法和代码示例。 引言 跨域通信是指在浏览器的同源策略下,不同源之…

Rust语言入门教程(八) - 引用与借用

上一章的内容中我们讨论了Rust的所有权系统,当我们不想移动值的所有权时,我们可以使用引用和借用,而这正是本章想要讨论的问题。 引用(References) 引用允许你访问或修改数据而无需获取数据的所有权。在 Rust 中&…

阿里云MQTT: 子设备上线流程

0. 背景 阿里云网关子设备上平台的资料很少。有些厂家直接配置每个子设备的DeviceSecret到网关里,显然太麻烦了!我经过阅读阿里文档,发现有些简化的方法,更便于客户使用,因此分享给大家。 1. 主要信息片段 子设备 $…

屏蔽WordPress评论中长URL地址方法

由于WordPress是比较常见的CMS程序之一,所以很多网络营销推广也会基于WP去群发外链和广告信息。这里,我们可以通过屏蔽特定关键字、屏蔽特定字符的方式,或者是屏蔽评论内容的长短来限制评论。还有一个我们可以通过评论内容的URL地址的长度来屏…

基于springboot+mysql实现的小区物业管理系统

基于springbootmysql实现的小区物业管理系统,演示地址:登录 演示账号:用户名:744621980qq.com 密码:123456,主要包含房屋管理(楼栋管理,单元管理,房屋管理),车位管理,缴费管理,社区服务( 公告管理&#xf…

Linux socket编程(6):IO复用之select原理及例子

文章目录 1 五种I/O模型1.1 阻塞I/O模型1.2 非阻塞I/O模型1.3 I/O复用模型1.4 信号驱动I/O模型1.5 异步I/O模型 2 select函数3 select实战:实现多个套接字监听3.1 客户端3.2 服务端3.3 实验结果3.4 完整代码 在之前的网络编程中,我们遇到了一个问题&…

CentOS7 安装配置SFTP服务器详解

1、SFTP简介 SSH文件传输协议(英语:SSH File Transfer Protocol,也称Secret File Transfer Protocol,中文:安全文件传送协议,英文:Secure FTP或字母缩写:SFTP)是一种数据流连接,提供文件访问、传输和管理功能的

Qt TCP网络上位机的设计(通过网络编程与下位机结合)

目录 TCP 协议基础 QTcpServer 和 QAbstractSocket 主要接口函数 TCP 应用程序 1.服务端 2.客户端 上位机通过网络编程与下位机实现通信 TCP 协议基础 传输控制协议(TCP,Transmission Control Protocol)是一种面向连接的、可靠的、基于…

mysql从库设置为只读

直奔主题,mysql设置为只读后,无法增删改。 设置命令: mysql> set global read_only1; #1是只读,0是读写 mysql> show global variables like %read_only%; 以下是相关说明: 1、对于数据库读写状态&#xf…

详解RT-DETR网络结构/数据集获取/环境搭建/训练/推理/验证/导出/部署

论文地址:RT-DETR论文地址 代码地址:RT-DETR官方下载地址 目录 一、本文介绍 二、RT-DETR的网络结构 2.1、模型概览 2.2、高效混合编码器 2.3、IoU感知查询选择 2.4、 可扩展的RT-DETR 三、RT-DERT的环境搭建 四、免费数据集获取 五、获取RT-D…

Linux基本命令一

Linux基本命令一 1、mkdir 命令 mkdir ​ **作用:**命令用来创建指定的名称的目录,要求创建目录的用户在当前目录中具有写权限,并且指定的目录名不能是当前目录中已有的目录 ​ **语法:**mkdir [选项] 目录 ​ **命令功能&am…

【Android知识笔记】性能优化专题(三)

App 布局优化 绘制原理 CPU 负责计算显示内容GPU 负责栅格化(UI元素绘制到屏幕上)每 16ms 发出 VSync 信号触发 UI 渲染,代码必须保证在16ms内绘制完毕大多数的Android设备屏幕刷新频率:60Hz(人眼分辨的极限)大多数用户感知到的卡顿等性能问题的最主要根源都是因为渲染性…

爬楼梯(力扣LeetCode)动态规划

爬楼梯 题目描述 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 输入:n 2 输出:2 解释:有两种方法可以爬到楼顶。 1 阶 1 阶2 阶 示…

使用python 实现华为设备的SFTP文件传输

实验目的: 公司有一台CE12800的设备,管理地址位172.16.1.2,现在需要编写自动化脚本,通过SFTP实现简单的上传下载操作。 实验拓扑: 实验步骤: 步骤1:将本地电脑和ensp的设备进行桥接&#xff…