【漫话机器学习系列】257.填补缺失值(Imputing Missing Values)

数据科学必备技能:填补缺失值(Imputing Missing Values)

在数据分析和机器学习项目中,缺失值(Missing Values) 是非常常见的问题。缺失的数据如果处理不当,会严重影响模型的训练效果,甚至导致模型性能大幅下降。因此,掌握缺失值填补的方法,是数据科学工作中非常重要的一步。

本文将基于一张图,详细介绍几种常见且实用的缺失值填补方法,并结合实际例子进行讲解。


1. 定量分析:用平均值填补

如果缺失的是定量变量(Quantitative Variable),如数值型数据:年龄、身高、收入等,常用均值(mean)进行填补。

原理:均值可以代表数据的整体水平,用均值填补可以尽量减少数据波动带来的影响。

示例
假设你有一组数据:

年龄
25
27
NaN
29
31

缺失了一个年龄值,可以先计算现有数据的平均值:

然后将缺失值填补为28。

代码示例(Python + Pandas)

import pandas as pddf = pd.DataFrame({'Age': [25, 27, None, 29, 31]})
df['Age'].fillna(df['Age'].mean(), inplace=True)
print(df)

2. 定性分析:用众数填补

如果缺失的是定性变量(Categorical Variable),如性别、城市类别、颜色等,常用众数(mode)进行填补。

原理:众数是出现次数最多的类别,使用众数可以最大限度保持数据分布的一致性。

示例
假设你的数据如下:

城市
北京
上海
NaN
北京
广州

北京出现次数最多,因此缺失值可以填补为“北京”。

代码示例(Python + Pandas)

import pandas as pddf = pd.DataFrame({'City': ['北京', '上海', None, '北京', '广州']})
df['City'].fillna(df['City'].mode()[0], inplace=True)
print(df)

3. 使用模型预测填补缺失值

对于缺失值较多、或者缺失值和其他特征有明显相关性的情况,可以使用预测模型来填补缺失值。例如,使用 K近邻(KNN)决策树线性回归等算法。

3.1 K近邻(KNN)填补

KNN可以根据数据中与缺失值样本最相似的其他样本的特征,预测其可能的取值。

原理简述

  • 找到与缺失样本最接近的K个完整样本;

  • 取这K个样本中对应特征的均值(定量)或众数(定性)作为填补值。

代码示例(Python + sklearn)

import numpy as np
import pandas as pd
from sklearn.impute import KNNImputerdf = pd.DataFrame({'Height': [1.7, 1.8, np.nan, 1.6, 1.75],'Weight': [65, 80, 70, 60, 75]
})imputer = KNNImputer(n_neighbors=2)
df_filled = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(df_filled)

拓展内容:其他常用填补策略

除了以上三种常见方法,还有一些高级处理方法:

  • 插值法(Interpolation):适用于时间序列数据,比如线性插值、样条插值等。

  • 基于多重插补(MICE):多次预测缺失值,减少单次预测误差。

  • 直接删除缺失行/列:如果缺失比例非常高,可以考虑删除相关样本或特征。

  • 添加缺失值指示变量:为缺失的位置添加0/1标记,作为额外特征喂给模型。

选择哪种方法,需要根据数据特点、业务需求、模型要求综合判断。


总结

场景填补方法
定量分析(数值型)平均值填补
定性分析(类别型)众数填补
缺失复杂、相关性强建模预测填补

掌握缺失值处理的正确姿势,可以有效提升数据质量,保证后续分析和建模的准确性。在实际工作中,建议结合探索性数据分析(EDA)对缺失情况进行全面了解后,制定最适合的填补策略。


如果你觉得本文有帮助,欢迎点赞、收藏或留言交流~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80682.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于千眼狼高速摄像机与三色掩模的体三维粒子图像测速PIV技术

研究背景 航空航天、能源动力领域,测量三维瞬态流场的速度场信息对于理解流体力学行为、优化系统设计非常关键。 传统三维粒子图像测速技术如Tomo层析PIV,因依赖多相机阵列,存在系统体积、操作复杂,在封闭空间测量存在困难&#…

MongoDB 的主要优势和劣势是什么?适用于哪些场景?

MongoDB 的主要优势 (Advantages) 灵活的文档模型 (Flexible Document Model): 无需预定义模式 (Schemaless/Flexible Schema): 这是 MongoDB 最核心的优势之一。它存储 JSON 格式的文档,每个文档可以有不同的字段和结构。这使得在开发过程中修改数据结构非常容易&a…

css iconfont图标样式修改,js 点击后更改样式

背景: 在vue项目中,通过点击/鼠标覆盖,更改选中元素的样式,可以通过js逻辑,也可以根据css样式修改。包括以下内容:iconfont图标的引入以及使用,iconfont图标样式修改【导入文件是纯白&#xff0…

CosyVoice介绍

CosyVoice介绍 CosyVoice是阿里开源的一个多语言语音生成大模型,可应用于TTS(Text To Speech) 工具的开发。它支持内置预制语音生成、语音克隆、自然语言控制语音生成等功能。CosyVoice的另一个亮点在于它对生成语音情感和韵律的精细控制,这是通过富文本…

分布式任务调度XXL-Job

​ XXL-Job 是一款轻量级、分布式的任务调度平台,其核心设计解决了传统任务调度(如Quartz)在分布式场景下的‌任务分片‌、‌高可用‌、‌可视化管控‌等痛点。以下从原理、核心架构、应用场景、代码示例及关联中间件展开详解 一、主流任务…

GOOSE 协议中MAC配置

在 GOOSE(Generic Object Oriented Substation Event)协议中,主站(Publisher)发送的 MAC 地址不需要与从站(Listener)的 MAC 地址一致,其通信机制与 MAC 地址的匹配逻辑取决于 GOOSE…

交流充电桩IEC 61851-1和IEC 61851-21-2标准测试项目

交流充电桩IEC 61851-1和IEC 61851-21-2标准测试项目 立讯检测的光储充实验室专注于光伏、储能、充电设施等新能源领域的检测与认证服务,以下是详细介绍: ‌1. 实验室概况‌ ‌覆盖领域‌:光伏逆变器、储能电池系统、充电桩、便携式储能电…

备战菊厂笔试2-BFS记忆化MLE?用Set去重-Set会TLE?用SortedSet剪枝

目录 200.岛屿数量 不用getnei,直接在dfs判断,去掉解包 如果害怕栈溢出那么可以用bfs 2617.网格图中最少访问的格子数 注意特判! MLE主要是因为vis占用的内存过大 用SortedSet有序剪枝 什么是SortedSet? 基本性质 导入 …

STM32H743输出50%的占空比波形

使用cubeMX进行配置如下: 时钟配置如下: 具体代码如下: /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program b…

MYSQL 查询去除小数位后多余的0

MYSQL 查询去除小数位后多余的0 在MySQL中,有时候我们需要去除存储在数据库中的数字字段小数点后面多余的0。这种情况通常发生在处理金额或其他需要精确小数位的数据时。例如,数据库中存储的是decimal (18,6)类型的数据,但在页面展示时不希望…

物理:从人体组成角度能否说明基本粒子的差异性以及组织结构的可预设性?

人类的个体差异源于粒子组合的复杂性、环境与随机性的相互作用,而非基本粒子本身的差异性。以下分层次解析: 一、基本粒子的同质性与组合多样性 1. 基本粒子的同一性 标准模型确认:同种类基本粒子(如电子、上夸克)具有完全相同的质量、电荷等属性,不存在个体差异。泡利不…

应用探析|千眼狼PIV测量系统在职业病防治中的应用

1、职业病防治背景 随着《职业病防治法》及各省市“十四五”职业病防治规划的深入推进,工作场所粉尘危害监测与防控已成为疾控部门的核心任务。以矿山、建材、冶金、化工等行业为例,粉尘浓度、分布及传播特性的精准测量是评估职业病风险的关键。 传统的…

串口模块详细讲解

目录 1.串口介绍 2。STC-ISP串口功能介绍 3.接口及引脚定义 4.串口知识点 4.1 硬件电路 4.2 电平标准 4.3 相关术语 4.4 常见通信接口比较 4.5 51单片机的UART 4.6 串口参数及时序图 4.7 串口模式图 4.8 串口和中断系统 4.9 串口相关寄存器 5.串口向电脑发送信息…

基于大模型的腰椎管狭窄术前、术中、术后全流程预测与治疗方案研究报告

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 二、腰椎管狭窄概述 2.1 定义与分类 2.2 发病原因与机制 2.3 临床表现与诊断方法 三、大模型技术原理与应用现状 3.1 大模型的基本原理 3.2 在医疗领域的应用案例 3.3 选择大模型预测腰椎管狭窄的依据 四、…

【2025年前端高频场景题系列】使用同一个链接,如何实现PC打开是web应用、手机打是-个H5 应用?

面试情境与问题引入 哈喽大家伙,我是布鲁伊。在前端开发面试中,面试官经常会抛出一些看似简单却能考察多方面能力的问题。"如何实现同一个链接在PC端和移动端展示不同应用?"就是这样一个典型问题。为什么面试官喜欢问这个问题?因为它能同时考察候选人的设备适配…

医疗实时操作系统方案:手术机器人的微秒级运动控制

一、引言 手术机器人作为现代医疗技术的重要突破,正不断推动着外科手术向精准化、微创化和智能化的方向发展。直觉外科(Intuitive Surgical)作为手术机器人领域的领军企业,其达芬奇手术机器人系统已被广泛应用于全球众多医疗机构…

数据结构基础--蓝桥杯备考

1.优缺点总述 STL中各容器对比图 各类线性数据结构优缺点 1.数组 1.优点 1.简单,容易理解 2.访问快捷,只需要用下标就可以 3.有某些应用场景直接对应,例如二维数组对应平面 2.缺点 删除和插入数据非常耗时 2.链表 1.优点 插入和删…

运用数组和矩阵对数据进行存取和运算——NumPy模块 之六

目录 NumPy模块介绍 3.6.1 数组之间的运算 3.6.2 算术运算 3.6.3 比较运算 3.6.4 逻辑运算 3.6.5 矩阵运算 3.6.6 广播运算 3.6.7 聚合运算 3.6.8 三角函数与指数对数运算 3.6.9 位运算 3.6.10 条件运算 3.6.11 数组的统计运算 3.6.12 关键问题:数组之间的运算对数组的维度有要…

JGL066生活垃圾滚筒筛分选机实验装置

JGL066生活垃圾滚筒筛分选机实验装置 一.实验目的 本实验对生活垃圾滚筒分选机进行垃圾分选的实验。通过实验达到以下目的: 1.了解分选的原理、方法和影响分选效果的主要因素。 2.确定分选的适宜条件。 二.技术指标 1.生活垃圾分选机处理量分为0.5~2t/h。 2.运动参数…

Excelize 开源基础库发布 2.9.1 版本更新

Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库,基于 ECMA-376,ISO/IEC 29500 国际标准。可以使用它来读取、写入由 Excel、WPS、OpenOffice 等办公软件创建的电子表格文档。支持 XLAM / XLSM / XLSX / XLTM / XLTX 等多种文档格式&#xf…