数据分析_数据预处理

1 数据预处理流程

        ①数据清洗:处理数据缺失、数据重复、数据异常等问题,提升数据质量.

        ②数据转换:涵盖基本数据转换、语义数据转换、衍生数据转换和隐私数据转换,适配分析需求.

        ③数据集成:整合多源数据.

2 数据清洗

2.1 数据缺失

2.1.1 数值型数据缺失

        数值型列的部分数值不存在,例如在员工薪资数据中个别薪资值缺失.

(1) 识别方法

        ①数据完整性特征分析:统计缺失值的数量和比例,能直观地呈现数据缺失的程度.

        ②描述性统计分析:计算均值、中位数、标准差等指标,缺失值的存在可能导致均值和中位数发生较大波动,标准差异常增大.

(2) 处理方法

        ①填充法:计算非缺失数据的平均值、中位数进行填补,或者填充默认值.均值易受极端值影响,适用于数据分布相对均匀的情况;当数据存在极端值时,中位数更能代表数据的一般水平.

         ②模型预测填补:利用其他相关特征建立机器学习模型,如线性回归模型.以预测房屋价格为例,若部分房屋价格数据缺失,可基于房屋面积、房龄、周边配套等特征构建模型来预测缺失的价格值.此方法能挖掘数据内在关系,但模型构建较复杂.

        ③删除策略:若该列对整体分析并非关键,且大量缺失使其无法提供有效信息,可删除此列;若缺失值所在记录的其他信息价值不大,也可删除整行记录,但要注意可能丢失潜在信息.

2.1.2 类别型数据缺失

        类别型数据集中部分类别信息不存在,例如在产品类别统计数据里部分产品的类别标注缺失.

(1) 识别方法

        ①分布分析:计算各分类的频率和占比.缺失值的存在会导致某些分类的频率异常低或占比失衡.例如在统计客户所属行业分布时,若某行业频率极低,可能存在缺失值.

        ②合规性检查_数据字典匹配:建立数据字典,将类别数据与字典中的合法取值进行比对,不在字典范围内或无值的视为缺失.比如产品类别有明确规定的取值范围,通过比对可找出缺失值.

(2) 处理方法

        ①众数填补:找出该列出现频率最高的类别,用众数填补缺失值.例如在客户职业信息中,"公司职员"出现频率最高,缺失的职业信息可用 "公司职员"填补.

        ②单独分类:将缺失值作为一个新的类别处理.如在商品类别数据中,将缺失的商品类别标记为 "未知类别”,在后续分析中单独考虑.

        ③删除策略:若该列对整体分析并非关键,且大量缺失使其无法提供有效信息,可删除此列;若缺失值所在记录的其他信息价值不大,也可删除整行记录,但要注意可能丢失潜在信息.

2.2 数据重复

2.2.1 全字段重复

        数据集中存在完全相同的记录.

(1) 识别方法

        数据重复特征分析_基于全字段匹配:将数据集中的每一条记录与其它所有记录进行比较,判断所有字段的值是否完全相同.这种方法准确性高,但计算量较大,适用于数据量较小的情况.

(2) 处理方法

        保留一条并删除其余:根据业务需求,通常保留首次出现的记录,删除后续重复的,以保证数据的唯一性,减少冗余.


2.2.2 关键字段重复

        数据集中部分记录在关键标识字段上的值相同,这些关键字段能唯一标识一条记录的特定含义.例如在订单数据表中,"订单编号"是关键字段,若出现多条记录的"订单编号"相同,但其他订单信息有差异.

(1) 识别方法

        数据重复特征分析_基于关键字段匹配:根据业务逻辑确定关键字段,比较这些字段的值来判断记录是否重复.此方法计算效率较高,但需要准确选择关键字段,否则可能会误判或漏判重复数据,适用于数据量较大的情况.

(2) 处理方法

        ①数据核对与修正:对于关键字段重复但其他信息有差异的记录,需进一步核对业务数据来源,确定正确的记录内容,修正错误或重复的数据.

        ②合并相关信息:如果重复记录的其他信息都有保留价值,可按照一定规则合并.比如将重复订单记录中的不同备注信息合并到一条记录中,同时保证关键字段的唯一性.

2.3 数据值异常

2.3.1 数值型数据异常

        数值型数据中存在与其他数据分布明显不同的值,这些异常值可能因数据录入错误、测量误差或特殊情况产生.例如学生考试成绩数据中,多数成绩集中在 50 - 100 分,却有成绩为 150 分的.

(1) 识别方法

        ①异常值检测_范围检查法:依据业务知识或数据经验设定合理取值范围.例如考试成绩设定在 0 - 100 分,超出此范围视为异常.

        ②异常值检测_三倍标准差法(3σ 原则):利用正态分布特性,通过计算均值与标准差确定异常值范围.计算简便,但对极端值敏感.适用于符合或近似正态分布的数据场景.

        ③异常值检测_四分位距法(IQR):基于数据分位数来识别异常值,计算简单,对极端值不敏感.适用于数据分布有一定规律,需快速定位明显异常值的场景.

(2) 处理方法

        ①调查核实:先调查异常值产生原因,如果属于特殊情况,确认后可特殊标注保留.

        ②修正异常值:若能确定是录入错误,直接修正.

        ③替代异常值:使用均值、中位数等统计量替代异常值.

        ④模型预测修正:借助其他相关特征构建模型预测合理值替代异常值.如结合学生平时表现、作业成绩等预测考试成绩,替代异常成绩.

        ⑤删除异常值:当异常值对分析影响极大且无法修正或替代时,可删除该记录,但需谨慎,以防丢失信息.


2.3.2 类别型数据异常

        类别型数据中出现不符合常规类别设定的值,这些异常值可能因数据录入错误、测量误差或特殊情况产生.例如在性别字段中,预定类别为"男"和"女",却出现 "中"这样的非法类别.

(1) 识别方法

        ①分布分析:计算各类别出现的频率,设定频率阈值,低于该阈值的类别视为罕见类别.

        ②合规性检查_数据字典匹配:建立数据字典,包含所有合法类别值.将数据与字典比对,不在字典中的即为非法类别.

(2) 处理方法

        ①调查确认:先调查异常值产生原因,如果属于特殊情况,确认后可特殊标注保留.

        ②修正为合法值:若能确定是录入错误,直接修正.

        ③归为其他类别:若无法确定正确类别,将异常类别归为"其他"类别,以便后续分析.

        ④合并或删除:对于不合理的罕见类别,可将其合并到相近类别或删除相关记录.

2.4 数据格式异常

2.4.1 日期格式异常

        数据中日期的表示形式不符合统一规范或约定格式.

(1) 识别方法

        ①正则表达式匹配:使用正则表达式匹配常见日期格式,不匹配的日期数据可能存在格式异常.

        ②函数识别:尝试将日期数据转换为标准格式,转换失败的即为格式异常数据.

(2) 处理方法

        格式转换:根据数据整体的日期格式倾向,利用工具函数将异常格式转换为统一标准格式.

2.4.2 数值格式异常

        数值数据的表示方式不符合常规的数字格式规范,包括小数点位数、千位分隔符使用不当或数据类型错误等.例如在产品价格数据中,价格的形式有"1,000.50"、"1000.50" 、"一千元".

(1) 识别方法

        ①数据类型检查:检查数据列的数据类型,若应为数值型却显示为其他类型,则可能存在格式异常.

        ②格式匹配:对于特定格式要求的数据,使用正则表达式匹配格式,不匹配的视为格式异常.

(2) 处理方法

        ①类型转换:将文本类型的数值转换为合适的数值类型.

        ②格式修正:按照业务需求,统一转成需要的格式

2.4.3 文本格式异常

        文本数据出现不符合预期的格式,如大小写混乱、包含多余空格、特殊字符不当使用等.

(1) 识别方法

        ①正则表达式检查:使用正则表达式匹配规范文本格式,不匹配的文本可能存在格式异常.

        ②字符串函数判断:通过字符串函数判断格式异常       

(2) 处理方法

        ①字符串大小写统一

        ②去除多余空格

        ③去除特殊字符

3 数据转换

3.1 数据格式转换

        ①格式转换:统一数据类型,如字符串转日期、整型转浮点型

        ②规范格式:如统一小数位数和字符串长度.

        ③编码转换:统一字符编码,防止数据显示和处理乱码.

3.2 语义数据转换

        依业务规则改变数据值,如标准化、离散化.

3.3 衍生数据转换

        ①通过运算生成衍生字段:利用现有数据字段进行数学运算、逻辑运算等生成新字段.

        ②数据聚合:对数据进行汇总操作.


3.4 隐私数据转换

        采用掩码处理等方式,对身份证号、手机号等加密,以保护敏感信息.

4 数据集成

4.1 数据源集成

        将不同来源、不同形式的数据整合一份完整的数据.

4.2 数据格式集成

        ①结构统一:不同数据源的数据结构可能不同,例如一个数据源中客户地址信息是单个文本字段,而另一个数据源按省、市、区等分开存储,集成时需统一结构.

        ②格式规范:将不同来源的数据,统一为一种类型和标准格式.

4.3 数据语义集成

        ①消除歧义:相同的数据字段在不同数据源可能有不同含义,需要统一对字段的理解.

        ②统一编码与标准:建立统一的编码标准,将各数据源的编码映射到标准编码.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/904879.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue +xlsx+exceljs 导出excel文档

实现功能:分标题行导出数据过多,一个sheet表里表格条数有限制,需要分sheet显示。 步骤1:安装插件包 npm install exceljs npm install xlsx 步骤2:引用包 import XLSX from xlsx; import ExcelJS from exceljs; 步骤3&am…

ThinkPad T440P如何从U盘安装Ubuntu24.04系统

首先制作一个安装 U 盘。我使用的工具是 Rufus ,它的官网是 rufus.ie ,去下载最新版就可以了。直接打开这个工具,选择自己从ubuntu官网下载Get Ubuntu | Download | Ubuntu的iso镜像制作U盘安装包即可。 其次安装之前,还要对 Thi…

第十七次博客打卡

今天学习的内容是动态规划算法。 动态规划算法(Dynamic Programming,简称 DP)是一种通过将复杂问题分解为更小的子问题来求解的算法思想。它主要用于解决具有重叠子问题和最优子结构特性的问题。 一、动态规划的基本概念 1. 最优子结构 一个复…

视觉革命来袭!ComfyUI-LTXVideo 让视频创作更高效

探索LTX-Video 支持的ComfyUI 在数字化视频创作领域,视频制作效果的提升对创作者来说无疑是一项重要的突破。LTX-Video支持的ComfyUI便是这样一款提供自定义节点的工具集,它专为改善视频质量、提升生成速度而开发。接下来,我们将详细介绍其功…

Java版ERP管理系统源码(springboot+VUE+Uniapp)

ERP系统是企业资源计划(Enterprise Resource Planning)系统的缩写,它是一种集成的软件解决方案,用于协调和管理企业内各种关键业务流程和功能,如财务、供应链、生产、人力资源等。它的目标是帮助企业实现资源的高效利用…

CenOS7切换使用界面

永久切换 在开始修改之前,我们首先需要查看当前的启动模式。可以通过以下命令来实现: systemctl get-default执行此命令后,系统会返回当前的默认启动模式,例如graphical.target表示当前默认启动为图形界面模式。 获取root权限&…

Dify使用总结

最近完成了一个Dify的项目简单进行总结下搭建服务按照官方文档操作就行就不写了。 进入首页之后由以下组成: 探索、工作室、知识库、工具 探索: 可以展示自己创建的所有应用,一个应用就是一个APP,可以进行测试使用 工作室包含…

计网学习笔记———网络

🌿网络是泛化的概念 网络是泛化的概念 🍂泛化理解 网络的概念在生活中无处不在举例:社交网络、电话网路、电网、计算机网络 🌿网络的定义 定义: 离散的个体通过通讯手段连成群体,实现资源的共享与交流、个…

《Python星球日记》 第53天:卷积神经网络(CNN)入门

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、图像表示与通道概念1. 数字图像的本质2. RGB颜色模型3. 图像预处理 二、卷积…

SpringBoot2集成xxl-job详解

官方教程 搭建调度中心 Github Gitee 注:版本3.x开始要求Jdk17;版本2.x及以下支持Jdk1.8。如对Jdk版本有诉求,可选择接入不同版本 clone源代码执行xxl-job\doc\db\tables_xxl_job.sql # # XXL-JOB v2.4.1 # Copyright (c) 2015-present, x…

HashMap中put()方法的执行流程

HashMap 是 Java 中最常用的数据结构之一,用于存储键值对。其 put() 方法是向哈希表中插入或更新键值对的核心操作。本文将详细解析 put() 方法的执行过程,涵盖哈希值计算、桶定位、冲突处理和扩容等步骤。 一、put() 方法的执行过程 put() 方法通过一系…

【Oracle认证】MySQL 8.0 OCP 认证考试英文版(MySQL30 周年版)

文章目录 1、MySQL OCP考试介绍2、考试注册流程3、考试复习题库 Oracle 为庆祝 MySQL 30 周年,截止到2025.07.31 之前。所有人均可以免费考取原价245美元 (约1500)的MySQL OCP 认证。 1、MySQL OCP考试介绍 OCP考试 OCP认证是Oracle公司推…

SpringBoot框架开发网络安全科普系统开发实现

概述 基于SpringBoot框架的网络安全科普系统开发指南,该系统集知识科普、案例学习、在线测试等功能于一体,本文将详细介绍系统架构设计、功能实现及技术要点,帮助开发者快速构建专业的网络安全教育平台。 主要内容 系统功能架构 本系统采…

浏览器HTTP错误、前端常见报错 和 Java后端报错

以下是 浏览器HTTP错误、前端常见报错 和 Java后端报错 的综合整理,包括原因和解决方法,帮助你快速排查问题。 一、HTTP 错误(浏览器报错) 错误码原因解决方法400 Bad Request请求语法错误(如参数格式错误、请求体过…

TypeScript简介

🌟 TypeScript入门 TypeScript 是 JavaScript 的超集,由微软开发并维护,通过静态类型检查和现代语言特性,让大型应用开发变得更加可靠和高效。 // 一个简单的 TypeScript 示例 interface User {name: string;age: number;greet():…

[ctfshow web入门] web57

信息收集 这下把.也过滤了&#xff0c;临时文件上传无法使用了 //flag in 36.php if(isset($_GET[c])){$c$_GET[c];if(!preg_match("/\;|[a-z]|[0-9]|\|\|\#|\|\"|\|\%|\x09|\x26|\x0a|\>|\<|\.|\,|\?|\*|\-|\|\[/i", $c)){system("cat ".$c…

Android 移动应用开发:页面跳转与数据传递功能

目录 ✅ 运行效果说明 &#x1f4c1; 文件一&#xff1a;MainActivity.java&#xff08;语言&#xff1a;Java&#xff09; &#x1f4c1; 文件二&#xff1a;Edit_MainActivity.java&#xff08;语言&#xff1a;Java&#xff09; &#x1f4c1; 文件三&#xff1a;activi…

MySQL如何优雅的执行DDL

一、概述 在MySQL中&#xff0c;DDL&#xff08;数据定义语言&#xff09;语句用于定义和管理数据库结构&#xff0c;包括创建、修改和删除数据库对象&#xff08;如表、索引等&#xff09;。执行DDL操作时&#xff0c;需要谨慎处理&#xff0c;以避免对生产环境的稳定性和性能…

onenet连接微信小程序(mqtt协议)

一、关于mqtt协议 mqtt协议常用于物联网&#xff0c;是一种轻量级的消息推送协议。 其中有三个角色&#xff0c;Publisher设备&#xff08;客户端&#xff09;发布主题到服务器&#xff0c;其他的设备通过订阅主题&#xff0c;获取该主题下的消息&#xff0c;Publisher可以发…

【Unity笔记】实现支持不同渲染管线的天空盒曝光度控制组件(SkyboxExposureController)——参数化控制

写在前面 在Unity中&#xff0c;天空盒&#xff08;Skybox&#xff09;不仅承担视觉上的背景作用&#xff0c;更是场景环境光照与氛围塑造的重要组成部分。不同时间、天气、场景转换等&#xff0c;都需要灵活调整天空的亮度。而**曝光度&#xff08;Exposure&#xff09;**就是…