【数据挖掘导论】——数据质量

数据质量
数据挖掘使用的数据一般是为其它用途收集或者收集的时候还没有明白目的。

因此数据经常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检測和纠正(数据清理);使用能够容忍低质量数据的算法。


測量和数据收集问题
完美的数据在实际中差点儿是不存在的,对于存在的数据质量问题,我们先定义測量误差和数据收集错误,然后考虑測量误差的各种问题:噪声,伪像。偏倚,精度和精确度。

接着讨论測量和数据收集的数据质量问题:离群点,遗漏和不一致的值,反复数据。


測量误差(measurements error)是指測量过程中导致的问题,如:记录的值与实际的值不同样。
数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包括了其它数据对象等错误。如:特定的物种研究可能混入相似物种的数据。測量和数据收集错误可能是系统的也可能是随机的。

噪声是測量误差的随即部分,如2-5显示被随机噪声干扰后的时间序列,假设噪声很的多,甚至会掩盖原有的数据。


图2-6显示的三组被加入噪声点前后的数据点集。

噪声通经常使用于包括时间或空间分量的数据,在这些情况下,能够使用图形或信号处理技术来降噪,但全然的消除是很困难的。所以数据挖掘都关注涉及鲁棒算法(robust algorithm),即在有噪声干扰下也能产生被接受的结果。数据错误也可能是更确定性现象的结果,如一组数据在同一个地方出现同样的错误。这样的确定性失真称作伪像(artifact)

精度(precision):反复測量值之间的接近程度
偏倚(bias):測量值与被測量值之间的系统的变差
假定我们有1克的标准砝码,想评估新天平的精度和偏倚,称重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}这些值的平均值是1.001,因此偏倚是0.001,。用标准差度量。精度是0.013.

准确率:被測量的測量值与实际值之间的接近度。

准确度依赖于精度和偏倚,还有一个重要的方面是有效数字(significant digit)的使用,其目的是仅使用数据准确度所能确定的数字位数表示測量或计算结果。

离群点(outlier)是在某种意义上具有不同与数据集 中其它 大部分 数据对象的特征 的数据对象。或是相对于该属性的典型值来说不平常的属性值。

称为异常(anomalous)对象或异常值。

须要注意的是差别噪声和离群点:离群点能够是合法的数据对象或值。因此不像噪声,离群点本身是人们感兴趣的对象。


遗漏值
一个对象遗漏一个或多个属性值的情况还是非常寻常的。有时甚至还会出现信息收集不全的情况。

但不管何种情况,在数据分析时都应当考虑遗漏值。

那怎么应对遗漏值:

  • 删除数据对象或属性
  • 预计遗漏值
  • 分析时忽略遗漏值

不一致的值
数据可能包括不一致的值,如:帐号和password由于手误填写错误等。不管是什么原因导致不一致的值。重要是能检測出来,而且纠正。

反复数据
数据集可能包括反复的数据对象,对于反复的数据一般都进行检測和删除。但做这些步骤之前,得处理两个问题:假设两个对象实际代表同一个对象,则相应的属性值必定不同。必须解决这些不一致的值。

须要避免意外将两个相似但不反复的数据对象合并在一起;去反复(deduplication)通常表示这一过程。


转载于:https://www.cnblogs.com/jzssuanfa/p/7142178.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/355215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

rocksdb原理_[转]Rocksdb Compaction原理

概述compaction主要包括两类:将内存中imutable 转储到磁盘上sst的过程称之为flush或者minor compaction;磁盘上的sst文件从低层向高层转储的过程称之为compaction或者是major compaction。对于myrocks来说,compaction过程都由后台线程触发&am…

P2216 [HAOI2007]理想的正方形(二维RMQ)

题目描述 有一个a*b的整数组成的矩阵,现请你从中找出一个n*n的正方形区域,使得该区域所有数中的最大值和最小值的差最小。 输入输出格式 输入格式: 第一行为3个整数,分别表示a,b,n的值 第二行至第a1行每行为b个非负整数&#xff0…

MD5加密

MD5加密package common.util;import java.math.BigInteger; import java.security.MessageDigest;/*** Package main.java.utils* Description 加密* Author zhaohuaqing*/ public class MD5 {public static final String KEY_MD5 "MD5";/*** param inputStr 输入的…

jrockit_JRockit JRCMD教程

jrockit本文将为您提供概述和教程,说明如何使用jrcmd工具对JRockit Java Heap问题进行初始分析和问题隔离。 将来的文章中将介绍使用JRockit任务控制和堆转储分析(仅JRockit R28 版)的更深入的分析和教程。 有关JRockit Java堆空间的快速概述…

jQuery 事件 - ready() 方法

jQuery 事件 - ready() 方法当 DOM(文档对象模型) 已经加载,并且页面(包括图像)已经完全呈现时,会发生 ready 事件。 1.语法1 $(document).ready(function)2.语法2 $().ready(function)3.语法3 $(funct…

axios vue 加载效果动画_vue中使用axios拦截器实现数据加载之前的loading动画显示 @劉䔳...

首先新建一个 loading.vue组件,写loading动画效果.loader {width: 100%;height: 100%;display: flex;align-items: center;justify-content: center}-webkit-keyframes loading{50% {transform: scale(.4);opacity: .3}100% {transform: scale(1);opacity: 1}}.load…

Spark学习笔记(7)---Spark SQL学习笔记

Spark SQL学习笔记 Spark SQL学习笔记设计到很多代码操作,所以就放在github, https://github.com/yangtong123/RoadOfStudySpark/blob/master/src/com/spark/sql/Readme.md其中包括了对Spark2.0的新特性的介绍,包括SparkSession, DataSet等转载于:https:…

性能实战(一) --- clock_gettime造成系统整体cpu过高定位过程

问题背景 有一台linux服务器测试环境cpu经常到达80%,造成系统卡顿,部分功能不可用. 分析步骤 1.使用perf制作cpu火焰图 通过制作cpu火焰图,发现很多进程都存在大量的clock_gettime系统调用. 2. 使用bcc工具funclatency`进一步查看clock_gettime的调用次数 # /usr/share/bc…

如果今天设计了Java:同步接口

Java已经走了很长一段路。 很长的路要走。 它带有早期设计决策中的所有“垃圾”。 一遍又一遍后悔的一件事是, 每个对象(可能)都包含一个监视器 。 几乎没有必要这样做,并且最终在Java 5中纠正了该缺陷,当时引入了新的…

简单Map缓存

简单Map缓存/*** 部门代码对应的部门名称*/private static Map<String,String> mapBmmc new HashMap<String, String>();/*** 性别性别代码对应的性别名称*/private static Map<String,String> mapMc new HashMap<String, String>();/*** descriptio…

sw二次开发 python_基于C#的SolidWorks二次开发.doc

摘要&#xff1a;气动电阻点焊钳已经被各大汽车制造厂商广泛运的用于汽车焊接工艺中。它以无污染、压力稳定、动作敏捷等优点逐步替代了国内常见的液压传动焊钳&#xff0c;改变了液压传动滞缓的现象&#xff0c;从而达到了焊接循环的要求。本次毕业设计中&#xff0c;设计者使…

玩透个人所得税

每次拿着工资条的时候&#xff0c;总有个代扣个税这么一项&#xff0c;不知道你们有没有想过这到底是怎样计算得出来的。下面我就给你们普及一下这个知识。 个人所得税 个人所得税是对个人&#xff08;自然人&#xff09;取得的各项所得征收的一种所得税。个人所得税…

@Value和Hibernate问题

Value和Could not obtain transaction-synchronized Session for current thread1.说明 Value(“#{}”) 表示SpEl表达式通常用来获取bean的属性&#xff0c;或者调用bean的某个方法。当然还有可以表示常量。 2.出现的问题 Caused by: org.hibernate.HibernateException: Cou…

u32转换bool类型_4.29.类型转换

类型转换casting-between-types.mdcommit 6ba952020fbc91bad64be1ea0650bfba52e6aab4Rust&#xff0c;和它对安全的关注&#xff0c;提供了两种不同的在不同类型间转换的方式。第一个&#xff0c;as&#xff0c;用于安全转换。相反&#xff0c;transmute允许任意的转换&#xf…

用原生JS读写CSS样式的方法总结

一、可以通过DOM节点对象的style对象(即CSSStyleDeclaration对象)来读写文档元素的CSS样式如&#xff1a;var elm document.getElementById(test);elm.style.color black;二、通过Element对象的getAttribute()、setAttribute()、removeAttribute()直接读写style属性如&#x…

html5开发ria_用于RIA的JavaFX 2与HTML5

html5开发ria这些天来&#xff0c;我们正在启动一个新项目&#xff0c;以实现Rich Internet Application&#xff08;RIA&#xff09; 。 第一个问题是&#xff1a;我们应该使用哪些技术和框架&#xff1f; 后端将是Java或其他现代JVM语言&#xff0c;因为我们是经验丰富的Java…

js里面拼接代码和使用ModelAndView

js里面拼接代码和使用ModelAndView1.js里面拼接代码 <tr><td class"tdTitle">性别</td><td class"tdCont"><select name"yhxb" id"yhxb" class"inputSel" style"width: 100px"><…

哔哩哔哩swot分析_哔哩哔哩2020校园招聘游戏运营笔试真题

在前不久《英雄联盟》S9世界大赛总决赛上&#xff0c;中国FPX战队以3&#xff1a;0横扫欧洲G2最终夺得S9世界冠军&#xff0c;国内玩家万分激动。总决赛刚结束不久&#xff0c;B站以8亿元价格拍得《英雄联盟》全球总决赛中国地区三年独家直播版权。作为主打年轻人群体起家的产品…

P2280 [HNOI2003]激光炸弹

P2280 [HNOI2003]激光炸弹 题目描述 输入输出格式 输入格式&#xff1a;输入文件名为input.txt 输入文件的第一行为正整数n和正整数R&#xff0c;接下来的n行每行有3个正整数&#xff0c;分别表示 xi&#xff0c;yi &#xff0c;vi 。 输出格式&#xff1a;输出文件名为output.…

在Spring Boot中使用配置元数据来配置您的配置

Spring Boot 1.3.0中发布了许多更新&#xff0c;但是其中一个对我很突出&#xff0c;因为我以前并不了解此更新&#xff0c;它的状态使其成为一项真正有用的功能&#xff08;不幸的是&#xff0c;撰写本文时仅在Spring Boot中可用&#xff09;这个&#xff09;。 我正在谈论配置…