em模型补缺失值_基于EM算法数据单变量缺失处理方法研究

龙源期刊网

http://www.qikan.com.cn

基于

EM

算法数据单变量缺失处理方法研究

作者:黄铉

来源:《科技传播》

2015

年第

20

数据分析方法大都针对完整数据,而实际上由于一些原因,观测数据常存在缺失。

本文采用

EM

算法对正态分布下的随机缺失数据的参数进行估计。实验结果表明

EM

算法对正

态分布下的单变量缺失数据有效果,但缺失数据比例过大时该方法处理欠佳,对大比例变量缺

失的情况有待研究。

关键词

EM

;缺失数据;正态分布

中图分类号

TP39

文献标识码

A

文章编号

1674-6708

(

2015

)

149-0153-02

近年来数据库及计算机技术的发展推动了数据挖掘技术广泛地应用于各个领域。目前,对

数据进行处理的各种数据挖掘方法几乎都是以假设数据完整为前提条件。然而实际情况是数据

库里的数据往往不完整,数据缺失的情况时常发生。引起数据缺失的原因很多,比如:传感器

故障、数据传输中断、监测方式改变又或者人为因素等。如果直接对包含缺失数据的数据集进

行分析,结果会产生偏差会直接影响到后续的决策,因此对数据进行分析前对缺失数据的处理

尤为重要。

目前国内外学者针对缺失数据的研究很多,也取得了一定的成果。其中,

Rubin

(

1976

)

将缺失机制分为三类:完全随机缺失(

MCAR

)是指变量出现缺失值的可能性与模型中其他变

量无关,与该变量自身也无关,完全随机缺失机制中缺失数据的分布与完整数据分布一致。随

机缺失(

MAR

)是指变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无

关。对于随机缺失机制,缺失数据可以通过完整数据来估计。非随机缺失(

MNAR

)是指变量

的缺失值仅与自身相关。单变量缺失是指数据集中只有某个变量出现信息不完整的情况,此时

对缺失值处理首要考虑数据缺失机制,不同的缺失机制有不同的处理方法。比如成列删除或者

成对删除的方法,如果数据为

MCAR

,减少的样本其实是原样本的一个随机样本,因此删除

后对剩下的数据进行处理是无偏差的;但如果数据为

MAR

,那么这种处理方法则会产生有偏

差的估计值。

本文主要研究数据单变量随机缺失的情况。

实验结果表明采用

EM

算法对不完整的数据进行处理可以用已知数据的条件期望代替缺失

数据。通过比较可见

EM

方法对缺失数据处理比不考虑缺失数据直接进行计算精度高,因而这

种方法处理缺失数据是有效果的,但通过不同缺失值得情况对比分析,对于正态分布数据,当

缺失数据比例低于

30%

EM

方法处理效果良好,当缺失数据比例不断增大缺失数据较多的时

候,对缺失数据参数估计效果欠佳。

EM

方法可以达到收敛到后验密度函数的稳定点,但不保

证结果是收敛到极大值点;另外初始值的选择对结果有一定影响,不同的初始值得到不同的估

计结果,因此选择不同的初始值进行迭代可以减轻初值对结果的影响。如果增大数据个数

EM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/396224.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

流媒体协议介绍(rtp/rtcp/rtsp/rtmp/mms/hls)

RTP 参考文档 RFC3550/RFC3551 Real-time Transport Protocol)是用于Internet上针对多媒体数据流的一种传输层协议。RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。RTP协议常用于流媒体系统(配合RTCP协议),视…

我从#100DaysOfCode中学到的东西

by E. Wilson由E. Wilson 我从#100DaysOfCode中学到的东西 (What I learned from #100DaysOfCode) I made it up to Day 95 before officially ending my #100DaysOfCode challenge. Check out my GitHub repo and see for yourself.在正式结束#100Days…

mysql 表ful,你所不知的table is full那些事

当我们要写入新数据而发生“The table is full”告警错误时,先不要着急,按照下面的思路来逐步分析即可:1、查看操作系统以及MySQL的错误日志文件确认操作系统的文件系统没有报错,并且MySQL的错误日志文件中是否有一些最直观的可见…

Calendar、Date、long类型的时间,三者之间如何转化

1. Calendar类型转化为Date类型和long类型 Calendar calendarCalendar.getInstance(); Date datecalendar.getTime(); long timecalendar.getTimeInMillis(); 2.Date类型转化为Calendar类型和long类型 Date datenew Date(System.currentTimeMillis()100000000); Calendar calen…

sit是什么环境_软件环境常识 --dev sit uat

DEV环境:DEV顾名思义就是develop,即代码开发的环境。SIT环境:System Integration Test系统集成测试,开发人员自己测试流程是否走通。UAT环境:User Acceptance Test用户验收测试,由专门的测试人员验证&#…

python基础数据类型的相关知识点

1、字符串的函数join >>> s "Hello" >>> s1 s.join("你好")#将字符串Hello插入到你好中 >>> s1 你Hello好 >>> s2 "Tanxu".join("你好吗")#将字符串Tanxu插入到你好吗中 >>> s2 你Ta…

(转载)JDOM/XPATH编程指南

JDOM/XPATH编程指南 本文分别介绍了 JDOM 和 XPATH,以及结合两者进行 XML 编程带来的好处。 前言 XML是一种优秀的数据打包和数据交换的形式,在当今XML大行于天下,如果没有听说过它的大名,那可真是孤陋寡闻了。用XML描述数据的优势…

谷歌跟oracle_谁赢得了Google VS Oracle? 开发人员赢了。

谷歌跟oracleGoogle has successfully defended itself from a $9 billion lawsuit from Oracle. In doing so, Google’s lawyers have prevented a dangerous precedent that would have given old copyright-hoarding tech companies a way to sue lots of startups and ope…

php上下属对应关系,由主分类 ID 取出(多个)下级子分类所对应的项,有没有什么好的办法?(其实似乎和 PHP 没什么直接关系?)...

有一个表结构比如:项目:项目ID项目名分类ID...还有一个多级分类结构:分类1 分类1.1 分类1.1.1 分类1.1.1.1 分类1.1.1.2 分类1.2分类2...假定我现在有分类1的序号,现在想通过这个序号取出对应分类1及其子项中的所有项目的列表&…

最长无重复字符子串?

2019独角兽企业重金招聘Python工程师标准>>> 题目要求: 给定一个字符串S,在该字符串中找到一个最长的没有重复字符的子串。 转载于:https://my.oschina.net/datacube/blog/875545

history of Program

1951 – Regional Assembly Language  1952 – Autocode  1954 – IPL (LISP语言的祖先)  1955 – FLOW-MATIC (COBOL语言的祖先)  1957 – FORTRAN (第一个编译型语言) 1957 – COMTRAN (COBOL语言的祖先)  1958 – LISP  1958 – ALGOL 58  1959 – FACT (COBO…

销售探讨_让我们一起探讨编程资源的领域

销售探讨by Quincy Larson昆西拉尔森(Quincy Larson) 让我们一起探讨编程资源的领域 (Let’s explore the universe of programming resources together) 有很多免费的编程资源。 (There are a lot of free programming resources out there.) Here’s a list of more than a …

利用yii2 gridview实现批量删除案例

作者:白狼 出处:http://www.manks.top/article/yii2_gridview_deleteall本文版权归作者,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 今天仍…

php中tp框架的坑,tp5框架遇到的一些坑

最近这个项目确实是问题多多!新项目的上线到测试,基本都是一个人去弄!面对40多万条的数据,mysql跑起来确实没有那么快!首先来介绍一下我的项目吧!其实项目比较简单 主要就是在已有的平台开放类似于百家号&…

BZOJ 4811 树链剖分+线段树

思路: 感觉这题也可神了.. (还是我太弱) 首先发现每一位不会互相影响,可以把每一位分开考虑,然后用树链剖分或者LCT维护这个树 修改直接修改,询问的时候算出来每一位填0,1经过这条链的变换之后得…

selenium框架安装及webdriver安装

本文介绍的是selenium安装及webdriver安装、小实例 1、selenium介绍 selenium是一个用于web应用程序测试的工具。 Selenium测试直接运行在浏览器,就向真正的用户操作一样。 支持的浏览器包括IE(7,8,9,10,11),Mazilla Firefox,Safari,Google Chrome,OperaL浏览器 这个…

idead断点调试_IDEA---断点调试Debug

Debug调试程序:可以让代码逐行执行,查看代码执行的过程,调试程序中出现的bug使用方式:在行号的右边,鼠标左键单击,添加断点(每个方法的第一行,哪里有bug添加到哪里)右键,选择Debug执行程序程序就会停留在添加的第一个断点处执行程序:f8:逐行执行程序f7:进入到方法中shiftf8:跳出…

svd medium_我们刚刚放弃了Medium博客。 您可能也应该这样做。

svd mediumOur blog helped our open source community reach an early critical mass.我们的博客帮助我们的开源社区达到了早期的临界质量。 In the 18 months since we launched our blog, it’s been viewed half a million times.自我们发布博客以来的18个月里&#xff0c…

写文件 追加和换行

file_put_contents("log.txt", "Hello world everyone.".PHP_EOL, FILE_APPEND); 转载于:https://www.cnblogs.com/yixi978/p/5422504.html

突然想到了王自如

刚刚不知道为什么突然想到了王自如。可能是因为下午在腾讯视频首页看到了老罗罗永浩的一个访谈节目,然后神经元一短路的原因吧。 想到王自如不禁又联想到了王自如和罗永浩的那场著名的撕逼之战。场面上王自如是被罗老师教做人的一个结果。然后就很长时间没有听到关于…