在做数据分析时,经常会要求数据服从正态分布,它在统计推断、模型构建中都很重要,那到底什么是正态分布呢?本期将为大家介绍正态分布,文章内容包括:
1.什么是正态分布;
2.公式、曲线怎么看;
3.正态分布的特征数字;
4.数据不呈现正态分布处理方法;
5.正态分布的应用。
1、什么是正态分布?
正态分布描述了某些比较稳定但又受一些偶然因素影响的现象。比如说考试成绩分布、人体身高数据等都是近似服从正态分布的。它代表了现实中最普通的一种数据形式。最早由法国数学家德·莫阿弗尔 (A. de Moivre)提出,但是是由高斯在研究误差理论时准确描述了正态分布,因此也称高斯分布。它是科研中最重要也是最常见的连续型随机变量分布,所以也被称作常态分布。下面具体看什么叫连续型随机变量。
首先变量分为连续型和离散型,正态分布的变量就是连续型的,它在数轴上任意不同两点之间可取值是无限的,可在某个给定的实数范围内任意取值 ,比如说身高、 体重、 血压等。它和离散型是不同的,后者在数轴上任意不同两点之间可取值的范围是有限的。在一个实数范围内取整数值,如掷骰子的点数、单位容积(L) 的红细胞计数、白细胞计数等。
随机变量则是用来描述那些结果具有随机性的数值或现象。这里的随机主要指的是结果的不确定性、不可预测性以及取值的多样性。可以是离散的,也可以是连续的。
连续型随机变量,指的是取值范围在一个实数区间内可以连续变化,并且有无限个数值,无法一一列举出来的随机变量。举个例子:等待公交车的时间就是一个连续随机变量,假设发车的间隔是5min,我们等待的时间可以是这个时间段内的任意实数。因为我们等的这班车什么时候到受到很多随机因素的影响,可能有些司机开车比较快,可能上一站上车的人数多,可能今天开车的人多路比较堵等等都会影响我们等到这班车的时间,而且这些影响因素都是随机发生的。
2、公式、曲线怎么看?
正态分布一般呈现的曲线如下左图所示,但它的含义与频数分布图(右图)没什么区别,只是在理论中把频数分布图的组距细化到无限窄而已。
图像是由该公式得到:
如果随机变量X的概率分布服从概率密度函数,则称为服从正态分布,记为:,其中𝜇的总体均数,σ^2为总体方差。
该公式中最关键的两个值就是𝜇和σ。
这个曲线就是关于X=𝜇这条直线左右对称,并且始终在X轴的上方,此外,当X=𝜇时f(X)最大,最大值就是,因为这个函数在这里
有个负号,所以它越小,值越大。当这部分等于0时整个函数最大,也就是X=𝜇时。𝜇指的是均值,也叫数学期望。均值属于统计学范畴,期望属于概率论范畴,它俩本质是一个东西。
σ是标准差,σ^2表示方差,指和中心偏离的程度,用来度量随机变量和其数学期望也就是均值之间的偏离程度。即反应了该组数据的分散程度,方差越小,数据越集中,方差越大数据越分散。
为了便于理解,给大家介绍一个叫高尔顿钉板的东西,它长这样:
每一个黑点表示钉在板上的一颗钉子,它们彼此的距离均相等,上一层的每一颗钉子的水平位置恰好位于下一层的两颗钉子正中间。从入口处放进一个直径略小于两颗钉子之间的距离的圆球,当小圆球向下降落过程中,碰到钉子后皆以1/2的概率向左或向右滚下,于是又碰到下一层钉子。如此继续下去,直到滚到最下面底板的一个格子内为止。把许许多多同样大小的小球不断从入口处放下,只要球的数目相当大,它们在底板将堆成近似于正态的密度函数图形也就是中间高,两头低,左右对称的钟型曲线(如下图所示)。
假设这些小圆球代表钱,中间这两个通道的钱最多,如果我们现在把所有的钱都放在一起,那我们从这堆钱里面随机抽一个,预期抽到中间两个通道的钱的概率最大,因为它们多。正态分布它就是一个概率分布函数,最高点就是概率最大的。
我们再换一个思路,如果每个通道代表一个人,中间的就是首富了,那我们取均值,均值是不是靠近中间的首富,因为他们是在太有钱了,我们都被他们平均了,那我们会不会期望自己能够达到这个平均水平呢。此时均值就是我们的期望了。
在具有相同数量小球的情况下,通道越多,这些小球越分散,都去了不同的通道,通道越少,小球越集中在一个通道中。通道越多就可以理解为σ越大,即数据越分散,通道越少就理解为σ越小,即数据越集中。
那如何计算落在某一个给定区间内的概率是多少?其实就是计算这个区间内曲线下面积。
如上图所示,如果是求落在-3~1区间内的概率,计算的就是这个橘红色面积。
在正态分布中有一种特殊情况——标准正态分布,就相当于把正态分布的规律简化了,如下图所示:
即µ=0,σ=1,对应的横轴上的数值1、2、3就是1个标准差、 2个标准差、3个标准差;我们利用标准正态分布来说明面积规律就更简单了,可以直接说,以0为中心,在±1的范围内面积约为68.2%。
3、正态分布的特征数字
首先是一组数字68、95、99.7。
在正态分布中,以均数为中心,往左或往右1倍标准差的面积各约为34.1%换句话说,在士1个标准差的范围内,曲线下面积约为68% ,在士2个标准差的范围内曲线下面积约为 95% ,在士3个标准差的范围内面积约为99.7%。(如上图所示)
还有一个特征数字是1,即整个曲线与X轴围成的面积是1,因为一件事情发生的概率加在一起就是100%,也就是1。因为正态分布曲线与X所围成的曲线下面积是一个固定值1。该曲线图如下:
当µ不变的情况下,σ越小,数据越集中即曲线越瘦,又因为围成的面积是固定值1,那么这个曲线就需要更高,所以σ越小,曲线越瘦高;
σ越大,数据越分散,那么这个曲线就越宽,有因为围成的面积是固定值,那么曲线就需要更矮,所以σ越大,曲线越矮胖;
其中µ的大小只是曲线的左右平移,不影响曲线的高低。
4、数据不呈现正态分布处理方法
有几种方式:
1)加大样本量。根据中心极限定理,只要样本量足够大,就我们医学研究来说数据基本上最后都会呈现正态分布的。
2)数据转换。常见的方式有对数转换、平方根转换、倒数转换、还有Box-Cox转换。Box、Cox是两位统计学家的名字。是一种通过对数据进行幂函数转换来调整数据分布形态的方法。这个转换通过引入一个变换参数λ(lambda),使得变换后的数据更加接近正态分布,这个λ可以自动优化以最大限度地提高数据的正态性或对称性。这个方法可以根据数据的实际情况选择合适的转换参数,从而改善数据的正态性。
注意:做完转换之后要重新检测一下正态性,因为可能数据转换之后还引入了之前不存在的偏态,此外进行了转换的数据要考虑是它统计检验的意义。
3)换检验方法。比如说使用非参数检验。
4)换统计方法。线性回归、方差分析对正态性的要求比较高,而lasso这种对正态性要求比较低。
5、正态分布的应用
首先,我们经常说 P<0.05 认为差异有统计学意义,实际上说的就是正态分布的两侧面积。确切地说,当从均数往左或往右各 1.96 倍标准差的时候,对应的左侧和右侧面积之和就是 5% 。因为概率不是很高,所以认为其是小概率事件。
其次,在统计学中,许多假设检验都基于正态分布的假设。例如,t检验、z检验等等,这些检验方法用于判断两个样本均值之间是否存在显著差异。这些检验都假定数据来自正态分布的总体。
另外,置信区间估计:在一些数据分析中,我们常需要估计一个总体参数(如均值、方差等)的置信区间。当数据来自正态分布时,可以利用正态分布的性质来计算这些参数的置信区间。
最后预测和建模中也会要用到正态分布:在回归分析中,通常假设因变量在各自自变量取值下是正态分布的。这是线性回归模型的一个基本假设。如果数据不符合正态分布,那可能需要对数据进行转换。此外,在观察残差的分布时,如果残差近似服从正态分布,则表明模型拟合效果较好。在许多统计建模中,如线性模型、广义线性模型等,我们都需要假设因变量的分布符合正态分布。
转自:https://mp.weixin.qq.com/s/SCkAWxHkWG6k7-0TnRlL0A