统计分析|全方位了解正态分布

在做数据分析时,经常会要求数据服从正态分布,它在统计推断、模型构建中都很重要,那到底什么是正态分布呢?本期将为大家介绍正态分布,文章内容包括:

1.什么是正态分布;

2.公式、曲线怎么看;

3.正态分布的特征数字;

4.数据不呈现正态分布处理方法;

5.正态分布的应用。

1、什么是正态分布?

正态分布描述了某些比较稳定但又受一些偶然因素影响的现象。比如说考试成绩分布、人体身高数据等都是近似服从正态分布的。它代表了现实中最普通的一种数据形式最早由法国数学家德·莫阿弗尔 (A. de Moivre)提出,但是是由高斯在研究误差理论时准确描述了正态分布,因此也称高斯分布。它是科研中最重要也是最常见的连续型随机变量分布,所以也被称作常态分布。下面具体看什么叫连续型随机变量。

首先变量分为连续型和离散型,正态分布的变量就是连续型的,它在数轴上任意不同两点之间可取值是无限的,可在某个给定的实数范围内任意取值 ,比如说身高、 体重、 血压等。它和离散型是不同的,后者在数轴上任意不同两点之间可取值的范围是有限的。在一个实数范围内取整数值,如掷骰子的点数、单位容积(L) 的红细胞计数、白细胞计数等。

随机变量则是用来描述那些结果具有随机性的数值或现象。这里的随机主要指的是结果的不确定性、不可预测性以及取值的多样性。可以是离散的,也可以是连续的。

连续型随机变量指的是取值范围在一个实数区间内可以连续变化,并且有无限个数值,无法一一列举出来的随机变量。举个例子:等待公交车的时间就是一个连续随机变量,假设发车的间隔是5min,我们等待的时间可以是这个时间段内的任意实数。因为我们等的这班车什么时候到受到很多随机因素的影响,可能有些司机开车比较快,可能上一站上车的人数多,可能今天开车的人多路比较堵等等都会影响我们等到这班车的时间,而且这些影响因素都是随机发生的。

2、公式、曲线怎么看?

正态分布一般呈现的曲线如下左图所示,但它的含义与频数分布图(右图)没什么区别,只是在理论中把频数分布图的组距细化到无限窄而已。

图像是由该公式得到:

如果随机变量X的概率分布服从概率密度函数,则称为服从正态分布,记为:,其中𝜇的总体均数,σ^2为总体方差

该公式中最关键的两个值就是𝜇和σ。

这个曲线就是关于X=𝜇这条直线左右对称,并且始终在X轴的上方,此外,当X=𝜇时f(X)最大,最大值就是因为这个函数在这里有个负号,所以它越小,值越大。当这部分等于0时整个函数最大,也就是X=𝜇时。𝜇指的是均值,也叫数学期望。均值属于统计学范畴,期望属于概率论范畴,它俩本质是一个东西。

σ是标准差,σ^2表示方差,指和中心偏离的程度,用来度量随机变量和其数学期望也就是均值之间的偏离程度。即反应了该组数据的分散程度,方差越小,数据越集中,方差越大数据越分散。

为了便于理解,给大家介绍一个叫高尔顿钉板的东西,它长这样:

每一个黑点表示钉在板上的一颗钉子,它们彼此的距离均相等,上一层的每一颗钉子的水平位置恰好位于下一层的两颗钉子正中间。从入口处放进一个直径略小于两颗钉子之间的距离的圆球,当小圆球向下降落过程中,碰到钉子后皆以1/2的概率向左或向右滚下,于是又碰到下一层钉子。如此继续下去,直到滚到最下面底板的一个格子内为止。把许许多多同样大小的小球不断从入口处放下,只要球的数目相当大,它们在底板将堆成近似于正态的密度函数图形也就是中间高,两头低,左右对称的钟型曲线(如下图所示)。

假设这些小圆球代表钱,中间这两个通道的钱最多,如果我们现在把所有的钱都放在一起,那我们从这堆钱里面随机抽一个,预期抽到中间两个通道的钱的概率最大,因为它们多。正态分布它就是一个概率分布函数,最高点就是概率最大的。

我们再换一个思路,如果每个通道代表一个人,中间的就是首富了,那我们取均值,均值是不是靠近中间首富,因为他们是在太有钱了,我们都被他们平均了,那我们会不会期望自己能够达到这个平均水平呢。此时均值就是我们的期望了

在具有相同数量小球的情况下,通道越多,这些小球越分散,都去了不同的通道,通道越少,小球越集中在一个通道中。通道越多就可以理解为σ越大,即数据越分散,通道越少就理解为σ越小,即数据越集中。

那如何计算落在某一个给定区间内的概率是多少?其实就是计算这个区间内曲线下面积。

如上图所示,如果是求落在-31区间内的概率,计算的就是这个橘红色面积。

在正态分布中有一种特殊情况——标准正态分布,就相当于把正态分布的规律简化了,如下图所示:

即µ=0,σ=1,对应的横轴上的数值1、2、3就是1个标准差、 2个标准差、3个标准差;我们利用标准正态分布来说明面积规律就更简单了,可以直接说,以0为中心,在±1的范围内面积约为68.2%

3、正态分布的特征数字

首先是一组数字68、95、99.7。

在正态分布中,以均数为中心,往左或往右1倍标准差的面积各约为34.1%换句话说,在士1个标准差的范围内,曲线下面积约为68% ,在士2个标准差的范围内曲线下面积约为 95% ,在士3个标准差的范围内面积约为99.7%。(如上图所示)

还有一个特征数字是1,即整个曲线与X轴围成的面积是1,因为一件事情发生的概率加在一起就是100%,也就是1。因为正态分布曲线与X所围成的曲线下面积是一个固定值1。该曲线图如下:

µ不变的情况下,σ越小,数据越集中即曲线越瘦又因为围成的面积是固定值1,那么这个曲线需要高,所以σ越小,曲线越瘦高;

σ越大,数据越分散,那么这个曲线就越宽,有因为围成的面积是固定值,那么曲线就需要矮,所以σ越大,曲线越矮胖;

其中µ的大小是曲线左右平移,不影响曲线的高低。

4、数据不呈现正态分布处理方法

有几种方式:

1)加大样本量。根据中心极限定理,只要样本量足够大,就我们医学研究来说数据基本上最后都会呈现正态分布的。

2)数据转换。常见的方式有对数转换、平方根转换、倒数转换、还有Box-Cox转换。Box、Cox是两位统计学家的名字。是一种通过对数据进行幂函数转换来调整数据分布形态的方法。这个转换通过引入一个变换参数λ(lambda),使得变换后的数据更加接近正态分布,这个λ可以自动优化以最大限度地提高数据的正态性或对称性。这个方法可以根据数据的实际情况选择合适的转换参数,从而改善数据的正态性。

注意:做完转换之后要重新检测一下正态性,因为可能数据转换之后还引入了之前不存在的偏态,此外进行了转换的数据要考虑是它统计检验的意义。

3)换检验方法。比如说使用非参数检验。

4)换统计方法。线性回归、方差分析对正态性的要求比较高,而lasso这种对正态性要求比较低。

5、正态分布的应用

首先,我们经常说 P<0.05 认为差异有统计学意义,实际上说的就是正态分布的两侧面积。确切地说,当从均数往左或往右各 1.96 倍标准差的时候,对应的左侧和右侧面积之和就是 5% 。因为概率不是很高,所以认为其是小概率事件。

其次,在统计学中,许多假设检验都基于正态分布的假设。例如,t检验、z检验等等,这些检验方法用于判断两个样本均值之间是否存在显著差异。这些检验都假定数据来自正态分布的总体。

另外,置信区间估计:在一些数据分析中,我们常需要估计一个总体参数(如均值、方差等)的置信区间。当数据来自正态分布时,可以利用正态分布的性质来计算这些参数的置信区间。

最后预测和建模中也会要用到正态分布:在回归分析中,通常假设因变量在各自自变量取值下是正态分布的。这是线性回归模型的一个基本假设。如果数据不符合正态分布,那可能需要对数据进行转换。此外,在观察残差的分布时,如果残差近似服从正态分布,则表明模型拟合效果较好。在许多统计建模中,如线性模型、广义线性模型等,我们都需要假设因变量的分布符合正态分布。

转自:https://mp.weixin.qq.com/s/SCkAWxHkWG6k7-0TnRlL0A

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1223433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

指针不是指向首地址,就可以输出字符串,为什么要分配内存char[len + 1]?

你这个问题问到了核心点上&#xff01;确实&#xff0c;指针指向字符串首地址就能输出&#xff0c;但直接用传入的const char* str地址和手动分配char[len1]内存&#xff0c;本质是浅拷贝和深拷贝的区别&#xff0c;我用通俗的方式给你讲清楚为什么必须分配内存。 先看「不分配…

基于springboot + vue二手物品交易系统

二手物品交易 目录 基于springboot vue二手物品交易系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 基于springboot vue二手物品交易系统 一、前言 博主介绍&…

在线音乐播放系统

在线音乐播放系统 目录 基于springboot vue超在线音乐播放系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 基于springboot vue超在线音乐播放系统 一、前言 博主介…

基于单片机的多功能数字时钟(有完整资料)

资料查找方式&#xff1a;特纳斯电子&#xff08;电子校园网&#xff09;&#xff1a;搜索下面编号即可编号&#xff1a;CP-51-2021-017设计简介&#xff1a;本设计是基于单片机的数字时钟系统&#xff0c;主要实现以下功能&#xff1a;可通过LCD1602显示时间、温度&#xff1b…

element ui 中使用 form 表单遇到的错误信息错位问题

在 form 表单中,选择框或者输入框进行输入限制错误提示,隐藏部分发现错误信息错位了,解决方法是 form 表单内的组件使用需要加上 key 值,key 值不重复,form 表单借助 key 值定位错误信息应该出现的位置

2026年市场新型导热油锅炉订做,这些厂家值得考虑,导热油锅炉/蒸汽锅炉/锅炉厂家,导热油锅炉直销厂家推荐榜单

在全球工业绿色转型与能源效率提升的双重驱动下,导热油锅炉作为高效传热的核心设备,正经历从传统燃煤向智能化、环保化方向的技术迭代。市场对定制化、低排放、高稳定性的新型导热油锅炉需求激增,但采购方普遍面临技…

走心机选购必看:高精度与高性价比能否兼得?主流品牌真实评测

在走心机选购过程中,企业往往陷入两难:追求高精度,意味着动辄百万的进口设备投入;追求性价比,又担心国产设备精度不稳、影响良品率。那么,高精度与高性价比真的无法兼得吗?本文通过对山东行创精密机械有限公司、…

springboot校园失物招领微信小程序设计与实现

校园失物招领微信小程序的背景与意义 背景 校园内学生流动性大&#xff0c;物品遗失率高&#xff08;如课本、钥匙、证件等&#xff09;&#xff0c;传统线下招领方式&#xff08;如公告栏&#xff09;效率低、信息传播范围有限。微信小程序依托高普及率的社交平台&#xff0c…

springboot+vue校园失物招领管理系统设计实现

核心模块设计 后端SpringBoot核心代码 数据库实体类&#xff08;以失物信息为例&#xff09;&#xff1a; Entity Table(name "lost_item") public class LostItem {IdGeneratedValue(strategy GenerationType.IDENTITY)private Long id;private String itemNam…

springboot信用卡管理系统设计开发实现

背景与意义 信用卡管理系统在现代金融业务中扮演重要角色&#xff0c;随着数字化金融服务的普及&#xff0c;银行、金融机构及第三方支付平台对高效、安全的信用卡管理需求日益增长。传统的信用卡管理依赖人工操作或分散的系统&#xff0c;存在效率低、风险高、数据孤岛等问题…

springboot问卷调查管理系统设计实现

设计背景随着数字化进程加速&#xff0c;传统纸质问卷调查效率低、数据统计困难、成本高的问题日益突出。企业、教育机构及政府部门对高效、可定制的在线问卷需求激增。SpringBoot作为轻量级Java框架&#xff0c;具备快速开发、微服务支持及生态整合优势&#xff0c;适合构建高…

springboot小区蔬菜水果商城系统设计开发实现

背景分析 随着城市化进程加快&#xff0c;居民对生鲜食品的需求日益增长&#xff0c;但传统农贸市场或超市购物存在时间成本高、商品质量参差不齐等问题。社区化、便捷化的生鲜电商模式成为解决痛点的趋势&#xff0c;尤其在疫情后无接触配送需求激增的背景下。SpringBoot技术…

springboot校园二手交易平台系统设计实现

背景分析校园二手交易平台的设计与实现源于大学生对便捷、环保、低成本交易方式的迫切需求。传统线下二手交易存在信息不对称、交易效率低、地域限制等问题&#xff0c;而线上平台能有效解决这些痛点。资源浪费问题&#xff1a;学生每年产生大量闲置物品&#xff08;教材、电子…

springboot校园平台综合服务系统设计实现

校园平台综合服务系统的背景 随着信息化技术的快速发展&#xff0c;高校管理逐渐向数字化、智能化转型。传统校园服务存在信息孤岛、效率低下、资源分散等问题&#xff0c;学生和教职工需要通过多个独立系统完成不同事务&#xff0c;体验较差。SpringBoot作为轻量级Java框架&a…

从2026年1月国内制氧机企业排行,洞悉行业优质品牌,真空管/汽化器/液氮速冻机/制氮机/二氧化碳,制氧机企业口碑推荐

近年来,随着医疗健康、工业制造、食品加工等领域对高纯度氧气需求的持续增长,国内制氧机行业迎来快速发展期。据第三方市场调研机构统计,2025年国内制氧机市场规模已突破80亿元,年复合增长率达12%,其中医用级、工…

UVa 136 Ugly Numbers

题目描述 “丑数”&#xff08;Ugly Numbers\texttt{Ugly Numbers}Ugly Numbers&#xff09;是指那些质因数只包含 222、333 或 555 的正整数。通常约定 111 也算作丑数。前 111111 个丑数为&#xff1a; 1, 2, 3, 4, 5, 6, 8, 9, 10, 12, 15, … 1,\ 2,\ 3,\ 4,\ 5,\ 6,\ 8,\ …

为什么 M4 32GB 的“显存体验”会和 PC 独显完全不一样?一篇把差异讲透的深度文章

很多人问 “MacBook Pro M4 32GB 显卡多少&#xff1f;”&#xff0c;其实背后隐藏的是一个更关键的问题&#xff1a; 同样写着“32GB”&#xff0c;为什么 Apple Silicon 上跑本地大模型的体验&#xff0c;和 PC 上 12GB / 16GB 独显完全不是一个逻辑&#xff1f; 答案不在“…

不加显卡:本地大模型的真实上限(CPU 跑)

很多人一聊本地大模型&#xff0c;第一反应就是显卡、显存、4090、A100。 但真正落到普通开发者、桌面设备、长期稳定使用这个语境里&#xff0c;你会发现一个更现实的问题&#xff1a; 不加显卡&#xff0c;只用 CPU&#xff0c;本地大模型到底能跑到什么程度&#xff1f; 我直…

LLaMA 3.2 1B / 3B、Qwen2.5 3B / 7B(Q4)、Mistral 7B(Q4_K_M)CPU 本地推理时代的三种“性格模型”,该怎么选?

如果你已经接受一个现实&#xff1a;不加显卡&#xff0c;只用 CPU 跑本地大模型&#xff0c;那真正的问题就不再是“能不能跑”&#xff0c;而是——跑哪一个&#xff0c;才不会后悔。LLaMA 3.2、Qwen2.5、Mistral 7B&#xff0c;基本构成了当前 CPU-only 场景下的三条主流路线…

普通个人电脑能跑多大的大模型?显存、模型规模与 CPU+GPU 的现实解法

一、一般个人电脑的 GPU / 显存&#xff0c;到底是什么水平&#xff1f;先给你一张现实世界分布图&#xff08;不是发烧友论坛那种&#xff09;&#xff1a;1️⃣ 最常见的个人电脑 GPU 显存区间设备类型常见 GPU显存核显 / 轻薄本Intel / AMD iGPU共享内存&#xff08;0&#…