python随机数据随概率分布_概率分布及其Python实现

一、学习概率分布有什么用?很多现实中的分布都来自几种概率分布。对个人生活和工作选择非常有帮助。

知道某件事发生的概率对我们作出数据分析决策很有帮助。有时候计算概率很简单,有时候计算概率很复杂,概率分布是帮助我们解决特定问题下的万能模版。

在经济学习领域,概率分布对于数据的认识有非常重要的作用,不管是有效数据还是噪音数据,如果知道了数据集分布,在机器学习算法选择和建模过程有很大帮助。

二、概率分布

1.理解概率分布之前需要了解的概念

1)随机事件

在统计概率中我们用事件表示某件事情。

在一定条件下,可能发生可能不发生的事件叫随机事件。如抛硬币。

2)如何量化随机事件——随机变量

随机变量:是一个量化随机事件的函数,它将随机事件每个可能出现的结果赋予一个数字。数字是随机的,可以取任何一个值。如抛硬币:正面朝上用1表示,反面朝上用0表示。通常用X表示。

随机变量有两种类型:离散随机变量和连续随机变量

离散随机变量可能出现的结果都是可以列出来的,如抛硬币,可能出现两种结果,正面朝上1,反面朝上0。

连续随机变量中变量有无限个结果,如明天下雨雨量的毫米数。

将这两种随机变量分隔开,是因为他们有不同的概率分布。

2.概率分布

分布:数据在统计图中的形状叫它的分布。

概率分布:将随机变量、概率、分布组合起来的一种表现手段。就是用统计图来表示随机变量所有可能结果对应发生的概率。横轴是随机事件所有可能的结果(即随机变量的对应的数值),纵轴是对应每个结果发生的概率。

根据随机变量类型的不同,概率分布分为离散概率分布和连续概率分布。

我们可以根据概率计算公式计算这两种随机变量数字的概率。

离散概率分布计算公式用概率质量函数PMF(Probability Mass Function):之所以叫做质量,是因为离散是点,默认体积为1.

连续概率分布计算公式用概率密度函数PDF(Probability Density Function):之所以叫密度,是因为连续随机变量概率计算的是面积。

1)离散概率分布

包括伯努利分布、二项分布、几何分布、泊松分布

伯努利分布:

伯努利实验:同样的条件下进行的相互独立的实验,特点是实验的可能结果只有两种。成功/失败。如果随机变量X是一次伯努利实验,则这个随机变量就符合伯努利分布。

用概率质量函数(PMF)计算伯努利分布的概率,成功概率记作P,失败概率则为1-P。

二项分布:发生次数是固定的,感兴趣的是成功的次数。二项表示随机事件的有两种可能的结果,成功/失败。

特点:

1.做某件事的次数是固定的,次数用n表示,n次某件事是相互独立的。

2.每一次事件都有两种可能的结果,成功/失败

3.每一次成功的概率都相等,成功的概率用p表示

4.想知道成功k次的概率是多少。

二项分布的期望和方差:

期望=np (预期成功多少次)

方差=np(1-p)(数据波动大小)

几何分布:想要知道尝试某件事情多次能取得第一次成功的概率。(二项分布的孪生兄弟)

特点:

1.做某件事的次数是固定的,次数用n表示,n次某件事是相互独立的。

2.每一次事件都有两种可能的结果,成功/失败

3.每一次成功的概率都相等,成功的概率用p表示

4.想知道第k次做某件事,才取得第1次成功的概率是多少。

几何分布的期望和方差:

期望E=1/p (预期多少次后取得第1次成功)

方差=(1-p)/p的平方 (数据波动大小)

泊松分布:某个时间范围内,发生某件事情k次的概率有多大。(如一天内中奖的次数,一个月内机器发生故障的次数,一段道路发生交通事故的次数)

泊松分布的形状会随着平均值的不同而有所变化。

特点:

1.事件是独立事件

2.任意相同的时间范围内,事件发生的概率相同。

3.你想知道某个时间范围内,发生某件事情k次的概率是多大。

要计算泊松分布的概率首先要知道给定时间范围内某件事情发生的平均次数。

泊松分布的期望和方差都等于平均值μ。

2)连续概率分布

包括正态分布和幂律分布

正态分布趋向中间,幂律分布趋向极端。

正态分布:数据集像一只倒扣的钟,两头低中间高,左右对称,大部分数据集中在中间的平均值,小部分在两端,例如上班的薪水。

幂律分布:在有些自然和商业现象中因为网络效应导致强者越强,赢家通吃,这时的结果会呈现出尖刀型的幂律分布。刀尖占据着大部分的财富。

如果想离财务自由更近,需要在给别人打工的同时,建立自己的幂律分布商业模式。

正态分布是商业世界中最常见的一种分布,当影响结果的因素特别多,没有哪个因素可以完全左右这个结果时,结果通常呈现正态分布。

有这两个工具就可以看清很多商业现象。

正态分布的商业现象:1)员工绩效的活力曲线 2)产品质量 3)快速找到停车位 4)智商

幂律分布商业现象:1)家庭收入 2)城市GDP

正态分布特异功能:预测数据的位置

68.2%的数据处于一个标准差内,95.5%的数据处于2个标准差内,99.7%的数据处于3个标准差内。

正态分布概率计算:

正态分布的概率是正态分布图下方一定数值范围内的面积。

1.确定概率范围,明确要求正态分布图中哪一部份的面积。

2.求对应面积的标准分。知道所在数据集的平均值和标准差,就可以算出对应的标准分。标准分就是距离平均值有几个标准差。

3.查找Z表格(标准分与概率值对应关系的表)对应的概率值 。但Z表格给出的是小于标准分的概率值,如果要求大于标准分的面积,用1减去小于标准分的概率值。

三、概率分布的Python实现

套路:

1.伯努利分布

例:抛硬币实验

抛硬币实验1次,正面朝上记作1,翻面朝上记作0。

#导入包

import scipy.stats as stats

import numpy as np

import matplotlib.pyplot as plt

#定义随机变量

X=np.arange(0,2,1)

#求各随机变量的概率

p=0.5

pList=stats.bernoulli.pmf(X,p)

#伯努利分布概率图

plt.plot(X,pList,marker='o',linestyle='None')

plt.vlines(X,0,pList)

plt.xlabel('随机变量:抛硬币1次')

plt.ylabel('概率')

plt.title('伯努利分布:p=%.2f'% p)

plt.show()

2.二项分布

例:5次抛硬币,正面朝上的次数。

#定义随机变量

n=5#抛硬币的次数

p=0.5#正面朝上的概率

X=np.arange(0,6,1)

#求各随机变量的概率

pList=stats.binom.pmf(X,n,p)

#绘图

plt.plot(X,pList,marker='o',linestyle='None')

plt.vlines(X,0,pList)

plt.xlabel('随机变量:抛硬币正面朝上次数')

plt.ylabel('概率')

plt.title('二项分布:n=%i,p=%.2f'% (n,p))

plt.show()

3.几何分布

例:首次表白成功的概率

#定义随机变量

k=5

p=0.6

X=np.arange(1,k+1,1)

#计算各随机变量的概率

pList=stats.geom.pmf(X,p)

#绘图

plt.plot(X,pList,marker='o',linestyle='None')

plt.vlines(X,0,pList)

plt.xlabel('随机变量:表白第k次才首次成功')

plt.ylabel('概率')

plt.title('几何分布:p=%.2f'% p)

plt.show()

4.泊松分布

例:已知一天内某路口平均每天发生2次事故。求该路口一天内发生4次事故的概率。

#定义随机变量

mu=2

k=4#次数,想知道一天内发生4次事故的概率,包含了发生0次,1次,2次,3次,4次

X=np.arange(0,k+1,1)

#计算概率

pList=stats.poisson.pmf(X,mu)

#绘图

plt.plot(X,pList,marker='o',linestyle='None')

plt.vlines(X,0,pList)

plt.xlabel('随机变量:某路口发生k次事故')

plt.ylabel('概率')

plt.title('泊松分布:平均值mu=%.2f'% mu)

plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/527486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安全策略_Spring Security 实战干货:如何实现不同的接口不同的安全策略

1. 前言欢迎阅读 Spring Security 实战干货 系列文章 。最近有开发小伙伴提了一个有趣的问题。他正在做一个项目,涉及两种风格,一种是给小程序出接口,安全上使用无状态的JWT Token;另一种是管理后台使用的是Freemarker&#xff0c…

antd 怎么用ajax,react+dva+antd接口调用方式

一丶 安装通过 npm 安装 dva-cli 并确保版本是0.8.1或以上。$ npm install dva-cli -g$ dva -v0.8.1二丶创建新应用安装完dva-cli之后,就可以在命令行里访问到dva命令(不能访问?)。现在,你可以通过dva new创建新应用。$ dva new dva-quicksta…

python外星人入侵怎么发给别人_python_外星人入侵(1-1)

sys:system的简称。包含了一些与系统有关的函数。 step1:构建游戏的主框架 import sys import pygame def run_game(): 初始化游戏并创建一个屏幕对象 pygame.init() # 创建一个显示窗口,宽1200像素,高800像素 screen pygame.dis…

gta5怎么设置画质最好_GTA5画面如何设置最好_GTA5画质设置成最高配置推荐-win7之家...

GTA5是侠盗猎车手的简称,这款游戏是很多玩家都很热爱的一款网络游戏,在游戏过程中,我们可以通过画面设置来提高游戏的画面效果,不过还要顾及游戏的流畅性,那么GTA5画面如何设置最好呢?针对这个问题&#xf…

js ajax递归调用,js的promise如何递归调用?

好问题,正中Promise机制的核心之一:then方法返回另一个promise2,其内容是由回调方法的返回值决定的;回调中可以返回promise3,使外面的promise2的内容成为promise3的内容也就是说,如果要用promise来递归&…

python用outlook自动发邮件_python使用两种发邮件的方式smtp和outlook示例

smtp是直接调用163邮箱的smtp服务器,需要在163邮箱中设置一下。outlook发送就是Python直接调用win32方式。调用程序outlook直接发送邮件。 import win32com.client as win32 import xlrd outlook win32.Dispatch(outlook.application) mail outlook.CreateItem(0)…

cpu java poi 导出_Java里当POI导出Excel数据比较大时的优化方案

问题在Java里绝大多数都是使用POI进行导入导出Excel,正常情况下也都没有问题。但当导出的数据量比较大时,我留意到我本机当数据量达到两三万条(二十个列)时,就会出现内存溢出,CPU飙升到95%以上的情况。可能换到好点的服务器上会好…

服务器在行例维护中,8月14日服务器例行维护公告

原标题:8月14日服务器例行维护公告亲爱的玩家:青龙乱舞区、大地飞鹰区、天命风流区、沧海云帆区全部服务器将在8月14日6:00~10:00停机维护更新,维护完成后上述各服务器客户端版本更新至2.0.94.6。本次维护主要调整和修改内容如下,…

dedecms联动筛选_DEDECMS分类信息按联动类别筛选的实现方法

注意:本教程只在DedeCMS V5.6上测试过,v5.7sp1的话一般也会通用,请自行测试!实现方法:1. 修改include\taglib\infolink.lib.php,找到:require_once(DEDEROOT./data/enums/infotype.php);在其下面…

暗黑2战网服务器爆率修改,暗黑2修改MOD最初级基础

第一步:得到修改所用的工具修改MOD首要的是工具,这里推荐几款常用工具:MPQ文件打开及导入工具:MPQWorkshop 备用:mpqview CV5.x (初级入门推荐mpqworkshop,必需)MPQWorkshop是目前最好的工具,主…

delphi listview 添加数据 慢_Delphi 二十四岁, Delphi 10.3.1 发布

Delphi1 是 Borland于1995年2月14日发布,因此2019年2月14日是该产品发布的24周年纪念日。如果你想了解一些关于该产品及其发布的历史,你可以参考文章“22 Years of Delphi and it Still Rocks”。在那篇文章中,我收集了一些早期产品的照片&am…

找规律万能公式_有一个万能公式,可以帮你解决任何烦恼!

有一个万能公式,可以帮你解决任何烦恼。我是在十几年前学到的,一直使用到现在。不仅简单,而且非常有效,只有3步,马上就能现学现用。如果你目前正好碰到了什么难题,不妨试试这个万能公式。01第一步&#xff…

python 目录下的文件_用python把文件夹下的所有文件包括文件夹里面的文件都拷贝到同一个目录下...

比如1文件夹下有2文件夹,2文件夹下有1.txt文件和3文件夹,3文件夹下有2.txt3.txt现在要把1.txt2.txt3.txt全都拷贝到1文件夹下importosimportshutildefchange(path,path1):i1#printi... 比如1文件夹下有2文件夹,2文件夹下有1.txt文件和3文件夹…

vue 判断两对象是否一致_你的.vue文件就已经是你的文档了

更新:文档地址:http://vuese.org昨天发布了vuese1.0,这是我的一个新的开源项目,用来解析Vue SFC并生成markdown文档,如下:HcySunYang/vuese​github.com这篇文章不会介绍如何使用,至于如何使用大…

centos7 oracle_Centos7主机名变成bogon的原因及解决方法

问题描述虚拟机在设置完静态IP后,莫名其妙地主机名就变成了bogon,并且问题会稳定复现,就是说每次重启都会。如下图所示:看着不顺眼不说,听说可能还会影响某些服务,如可能导致oracle安装过程网络配置出错等问…

get 参数太长怎么办_新买的手表表带太长了该怎么办?表带调节操作方法get你~...

表表哥点击☝上方蓝字关注我们表带是手表的重要组成部分,同时表带决定着手表佩带的舒适性,方便性,对手表的安全也有关系。现在表带的材质也很多,最常见的就是不锈钢的和真皮的。买过手表的人应该都知道,只有是专门定制…

python pandas合并多个excel_python pandas合并多个excel(xls和xlsx)文件(弹窗选择文件夹和保存文件)...

# python pandas合并多个excel(xls和xlsx)文件(弹窗选择文件夹和保存文件) import tkinter as tk from tkinter import filedialog import os import pandas as pd import glob root tk.Tk() root.withdraw() # 选择文件夹位置 filelocation os.path.n…

elasticsearch初次查询超时_ElasticSearch的工作流程

1.ElasticSearch的工作流程​ 1.启动过程​ 当ElasticSearch节点启动时,使用发现(discovery)模块来发现集群中的其他节点(配置文件的集群名称)并连接.ElasticSearch会发送广播,以找到相同集群名称其他节点。​ 集群选举一个节点为主节点。该节点负责分发…

modbus slave如何使用_【干货】如何进行PLC远程监控?只需三个步骤,马上帮你解决问题!...

工厂里的工程师小威最近真的很头痛,公司客户的一台或多台设备分布在不同的地区或国外,如果要对其PLC、HMI等自控产品进行远程控制、调试和维护。除了问题,经常要千里迢迢奔赴国外进行维护。最近有事特殊时期,国外疫情比较乱套&…

智能卡门禁管理系统_出入口门禁控制系统与消防火灾报警系统怎么联动?

门禁系统作为一个控制进出的设备,在发生火灾时如何快速打开所有防火逃生门时,是需要弱电单位对门禁系统要行动考虑,否则容易出现隐患,万一出现火灾,因为门禁是常闭门造成人员无法快速逃生那是肯定要负一定的责任的。如…