1.概率分布
随机变量
随机变量是一个量化随机事件的函数。
离散随机变量,可以一个一个列出来(如明天是否下雨?)
连续随机变量,无法完全列举出来(如明天的雨量的毫米数)
概率分布
随机变量与概率分布的关系
离散随机变量,计算公式:概率质量函数(PMF),统计图形状:离散概率分布
连续随机变量,计算公式:概率密度函数(PDF),统计图形状:连续概率分布
离散概率分布
离散概率分布,又称为 概率质量函数(PMF),包括以下几种分布:
学习思路:
- 有什么用?
- 如何检验?
- 如何计算概率?
- 如何用Python实现?
.1 伯努利分布 Bernoulli Distribution
1次伯努利试验只有两种结果,只有成功或者失败两种情况
比如,抛硬币的伯努利试验
.2 二项分布 Binomial Distribution
二项分布的特征:
- 做某件事的次数是固定的,次数用n表示,n次某件事是相互独立的
- 每次时间都有两个可能的结果(成功或者失败)
- 每次成功的概率都相等,成功的概率用p表示
- 目的是:想知道成功k次的概率是多少
例子:如连续5次抛硬币,想知道连续3次抛到正面的概率
如:抛硬币5次,硬币正面朝上次数X的概率
.3 几何分布 Geometric Distribution
几何分布的特征:
- 做某件事的次数是固定的,次数用n表示,n次某件事是相互独立的
- 每一次事件都有两个可能的结果(成功,或者失败)
- 每次成功的概率都相等,成功概率用p表示
- 目的:第k次做某件事情,才取得第1次成功的概率是多少
注:几何分布与二项分布唯一的不同是第四项
案例:第X次表白成功(表白成功的概率为)
.4 泊松分布 Poisson Distribution
泊松分布的特征:
- 事件是独立事件
- 在任意相同的时间范围内,事件发的概率相同
- 目的是:想知道某个时间范围内,发生某件事情k次的概率是多少
例如:一周内有多少个人内赢得彩票
连续概率分布
.1 正态分布
“边际成本”越高的行业,越是分散市场,符合正态分布;
正态分布的特异功能:预测数据的位置
.2 幂律分布
个人幂律分布的商业模式:形成自己的影响力,将自己的时间卖出多次
长尾理论就是幂律分布的一种表达
2. 统计概率思维
总体与样本
中心极限定理
中心极限定理使用样本对总体进行估计
特征:
- 样本平均值约等于总体平均值(样本>30)
- 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体平均值周围,并且呈现正态分布。
有什么用?
- 在没有办法获得总体的数据时,可用样本来估计总体(民意调查)
- 根据总体信息,判断某个样本是否属于总体(3个标准差范围内,概率为97%)
如何用样本估计总体标准差?
由于抽样可能会使极端数据排除在外,无法反应所有数据的全貌,得到的样本标准差会偏小。因此用样本来估计总体标准差时,公式的分母是n-1,使得样本标准差偏大一点
标准误差是用来衡量样本平均值的波动大小,他是由多个样本的平均值求标准差而来。
如何避免偏见?
偏见产生的原因:
- 样本偏差:只看了个别数据
- 幸存者偏差:只关注了显而易见的样本,忽略了沉默的样本
- 概率偏见
- 信息茧房