Beta分布是一种定义在区间 ([0, 1]) 上的连续概率分布,常用于描述比例或概率的不确定性。它的形状由两个正参数 (\alpha)(alpha)和 (\beta)(beta)控制,能够呈现多种形态(如对称、偏态、U型等)。
1. 概率密度函数(PDF)
Beta分布的概率密度函数为:
f ( x ; α , β ) = x α − 1 ( 1 − x ) β − 1 B ( α , β ) , x ∈ [ 0 , 1 ] f(x; \alpha, \beta) = \frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)}, \quad x \in [0, 1] f(x;α,β)=B(α,β)xα−1(1−x)β−1,x∈[0,1]
其中:
- (B(\alpha, \beta)) 是Beta函数,用于归一化:
B ( α , β ) = ∫ 0 1 t α − 1 ( 1 − t ) β − 1 d t = Γ ( α ) Γ ( β ) Γ ( α + β ) B(\alpha, \beta) = \int_0^1 t^{\alpha-1}(1-t)^{\beta-1} dt = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha + \beta)} B(α,β)=∫01tα−1(1−t)β−1dt=Γ(α+β)Γ(α)Γ(β) - (\Gamma(\cdot)) 是伽马函数(Gamma function),满足 (\Gamma(n) = (n-1)!) 对正整数 (n)。
2. 分布的形状
Beta分布的形状由 (\alpha) 和 (\beta) 决定:
- 对称分布:当 (\alpha = \beta) 时,分布对称(如 (\alpha=\beta=1) 时为均匀分布;(\alpha=\beta=2) 时为钟形)。
- 偏态分布:
- (\alpha > \beta):左偏(峰值靠近1)。
- (\alpha < \beta):右偏(峰值靠近0)。
- 极端形态:
- (\alpha, \beta < 1):U型(集中在0和1附近)。
- (\alpha = 1, \beta > 1):递减。
- (\beta = 1, \alpha > 1):递增。
典型例子:
参数 ((\alpha, \beta)) | 形状描述 | 示例场景 |
---|---|---|
((1, 1)) | 均匀分布(Flat) | 无先验信息时假设。 |
((2, 2)) | 对称钟形(峰值在0.5) | 硬币公平性的温和先验。 |
((5, 1)) | 极端右偏(峰值靠近1) | 成功概率很高的场景。 |
((0.5, 0.5)) | U型(双峰在0和1) | 两极分化强烈的比例(如点击率)。 |
3. 可视化示例
下图展示了不同参数组合下的Beta分布形状:
- 红色曲线:((0.5, 0.5)) → U型。
- 蓝色曲线:((5, 1)) → 左偏。
- 绿色曲线:((2, 5)) → 右偏。
- 黑色曲线:((1, 1)) → 均匀分布。
4. 统计性质
- 期望(均值):
E [ X ] = α α + β E[X] = \frac{\alpha}{\alpha + \beta} E[X]=α+βα - 方差:
Var ( X ) = α β ( α + β ) 2 ( α + β + 1 ) \text{Var}(X) = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)} Var(X)=(α+β)2(α+β+1)αβ - 众数(峰值点)(当 (\alpha, \beta > 1)):
Mode = α − 1 α + β − 2 \text{Mode} = \frac{\alpha - 1}{\alpha + \beta - 2} Mode=α+β−2α−1
5. 应用场景
Beta分布常用于:
- 贝叶斯统计:作为二项分布参数的共轭先验(如点击率、转化率)。
- A/B测试:建模两个版本的胜率。
- 概率建模:描述任何有界区间(如用户评分、完成率)。
6. 与其他分布的关系
- 二项分布:Beta分布是二项分布参数 (p) 的共轭先验。
- 均匀分布:当 (\alpha = \beta = 1) 时,Beta分布退化为均匀分布。
总结
Beta分布是一个灵活的概率分布,通过调整 (\alpha) 和 (\beta) 可以模拟从均匀分布到极端偏态的各种形态,特别适合建模比例或概率的不确定性。其数学性质良好,是贝叶斯分析中的核心工具之一。