Fisher信息矩阵(Fisher Information Matrix,简称FIM)

Fisher信息矩阵简介

Fisher信息矩阵(Fisher Information Matrix,简称FIM)是统计学和信息理论中的一个重要概念,广泛应用于参数估计、统计推断和机器学习领域。它以统计学家罗纳德·费希尔(Ronald Fisher)的名字命名,反映了概率分布对参数变化的敏感度,是衡量模型参数估计不确定性的核心工具。

什么是Fisher信息矩阵?

Fisher信息矩阵是一个对称的方阵,用于描述概率密度函数(或概率质量函数)在其参数下的信息含量。简单来说,它告诉我们通过观测数据能够获得多少关于未知参数的信息。对于一个参数化的概率分布 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ),其中 ( θ \theta θ ) 是参数向量,Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 的定义基于对数似然函数的二阶导数。

数学定义

假设我们有一个概率密度函数 ( p ( x ∣ θ ) p(x|\theta) p(xθ) ),其中 ( θ = ( θ 1 , θ 2 , … , θ k ) \theta = (\theta_1, \theta_2, \dots, \theta_k) θ=(θ1,θ2,,θk) ) 是 ( k k k ) 维参数向量。Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 的元素可以通过以下两种等价的方式定义:

  1. 基于期望的定义
    I ( θ ) i j = E [ ∂ log ⁡ p ( x ∣ θ ) ∂ θ i ∂ log ⁡ p ( x ∣ θ ) ∂ θ j ∣ θ ] I(\theta)_{ij} = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θilogp(xθ)θjlogp(xθ) θ]
    这里,( E [ ⋅ ] E[\cdot] E[] ) 表示在给定 ( θ \theta θ ) 下的期望,( ∂ log ⁡ p ( x ∣ θ ) ∂ θ i \frac{\partial \log p(x|\theta)}{\partial \theta_i} θilogp(xθ) ) 是对数似然函数对第 ( i i i ) 个参数的偏导数,也称为得分函数(score function)。

  2. 基于二阶导数的定义(在一定条件下等价):
    I ( θ ) i j = − E [ ∂ 2 log ⁡ p ( x ∣ θ ) ∂ θ i ∂ θ j ∣ θ ] I(\theta)_{ij} = -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right] I(θ)ij=E[θiθj2logp(xθ) θ]
    这是对数似然函数的二阶偏导数的负期望值,通常称为Hessian矩阵的期望。

这两种定义在正则条件下(例如,分布满足可微性和期望的可交换性)是等价的。

一个简单例子

为了更好地理解,假设我们有一个正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ),其中参数 ( θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) )。我们来计算它的Fisher信息矩阵:

对数似然函数

对于单个观测值 ( x x x ):
log ⁡ p ( x ∣ μ , σ 2 ) = − 1 2 log ⁡ ( 2 π σ 2 ) − ( x − μ ) 2 2 σ 2 \log p(x|\mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2} logp(xμ,σ2)=21log(2πσ2)2σ2(xμ)2

计算得分函数
  • 对 ( μ \mu μ ) 求偏导:
    ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} μlogp=σ2xμ
  • 对 ( σ 2 \sigma^2 σ2 ) 求偏导:
    ∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2logp=2σ21+2(σ2)2(xμ)2
Fisher信息矩阵元素
  • ( I 11 = E [ ( x − μ σ 2 ) 2 ] = 1 σ 2 I_{11} = E\left[ \left( \frac{x - \mu}{\sigma^2} \right)^2 \right] = \frac{1}{\sigma^2} I11=E[(σ2xμ)2]=σ21 ),因为 ( E [ ( x − μ ) 2 ] = σ 2 E[(x - \mu)^2] = \sigma^2 E[(xμ)2]=σ2 )。
  • ( I 22 = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] = 1 2 ( σ 2 ) 2 I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] = \frac{1}{2(\sigma^2)^2} I22=E[(2σ21+2(σ2)2(xμ)2)2]=2(σ2)21 )。计算过程见下文。
  • ( I 12 = I 21 = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] = 0 I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0 I12=I21=E[σ2xμ(2σ21+2(σ2)2(xμ)2)]=0 )(交叉项期望为零)。计算过程见下文。

于是,Fisher信息矩阵为:
I ( θ ) = [ 1 σ 2 0 0 1 2 ( σ 2 ) 2 ] I(\theta) = \begin{bmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2(\sigma^2)^2} \end{bmatrix} I(θ)=[σ21002(σ2)21]

Fisher信息矩阵的性质

  1. 正定性:如果模型是可识别的(即不同参数对应不同分布),Fisher信息矩阵通常是正定的,这意味着它可以用来衡量参数估计的“曲率”。
  2. 对角元素:对角线上的元素 ( I i i I_{ii} Iii ) 表示单个参数 ( θ i \theta_i θi ) 的信息量。
  3. 独立性:如果参数之间是独立的(得分函数的交叉项期望为零),矩阵将是对角矩阵。

应用

  1. Cramér-Rao下界
    Fisher信息矩阵的一个重要应用是提供参数估计方差的下界。对于一个无偏估计器 ( θ ^ \hat{\theta} θ^ ),其协方差矩阵满足:
    Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)I(θ)1
    其中 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)1 ) 是Fisher信息矩阵的逆矩阵。这表明,估计器的精度受限于Fisher信息。

  2. 最大似然估计
    在最大似然估计(MLE)中,Fisher信息矩阵的逆可以用来近似估计参数的协方差矩阵,尤其是在大样本情况下。

  3. 机器学习
    在深度学习中,Fisher信息矩阵被用于优化算法(如自然梯度下降)和模型正则化,帮助理解损失函数的几何结构。

总结

Fisher信息矩阵是统计学中的一个强大工具,它连接了概率分布、参数估计和信息理论。通过量化数据中包含的参数信息,它为我们提供了理解模型行为和估计精度的基础。尽管计算复杂,但在许多实际问题中,它可以通过数值方法或近似来实现。

如果你需要更深入的探讨或具体例子,请告诉我,我可以进一步扩展!

I 22 I_{22} I22复杂计算过程

以下是关于Fisher信息矩阵元素 ( I 22 I_{22} I22 ) 的计算过程


第一部分:计算 ( I 22 I_{22} I22 )

给出的表达式是:

I 22 = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] I_{22} = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] I22=E[(2σ21+2(σ2)2(xμ)2)2]

并提到它等于 ( 1 2 ( σ 2 ) 2 \frac{1}{2(\sigma^2)^2} 2(σ2)21 )。让我们一步步验证这个计算过程,假设 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ),因为Fisher信息矩阵通常在正态分布的背景下计算。

步骤 1:定义对数似然函数

对于来自正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ) 的单个观测值 ( x x x ),概率密度函数为:

p ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) p(xμ,σ2)=2πσ2 1exp(2σ2(xμ)2)

对数似然函数为:

log ⁡ p ( x ∣ μ , σ 2 ) = − 1 2 log ⁡ ( 2 π σ 2 ) − ( x − μ ) 2 2 σ 2 \log p(x | \mu, \sigma^2) = -\frac{1}{2} \log (2\pi \sigma^2) - \frac{(x - \mu)^2}{2\sigma^2} logp(xμ,σ2)=21log(2πσ2)2σ2(xμ)2

步骤 2:对 ( σ 2 \sigma^2 σ2 ) 求偏导数

由于 ( I 22 I_{22} I22 ) 对应参数 ( θ 2 = σ 2 \theta_2 = \sigma^2 θ2=σ2 ),我们需要计算:

∂ log ⁡ p ∂ σ 2 \frac{\partial \log p}{\partial \sigma^2} σ2logp

  • 第一项:( − 1 2 log ⁡ ( 2 π σ 2 ) = − 1 2 log ⁡ 2 π − 1 2 log ⁡ σ 2 -\frac{1}{2} \log (2\pi \sigma^2) = -\frac{1}{2} \log 2\pi - \frac{1}{2} \log \sigma^2 21log(2πσ2)=21log2π21logσ2 )

∂ ∂ σ 2 ( − 1 2 log ⁡ σ 2 ) = − 1 2 ⋅ 1 σ 2 = − 1 2 σ 2 \frac{\partial}{\partial \sigma^2} \left( -\frac{1}{2} \log \sigma^2 \right) = -\frac{1}{2} \cdot \frac{1}{\sigma^2} = -\frac{1}{2\sigma^2} σ2(21logσ2)=21σ21=2σ21

(这里使用了链式法则:( d d σ 2 log ⁡ σ 2 = 1 σ 2 \frac{d}{d\sigma^2} \log \sigma^2 = \frac{1}{\sigma^2} dσ2dlogσ2=σ21 )。)

  • 第二项:( − ( x − μ ) 2 2 σ 2 -\frac{(x - \mu)^2}{2\sigma^2} 2σ2(xμ)2 )

∂ ∂ σ 2 ( − ( x − μ ) 2 2 σ 2 ) = − ( x − μ ) 2 2 ⋅ ( − 1 ) ( σ 2 ) − 2 = ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial}{\partial \sigma^2} \left( -\frac{(x - \mu)^2}{2\sigma^2} \right) = -\frac{(x - \mu)^2}{2} \cdot (-1) (\sigma^2)^{-2} = \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2(2σ2(xμ)2)=2(xμ)2(1)(σ2)2=2(σ2)2(xμ)2

因此:

∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2logp=2σ21+2(σ2)2(xμ)2

这与给出的期望内的表达式一致.

步骤 3:对偏导数平方

I 22 = E [ ( ∂ log ⁡ p ∂ σ 2 ) 2 ] = E [ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 ] I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right] = E\left[ \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 \right] I22=E[(σ2logp)2]=E[(2σ21+2(σ2)2(xμ)2)2]

展开平方:

( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 = ( − 1 2 σ 2 ) 2 + 2 ( − 1 2 σ 2 ) ( ( x − μ ) 2 2 ( σ 2 ) 2 ) + ( ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \left( -\frac{1}{2\sigma^2} \right)^2 + 2 \left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) + \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 (2σ21+2(σ2)2(xμ)2)2=(2σ21)2+2(2σ21)(2(σ2)2(xμ)2)+(2(σ2)2(xμ)2)2

逐项简化:

  1. ( ( − 1 2 σ 2 ) 2 = 1 4 ( σ 2 ) 2 \left( -\frac{1}{2\sigma^2} \right)^2 = \frac{1}{4(\sigma^2)^2} (2σ21)2=4(σ2)21 )

  2. ( 2 ( − 1 2 σ 2 ) ( ( x − μ ) 2 2 ( σ 2 ) 2 ) = − ( x − μ ) 2 2 ( σ 2 ) 3 2 \left( -\frac{1}{2\sigma^2} \right) \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = -\frac{(x - \mu)^2}{2(\sigma^2)^3} 2(2σ21)(2(σ2)2(xμ)2)=2(σ2)3(xμ)2 )

  3. ( ( ( x − μ ) 2 2 ( σ 2 ) 2 ) 2 = ( x − μ ) 4 4 ( σ 2 ) 4 \left( \frac{(x - \mu)^2}{2(\sigma^2)^2} \right)^2 = \frac{(x - \mu)^4}{4(\sigma^2)^4} (2(σ2)2(xμ)2)2=4(σ2)4(xμ)4 )

因此:

I 22 = E [ 1 4 ( σ 2 ) 2 − ( x − μ ) 2 2 ( σ 2 ) 3 + ( x − μ ) 4 4 ( σ 2 ) 4 ] I_{22} = E\left[ \frac{1}{4(\sigma^2)^2} - \frac{(x - \mu)^2}{2(\sigma^2)^3} + \frac{(x - \mu)^4}{4(\sigma^2)^4} \right] I22=E[4(σ2)212(σ2)3(xμ)2+4(σ2)4(xμ)4]

步骤 4:计算期望

由于 ( σ 2 \sigma^2 σ2 ) 是参数(常数),我们对 ( x x x ) 取期望:

  • ( E [ 1 4 ( σ 2 ) 2 ] = 1 4 ( σ 2 ) 2 E\left[ \frac{1}{4(\sigma^2)^2} \right] = \frac{1}{4(\sigma^2)^2} E[4(σ2)21]=4(σ2)21 ) (常数)

  • ( E [ − ( x − μ ) 2 2 ( σ 2 ) 3 ] = − 1 2 ( σ 2 ) 3 E [ ( x − μ ) 2 ] E\left[ -\frac{(x - \mu)^2}{2(\sigma^2)^3} \right] = -\frac{1}{2(\sigma^2)^3} E[(x - \mu)^2] E[2(σ2)3(xμ)2]=2(σ2)31E[(xμ)2] )

  • ( E [ ( x − μ ) 4 4 ( σ 2 ) 4 ] = 1 4 ( σ 2 ) 4 E [ ( x − μ ) 4 ] E\left[ \frac{(x - \mu)^4}{4(\sigma^2)^4} \right] = \frac{1}{4(\sigma^2)^4} E[(x - \mu)^4] E[4(σ2)4(xμ)4]=4(σ2)41E[(xμ)4] )

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ):

  • ( E [ ( x − μ ) 2 ] = 方差 = σ 2 E[(x - \mu)^2] = \text{方差} = \sigma^2 E[(xμ)2]=方差=σ2 )

  • ( E [ ( x − μ ) 4 ] = 3 ( σ 2 ) 2 E[(x - \mu)^4] = 3(\sigma^2)^2 E[(xμ)4]=3(σ2)2 ) (正态分布的四阶中心矩)

代入:

I 22 = 1 4 ( σ 2 ) 2 − 1 2 ( σ 2 ) 3 ⋅ σ 2 + 1 4 ( σ 2 ) 4 ⋅ 3 ( σ 2 ) 2 I_{22} = \frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^3} \cdot \sigma^2 + \frac{1}{4(\sigma^2)^4} \cdot 3(\sigma^2)^2 I22=4(σ2)212(σ2)31σ2+4(σ2)413(σ2)2

= 1 4 ( σ 2 ) 2 − 1 2 ( σ 2 ) 2 + 3 4 ( σ 2 ) 2 = \frac{1}{4(\sigma^2)^2} - \frac{1}{2(\sigma^2)^2} + \frac{3}{4(\sigma^2)^2} =4(σ2)212(σ2)21+4(σ2)23

= ( 1 4 − 2 4 + 3 4 ) 1 ( σ 2 ) 2 = 2 4 1 ( σ 2 ) 2 = 1 2 ( σ 2 ) 2 = \left( \frac{1}{4} - \frac{2}{4} + \frac{3}{4} \right) \frac{1}{(\sigma^2)^2} = \frac{2}{4} \frac{1}{(\sigma^2)^2} = \frac{1}{2(\sigma^2)^2} =(4142+43)(σ2)21=42(σ2)21=2(σ2)21

这证实了:

I 22 = 1 2 ( σ 2 ) 2 I_{22} = \frac{1}{2(\sigma^2)^2} I22=2(σ2)21

这个计算依赖于对偏导数平方后展开,并利用正态分布的矩,结果如上所示。


第二部分:两个偏导的乘积是否等价于平方?

两个偏导的乘积等价成平方了吗?让我们在 ( θ = ( μ , σ 2 ) \theta = (\mu, \sigma^2) θ=(μ,σ2) ) 的Fisher信息矩阵背景下解释这个问题。

Fisher信息矩阵元素
  • ( I 11 = E [ ( ∂ log ⁡ p ∂ μ ) 2 ] I_{11} = E\left[ \left( \frac{\partial \log p}{\partial \mu} \right)^2 \right] I11=E[(μlogp)2] )

  • ( I 12 = I 21 = E [ ∂ log ⁡ p ∂ μ ∂ log ⁡ p ∂ σ 2 ] I_{12} = I_{21} = E\left[ \frac{\partial \log p}{\partial \mu} \frac{\partial \log p}{\partial \sigma^2} \right] I12=I21=E[μlogpσ2logp] )

  • ( I 22 = E [ ( ∂ log ⁡ p ∂ σ 2 ) 2 ] I_{22} = E\left[ \left( \frac{\partial \log p}{\partial \sigma^2} \right)^2 \right] I22=E[(σ2logp)2] ) (如上计算)

对角元素是平方,非对角元素是乘积。

解答交叉项期望为零

为什么 ( I 12 = I 21 = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] = 0 I_{12} = I_{21} = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] = 0 I12=I21=E[σ2xμ(2σ21+2(σ2)2(xμ)2)]=0 )?


背景

在Fisher信息矩阵中,( I i j I_{ij} Iij ) 表示参数 ( θ i \theta_i θi ) 和 ( θ j \theta_j θj ) 的信息关联。对于正态分布 ( N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2) ),我们令 ( θ 1 = μ \theta_1 = \mu θ1=μ ),( θ 2 = σ 2 \theta_2 = \sigma^2 θ2=σ2 )。这里,( I 12 I_{12} I12 ) 是交叉项,定义为:

I 12 = E [ ∂ log ⁡ p ∂ μ ⋅ ∂ log ⁡ p ∂ σ 2 ] I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right] I12=E[μlogpσ2logp]

它衡量了 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 之间的信息相关性。如果 ( I 12 = 0 I_{12} = 0 I12=0 ),说明这两个参数在信息上是“正交”的,也就是说,一个参数的得分函数(score function)与另一个参数的得分函数在期望上是无关的。


计算过程

步骤 1:计算交叉项 ( I 12 I_{12} I12 )

I 12 = E [ ∂ log ⁡ p ∂ μ ⋅ ∂ log ⁡ p ∂ σ 2 ] = E [ x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) ] I_{12} = E\left[ \frac{\partial \log p}{\partial \mu} \cdot \frac{\partial \log p}{\partial \sigma^2} \right] = E\left[ \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) \right] I12=E[μlogpσ2logp]=E[σ2xμ(2σ21+2(σ2)2(xμ)2)]

展开乘积:

x − μ σ 2 ⋅ ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 ) = x − μ σ 2 ⋅ ( − 1 2 σ 2 ) + x − μ σ 2 ⋅ ( x − μ ) 2 2 ( σ 2 ) 2 \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} \right) = \frac{x - \mu}{\sigma^2} \cdot \left( -\frac{1}{2\sigma^2} \right) + \frac{x - \mu}{\sigma^2} \cdot \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2xμ(2σ21+2(σ2)2(xμ)2)=σ2xμ(2σ21)+σ2xμ2(σ2)2(xμ)2

= − x − μ 2 ( σ 2 ) 2 + ( x − μ ) 3 2 ( σ 2 ) 3 = -\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3} =2(σ2)2xμ+2(σ2)3(xμ)3

因此:

I 12 = E [ − x − μ 2 ( σ 2 ) 2 + ( x − μ ) 3 2 ( σ 2 ) 3 ] I_{12} = E\left[ -\frac{x - \mu}{2(\sigma^2)^2} + \frac{(x - \mu)^3}{2(\sigma^2)^3} \right] I12=E[2(σ2)2xμ+2(σ2)3(xμ)3]

由于期望是线性的,我们可以分开计算:

I 12 = − 1 2 ( σ 2 ) 2 E [ x − μ ] + 1 2 ( σ 2 ) 3 E [ ( x − μ ) 3 ] I_{12} = -\frac{1}{2(\sigma^2)^2} E[x - \mu] + \frac{1}{2(\sigma^2)^3} E[(x - \mu)^3] I12=2(σ2)21E[xμ]+2(σ2)31E[(xμ)3]

步骤 2:计算正态分布的矩

对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) ):

  • ( E [ x − μ ] = 0 E[x - \mu] = 0 E[xμ]=0 ) (一阶中心矩,因为均值为 ( μ \mu μ ))

  • ( E [ ( x − μ ) 3 ] = 0 E[(x - \mu)^3] = 0 E[(xμ)3]=0 ) (三阶中心矩,由于正态分布是对称的,奇数阶中心矩为零)

代入:

I 12 = − 1 2 ( σ 2 ) 2 ⋅ 0 + 1 2 ( σ 2 ) 3 ⋅ 0 = 0 I_{12} = -\frac{1}{2(\sigma^2)^2} \cdot 0 + \frac{1}{2(\sigma^2)^3} \cdot 0 = 0 I12=2(σ2)210+2(σ2)310=0

所以:

I 12 = 0 I_{12} = 0 I12=0

这就是为什么交叉项期望为零。


解释:为什么会是零?

这个结果的背后有深刻的统计意义:

  1. 正态分布的对称性

    • ( x − μ x - \mu xμ ) 的分布是对称的(服从 ( N ( 0 , σ 2 ) N(0, \sigma^2) N(0,σ2) )),其奇数阶中心矩(如 ( E [ x − μ ] E[x - \mu] E[xμ] ) 和 ( E [ ( x − μ ) 3 ] E[(x - \mu)^3] E[(xμ)3] ))都为零。
    • ( ∂ log ⁡ p ∂ μ = x − μ σ 2 \frac{\partial \log p}{\partial \mu} = \frac{x - \mu}{\sigma^2} μlogp=σ2xμ ) 是线性项,期望为零。
    • ( ∂ log ⁡ p ∂ σ 2 = − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 \frac{\partial \log p}{\partial \sigma^2} = -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} σ2logp=2σ21+2(σ2)2(xμ)2 ) 包含常数项和二次项,乘以奇数项 ( x − μ x - \mu xμ ) 后,奇数阶的部分在期望下消失。
  2. 参数的正交性

    • 在正态分布中,( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 的得分函数是“正交”的,意味着它们提供的信息在统计上是独立的。
    • 当 ( I 12 = 0 I_{12} = 0 I12=0 ),Fisher信息矩阵是对角矩阵,表明 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 的估计不会相互干扰。
  3. 直观理解

    • ( x − μ σ 2 \frac{x - \mu}{\sigma^2} σ2xμ ) 表示数据偏离均值的程度,是随机的正负波动。
    • ( − 1 2 σ 2 + ( x − μ ) 2 2 ( σ 2 ) 2 -\frac{1}{2\sigma^2} + \frac{(x - \mu)^2}{2(\sigma^2)^2} 2σ21+2(σ2)2(xμ)2 ) 与方差相关,是关于偏差大小的量。
    • 这两者乘积的正负波动在对称分布下互相抵消,期望为零。

验证:另一种方法(二阶导数)

Fisher信息矩阵也可以用二阶导数的负期望定义:

I 12 = − E [ ∂ 2 log ⁡ p ∂ μ ∂ σ 2 ] I_{12} = -E\left[ \frac{\partial^2 \log p}{\partial \mu \partial \sigma^2} \right] I12=E[μσ22logp]

计算二阶混合偏导:

∂ ∂ σ 2 ( x − μ σ 2 ) = ( x − μ ) ⋅ ( − 1 ) ( σ 2 ) − 2 = − x − μ ( σ 2 ) 2 \frac{\partial}{\partial \sigma^2} \left( \frac{x - \mu}{\sigma^2} \right) = (x - \mu) \cdot (-1) (\sigma^2)^{-2} = -\frac{x - \mu}{(\sigma^2)^2} σ2(σ2xμ)=(xμ)(1)(σ2)2=(σ2)2xμ

I 12 = − E [ − x − μ ( σ 2 ) 2 ] = 1 ( σ 2 ) 2 E [ x − μ ] = 0 I_{12} = -E\left[ -\frac{x - \mu}{(\sigma^2)^2} \right] = \frac{1}{(\sigma^2)^2} E[x - \mu] = 0 I12=E[(σ2)2xμ]=(σ2)21E[xμ]=0

这与得分函数方法一致,进一步确认 ( I 12 = 0 I_{12} = 0 I12=0 )。


结论

( I 12 = 0 I_{12} = 0 I12=0 ) 是因为正态分布的奇数阶中心矩为零,导致 ( ∂ log ⁡ p ∂ μ \frac{\partial \log p}{\partial \mu} μlogp ) 和 ( ∂ log ⁡ p ∂ σ 2 \frac{\partial \log p}{\partial \sigma^2} σ2logp ) 的乘积在期望下抵消。这反映了 ( μ \mu μ ) 和 ( σ 2 \sigma^2 σ2 ) 在信息上的独立性,是正态分布的一个重要特性。

后记

2025年2月24日21点43分于上海,在Grok3大模型辅助下完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/71848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【初阶数据结构】链表的柔光之美

目录 一、为什么需要链表? 二、链表与数组的对比 三、链表节点定义 四、链表基本操作 1. 创建链表 2. 插入节点 头插法(时间复杂度O(1)) 尾插法(时间复杂度O(n)) 3. 删除节点 4. 遍历链表 五、进阶操作 1. 反…

《论湖仓一体架构及其应用》审题技巧 - 系统架构设计师

软考论文写作框架 一、考点概述 “湖仓一体架构及其应用”这一论题,主要考察了考生对现代数据管理系统中湖仓一体架构的理解、应用及问题解决能力。随着5G、大数据、人工智能、物联网等技术的快速发展,企业数据的管理需求正发生深刻变化。传统的数据管…

MybatisPlus-扩展功能-枚举处理器

在Mybatis里有一个叫TypeHandler的类型处理器,我们常见的PO当中的这些成员变量的数据类型,它都有对应的处理器,因此它就能自动实现这些Java数据类型与数据库类型的相互转换。 它里面还有一个叫EnumOrdinalTypeHandler的枚举处理器&#xff0…

北京大学第二弹《DeepSeek提示词工程和落地场景》

大家好,我是吾鳴。 之前给大家分享过北京大学出品的DeepSeek教程《DeepSeek与AIGC应用》,今天吾鳴发现北京大学又出第二版教程了,教程的名称叫做《DeepSeek提示词工程和落地场景》,在此分享给大家。文末有完整版PDF下载地址。 教程…

deepseek自动化代码生成

使用流程 效果第一步:注册生成各种大模型的API第二步:注册成功后生成API第三步:下载vscode在vscode中下载agent,这里推荐使用cline 第四步:安装完成后,设置模型信息第一步选择API provider: Ope…

322.零钱兑换

class Solution(object):def coinChange(self, coins, amount):""":type coins: List[int]:type amount: int:rtype: int"""n len(coins) dp [float(inf)]*(amount 1) # 初始值为正无穷大dp[0] 0 # 一定要初始化为0if amount 0:return 0 …

ARM Cortex-M处理器中的MSP和PSP

在ARM Cortex-M系列处理器中,MSP(主堆栈指针)和PSP(进程堆栈指针)是两种不同的堆栈指针,主要用于实现堆栈隔离和提升系统可靠性。以下是它们的核心区别和应用场景: 1. 基本定义 MSP(…

交换机与路由器连接方式

交换机和路由器连接的三种主要方式如下: 一、直连连接 这是最简单直接的连接方式。通过一根网线将交换机的一个端口与路由器的一个LAN端口相连。这种连接方式适用于小型网络,其中交换机负责局域网内部的数据交换,而路由器则负责将内部网络连接…

Python代码片段-Excel导入到MongoDB

有一次遇到一个需求,需要把Excel的数据导入到MongoDB中,表面上感觉就是导入数据很简单,但实际操作后,发现是比较麻烦的一个事情,一般图形化的工具对于MongoDB而言,导入选项都是json的,根本没有E…

axios几种请求类型的格式

Axios 是一个基于 Promise 的 HTTP 客户端,广泛用于浏览器和 Node.js 中发送 HTTP 请求。它支持多种请求格式,包括 GET、POST、PUT、DELETE 等。也叫RESTful 目录 一、axios几种请求类型的格式 1、get请求 2、post请求 3、put请求 4、delete请求 二…

手写系列——MoE网络

参考: MOE原理解释及从零实现一个MOE(专家混合模型)_moe代码-CSDN博客 MoE环游记:1、从几何意义出发 - 科学空间|Scientific Spaces 深度学习之图像分类(二十八)-- Sparse-MLP(MoE)网络详解_sparse moe…

Linux的基础指令和环境部署,项目部署实战(下)

目录 上一篇:Linxu的基础指令和环境部署,项目部署实战(上)-CSDN博客 1. 搭建Java部署环境 1.1 apt apt常用命令 列出所有的软件包 更新软件包数据库 安装软件包 移除软件包 1.2 JDK 1.2.1. 更新 1.2.2. 安装openjdk&am…

【蓝桥杯】第十五届省赛大学真题组真题解析

【蓝桥杯】第十五届省赛大学真题组真题解析 一、智能停车系统 1、知识点 (1)flex-wrap 控制子元素的换行方式 属性值有: no-wrap不换行wrap伸缩容器不够则自动往下换行wrap-reverse伸缩容器不够则自动往上换行 (2&#xff0…

flink operator v1.10对接华为云对象存储OBS

1 概述 flink operator及其flink集群,默认不直接支持华为云OBS,需要在这些java程序的插件目录放一个jar包,以及修改flink配置后,才能支持集成华为云OBS。 相关链接参考: https://support.huaweicloud.com/bestpracti…

免费PDF工具

Smallpdf.com - A Free Solution to all your PDF Problems Smallpdf - the platform that makes it super easy to convert and edit all your PDF files. Solving all your PDF problems in one place - and yes, free. https://smallpdf.com/#rappSmallpdf.com-解决您所有PD…

去中心化技术P2P框架

中心化网络与去中心化网络 1. 中心化网络 在传统的中心化网络中,所有客户端都通过一个中心服务器进行通信。这种网络拓扑结构通常是一个星型结构,其中服务器作为中心节点,每个客户端只能与服务器通信。如果客户端之间需要通信,必须…

muduo源码阅读:linux timefd定时器

⭐timerfd timerfd 是Linux一个定时器接口,它基于文件描述符工作,并通过该文件描述符的可读事件进行超时通知。可以方便地与select、poll和epoll等I/O多路复用机制集成,从而在没有处理事件时阻塞程序执行,实现高效的零轮询编程模…

Pinia 3.0 正式发布:全面拥抱 Vue 3 生态,升级指南与实战教程

一、重大版本更新解析 2024年2月11日,Vue 官方推荐的状态管理库 Pinia 迎来 3.0 正式版发布,本次更新标志着其全面转向 Vue 3 技术生态。以下是开发者需要重点关注的升级要点: 1.1 核心变更说明 特性3.0 版本要求兼容性说明Vue 支持Vue 3.…

【图像处理 --- Sobel 边缘检测的详解】

Sobel 边缘检测的详解 目录 Sobel 边缘检测的详解1. 梯度计算2. 梯度大小3. 梯度方向4. 非极大值抑制5. 双阈值处理6. 在 MATLAB 中实现 Sobel 边缘检测7.运行结果展示8.关键参数解释9.实验与验证 Sobel 边缘检测是一种经典的图像处理算法,用于检测图像中的边缘。它…

LeetCode 热题100 15. 三数之和

LeetCode 热题100 | 15. 三数之和 大家好,今天我们来解决一道经典的算法题——三数之和。这道题在 LeetCode 上被标记为中等难度,要求我们从一个整数数组中找到所有不重复的三元组,使得三元组的和为 0。下面我将详细讲解解题思路&#xff0c…