机器学习笔记(十六)—

机器学习笔记(十六)——EM算法概述

一、引言

按照计划，这周应该学习HMM中的第三个基本问题：参数估计问题，但是其中的内容涉及到了EM算法，所以打算先把EM算法搞定之后再去继续HMM的问题。EM算法的推导过程比较复杂，这节我只给出简述和计算公式，待推导完成后再贴上推导过程。

二、一个实例

例1 （三硬币模型） 假设有3枚硬币，分别记为 $A,B,C$ 。这些硬币正面出现的概率分别是 $\pi, p,q$ 。进行如下掷硬币试验：先掷硬币A,根据其结果选出B或者C，正面选B，反面选C；然后掷选出的硬币，掷硬币的结果，正面记为1，反面记为0；独立重复n次试验(这里，n=10),观测结果如下：1,1,0,1,0,0,1,0,1,1.假设只能观测到掷硬币的结果，不能观测掷硬币的过程。问如何估计三硬币正面出现的概率，即求三硬币模型的参数。

三硬币模型可以写作:

P (y; θ) = \sum z P (y, z; θ) = \sum z P (z; θ) P (y | z; θ) = π p y (1 - p) 1 - y + (1 - π) q y (1 - q) 1 - y

$P(y;\theta) = \sum_z P(y,z;\theta) = \sum_z P(z;\theta)P(y|z;\theta) \\ =\pi p^y(1-p)^{1-y}+(1-\pi)q^y(1-q)^{1-y}$
上式中，随机变量

y $y$ 是观测变量，

z $z$ 是隐变量且不可观测，

θ=(π,p,q) $\theta = (\pi, p, q)$ 是模型参数。这一模型是以上数据的生成模型。将观测数据表示为

Y=(Y1,Y2,…,Yn)T $Y=(Y_1,Y_2,\dots,Y_n)^T$ , 未观测数据表示为

Z=(Z1,Z2,…,Zn)T $Z=(Z_1,Z_2, \dots, Z_n)^T$ ，则观测数据的似然函数为：

P (Y; θ) = \sum z P (Z; θ) P (Y | Z; θ) = \prod j = 1 n [π p y j (1 - p) 1 - y j + (1 - π) q y j (1 - q) 1 - y j]

$P(Y;\theta) = \sum_z P(Z;\theta)P(Y|Z;\theta) \\ =\prod_{j=1}^n[\pi p^{y_j}(1-p)^{1-{y_j}}+(1-\pi)q^{y_j}(1-q)^{1-{y_j}}]$

三、EM算法的迭代公式

考虑求模型参数 $\theta = (\pi, p, q)$ 的极大似然估计，即：

θ^= a r g max θ log P (Y; θ)

$\hat{\theta} = arg \max_\theta \log P(Y;\theta)$
这个问题没有解析解，只有通过迭代方法求解，EM算法就是求解这个问题的一种算法。下面先给出去针对上述问题的EM算法，推导过程下节给出。
1. 选取初始参数

θ(0)=(π(0),p(0),q(0)) $\theta^{(0)} = (\pi^{(0)}, p^{(0)}, q^{(0)})$
2. E步：计算模型参数

π(i),p(i),q(i) $\pi^{(i)}, p^{(i)}, q^{(i)}$ 下观测数据

yj $y_j$ 来自掷硬币B的概率：

μ (i + 1) = π ( i ) ( p ( i ) ) y j ( 1 - p ( i ) ) 1 - y j π ( i ) ( p ( i ) ) y j ( 1 - p ( i ) ) 1 - y j + ( 1 - π ( i ) ) ( q ( i ) ) y j ( 1 - q ( i ) ) 1 - y j

$\mu^{(i+1)} = \frac{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{1-y_j}}{\pi^{(i)}(p^{(i)})^{y_j}(1-p^{(i)})^{1-y_j} +(1-\pi^{(i)})(q^{(i)})^{y_j}(1-q^{(i)})^{1-y_j}}$
3. M步：计算模型参数的新估计值：

π (i + 1) = 1 n \sum j = 1 n μ (i + 1) j p (i + 1) = \sum n j = 1 μ ( i + 1 ) j y j \sum n j = 1 μ ( i + 1 ) j q (i + 1) = \sum n j = 1 ( 1 - μ ( i + 1 ) j ) y j \sum n j = 1 ( 1 - μ ( i + 1 ) j )

$\pi^{(i+1)} = \frac{1}{n}\sum_{j=1}^{n}\mu_j^{(i+1)}\\ p^{(i+1)} = \frac{\sum_{j=1}^{n}\mu_j^{(i+1)}y_j}{\sum_{j=1}^{n}\mu_j^{(i+1)}}\\ q^{(i+1)} = \frac{\sum_{j=1}^{n}(1-\mu_j^{(i+1)})y_j}{\sum_{j=1}^{n}(1-\mu_j^{(i+1)})}$
4. 给出停止迭代的条件，一般是较小的正数

ε $\varepsilon$ , 满足：