EM算法公式推导

EM算法公式推导

EM 算法是一种用来进行含有隐变量的概率生成模型参数估计的迭代算法。

EM算法步骤

EM 算法通过迭代求 L(θ)=log⁡P(X∣θ)L(\theta)=\log P(X|\theta)L(θ)=logP(Xθ) 的极大似然估计,每次迭代包含两部:E步,求期望;M步,求极大化。

算法流程:

  • 输入:观测变量数据 XXX,隐变量数据 ZZZ,联合分布 P(X,Z∣θ)P(X,Z|\theta)P(X,Zθ) ,条件分布:P(Z∣X,θ)P(Z|X,\theta)P(ZX,θ)

  • 输出:模型参数 θ\thetaθ

  • 步骤

    1. 选择参数的初值 θ0\theta^{0}θ0 ,开始迭代;

    2. E 步:记 θt\theta^{t}θt 为第 ttt 次迭代参数 θ\thetaθ 的估计值,在第 i+1i+1i+1 次迭代的 E 步,计算:
      Q(θ,θt)=EZ[log⁡P(X,Z∣θ)∣X,θ(t)]=∑Zlog⁡P(X,Z∣θ)P(Z∣X,θ(t))\begin{align} Q(\theta,\theta^{t})&=\mathbb{E}_Z[\log P(X,Z|\theta)|X,\theta^{(t)}]\\ &=\sum_{Z}\log P(X,Z|\theta)P(Z|X,\theta^{(t)}) \end{align} Q(θ,θt)=EZ[logP(X,Zθ)X,θ(t)]=ZlogP(X,Zθ)P(ZX,θ(t))
      这里 P(Z∣X,θ(t))P(Z|X,\theta^{(t)})P(ZX,θ(t)) 为给定观测数据 XXX 和当前参数估计 θ(t)\theta^{(t)}θ(t) 下隐变量数据 ZZZ 的条件概率分布;

    3. M 步:求使 Q(θ,θ(t))Q(\theta,\theta^{(t)})Q(θ,θ(t)) 极大化的 θ\thetaθ ,确定第 t+1t+1t+1 次迭代的参数估计值 θt+1\theta^{t+1}θt+1 :
      θ(t+1)=arg⁡max⁡θQ(θ,θt)\theta^{(t+1)}=\arg\max_{\theta}Q(\theta,\theta^{t}) θ(t+1)=argθmaxQ(θ,θt)

    4. 重复 2、3 两步,直到收敛。

函数 Q(θ,θ(t))Q(\theta,\theta^{(t)})Q(θ,θ(t)) 是 EM 算法的核心,称为 QQQ 函数。

EM算法收敛性证明

EM 迭代算法终归要求的是 log⁡P(X∣θ)\log P(X|\theta)logP(Xθ) 的极大似然估计,因此,要证明它的收敛性,即要证明:
log⁡P(X∣θ(t+1))≥log⁡P(X∣θ(t))\log P(X|\theta^{(t+1)})\ge \log P(X|\theta^{(t)}) logP(Xθ(t+1))logP(Xθ(t))
下面开始证明:
log⁡P(X∣θ)=log⁡P(X,Z∣θ)P(Z∣X,θ)=log⁡P(X,Z∣θ)−P(Z∣X,θ)\log P(X|\theta)=\log \frac{P(X,Z|\theta)}{P(Z|X,\theta)}=\log P(X,Z|\theta)-P(Z|X,\theta) logP(Xθ)=logP(ZX,θ)P(X,Zθ)=logP(X,Zθ)P(ZX,θ)
接下来我们同时对等式两边乘 P(Z∣X,θ(t))P(Z|X,\theta^{(t)})P(ZX,θ(t)) 在对 ZZZ 求积分:
左边=∫ZP(Z∣X,θ(t))log⁡P(X,Z∣θ)dZ=log⁡P(X,Z∣θ)∫ZP(Z∣X,θ(t))dZ=log⁡P(X,Z∣θ)左边=\int_Z P(Z|X,\theta^{(t)})\log P(X,Z|\theta)dZ=\log P(X,Z|\theta)\int_Z P(Z|X,\theta^{(t)})dZ=\log P(X,Z|\theta) 左边=ZP(ZX,θ(t))logP(X,Zθ)dZ=logP(X,Zθ)ZP(ZX,θ(t))dZ=logP(X,Zθ)
即,左边相当于没变。
右边=∫ZP(Z∣X,θ(t))log⁡P(X,Z∣θ)−∫ZP(Z∣X,θ(t))log⁡P(Z∣X,θ)=Q(θ,θ(t))−H(θ,θ(t))右边=\int_ZP(Z|X,\theta^{(t)})\log P(X,Z|\theta)-\int_ZP(Z|X,\theta^{(t)})\log P(Z|X,\theta)=Q(\theta,\theta^{(t)})-H(\theta,\theta^{(t)}) 右边=ZP(ZX,θ(t))logP(X,Zθ)ZP(ZX,θ(t))logP(ZX,θ)=Q(θ,θ(t))H(θ,θ(t))
分别将上式两项记为 Q(θ,θ(t))Q(\theta,\theta^{(t)})Q(θ,θ(t))H(θ,θ(t))H(\theta,\theta^{(t)})H(θ,θ(t)) 。我们要证的是 log⁡P(X∣θ(t+1))≥log⁡P(X∣θ(t))\log P(X|\theta^{(t+1)})\ge \log P(X|\theta^{(t)})logP(Xθ(t+1))logP(Xθ(t)) ,这里可以通过证明
log⁡P(X∣θ(t+1))−log⁡P(X∣θ(t))=Q(θ(t+1),θ(t))−Q(θ(t),θ(t))+H(θ(t),θ(t))−H(θ(t+1),θ(t))≥0\log P(X|\theta^{(t+1)})-\log P(X|\theta^{(t)})=Q(\theta^{(t+1)},\theta^{(t)})-Q(\theta^{(t)},\theta^{(t)})+H(\theta^{(t)},\theta^{(t)})-H(\theta^{(t+1)},\theta^{(t)})\ge0 logP(Xθ(t+1))logP(Xθ(t))=Q(θ(t+1),θ(t))Q(θ(t),θ(t))+H(θ(t),θ(t))H(θ(t+1),θ(t))0
来得到。对于 Q(θ,θ(t))Q(\theta,\theta^{(t)})Q(θ,θ(t)) ,明显是通过迭代过程的 arg⁡max⁡\arg\maxargmax 可以保证。因此,我们只需证明 H(θ(t),θ(t))−H(θ(t+1),θ(t))≥0H(\theta^{(t)},\theta^{(t)})-H(\theta^{(t+1)},\theta^{(t)})\ge0H(θ(t),θ(t))H(θ(t+1),θ(t))0
H(θ(t),θ(t))−H(θ(t+1),θ(t))=∫ZP(Z∣X,θ(t))log⁡P(Z∣X,θ(t))−∫ZP(Z∣X,θ(t))log⁡P(Z∣X,θ(t+1))=∫ZP(Z∣X,θ(t))log⁡P(Z∣X,θ(t))P(Z∣X,θ(t+1))=KL(P(Z∣X,θ(t))∣∣P(Z∣X,θ(t+1)))≥0\begin{align} H(\theta^{(t)},\theta^{(t)})-H(\theta^{(t+1)},\theta^{(t)})&=\int_ZP(Z|X,\theta^{(t)})\log P(Z|X,\theta^{(t)})-\int_ZP(Z|X,\theta^{(t)})\log P(Z|X,\theta^{(t+1)})\\ &=\int_ZP(Z|X,\theta^{(t)})\log \frac{P(Z|X,\theta^{(t)})}{P(Z|X,\theta^{(t+1)})}\\ &=KL(P(Z|X,\theta^{(t)})||P(Z|X,\theta^{(t+1)}))\ge0 \end{align} H(θ(t),θ(t))H(θ(t+1),θ(t))=ZP(ZX,θ(t))logP(ZX,θ(t))ZP(ZX,θ(t))logP(ZX,θ(t+1))=ZP(ZX,θ(t))logP(ZX,θ(t+1))P(ZX,θ(t))=KL(P(ZX,θ(t))∣∣P(ZX,θ(t+1)))0
发现最后的形式是 P(Z∣X,θ)(t)P(Z|X,\theta)^{(t)}P(ZX,θ)(t)P(Z∣X,θ(t+1))P(Z|X,\theta^{(t+1)})P(ZX,θ(t+1)) 的 KL 散度,故可以直接得到上式大于等于零,收敛性得证。这里也可以由詹森不等式证得。

上面我们是给出最终的公式,然后证明它的收敛性,即 log⁡P(X∣θ(t+1))≥log⁡P(X∣θ(t))\log P(X|\theta^{(t+1)})\ge \log P(X|\theta^{(t)})logP(Xθ(t+1))logP(Xθ(t)) ,这样来说明 EM 算法确实可以以迭代的形式来最大化 P(X∣θ)P(X|\theta)P(Xθ) 。但是这个公式是怎么得到的呢?下面两小节我们分别从 KL 散度的角度和 Jensen 不等式的角度来推导 EM 算法的导出。

EM算法的导出——KL散度

我们再回顾一下整个算法的设定:

  • 观测数据:XXX

  • 隐变量:ZZZ

  • 完整数据:(X,Z)(X,Z)(X,Z)

  • 参数:θ\thetaθ

  • MLE:θ^MLE=log⁡P(X∣θ)\hat{\theta}_{MLE}=\log P(X|\theta)θ^MLE=logP(Xθ)

  • EM 公式
    θ(t+1)=arg⁡max⁡θ∫log⁡P(X,Z∣θ)P(Z∣X,θ(t))dZE步:P(Z∣X,θ(t))→EZ∣X,θ(t)[log⁡P(X,Z∣θ)]M步:θ(t+1)=arg⁡max⁡θEZ∣X,θ(t)[log⁡P(X,Z∣θ)]\theta^{(t+1)}=\arg\max_{\theta}\int\log P(X,Z|\theta)P(Z|X,\theta^{(t)})dZ\\ E步:P(Z|X,\theta^{(t)})\rightarrow \mathbb{E}_{Z|X,\theta^{(t)}}[\log P(X,Z|\theta)]\\ M步:\theta^{(t+1)}=\arg\max_{\theta}\mathbb{E}_{Z|X,\theta^{(t)}}[\log P(X,Z|\theta)] θ(t+1)=argθmaxlogP(X,Zθ)P(ZX,θ(t))dZE步:P(ZX,θ(t))EZX,θ(t)[logP(X,Zθ)]M步:θ(t+1)=argθmaxEZX,θ(t)[logP(X,Zθ)]

E 步求对数条件联合概率 log⁡P(X,Z∣θ)\log P(X,Z|\theta)logP(X,Zθ) 关于后验 Z∣X,θ(t)Z|X,\theta^{(t)}ZX,θ(t) 的期望,M 步选择一个新的 θ(t+1)\theta^{(t+1)}θ(t+1) 使得上述期望达到最大。从而迭代地使得 log⁡P(X∣θ)\log P(X|\theta)logP(Xθ) 达到最大。上面已经证明了这个算法的收敛性。

下面开始推导公式的导出。我们还是从对数似然 log⁡P(X∣θ)\log P(X|\theta)logP(Xθ) 出发:
log⁡P(X∣θ)=log⁡P(X,Z∣θ)P(Z∣X,θ)=log⁡P(X,Z∣θ)−log⁡P(Z∣X,θ)=log⁡P(X,Z∣θ)q(Z)−log⁡P(Z∣X,θ)q(Z)\begin{align} \log P(X|\theta)&=\log \frac{P(X,Z|\theta)}{P(Z|X,\theta)}\\ &=\log P(X,Z|\theta)-\log P(Z|X,\theta)\\ &=\log \frac{P(X,Z|\theta)}{q(Z)}-\frac{\log P(Z|X,\theta)}{q(Z)} \end{align} logP(Xθ)=logP(ZX,θ)P(X,Zθ)=logP(X,Zθ)logP(ZX,θ)=logq(Z)P(X,Zθ)q(Z)logP(ZX,θ)

  • 第一步先从似然,引入隐变量 ZZZ ,根据联合概率分布的公式进行改写;

  • 然后通过对数的性质写开;

  • 引入关于 ZZZ 的概率分布 q(Z)q(Z)q(Z) ,两个对数里面同时除 q(Z)q(Z)q(Z)

  • 然后两边同时求关于 q(Z)q(Z)q(Z) 的期望

左边=∫Zq(Z)log⁡P(X∣θ)dZ=log⁡P(X∣θ)∫Zq(Z)dZ=log⁡P(X∣θ)×1左边=\int_Zq(Z)\log P(X|\theta)dZ=\log P(X|\theta)\int_Zq(Z)dZ=\log P(X|\theta)\times1 左边=Zq(Z)logP(Xθ)dZ=logP(Xθ)Zq(Z)dZ=logP(Xθ)×1

  • 左边原来就与 ZZZ 无关,相当于对常数求期望,不变

右边=∫Zq(Z)log⁡P(X,Z∣θ)q(Z)dZ−∫Zq(Z)log⁡P(Z∣X,θ)q(Z)dZ=ELBO+KL(q(Z)∣∣P(Z∣X,θ))\begin{align} 右边&=\int_Zq(Z)\log \frac{P(X,Z|\theta)}{q(Z)}dZ-\int_Zq(Z)\log\frac{ P(Z|X,\theta)}{q(Z)}dZ\\ &=ELBO+KL(q(Z)||P(Z|X,\theta))\\ \end{align} 右边=Zq(Z)logq(Z)P(X,Zθ)dZZq(Z)logq(Z)P(ZX,θ)dZ=ELBO+KL(q(Z)∣∣P(ZX,θ))

  • 右边也求期望后,后一项是 q(Z)q(Z)q(Z)P(Z∣X,θ)P(Z|X,\theta)P(ZX,θ) 的相对熵,也就是 KL 散度。而前一项我们通常称为 ELBO (Evidence Lower BOund)证据下界。很明显的, KL 散度是恒正的,因此前一项 ELBO 是 log⁡P(X∣θ)\log P(X|\theta)logP(Xθ) 的一个下界。当且仅当后一项相对熵为零,即两个分布完全相同 q(Z)=P(Z∣X,θ(t))q(Z)=P(Z|X,\theta^{(t)})q(Z)=P(ZX,θ(t)) 时取到等号。

    EM 算法的思想就是通过使得 ELBO 取得最大,从而使得对数似然 log⁡P(X∣θ)\log P(X|\theta)logP(Xθ) 也达到最大。即:

θ^=arg⁡max⁡θELBO=arg⁡max⁡θ∫Zq(Z)log⁡P(X,Z∣θ)q(Z)dZ=arg⁡max⁡θ∫ZP(X,Z∣θ(t))log⁡P(X,Z∣θ)P(X,Z∣θ(t)))dZ=arg⁡max⁡θ∫ZP(X,Z∣θ(t))[log⁡P(X,Z∣θ)−log⁡P(X,Z∣θ(t)))]dZ=arg⁡max⁡θ∫ZP(X,Z∣θ(t))log⁡P(X,Z∣θ)dZ\begin{align} \hat{\theta}&=\arg\max_{\theta}ELBO\\ &=\arg\max_{\theta}\int_Zq(Z)\log \frac{P(X,Z|\theta)}{q(Z)}dZ\\ &=\arg\max_{\theta}\int_ZP(X,Z|\theta^{(t)})\log \frac{P(X,Z|\theta)}{P(X,Z|\theta^{(t)}))}dZ\\ &=\arg\max_{\theta}\int_ZP(X,Z|\theta^{(t)})[\log P(X,Z|\theta)-\log P(X,Z|\theta^{(t)}))]dZ\\ &=\arg\max_{\theta}\int_ZP(X,Z|\theta^{(t)})\log P(X,Z|\theta)dZ\\ \end{align} θ^=argθmaxELBO=argθmaxZq(Z)logq(Z)P(X,Zθ)dZ=argθmaxZP(X,Zθ(t))logP(X,Zθ(t)))P(X,Zθ)dZ=argθmaxZP(X,Zθ(t))[logP(X,Zθ)logP(X,Zθ(t)))]dZ=argθmaxZP(X,Zθ(t))logP(X,Zθ)dZ

  • q(Z)=P(Z∣X,θ(t))q(Z)=P(Z|X,\theta^{(t)})q(Z)=P(ZX,θ(t)) 时取到等号,代入进去
  • 在经过一次变换后,我们发现中括号中后面一项与 θ\thetaθ 无关,因此丢掉。注意,在迭代算法中 θ(t),θ(t+1)\theta^{(t)},\theta^{(t+1)}θ(t),θ(t+1) 都是常数,θ\thetaθ 才是变量
  • 最终得到了 EM 的公式

EM算法的导出——Jensen不等式

下面我们再从 Jensen 不等式的角度来进行推导。

先来介绍一下 Jensen 不等式,这里只介绍 EM 算法推导需要用到的程度:

c=ta+(1−t)bc=ta+(1-t)bc=ta+(1t)b,对于一个凸函数 f(x)f(x)f(x) 来说,有 f(c)=f(ta+(1−t)b)≥tf(a)+(1−t)f(b)f(c)=f(ta+(1-t)b)\ge tf(a)+(1-t)f(b)f(c)=f(ta+(1t)b)tf(a)+(1t)f(b)

我们如果取 t=12t=\frac{1}{2}t=21 ,则有 f(12a+12b)≥12f(a)+12f(b)f(\frac{1}{2}a+\frac{1}{2}b)\ge\frac{1}{2}f(a)+\frac{1}{2}f(b)f(21a+21b)21f(a)+21f(b) 。即对凸函数来说,均值的函数值大于等于函数值的均值。而在概率论中,均值就是期望,即有 f(E)≥Ef()f(\mathbb{E})\ge\mathbb{E}f()f(E)Ef()

下面开始推导:
log⁡P(X∣θ)=log⁡∫ZP(X,Z∣θ)dZ=log⁡∫ZP(X,Z∣θ)q(X)q(Z)dZ=log⁡Eq(z)[P(X,Z∣θ)q(Z)]≥Eq(z)log⁡[P(X,Z∣θ)q(Z)]\begin{align} \log P(X|\theta)&=\log\int_ZP(X,Z|\theta)dZ\\ &=\log\int_Z\frac{P(X,Z|\theta)}{q(X)}q(Z)dZ\\ &=\log\mathbb{E}_{q(z)}[\frac{P(X,Z|\theta)}{q(Z)}]\\ &\ge \mathbb{E}_{q(z)}\log[\frac{P(X,Z|\theta)}{q(Z)}]\\ \end{align} logP(Xθ)=logZP(X,Zθ)dZ=logZq(X)P(X,Zθ)q(Z)dZ=logEq(z)[q(Z)P(X,Zθ)]Eq(z)log[q(Z)P(X,Zθ)]

  • 同样是引入隐变量 ZZZ, 这次转换为对联合概率分布积分的形式;
  • 变形,上下同乘 q(X)q(X)q(X)
  • 我们通常讲积分写成期望的形式;
  • log 函数是凸函数,这里使用 Jensen 不等式,其实这里得到的期望就是 ELBO

这里的等号当且仅当 P(X,Z∣θ)q(Z)\frac{P(X,Z|\theta)}{q(Z)}q(Z)P(X,Zθ) 是常数时取到,即:
P(X,Z∣θ)q(Z)=Cq(Z)=1CP(X,Z∣θ)∫Zq(Z)dZ=∫Z1CP(X,Z∣θ)dZ1=1C∫ZP(X,Z∣θ)dZ=1CP(X∣θ)\frac{P(X,Z|\theta)}{q(Z)}=C\\ q(Z)=\frac{1}{C}P(X,Z|\theta)\\ \int_Zq(Z)dZ=\int_Z\frac{1}{C}P(X,Z|\theta)dZ\\ 1=\frac{1}{C}\int_ZP(X,Z|\theta)dZ=\frac{1}{C}P(X|\theta) q(Z)P(X,Zθ)=Cq(Z)=C1P(X,Zθ)Zq(Z)dZ=ZC1P(X,Zθ)dZ1=C1ZP(X,Zθ)dZ=C1P(Xθ)

  • 做一个变形;
  • 等式两边同时对 ZZZ 求积分;
  • 左边就是 1,右边把 ZZZ 积掉;
  • 得到 C=P(X∣θ)C=P(X|\theta)C=P(Xθ),代回到原式中:

P(X,Z∣θ)q(Z)=P(X∣θ)q(Z)=P(X,Z∣θ)P(X∣θ)=P(Z∣X,θ)\frac{P(X,Z|\theta)}{q(Z)}=P(X|\theta)\\ q(Z)=\frac{P(X,Z|\theta)}{P(X|\theta)}=P(Z|X,\theta) q(Z)P(X,Zθ)=P(Xθ)q(Z)=P(Xθ)P(X,Zθ)=P(ZX,θ)

可以看到 q(Z)q(Z)q(Z) 就是后验 P(Z∣X,θ(t))P(Z|X,\theta^{(t)})P(ZX,θ(t)) ,这与我们在上一小节的结论是一致的,再后面就与上一小节一样了,不在赘述。

Ref

  1. 统计学习方法——李航
  2. 机器学习白板推导

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/532414.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解 声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 本…

elemntui icon 大小_自定义elementui中的图标

前提elementui图标库图标较少当你想用elementui的控件而不想用它的图标时,就可以使用自定义的方式来实现实现el-icon-my-export为我自定义的图标命名导出//使用图片来替换//before属性中的content文本是用来占位的,必须有//可以设置字体大小来确定大小//使用visibil…

变分推断公式推导

变分推断公式推导 背景介绍 机器学习中的概率模型可分为频率派和贝叶斯派。频率派最终是求一个优化问题,而贝叶斯派则是求一个积分问题。 频率派 举几个例子: 线性回归 样本数据:{(xi,yi)}i1N\{(x_i,y_i)\}_{i1}^N{(xi​,yi​)}i1N​ 模…

重新打开_iPhone 应用停止响应或无法打开的解决办法

如果当您在 iPhone 上使用某个重要应用时,遇到应用停止响应、意外退出或无法打开的问题,请参考如下步骤尝试解决:1.强制退出应用:在 iPhone 后台强制关闭该应用之后,再次重新打开看看。2.重启您的设备,然后…

机器学习理论——优雅的模型:变分自编码器(VAE)

机器学习理论——优雅的模型:变分自编码器(VAE) 转自:机器学习理论—优雅的模型(一):变分自编码器(VAE) 另外直观理解 VAE, 推荐 台大李宏毅老师的课程&#…

grub引导项修复详解_重新安装win7后,修复Grub启动项

重新安装win7后,修复Grub启动项发布时间:2010-09-14 22:14:00来源:红联作者:null925[is] 本帖最后由 null925 于 2010-9-14 22:18 编辑 [/i]原先使用Win7,Gentoo,Ubuntu三系统,Grub作为系统引导管理器,今天重新安装Win…

基于流的(Flow-based)生成模型简介

基于流的(Flow-based)生成模型简介 生成任务 我们先回顾一下所谓的生成任务,究竟是做什么事情。我们认为,世界上所有的图片,是符合某种分布 pdata(x)p_{data}(x)pdata​(x) 的。当然,这个分布肯定是个极其复杂的分布。而我们有一…

iec60870-5-104通讯协议编程_三菱FX编程口通讯协议1——协议解读

三菱PLC编程口通讯协议:1、三菱PLC编程口通讯协议有四个命令,如下:2、三菱FX系列PLC地址对应表:PLC_X Group Base AddRess128;Const PLC_Y_Group Base AddRess160;M _Group Base_AddRess 256;P…

采用ODP.NET 批量进行数据同步

因开发、测试场景经常需要模拟机生产环境的数据,原同事开发了一个ado.net图形化同步工具,对非技术人员操作友好,但对技术员使用并不方便,每次同步需源库数据与目标的数据源字段进行配置,且同步大数据时慢,因…

熔断器熔断时间标准_一种熔断器熔断时间测试电路的制作方法

本实用新型涉及汽车制造技术领域,尤其涉及一种熔断器熔断时间测试电路。背景技术:伴随着日新月异的科技进步,人们对生活质量的追求也越来越高,汽车已经成为人们日常出行必不可少的交通工具,人们对汽车的舒适性、安全性…

DETR精读笔记

DETR精读笔记 论文:End-to-End Object Detection with Transformers (发表于 ECCV-2020) 代码:https://github.com/facebookresearch/detr 解读视频:DETR 论文精读【论文精读】 本笔记主要基于 Yi Zhu 老师的解读 引言…

lcd像素点密度_【教程】设置添加LCD密度(DPI)设置

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼完美—————————————————分割————————————————————————反编译settings.apk(1.52)1.Settings.apk\res\values\arrays.xml在之前加入以下代码240242244246248250252254256258260262264266268…

GAN网络评估指标:IS、FID、PPL

GAN网络评估指标:IS、FID、PPL 转自:IS、FID、PPL,GAN网络评估指标 另外关于GAN的评价指标,推荐李宏毅老师的视频:【機器學習2021】生成式對抗網路 (Generative Adversarial Network, GAN) (三) – 生成器效能評估與條…

降维后输入分类器分类时报错_逻辑回归解决多分类方法及其优缺点分析

众所周知,逻辑回归常用于解决二分类任务,但是在工作/学习/项目中,我们也经常要解决多分类问题。本文总结了 3 种逻辑回归解决多分类的方法,并分析了他们的优缺点。一、One-Vs-Rest假设我们要解决一个分类问题,该分类问…

浅谈 PyTorch 中的 tensor 及使用

浅谈 PyTorch 中的 tensor 及使用 转自:浅谈 PyTorch 中的 tensor 及使用 这篇文章主要是围绕 PyTorch 中的 tensor 展开的,讨论了张量的求导机制,在不同设备之间的转换,神经网络中权重的更新等内容。面向的读者是使用过 PyTorch …

简述springmvc过程_spring mvc的工作流程是什么?

展开全部SpringMVC工作流程描述向服务器发送HTTP请求,请求被前端控制器 DispatcherServlet 捕获。DispatcherServlet 根据 -servlet.xml 中的配置对请62616964757a686964616fe59b9ee7ad9431333365646233求的URL进行解析,得到请求资源标识符(URI)。 然后根…

PyTorch 的 Autograd

PyTorch 的 Autograd 转自:PyTorch 的 Autograd PyTorch 作为一个深度学习平台,在深度学习任务中比 NumPy 这个科学计算库强在哪里呢?我觉得一是 PyTorch 提供了自动求导机制,二是对 GPU 的支持。由此可见,自动求导 (a…

商场楼层导视牌图片_百宝图商场电子导视软件中预约产品功能简介

百宝图商场电子导视软件中预约产品功能简介 管理端,可配合百宝图商场电子导视软件配套使用 1:数据展示:图形展示总预约数/预约时间峰值/预约途径/各途径数量对比 2:数据统计:有效预约数量/无效预约数量/无效预约原因备…

Pytorch autograd.grad与autograd.backward详解

Pytorch autograd.grad与autograd.backward详解 引言 平时在写 Pytorch 训练脚本时,都是下面这种无脑按步骤走: outputs model(inputs) # 模型前向推理 optimizer.zero_grad() # 清除累积梯度 loss.backward() # 模型反向求导 optimizer.step()…

相对熵与交叉熵_熵、KL散度、交叉熵

公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!机器学习算法与自然语言处理出品公众号原创专栏作者 思婕的便携席梦思单位 | 哈工大SCIR实验室KL散度 交叉熵 - 熵1. 熵(Entropy)抽象解释:熵用于计算一个随机变量的信…