网站制作建站婚纱摄影网站源码asp
web/
2025/9/29 23:06:19/
文章来源:
网站制作建站,婚纱摄影网站源码asp,wordpress常用库,西安seo外包优化自然语言处理-数学基础概述1.信息论基础1.1熵1.2 联合熵和条件熵1.3 相对熵和交叉熵1.4 互信息和双字耦合度1.5 噪声信道模型概述
本系列文章计划总结整理中国科学院大学宗成庆老师《自然语言处理》课程相关知识#xff0c;参考数目《统计自然语言处理》-第二版#xff0c;宗…
自然语言处理-数学基础概述1.信息论基础1.1熵1.2 联合熵和条件熵1.3 相对熵和交叉熵1.4 互信息和双字耦合度1.5 噪声信道模型概述
本系列文章计划总结整理中国科学院大学宗成庆老师《自然语言处理》课程相关知识参考数目《统计自然语言处理》-第二版宗成庆。
1.信息论基础
1.1熵
熵是信息论中的基本概念 又称为自信息self-information。表示信号源X每发送一个符号不论发什么符号所提供的平均信息量。熵经常被用来描述一个随机变量的不确定性一个随机变量的熵越大这个随机变量的不确定性越大那么正确估计其随机变量值的可能性就越小。
如果X是一个离散型的随机变量其概率分布p(x)P(Xx),x∈Xp(x)P(Xx),x\in Xp(x)P(Xx),x∈X。X的熵H(X)为 H(X)−∑x∈Xp(x)log2p(x)H(X)-\sum_{x\in X}p(x)\log_{2}p(x) H(X)−x∈X∑p(x)log2p(x) 约定0log2000log_2000log200。对数以2为底时熵的单位为比特bit。
定性理解熵越大不确定性越大。 随机实验1掷一枚均匀的硬币结果等可能的出现正反两面即P(X正面)0.5P(X反面)0.5P(X正面)0.5P(X反面)0.5P(X正面)0.5P(X反面)0.5则 H(X)−(0.5log20.50.5log20.5)1H(X)-(0.5\log_20.50.5log_20.5)1H(X)−(0.5log20.50.5log20.5)1 随机实验2掷一枚不均匀的硬币一面镀铅结果不等可能的出现正反两面其中P(X正面)0.3P(X反面)0.7P(X正面)0.3P(X反面)0.7P(X正面)0.3P(X反面)0.7则 H(X)−(0.3log20.30.7log20.7)0.88H(X)-(0.3\log_20.30.7log_20.7)0.88H(X)−(0.3log20.30.7log20.7)0.88 实验1等可能的出现正反面不难理解出现其正面的不确定性比实验2中出现正面的不确定性大通过计算实验1结果的熵确实比实验二结果的熵大。
1.2 联合熵和条件熵
联合熵 描述一对随机变量所需要的平均信息量。一对离散型随机变量X,Y的联合概率概率分布为p(x,y)p(x,y)p(x,y),X,Y的联合熵为 H(X,Y)−∑x∈X∑y∈Yp(x,y)log2p(x,y)H(X,Y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)H(X,Y)−x∈X∑y∈Y∑p(x,y)log2p(x,y)
条件熵 给定随机变量X的条件下随机变量Y的熵 H(Y∣X)∑x∈Xp(x)H(Y∣Xx)∑x∈Xp(x)[−∑y∈Yp(y∣x)log2p(y∣x)]−∑x∈X∑y∈Yp(x)p(y∣x)log2p(y∣x)H(Y|X)\sum_{x\in X}p(x)H(Y|Xx)\sum_{x\in X}p(x)[-\sum_{y\in Y}p(y|x)log_2p(y|x)]-\sum_{x\in X}\sum_{y\in Y}p(x)p(y|x)log_2p(y|x)H(Y∣X)x∈X∑p(x)H(Y∣Xx)x∈X∑p(x)[−y∈Y∑p(y∣x)log2p(y∣x)]−x∈X∑y∈Y∑p(x)p(y∣x)log2p(y∣x)
连锁规则 联合熵可以表示为条件熵与熵的和通过数学变换 H(X,Y)−∑x∈X∑y∈Yp(x,y)log2p(x,y)−∑x∈X∑y∈Yp(x,y)log2[p(y∣x)p(x)]H(X,Y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2[p(y|x)p(x)]H(X,Y)−x∈X∑y∈Y∑p(x,y)log2p(x,y)−x∈X∑y∈Y∑p(x,y)log2[p(y∣x)p(x)]
−∑x∈X∑y∈Yp(x,y)[log2p(y∣x)log2p(x)]-\sum_{x\in X}\sum_{y\in Y}p(x,y)[log_2p(y|x)log_2p(x)]−x∈X∑y∈Y∑p(x,y)[log2p(y∣x)log2p(x)]
−∑x∈X∑y∈Yp(x,y)log2p(y∣x)−∑x∈X∑y∈Yp(x,y)log2p(x)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y|x)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x)−x∈X∑y∈Y∑p(x,y)log2p(y∣x)−x∈X∑y∈Y∑p(x,y)log2p(x)
−∑x∈X∑y∈Yp(x)p(y∣x)log2p(y∣x)−∑x∈X∑y∈Yp(x,y)log2p(x)-\sum_{x\in X}\sum_{y\in Y}p(x)p(y|x)log_2p(y|x)-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x)−x∈X∑y∈Y∑p(x)p(y∣x)log2p(y∣x)−x∈X∑y∈Y∑p(x,y)log2p(x)
H(Y∣X)H(X)H(Y|X)H(X)H(Y∣X)H(X)
同理可以推导 H(X,Y)H(Y)H(X∣Y)H(X,Y)H(Y)H(X|Y)H(X,Y)H(Y)H(X∣Y)
1.3 相对熵和交叉熵
之后公式中底数2将被省略
相对熵 又称为KL散度用于衡量两个随机分布的差距。当两个随机分布相同时其相对熵为0.当两个随机分布的差别增加时其相对熵也增加 。两个概率分布p(x),q(x)p(x),q(x)p(x),q(x)d的相对熵为 D(p∣∣q)∑x∈Xp(x)logp(x)q(x)D(p||q)\sum_{x\in X}p(x)log \frac{p(x)}{q(x)}D(p∣∣q)x∈X∑p(x)logq(x)p(x)
KL散度不对称与不满足三角不等式例子博客https://blog.csdn.net/qq_44702847/article/details/95190388
交叉熵 用于衡量估计模型与真实概率分布之间的差异随机变量X~p(x),q(x)为p(x)的近似概率分布则随机变量X与模型q之间的交叉熵为 H(X,q)−∑xp(x)logq(x)H(X,q)-\sum_xp(x)logq(x)H(X,q)−x∑p(x)logq(x) 通过数学推导可得,交叉熵随机变量的熵真实分布与模型分布的差距 H(X,q)H(X)D(p∣∣q)H(X,q)H(X)D(p||q)H(X,q)H(X)D(p∣∣q)
分析因为在同一随机变量的前提下真实分布与模型分布的差距即相对熵越小越好所以真实分布与模型分布之间的交叉熵越小估计模型越逼近真实概率分布。
困惑度 在实际应用中经常用困惑度来代替交叉熵衡量语言模型的好坏交叉熵计算的时候会过小溢出给定语言L的样本l1nl1...lnl_1^nl_1...l_nl1nl1...lnL的困惑度PPqPP_qPPq为 PPq2H(L,q)≈2−1nlogq(l1n)[q(l1n)]−1nPP_q2^{H(L,q)}\approx 2^{-\frac{1}{n}logq(l_1^n)[q(l_1^n)]^{-\frac{1}{n}}}PPq2H(L,q)≈2−n1logq(l1n)[q(l1n)]−n1 小结语言模型设计任务就是寻求与真实概率分布差距较小的模型也就是要寻找交叉熵较小的模型也就是要寻找困惑度较小的模型。
1.4 互信息和双字耦合度
互信息 定义 I(X;Y)H(X)−H(X∣Y)I(X;Y)H(X)-H(X|Y)I(X;Y)H(X)−H(X∣Y) I(x;y)I(x;y)I(x;y)表示在知道了Y的值之后X不确定量的减少程度。 经过推导 I(X;Y)∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)I(X;Y)\sum_{x\in X}\sum_{y\in Y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)}I(X;Y)x∈X∑y∈Y∑p(x,y)logp(x)p(y)p(x,y) 例子汉语分词问题利用互信息估计两个汉字结合强度互信息越大表示两个汉字之间的结合越紧密越有可能成词。反之断开的可能性较大。 当两个汉字x和y 的关联度较强时其互信息的值I(x,y)0I(x,y)0I(x,y)0;关系较弱时I(x,y)≈0I(x,y)\approx 0I(x,y)≈0.。当I(x,y)0I(x,y)0I(x,y)0时x与y称为互补分布。
互信息统计的是两个汉字连续出现在一个词中的概率有些汉字单个使用时跟频繁连续与其他字在一起成词的情况较少但是一旦连续在一起出现很有可能会成词。这中情况下两个汉字之间的互信息很小。用互信息来判断该字对应该分开。
因为互信息在上述情况下并不能很好工作。所以就有学者提出双字耦合度的概念。
双字耦合度 Couple(ci,ci1N(cici1)N(cici1)N(C(...ci∣ci1...)))Couple(c_i,c_{i1}\frac{N(c_ic_{i1})}{N(c_ic_{i1})N(C(...c_i|c_{i1}...))}) Couple(ci,ci1N(cici1)N(C(...ci∣ci1...))N(cici1)) 其中ci,cI1c_i,c_{I1}ci,cI1是有序字对。N(cici1)N(c_ic_{i1})N(cici1)表示字符串ci,cI1c_i,c_{I1}ci,cI1成词的次数N(C(...ci∣ci1...))N(C(...c_i|c_{i1}...))N(C(...ci∣ci1...))表示字符串ci,cI1c_i,c_{I1}ci,cI1不成词(cic_ici为上一个词的词尾 ci1c_{i1}ci1为下一个词的词头)的次数。双字偶尔度考虑的是两个字连续出现的情况下两者成词的概率有效规避互信息将二者不连续出现的次数也考虑在计算式中所造成的麻烦。
1.5 噪声信道模型
在信号传输的过程中要进行双重性处理一方面尽量消除冗余另一方面增加冗余利于恢复信号。噪声信道模型的目标就是优化噪声信道中信号的吞吐量和准确率其基本假设是一个信道的输出以一定的概率依赖于输入。
信道容量 Cmaxp(x)I(X;Y)C\max_{p(x)}I(X;Y)Cp(x)maxI(X;Y) 依据上式定义我们能够设计一个输入编码器X其概率分布为p(x),其使得输入与输出之间的互信息达到最大值。那么我们的设计就达到了信道的最大传输容量。在语言处理中我们不需要进行编码只需进行解码使得系统的输出更加接近与输入。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/84128.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!