wordpress网站弹窗插件做网站公司南京
news/
2025/9/23 12:05:21/
文章来源:
wordpress网站弹窗插件,做网站公司南京,西宁网络公司网站建设,网站前端是什么为何诞生 在说transformer是什么#xff0c;有什么优势之类的之前#xff0c;先谈一谈它因何而诞生。transformer诞生最重要的原因是早先的语言模型#xff0c;比如RNN#xff0c;由于其本身的训练机制导致其并行度不高#xff0c;特别是遇到一些长句子的情况下。其次有什么优势之类的之前先谈一谈它因何而诞生。transformer诞生最重要的原因是早先的语言模型比如RNN由于其本身的训练机制导致其并行度不高特别是遇到一些长句子的情况下。其次是由于自注意力的产生。自注意力是什么Attention Is All You Need原文有一个比较不错的解释 自注意力机制是一种将序列中不同位置元素做关联学习进而计算序列表征的方法 Transformer完全借助自注意力、MLP以及LayerNorm层完成了语言模型的建模工作完全摈弃了卷积以及递归模型结构。 缩放点积注意力 transformer的结构没什么可说的就是encoderdecoder的结构堆叠这块整体上没有太大创新创新点在于其encoder和decoder内部使用了自注意力这个注意力结构的使用使其在目前绝大多数的自然语言处理任务上处于领先地位这个自注意力即原文所谓的缩放点积注意力Scaled Dot-Product Attention下文简称SDPA。 图1. 缩放点积注意力 如图1所示形式化为 图 2. 缩放点积注意力公式 点积注意力、加和注意力是普遍使用的两种注意力函数它们理论计算复杂度一致但是前者由于高度优化的矩阵运算库的存在使其在实际应用过程中更加高效。值得注意的一点是softmax的输入为什么要除以一个常数可以参考原文从统计视角给出的解释。 图 3. 尺度缩放的原因 多头自注意力 作者认为基于单一的SDPA不足以发挥其优势通过执行多次不同的SDPA可以更好的挖掘句子的语义所以多头自注意力产生了。多头注意力机制能使模型从多个不同的低维表示空间中提取不同的语义信息它的基本结构如下 图 4. 多头自注意力 假设现在需要执行SDPA的次数为h它的基本做法是 将Q、K和V分别通过h组不同的线性映射层分别将它们映射为、 和 维 对映射完的每一组并行的执行SDPA产生 维的输出 h组SDPA的输出进行concat操作 concat的结果进一步做线性映射得到最终输出 从图4可以看出多头的SDPA操作是并行执行的同时原文中将每个头的线性映射层的维度降为了原先单头的 单头是512所以最终的时空开销和单头的基本一致。 位置编码 由于transformer里不再有卷积和递归结构为了模型能利用序列中不同token的位置信息需要单独设立一个位置编码embeding和序列中token的embeding维度一致因此可以直接做加和操作。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/912483.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!