原型样网站外贸网站定制建站
web/
2025/10/3 8:00:04/
文章来源:
原型样网站,外贸网站定制建站,刷神马seo排名首页排名,济南怎么做网站目录
1 疑问#xff1a;Transformer的Decoder的输入输出都是什么
2 推理时Transformer的Decoder的输入输出
2.1 推理过程中的Decoder输入输出
2.2 整体右移一位
3 训练时Decoder的输入
参考文献#xff1a; 1 疑问#xff1a;Transformer的Decoder的输入输出都是什么 …目录
1 疑问Transformer的Decoder的输入输出都是什么
2 推理时Transformer的Decoder的输入输出
2.1 推理过程中的Decoder输入输出
2.2 整体右移一位
3 训练时Decoder的输入
参考文献 1 疑问Transformer的Decoder的输入输出都是什么
几乎所有介绍transformer的文章中都有下面这个图 但是右下角这里为什么把outputs给输入进去了还有为什么有个shifted right在网上看了下一些资料简单整理一下以后自己忘了就翻一下这篇博客笔记。
2 推理时Transformer的Decoder的输入输出
2.1 推理过程中的Decoder输入输出
假如是一个翻译过程要将我爱你中国翻译成I love China.
输入我爱中国输出 I Love China
具体decoder的执行步骤是
Time Step 1 初始输入 起始符/s Positional Encoding位置编码中间输入我爱中国Encoder Embedding最终输出产生预测“I”
Time Step 2 初始输入起始符/s “I” Positonal Encoding中间输入我爱中国Encoder Embedding最终输出产生预测“Love”
Time Step 3 初始输入起始符/s “I” “Love” Positonal Encoding中间输入我爱中国Encoder Embedding最终输出产生预测“China” 2.2 整体右移一位
在图片的右下角可以看到有个shitfed right对Outputs有Shifted Right操作。
Shifted Right 实质上是给输出添加起始符/结束符方便预测第一个Token/结束预测过程。
正常的输出序列位置关系如下
0-I1-Love2-China
但在执行的过程中我们在初始输出中添加了起始符/s相当于将输出整体右移一位Shifted Right所以输出序列变成如下情况
0-/s【起始符】1-“I”2-“Love”3-“China”
这样我们就可以通过起始符/s预测“I”也就是通过起始符预测实际的第一个输出。
3 训练时Decoder的输入
训练时由于知道所有的输出所以不需要等t-1个单词预测完了之后才去预测t个单词训练时候是并行的
训练时decoder的并行计算是指 翻译第i1个单词无需等待第i个单词的输出因为训练时知道所有训练数输入数据的真实标签值无需等待可并行运算。 比如翻译: 我有一只猫 I have a cat decoder input: Encoder input(我有一只猫) start [---I have a cat /end--- masked] output I decoder input: Encoder input(我有一只猫) start I [---have a cat /end--- masked] output have decoder input: Encoder input(我有一只猫) start I have[---a cat /end--- masked] output a decoder input: Encoder input(我有一只猫) start I have a[---cat /end--- masked] output cat decoder input: Encoder input(我有一只猫) start I have a cat[---/end--- masked] output end 上述训练数据的decoder过程 可并行计算 参考文献
哪位大神讲解一下Transformer的Decoder的输入输出都是什么能解释一下每个部分都是什么? - 知乎
NLP Transformer的Decoder的输入输出都是什么每个部分都是什么? NLP中的encoder和decoder的输入是什么_transformer decoder的输入-CSDN博客
自然语言处理Transformer模型最详细讲解图解版-阿里云开发者社区
简单之美 | Transformer 模型架构详解
GPT中的Transformer架构以及Transformer 中的注意力机制-CSDN博客
The Illustrated Transformer【译】-CSDN博客
Transformer模型详解图解最完整版 - 知乎
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86103.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!