珠海网站建设在哪里网站能用到管理后台上吗

bicheng/2026/1/23 22:13:36/文章来源:
珠海网站建设在哪里,网站能用到管理后台上吗,站长工具排名分析,网站怎么做登录界面Transformer目录:《Transformer Paper》1.0 CV Transformer必读论文5篇_汉卿HanQ的博客-CSDN博客 前文参考:Transformer1.0-预热_汉卿HanQ的博客-CSDN博客 全文1w3字左右#xff0c;按照论文翻译个人理解精读#xff0c;如果对你有所帮助#xff0c;欢迎点个赞哦#xff…Transformer目录:《Transformer Paper》1.0 CV Transformer必读论文5篇_汉卿HanQ的博客-CSDN博客 前文参考:Transformer1.0-预热_汉卿HanQ的博客-CSDN博客 全文1w3字左右按照论文翻译个人理解精读如果对你有所帮助欢迎点个赞哦 目录 Abstract 一.Introduction 二.Background 三.Model Architecture 3.1Encoder and Decoder Stacks 3.2Attention 3.2.1Scaled DotProductAttention 3.2.2MultiHead Attention 3.2.3Applications of Attention in our Model 3.3Position-wise Feed-Forward Networks 3.4Embedding and Softmax 3.5Position Encoding​ 四.Why self-attention 五.Training 5.1Training Data and Batching 5.2Hardware and Schedule 5.3Optimizer 5.4Regularization 六.Results 6.1Machine Translation 6.2Model Variations 七.Conclusion 八.Innovation point Abstract 翻译 主流的序列转换模型都是基于复杂的循环神经网络或卷积神经网络且都包含一个encoder和一个decoder。表现最好的模型还通过attention机制把encoder和decoder联接起来。我们提出了一个新的、简单的网络架构Transformer. 它只基于单独的attention机制完全避免使用循环和卷积。在两个翻译任务上表明我们的模型在质量上更好同时具有更高的并行性且训练所需要的时间更少。我们的模型在 WMT2014 英语-德语的翻译任务上取得了28.4的BLEU评分。在现有的表现最好模型的基础上包括整合模型提高了2个BLEU评分。在WMT2014英语-德语的翻译任务上,我们的模型在8个GPU上训练了3.5天这个时间只是目前文献中记载的最好的模型训练成本的一小部分创造了单模型的SOTA结果BLEU分数为41.8通过在大量和少量训练数据上所做的英语选区分析工作的成功表明Transformer能很好的适应于其它任务。 精读  本文提出的Transformer摒弃了之前的循环和卷积的操作并全完基于注意力机制其效率也达到了较好的提升在并行性和减少内存上有较大提升 一.Introduction 翻译 RNN,LSTM,GRU,Gated Recurrent Neural Networks 在序列建模和转换任务上比如语言模型和机器翻译已经是大家公认的取得SOTA结果的方法。自此无数的努力继续推动递归语言模型和encoder-decoder体系结构的界限。 递归模型通常沿输入和输出序列的符号位置进行因子计算。在计算时将位置与步骤对齐它们生成一系列隐藏状态ht​t位置的ht​使用它的前驱ht−1​和当前的输入生成。这种内部的固有顺阻碍了训练样本的并行化在序列较长时这个问题变得更加严重因为内存的限制限制了样本之间的批处理。最近的工作通过因子分解技巧[21]和条件计算[32]在计算效率方面取得了显著的提高同时也提高了后者的模型性能。然而顺序计算的基本约束仍然存在。 在各种各样的任务中注意力机制已经成为各种引人注目的序列模型和转换模型中的不可或缺的组成部分它允许对依赖关系建模而不需要考虑它们在输入或输出序列中的距离。然而在除少数情况外的所有情况下[27]这种注意机制都与一个递归网络结合使用。 在这项工作中我们提出了Transformer这是一种避免使用循环的模型架构完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。Transformer允许更显著的并行化使用8个P100 gpu只训练了12小时在翻译质量上就可以达到一个新的SOTA。 精读 之前的语言模型RNNLSTMGRU等需要从左到右一步步计算因此难以并行计算并且过早的历史信息容易丢失消耗内存大 RNN上使用注意力机制通过它注意力机制把encoder的信息传递给decoder可以不考虑输入输出序列的距离建模。而本文的transformer完全不使用RNN可以避免使用循环的模型架构完全依赖于注意机制来绘制输入和输出之间的全局依赖关系来提高并行性缩短计算时间。 二.Background 翻译 减少序列计算的目标也成就了 Extended Neural GPU [16],ByteNet[18],和ConvS2S[9]的基础,它们都使用了卷积神经网络作为基础模块并行计算所有输入和输出位置的隐藏表示。在这些模型中将来自两个任意输入或输出位置的信号关联起来所需的操作数随位置间的距离而增长ConvS2S为线性增长ByteNet为对数增长。这使得学习远距离位置之间的依赖性变得更加困难[12]. 在Transformer中这种情况被减少到了常数次操作虽然代价是由于平均 注意力加权位置信息降低了有效分辨率如第3.2节所述我们用多头注意力抵消这种影响。 self-attention,有时也叫做内部注意力是一种注意力机制它将一个序列的不同位置联系起来以计算序列的表示。self-attention 已经成功的运用到了很多任务上包括阅读理解、抽象摘要、语篇蕴涵和学习任务无关的句子表征等。 已经被证明端到端的记忆网络使用循环attention机制替代序列对齐的循环在简单的语言问答和语言建模任务中表现良好。 然而据我们所知Transformer是第一个完全依赖于self-attetion来计算其输入和输出表示而不使用序列对齐的RNN或卷积的转换模型在下面的章节中我们将描述Transformermotivate self-attention并讨论它相对于[17,18]和[9]等模型的优势 精读 自注意力机制是一种将单个序列的不同位置关联起来以计算序列表示的注意力机制并且自注意力已成功应用在诸多领域。transformer是第一个完全依赖自注意力机制的模型用注意力机制可以直接看一层的数据很好的解决了CNN中卷积感受野距离较远需要多次卷积结合的问题。 三.Model Architecture 翻译 大多数有竞争力的序列转换模型都有encoder-decoder结构构。这里encoder将符号表示的输入序列( x 1 , . . . , x n )映射成一个连续表示的序列z ( z 1 , . . . , z n )。给定z解码器以一次生成一个字符的方式生成输出序列( y 1 , . . . , y m ) 。在每一步模型都是自回归的[10]在生成下一个字符时将先前生成的符号作为附加输入。 Transformer遵循这个总体架构使用堆叠的self-attention层、point-wise和全连接层分别用于encoder和decoder如图1的左半部分和右半部分所示。 精读 Transformer1.0-预热_汉卿HanQ的博客-CSDN博客 3.1Encoder and Decoder Stacks 翻译 Encoder:encoder由N(N6)个完全相同的layer堆叠而成.每层有两个子层。第一层是multi-head self-attention机制第二层是一个简单的、位置全连接的前馈神经网络。我们在两个子层的每一层后采用残差连接[11]接着进行layer normalization[1]。也就是说每个子层的输出是LayerNorm(xSublayer(x))其中Sublayer(x) 是由子层本身实现的函数。为了方便这些残差连接模型中的所有子层以及embedding层产生的输出维度都为dmodel​512。 Decoder: decoder也由N(N6)个完全相同的layer堆叠而成.除了每个编码器层中的两个子层之外解码器还插入第三个子层该子层对编码器堆栈的输出执行multi-head attention操作与encoder相似我们在每个子层的后面使用了残差连接之后采用了layer normalization。我们也修改了decoder stack中的 self-attention 子层以防止当前位置信息中被添加进后续的位置信息。这种掩码与偏移一个位置的输出embedding相结合 确保对第i ii个位置的预测 只能依赖小于i的已知输出。 精读 Encoder 将一个长为n的输入如句子序列(x1, x2, … xn)映射为向量(z1, z2, …, zn) Encoder由n个相同层组成重复6个layers每个layers会有两个sub-layers每个sub-layers里第一个layer是multi-head attention第二个layer是 simpleposition-wise fully connected feed-forward network简称 MLP。 每个sub-layer的输出都做一个残差连接和layerNorm。计算公式LayerNorm( x Sublayer(x) )Sublayer(x) 指 self-attention 或者 MLP。 残差连接需要输入和输出的维度一致所以每一层的输出维度在transformer里都是固定的都是512维。与CNN不同MLP空间维度逐层下降 Decoder Decoder 拿到Encoder 的输出会生成一个长为 m 的序列(y1, y2, … , ym)。n 和 m 可以一样长、也可以不一样长编码时可以一次性生成解码时只能一个个生成auto-regressive 自回归模型Decoder同样由n个相同层组成。 除了Encoder中的两个子层外Decoder还增加了一个子层对Encoder层的输出执行多头注意力。 另外对自注意力子层进行修改(Mask)防止某个position受后续的position的影响。确保位置i的预测只依赖于小于i的位置的已知输出。输出就是标准的 Linearsoftmax。 LayerNorm LayerNorm是层标准化和 BatchNorm 在很多时候几乎一样除了实现方法不同。 BN取的是不同样本的同一个特征而LN取的是同一个样本的不同特征。在BN和LN都能使用的场景中BN的效果一般优于LN原因是基于不同数据同一特征得到的归一化特征更不容易损失信息。 但是有些场景是不能使用BN的例如batchsize较小或者在RNN中这时候可以选择使用LNLN得到的模型更稳定且起到正则化的作用。RNN能应用到小批量和RNN中是因为LN的归一化统计量的计算是和batchsize没有关系的。 3.2Attention 翻译 Attention机制可以描述为将一个query和一组key-value对映射到一个输出其中querykeysvalues和输出均是向量。输出是values的加权求和其中每个value的权重 通过query与相应key的兼容函数来计算。 精读 Query:查询 目标在target区域 即decoder Key:键 在源头即encoder Value:值 在源头即encoder 相似度: Q K内积(多d相同则向量内积越大余弦值越大相似度越高 如果内积为0 则表示正交即相似度为0) 3.2.1Scaled DotProductAttention 翻译 我们称我们的特殊attention为Scaled Dot-Product Attention(Figure 2)。输入由query、dkdk的key和dvdv的value组成。我们计算query和所有key的点积再除以√dk然后再通过softmax函数来获取values的权重。 在实际应用中我们把一组query转换成一个矩阵Q同时应用attention函数。key和valuue也同样被转换成矩阵K和矩阵V。我们按照如下方式计算输出矩阵 additive attention和dot-product(multi-plicative) attention是最常用的两个attention 函数。dot-product attention除了没有使用缩放因子1/√1dk外与我们的算法相同。Additive attention使用一个具有单隐层的前馈神经网络来计算兼容性函数。尽管在理论上两者的复杂度相似但是在实践中dot-product attention要快得多而且空间效率更高这是因为它可以使用高度优化的矩阵乘法代码来实现。 当dk的值较小时这两种方法性能表现的相近当dk比较大时addtitive attention表现优于 dot-product attention。我们认为对于大dk​点积在数量级上增长的幅度大将softmax函数推向具有极小梯度的区域。为了抵消这种影响我们对点积扩展1/√dk倍。 精读 Scaled Dot-Product Attention是特殊attention输入包括查询Q和键K的维度dk 以及值V的维度dv​ 。计算查询和键的点积将每个结果除dk−−√dk 然后用 softmax() 函数来获得值的权重。  在实际使用中我们同时计算一组查询的注意力函数并一起打包成矩阵 Q。键和值也一起打包成矩阵 K 和 V。  Q1softmax作用 对于一个Q会给 n 个 K-V 对Q会和每个K-V对做内积产生 n 个相似度。传入softmax后会得到 n 个非负并且和为 1 的权重值把权重值与 V 矩阵相乘后得到注意力的输出。 Q2为什么除√1dk? 虽然对于较小的 dk 两者的表现相似但在较大的 dk 时加法注意力要优于没有缩放机制的点乘注意力。我们认为在较大的 dk 时点乘以数量级增长将 softmax 函数推入梯度极小的区域值就会更加向两端靠拢算梯度的时候梯度比较小。为了抵抗这种影响我们使用 1/√dk缩放点乘结果。 3.2.2MultiHead Attention 翻译 相比于使dmodel维度的queries,keys,values执行一个attention函数我们发现使用不同的学习到的线性映射把queries, keys 和 values线性映射到dkdk和dv​维度h次是有益的。在queries,keys和values的每个映射版本上我们并行的执行attention函数生成dv维输出值。它们被拼接起来再次映射生成一个最终值如 Figure 2 中所示。 Multi-head attention允许模型把不同位置子序列的表示都整合到一个信息中。如果只有一个attention head它的平均值会削弱这个信息。 在这项工作中我们采用h 8 个并行attention层或head。 对每个head我们使用 dk dv  dmodel / h 64 dk dv  dmodel/h 64。 由于每个head尺寸上的减小总的计算成本与具有全部维度的单个head attention相似。 精读  在多头注意力机制中不再使用一个attention函数而是使用不同的学习到的线性映射将q,k,v分布线性投影到dq,dk,dv维度h次然后将q,k,v这些投影版本中的每一个加上并行执行注意力功能产生h个注意力函数最终将这些注意力函数拼接并再次投影输出最终值。 本文的点积注意力先进行投影(投影权重W可学习)多头注意力给h次机会学习不一样的投影方法使得在投影进去的度量空间里能够去匹配不同模式需要的一些相似函数。 3.2.3Applications of Attention in our Model 翻译 Multi-head attention在Transformer中有三种不同的使用方式 在encoder-decoder attention层中queries来自前面的decoder层而keys和values来自encoder的输出。这使得decoder中的每个位置都能关注到输入序列中的所有位置。 这是模仿序列到序列模型中典型的编码器—解码器的attention机制例如[38, 2, 9]。         encoder包含self-attention层。 在self-attention层中所有的key、value和query来自同一个地方在这里是encoder中前一层的输出。 encoder中的每个位置都可以关注到encoder上一层的所有位置。         类似地decoder中的self-attention层允许decoder中的每个位置都关注decoder层中当前位置之前的所有位置包括当前位置。 为了保持解码器的自回归特性需要防止解码器中的信息向左流动。我们在scaled dot-product attention的内部 通过屏蔽softmax输入中所有的非法连接值设置为 −∞实现了这一点。 精读 Transformer中使用了三种不同的注意力头 Encoder:输入数据经过Embedding位置Encoder后复制了三份分别为q,k,v。因为这个数据同时担任q,k,v三个数据所以叫做自注意力机制。 Decoder:其中k,v来自encoderq来自掩码多头注意力 Decoder掩码注意力层:t时刻后的数据权重设置为0 3.3Position-wise Feed-Forward Networks 翻译 除了encoder子层之外我们的encder和decoder中的每个层还包含一个全连接的前馈网络该网络分别单独应用于每一个位置。这包括两个线性转换中间有一个ReLU激活。 尽管线性变换在不同位置上是相同的但它们在层与层之间使用不同的参数。 它的另一种描述方式是两个内核大小为1的卷积。 输入和输出的维度为dmodel​ 512内部层的维度dff​ 2048 3.4Embedding and Softmax 翻译 与其他序列转换模型类似我们使用学习到的嵌入词向量 将输入字符和输出字符转换为维度为dmodel​的向量。我们还使用普通的线性变换和softmax函数将decoder输出转换为预测的下一个词符的概率。在我们的模型中两个嵌入层之间和pre-softmax线性变换共享相同的权重矩阵类似于[30]。 在嵌入层中我们将这些权重乘以√dmodel 精读 Embedding 特征嵌入embedding是可以简单理解为通过某种方式将词向量化即输入一个词输出该词对应的一个向量。embedding可以采用训练好的模型如GLOVE等进行处理也可以直接利用深度学习模型直接学习一个embedding层Transformer模型的embedding方式是第二种即自己去学习的一个embedding层。 3.5Position Encoding ​​​​​​​ 由于我们的模型不包含循环或卷积为了让模型利用序列的顺序信息我们必须加入序列中关于字符相对或者绝对位置的一些信息。 为此我们在encoder和decoder堆栈底部的输入嵌入中添加“位置编码”。 位置编码和嵌入的维度dmodel​相同所以它们两个可以相加。有多种位置编码可以选择例如通过学习得到的位置编码和固定的位置编码[9] 在这项工作中我们使用不同频率的正弦和余弦函数: 其中pos 是位置i 是维度。也就是说位置编码的每个维度对应于一个正弦曲线。波长形成了从2π到10000·2π的几何数列。我们之所以选择这个函数是因为我们假设它可以让模型很容易地通过相对位置来学习,因为对任意确定的偏移k, PEposk​可以表示为PEpos​的线性函数。 我们还尝试使用预先学习的positional embeddings[9]来代替正弦波发现这两个版本产生了几乎相同的结果 (see Table 3 row (E))。我们之所以选择正弦曲线是因为它允许模型扩展到比训练中遇到的序列长度更长的序列。 精读 由于Transformer中不包含循环和卷积输出的是v的加权和对于任意的k-v打乱结果都一样。但它书讯变化而值不变若一个序列完全被打乱其语义肯定会发生变化但注意力机制不会处理这种情况。 因此要在注意力机制的输入中加入时序信息位置在encoder和decoder端的embedding后以补充attetion机制本身不能捕捉位置信息的缺陷 四.Why self-attention 翻译 在这一节中我们将self-attention layers与常用的recurrent layers和convolutional layers进行各方面的比较比较的方式是 将一个可变长度的符号表示序列 ( x 1 , . . . , x n ) 映射到另一个等长序列( z 1 , . . . , z n ) 用 xi​,zi​∈Rd比如在典型的序列转换的encoder或decoder中的隐藏层。我们考虑三个方面最后促使我们使用self-attention。 一是每层的总计算复杂度。另一个是可以并行化的计算量以所需的最小序列操作数衡量。 第三个是网络中长距离依赖关系之间的路径长度。在许多序列转换任务中学习长距离依赖性是一个关键的挑战。影响学习这种依赖关系能力的一个关键因素是网络中向前和向后信号必须经过的路径的长度。输入和输出序列中任意位置组合之间的这些路径越短越容易学习长距离依赖。因此我们还比较了在由different layer types组成的网络 中的任意两个输入和输出位置之间的最大的路径长度。 如表1所示self-attention layer用常数次(O ( 1 ) )的操作连接所有位置而recurrent layer需要O(n)顺序操作。在计算复杂度方面当序列长度N小于表示维度D时self-attention layers比recurrent layers更快这是使用最先进的机器翻译模型表示句子时的常见情况例如word-piece [38] 和byte-pair [31] 表示。为了提高包含很长序列的任务的计算性能可以仅在以输出位置为中心半径为r的的领域内使用self-attention。这将使最大路径长度增长到O ( n / r ) 。我们计划在今后的工作中进一步研究这种方法。 核宽度为kn的单层卷积不会连接每一对输入和输出的位置。要这么做在相邻的内核情况下需要一个n个卷积层的堆栈 在扩展卷积的情况下需要O(logk(n)) 层[18]它们增加了网络中任意两个位置之间的最长路径的长度。 卷积层通常比循环层代价更昂贵这与因子k有关。然而可分卷积[6]大幅减少复杂度到O(k⋅n⋅dn⋅d2)。然而即使kn可分离卷积的复杂度等于self-attention layer和point-wise feed-forward layer的组合这是我们在模型中采用的方法。 一个随之而来的好处是self-attention可以产生更多可解释的模型。我们从我们的模型中研究attention的分布并在附录中展示和讨论示例。每个attention head不仅清楚地学习到执行不同的任务还表现出了许多和句子的句法和语义结构相关的行为。 精读 考虑到每层的计算强度并行计算量和网络中国长距离依赖之间的路径问题。尤其是计算距离问题因此采用自注意力机制产生解释性更强的模型 五.Training 5.1Training Data and Batching 翻译 我们在标准的WMT 2014英语-德语数据集上进行了训练其中包含约450万个句子对。 这些句子使用byte-pair编码[3]进行编码源语句和目标语句共享大约37000个词符的词汇表。 对于英语-法语翻译我们使用大得多的WMT 2014英法数据集它包含3600万个句子并将词符分成32000个word-piece词汇表[38]。 序列长度相近的句子一起进行批处理。 每个训练批次的句子对包含大约25000个源词符和25000个目标词符。 5.2Hardware and Schedule 翻译 我们在一台具有8个 NVIDIA P100 gpu的机器上训练我们的模型。对于paper中描述的使用超参数的基础模型每个训练步骤大约需要0.4秒。我们对基础模型进行了总共100000步或12小时的训练。对于我们的大型模型见表3的底线步进时间为1.0秒。大模型 使用了30万步3.5天的训练。 5.3Optimizer 翻译 我们使用Adam优化器[20]其中β1 0.9, β2 0.98及ϵ 10-9。  这对应于在第一次warmup_steps 步骤中线性地增加学习速率并且随后将其与步骤数的平方根成比例地减小。 我们使用warmup_steps4000。 5.4Regularization 翻译 训练中我们采用三种正则化 Residual Dropout 我们在对每个子层的输出上执行dropout操作,这个操作在additive操作子层的输出加上子层的输入和 normalized操作之前。 此外在编码器和解码器堆栈中我们将丢弃应用到嵌入和位置编码的和。 对于基础模型我们使用Pdrop​ 0.1丢弃率。 六.Results 6.1Machine Translation 翻译 在WMT 2014英语-德语翻译任务中大型Transformer模型表2中的Transformer (big)比以前报道的最佳模型包括整合模型高出2个以上的BLEU评分以28.4分建立了一个全新的SOTA BLEU分数。 该模型的配置列在表3的底部。 在8 个P100 GPU上花费3.5 天进行训练。 即使我们的基础模型也超过了以前发布的所有模型和整合模型且训练成本只是这些模型的一小部分。 我们的模型在 WMT2014 英语-德语的翻译任务上取得了28.4的BLEU评分。在现有的表现最好模型的基础上包括整合模型提高了2个BLEU评分。      在WMT 2014英语-法语翻译任务中我们的大型模型的BLEU得分为41.0超过了之前发布的所有单一模型训练成本低于先前最先进模型的1 ∕ 4 。 英语-法语的Transformer (big) 模型使用 Pdrop​0.1而不是0.3。 对于基础模型我们使用的单个模型来自最后5个checkpoints的平均值这些checkpoints每10分钟保存一次。 对于大型模型我们对最后20个checkpoints进行了平均。 我们使用beam searchbeam大小为4 长度惩罚α 0.6 [38]。 这些超参数是在开发集上进行实验后选定的。 在推断时我们设置最大输出长度为输入长度50但在条件允许时会尽早终止[38]。 表2总结了我们的结果并将我们的翻译质量和训练成本与文献中的其他模型体系结构进行了比较。 我们通过将训练时间、所使用的GPU的数量以及每个GPU的持续单精度浮点能力的估计相乘来估计用于训练模型的浮点运算的数量。 6.2Model Variations 翻译 为了评估Transformer不同组件的重要性我们以不同的方式改变我们的基础模型观测在开发集newstest2013上英文-德文翻译的性能变化。 我们使用前一节所述的beam search但没有平均checkpoint。 我们在表中列出这些结果 3. 在表3的行A中我们改变attention head的数量和attention key和value的维度保持计算量不变如3.2.2节所述。 虽然只有一个head attention比最佳设置差0.9 BLEU但质量也随着head太多而下降。 在表3行B中我们观察到减小key的大小dk​会有损模型质量。 这表明确定兼容性并不容易并且比点积更复杂的兼容性函数可能更有用。 我们在行C和D中进一步观察到如预期的那样更大的模型更好并且dropout对避免过度拟合非常有帮助。 在行E中我们用学习到的positional encoding[9]来替换我们的正弦位置编码并观察到与基本模型几乎相同的结果。 6.3English Constituency Parsing 翻译 为了评估Transformer是否可以扩展到其他任务我们进行了英语选区解析的实验。这项任务提出特别的挑战输出受到很强的结构性约束并且比输入要长很多。 此外RNN序列到序列模型还没有能够在小数据[37]中获得最好的结果。 我们用dmodel​ 1024 在Penn Treebank[25]的Wall Street JournalWSJ部分训练了一个4层的transformer约40K个训练句子。 我们还使用更大的高置信度和BerkleyParser语料库在半监督环境中对其进行了训练大约17M个句子[37]。 我们使用了一个16K词符的词汇表作为WSJ唯一设置和一个32K词符的词汇表用于半监督设置。 我们只在开发集的Section 22 上进行了少量的实验来选择dropout、attention 和residual第5.4节、learning rates和beam size所有其他参数从英语到德语的基础翻译模型保持不变。在推断过程中我们将最大输出长度增加到输入长度300。 对于WSJ和半监督设置我们都使用beam size 21 和α 0.3 。 表4中我们的结果表明尽管缺少特定任务的调优我们的模型表现得非常好得到的结果比之前报告的Recurrent Neural Network Grammar [8]之外的所有模型都好。 与RNN序列到序列模型[37]相比即使仅在WSJ训练40K句子组训练时Transformer也胜过BerkeleyParser [29]。 七.Conclusion 在这项工作中我们提出了Transformer第一个完全基于attention的序列转换模型用multi-headed self-attention取代了encoder-decoder架构中最常用的recurrent layers。 对于翻译任务Transformer比基于循环或卷积层的体系结构训练更快。 在WMT 2014英语-德语和WMT 2014英语-法语翻译任务中我们取得了最好的结果。 在前面的任务中我们最好的模型甚至胜过以前报道过的所有整合模型。 我们对基于attention的模型的未来感到兴奋并计划将它们应用于其他任务。 我们计划将Transformer扩展到除文本之外的涉及输入和输出模式的问题并研究局部的、受限的attention机制以有效地处理图像、音频和视频等大型输入和输出。 让生成具有更少的顺序性是我们的另一个研究目标。 我们用于训练和评估模型的代码可以在GitHub - tensorflow/tensor2tensor: Library of deep learning models and datasets designed to make deep learning more accessible and accelerate ML research.找到。 八.Innovation point 1.自注意力机制Self-Attention Mechanism Transformer 引入了一种全新的自注意力机制允许模型在处理序列数据时直接计算输入序列中不同位置之间的关系。这使得模型能够在不受限于固定窗口大小的情况下同时捕捉长距离的依赖关系和短距离的局部特征。 2.无需序列顺序 传统的循环神经网络RNN和卷积神经网络CNN在处理序列数据时通常需要考虑数据的顺序而 Transformer 不需要。这种无序的特性使得 Transformer 更容易并行化从而提高了训练速度。 3.多头自注意力Multi-Head Self-Attention Transformer 中的自注意力机制被扩展为多头机制允许模型通过多个注意力头同时学习不同的关系表示。这种多头机制增强了模型的表示能力使其能够从不同角度捕捉输入数据的特征。 4.位置编码Positional Encoding 由于自注意力机制本身不包含位置信息为了使模型能够处理序列数据Transformer 引入了位置编码将输入序列的位置信息嵌入到模型中。 5.编码器-解码器架构 Transformer 模型由编码器和解码器两部分组成可以用于序列到序列的任务如机器翻译。编码器用于将输入序列编码为上下文表示解码器则根据上下文表示生成输出序列。 6.逐层归一化Layer Normalization Transformer 引入了逐层归一化有助于加速训练过程并稳定模型训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/87404.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做外贸的几个网站在线动画手机网站模板

目录 详解pytorch中各种Loss functions binary_cross_entropy 用途 用法 参数 数学理论 示例代码 binary_cross_entropy_with_logits 用途 用法 参数 数学理论 示例代码 poisson_nll_loss 用途 用法 参数 数学理论 示例代码 cosine_embedding_loss 用途 …

关键词搜索引擎工具爱站网络营销的主要特点有哪些

晚上学习,有台灯肯定比没台灯好。只要是盏合格的、能用的台灯,都能给你一个稳定又亮堂的环境。但是有些不合格的台灯会给眼睛带来伤害,尤其是学习负担比较重的学生。那有哪些台灯是学生用着比较好用的呢? 一、学生使用护眼台灯的…

网站建设推广软件有自己的网站如何做淘宝客

具体来说,OpenGL是一个开放的图形库,它规定了每个函数应该如何执行,以及它们的输出值,但没有具体实现。它提供了渲染2D和3D图形的标准或规范。 GLEW,全称OpenGL Extension Wrangler Library,是一个用于管理…

网站优化 方案如何做虚拟币交易网站

1、public —— 外部也能访问 2、private —— 只能内部(友元也可以) 3、explicit —— 只可用于声明単参构造函数。声明类的构造函数是显示调用,不是隐式。阻止调用构造函数时隐式转换(赋值初始化) 4、默认构造函数…

太原网站设计费用制作商城网站

下面是一个简单的 Python TCP 客户端示例代码,用于与之前提到的 EchoServer 进行通信: import socketserver_address (localhost, 8888)# 创建 TCP 客户端套接字 client_socket socket.socket(socket.AF_INET, socket.SOCK_STREAM)try:# 连接到服务器…

wordpress建站平台wordpress建设购物网站

众所周知&#xff0c;MySQL是非常重要的数据库语言&#xff0c;下面我们来回顾一下mysql的增删查改吧 MySQL创建数据库&#xff1a; CREATE DATABASE 数据库名;MySQL删除数据库&#xff1a; DROP DATABASE <database_name>; --直接删除&#xff0c;不检查是否存在 DROP…

拆分盘网站建设网站地图用法

前言&#xff1a; 小弟能力不足&#xff0c;认知有限&#xff0c;难免考虑不全面&#xff0c;希望大佬能给出更好的建议&#xff0c;指出存在的问题和不足&#xff0c;在此跪谢。 IO发展史 Java中对于I/O能力的支持主要分为三个比较关键的阶段&#xff1a; BIO 第一个阶段…

企业网站建设 全包吉林省城乡建设厅网站6

关于串的相关定义&#xff1a; 串&#xff1a;用‘ ’表示的字符序列空串&#xff1a;包含零个字符的串子串&#xff1a;包含传本身和空串的子串 eg: abc(,a,b,c,ab,bc,ac,abc)共7个&#xff1a;串的长度的阶乘1&#xff08;空串&#xff09;真子串&#xff1a;不包含自身的所…

萧山建设局网站线上问诊网站建设

前言 最近对部分项目升级了vue-cli脚手架&#xff0c;记录一下 问题一&#xff1a; scss/less/css中无法引入public下的静态资源 问题描述 在样式文件中使用静态资源路径导致编译无法通过 错误信息如下&#xff1a; Module not found: Error: Cant resolve /img/login/lo…

优酷wordpress建站教程杭州设计公司老板被点火

题目 105. 从前序与中序遍历序列构造二叉树 分析 这道题是告诉我们一颗二叉树的前序和中序&#xff0c;让我们根据前序和中序构造出整颗二叉树。 拿到这道题&#xff0c;我们首先要知道前序的中序又怎样的性质&#xff1a; 前序&#xff1a;【根 左 右】中序&#xff1a;…

快速建站教程如何建设运输网站

【嵌入式——QT】全局定义 概念数据类型定义函数宏定义 概念 头文件包含了Qt类库的一些全局定义&#xff0c;包含基本数据类型、函数和宏&#xff0c;一般的Qt类的头文件都会包含该文件&#xff0c;所以不用显示包含这个头文件也可以使用其中的定义。 数据类型定义 数据类型…

html5风格网站特色瑞安门户网站建设

可能你对值类型和引用类型还不太了解。 值类型和引用类型&#xff0c;是c#比较基础&#xff0c;也必须掌握的知识点&#xff0c;但是也不是那么轻易就能掌握&#xff0c;今天跟着我一起来看看吧。 典型类型 首先我们看看这两种不同的类型有哪些比较典型的代表。 典型值类型…

福州建设高端网站wordpress文本地化

文章目录 文章专栏前言文章解读前言创建ROI案例1&#xff1a;直接截取ROI手动截取ROI 总结ROI套路获取窗口句柄截取ROI区域获取有效区域 Stop组合 文章专栏 Halcon开发 Halcon学习 练习项目gitee仓库 CSDN Major 博主Halcon文章推荐 前言 今天来看第三章内容&#xff0c;既然是…

阳江市建设网站百度怎么推广自己的产品

二叉树的存储与遍历 const int N 1e6 10;// 二叉树的存储,l数组为左节点,r数组为右结点 int l[N], r[N]; // 存储节点的数据 char w[N]; // 节点的下标指针 int idx 0;// 先序创建 int pre_create(int n) {cin >> w[n];if (w[n] #) return -1;l[n] pre_create(idx)…

wordpress单本小说站机加工接单什么平台好

面试题45&#xff1a;C中的字符串如何存储 在C中&#xff0c;字符串可以通过多种方式存储&#xff0c;但最常见和推荐使用的方式是通过 std::string 类&#xff0c;该类位于 <string> 头文件中。std::string 是一个类模板的实例&#xff0c;通常用于存储字符数组&#x…

做网站的知名品牌公司网页设计建网站

PHP加密解密也是常有的事&#xff0c;发现discuz论坛里的PHP加密解密处理类代码&#xff0c;感觉挺不错&#xff0c;在用的时候&#xff0c;要参考Discuz论坛的passport相关函数&#xff0c;后面我会附上使用方法。php加密解密处理类<?php /* 文件名称&#xff1a;cls.sys_…

广州应用网站设计湖州市建设中心网站

&#x1f525;个人主页&#xff1a;Quitecoder &#x1f525;专栏&#xff1a;c笔记仓 朋友们大家好&#xff0c;本篇文章我们详细讲解c中的动态内存管理 目录 1.C/C内存分布2.C语言中动态内存管理方式&#xff1a;malloc/calloc/realloc/free3.c内存管理方式3.1new/delete对内…

北京大兴网站建设公司哪家好沈阳网站设计广告公司

本文整理自博主大学本科《计算机组成原理》课程自己完成的实验报告。 —— *实验环境为学校机房实验箱。 目录 一、实验目的 二、实验内容 三、实验步骤及实验结果 Ⅰ、单片机键盘操作方式实验 1、实验连线&#xff08;键盘实验&#xff09; 2、实验过程 四、实验结果的…

找建站公司做网站注意事项php网站带数据库

文章目录 前言1. 工具准备1.0 事先说明1.1 VSCode1.2 Fitten Code1.3 GitHub Copilot 2. 使用测评2.1 需求理解2.2 上下文理解 3. 总结推荐链接 开年尝鲜高质量国产AI编码助手——FittenCode 前言 2024年刚刚开局&#xff0c;清华大学 与 非十科技 就发布了全新的 VSCode AI…

浏览不良网站会被网警抓吗网站建设相关的工作

9个关于SSI芯片的必知问题-腾讯云开发者社区-腾讯云 (tencent.com)https://cloud.tencent.com/developer/article/1530543