transformer机制讲解_【核心代码解读】Transformer-XL

88c8c53232a81b9332226582cacac4aa.png
[论文]
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context​arxiv.org

Motivation

  • Transformer在预训练阶段,设置了固定序列长度max_len的上下文,finetuning阶段,模型不能获取大于max_len的上下文依赖;
  • Transformer在长文本编码过程中,可采用按照句子边界拆分和按照max_len截断的方式,进行片段的编码,论文指出第二种不考虑句子边界的编码方式效果更好,但仍然存在上下文碎片的问题context fragmentation

How to solve

  • Segment-level recurrence mechanism - 使模型获取更长上下文

在单向编码长文本时,由于transformer设置了max_len,从而在训练时,第i个token只能attention到前i个token,且当transformer以max_len为窗口滑动时,每前进一步,绝对位置编码需要跟着前进一步,使得每一步都需要重新计算max_len中每个token的隐层表示,如下图。

f00d39fcae88ddf49396fd244938dfdb.png
Figure 1: vanilla model with a segment length 4.

Transformer-XL通过设置memory-span使得当前max_len窗口中的每个token都能attention到前max_len个token,因此Transformer-XL在每前进一步时,只用计算当前位置的token的隐层表示,同时在更新梯度时,只更新当前窗口内的梯度(防止梯度bp的距离太远),从而实现了输出隐层表示的更长上下文关联,和高效的编码速度。

3a0ed50769869d98e77d57c97baac3e9.png
Figure 2: Transformer-XL model with a segment length 4.
  • Relative Positional Encodings - 使模型在前向过程中更快

Segment-level recurrence mechanism机制中提到的,max_len窗口中的每个token都能attention前max_len个token,其中可能会有一些token在上一个seg,这样就存在位置编码不连续,或者相同token在当前seg和前一个seg具有相同的attention值的问题。因此为了实现transformer-XL训练和长文本编码运用之间的等效表示,将绝对位置编码替换为以当前token为基准的相对位置编码Relative positional encodings

    • 绝对位置编码 - attention-score

8afbb8fffd932c28ae30938ae191c66c.png
    • 相对位置编码 - attention-score

b409c6010bc7bbda844a17fa3ad5d782.png

其中

分别表示
token emb, absolute pos emb, relative pos emb, proj matrix,对于每个编码的token相对位置编码都为0,因此

绝对位置编码在输入transformer之前就和token emb求和,相对位置编码需要在计算attention score加入和计算。在Transformer-XL的tensorflow代码是如何实现呢?

Relative positional emb 代码解析

  • 在解析代码前,先用图示展示relative pos emb的实现过程(无memory版本) rel_shift(*)
    • 输入token emb和反向的absolute pos emb
    • 得到attention score矩阵后,在token emb维pad,产生1位错位;
    • 截取位置编码对齐后的矩阵。
    • 按顺序截取token emb个数个分数组成行,对角全是pad

bca281c5237478386c6861dc64ecf5a9.png
  • 在tf中,rel_multihead_attn函数生成相对位置的attention score
def rel_multihead_attn(w, r, r_w_bias, r_r_bias, attn_mask, mems, d_model,n_head, d_head, dropout, dropatt, is_training,kernel_initializer, scope='rel_attn')
# w : token emb
# r : 反向的绝对位置emb
# r_w_bias :公式中的u
# r_r_bias : 公式中的v
# attn_mask : attention mask矩阵
# mems : memory
  • attentiton score矩阵的生成
def rel_shift(x):x_size = tf.shape(x)x = tf.pad(x, [[0, 0], [1, 0], [0, 0], [0, 0]]) #第二维padding [qlen,klen,bsz,nhead]x = tf.reshape(x, [x_size[1] + 1, x_size[0], x_size[2], x_size[3]]) #reshape产生偏移x = tf.slice(x, [1, 0, 0, 0], [-1, -1, -1, -1]) #截取attention score矩阵x = tf.reshape(x, x_size)return x

Segment-level recurrence mechanism - Memory 代码解析

  • 同样在解析代码前,先用图示展示Memory的实现过程
    • 当前
      为query,和
      内积;
    • 按照之前讲解的方式得到relative pos和
      的内积结果;
    • 得到attention score后,通过
      得到attention score矩阵
      ;

843ca0e5dd0dcccc4955b0b825a54473.png
  • 在tf中,_cache_mem(*)函数返回上一个
def _cache_mem(curr_out, prev_mem, mem_len=None):if mem_len is None or prev_mem is None:new_mem = curr_outelif mem_len == 0:return prev_memelse:new_mem = tf.concat([prev_mem, curr_out], 0)[- mem_len:]return tf.stop_gradient(new_mem)
  • attentiton mask矩阵的生成
def _create_mask(qlen, mlen, same_length=False): #same_length : 每个token是否采用相同长度的attn length# 代码中train阶段为False 测试时是Trueattn_mask = tf.ones([qlen, qlen]) # 1: mask 0: non-maskmask_u = tf.matrix_band_part(attn_mask, 0, -1) #上三角 = 1mask_dia = tf.matrix_band_part(attn_mask, 0, 0) #对角 = 1attn_mask_pad = tf.zeros([qlen, mlen]) # memory的maskret = tf.concat([attn_mask_pad, mask_u - mask_dia], 1) #如果使token相同的attn_len,设置下三角maskif same_length:mask_l = tf.matrix_band_part(attn_mask, -1, 0)ret = tf.concat([ret[:, :qlen] + mask_l - mask_dia, ret[:, qlen:]], 1)return ret
  • relative pos encoding完整代码
def rel_multihead_attn(w, r, r_w_bias, r_r_bias, attn_mask, mems, d_model,n_head, d_head, dropout, dropatt, is_training,kernel_initializer, scope='rel_attn'):
scale = 1 / (d_head ** 0.5)
with tf.variable_scope(scope):qlen = tf.shape(w)[0]rlen = tf.shape(r)[0]bsz = tf.shape(w)[1]cat = tf.concat([mems, w],0) if mems is not None and mems.shape.ndims > 1 else ww_heads = tf.layers.dense(cat, 3 * n_head * d_head, use_bias=False,kernel_initializer=kernel_initializer, name='qkv')# word线性映射r_head_k = tf.layers.dense(r, n_head * d_head, use_bias=False,kernel_initializer=kernel_initializer, name='r')# pos线性映射w_head_q, w_head_k, w_head_v = tf.split(w_heads, 3, -1)w_head_q = w_head_q[-qlen:] #将memory从query中剔除klen = tf.shape(w_head_k)[0]w_head_q = tf.reshape(w_head_q, [qlen, bsz, n_head, d_head])w_head_k = tf.reshape(w_head_k, [klen, bsz, n_head, d_head])w_head_v = tf.reshape(w_head_v, [klen, bsz, n_head, d_head])r_head_k = tf.reshape(r_head_k, [rlen, n_head, d_head])rw_head_q = w_head_q + r_w_biasrr_head_q = w_head_q + r_r_biasAC = tf.einsum('ibnd,jbnd->ijbn', rw_head_q, w_head_k)BD = tf.einsum('ibnd,jnd->ijbn', rr_head_q, r_head_k)BD = rel_shift(BD)attn_score = (AC + BD) * scaleattn_mask_t = attn_mask[:, :, None, None]attn_score = attn_score * (1 - attn_mask_t) - 1e30 * attn_mask_tattn_prob = tf.nn.softmax(attn_score, 1)attn_prob = tf.layers.dropout(attn_prob, dropatt, training=is_training)attn_vec = tf.einsum('ijbn,jbnd->ibnd', attn_prob, w_head_v)size_t = tf.shape(attn_vec)attn_vec = tf.reshape(attn_vec, [size_t[0], size_t[1], n_head * d_head])attn_out = tf.layers.dense(attn_vec, d_model, use_bias=False,kernel_initializer=kernel_initializer, name='o')attn_out = tf.layers.dropout(attn_out, dropout, training=is_training)output = tf.contrib.layers.layer_norm(attn_out + w, begin_norm_axis=-1)
return output

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/333733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Neo4j导入:java.lang.IllegalStateException:不支持在单个导入中混合指定和未指定的组所有物...

休息片刻之后,我最近一直在使用Neo4j导入工具 ,并遇到了我最初不理解的有趣的错误消息。 我有一些CSV文件,其中包含要导入Neo4j的节点。 它们的内容如下所示: $ cat people_header.csv name:ID(Person)$ cat people.csv "…

Requests库实战(二)---破解百度翻译

功能:爬取到页面中翻译后的文本数据 获取请求地址和请求方式 先输入dog翻译一下,发现是Ajax请求(动态实时刷新页面),Ajax请求的数据包可以在网络的XHR中看到。找到输入dog的数据包,通过标头的表单数据kw:dog以及响应的结果就可以…

局部变量的赋值问题

int i 5; i 10;变量 i 在栈帧里面的局部变量表里面,这个局部变量表类似一个数组,里面包含了一些“槽位”来存放局部变量,i 这个变量,就是在局部变量表中的某一个槽位里面,并且 i 只会占用一个槽位,对变量…

php生成 sku_高并发下,php与redis实现的抢购、秒杀功能

抢购、秒杀是如今很常见的一个应用场景,主要需要解决的问题有两个:1 高并发对数据库产生的压力2 竞争状态下如何解决库存的正确减少("超卖"问题)对于第一个问题,已经很容易想到用缓存来处理抢购,…

lambda :: -_无需再忙了:Lambda-S3缩略图,由SLAppForge Sigma钉牢!

lambda :: ->如果你还没有注意到了,我最近被唠叨试图开始使用时,我遭遇了陷阱AWSλ-S3正式例子 。 虽然大多数这些愚蠢的错误的指责是对我自己的懒惰,过度自尊和缺乏对细节的关注,我个人觉得,在开始与一家领先的无服…

Requests库实战(三)---爬取豆瓣电影详细信息

完整代码 爬取豆瓣电影的详细信息 地址:豆瓣电影动画 向下滑动时新增的数据也是Ajax请求,原理和上一个项目是一样的。唯一的不同是此处请求url携带了多个参数 import requests import json header{User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x6…

lineseparator_首选System.lineSeparator()以用Java编写系统相关的行分隔符字符串

lineseparatorJDK 7在java.lang.System类上引入了一个名为lineSeparator()的新方法。 该方法不期待任何参数,并返回一个String ,它表示“取决于系统的行分隔符字符串。” 此方法的Javadoc文档还指出System.lineSeparator() “始终…

JavaScript(JS)中与正则表达式有关的方法介绍

文章目录RegExpRegExp 对象的属性compiletestexecString一共有 7 个与正则表达式式相关的方法,这些方法分别来自于 RegExp 与 String 对象。RegExp RegExp 对象表示正则表达式, 主要用于对字符串执行模式匹配. 语法: new RegExp(pattern[, flags]) 参数 pattern …

Requests库实战(四)---爬取肯德基餐厅地址信息

功能:爬取查询后的肯德基餐厅的地址信息 地址:http://www.kfc.com.cn/kfccda/storelist/index.aspx 亮点是post请求的参数有两组:查询字符串参数,表单数据。 对于post请求,由于url中隐藏了许多参数,所以引入了表单数据…

显示请求_学习记录:HTTP的响应与请求amp;Curl

本文包含四个部分,简要介绍HTTP请求、HTTP响应、chrome开发者查看、与CURL命令。Part1:HTTP请求1GET请求指定的页面信息,并返回实体主体。2HEAD类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头。3POST向…

java.线程池 线程数_如何在线程“ main”中修复异常java.lang.NoClassDefFoundError:Java中的org / slf4j / LoggerFactory...

java.线程池 线程数此错误表示您的代码或您在应用程序中使用的任何外部库都在使用SLF4J库 (一个开放源代码日志记录库),但无法找到所需的JAR文件,例如slf4j-api-1.7.2.jar因此它是在线程“ main” java.lang.NoClassDefFoundError…

正则表达式实战---爬取多张图片

主要是分析网站图片的html源代码,来决定正则表达式如何写。 完整代码 #使用正则表达式爬取多张图片,亮点在于数据解析 #爬取网站:https://www.bilibili.com/read/cv11323037?fromsearch import requests import re import os image_pathimage if not …

JS(JavaScript) 使用捕获性分组处理文本模板,最终生成完整字符串

var tmp "An ${a} a ${b} keeps the ${c} away";// obj 是 json 对象 var obj {a:"apple",b:"day",c:"doctor" };/** *descript 声明定义一个函数 tmpl,该函数将文本模板对应的变量替换后返回 * */function tmpl(t,o){/*…

6 日期字符串转日期_Java日期时间API系列6-----Jdk8中java.time包中的新的日期时间API类...

因为Jdk7及以前的日期时间类的不方便使用问题和线程安全问题等问题,2005年,Stephen Colebourne创建了Joda-Time库,作为替代的日期和时间API。Stephen向JCP提交了一个规范,他本人作为规范的领导人,该规范就是JSR 310&am…

第一个JDK 10(18.3)候选版本(内部版本43)展示了新的版本控制方案

Mark Reinhold的帖子“ JDK 10:First Release Candidate ”宣布“在build 43中没有未解决的P1错误”,并将Build 43命名为最初的JDK 10 Release Candidate 。 Reinhold帖子还指向“ JDK 10 Early Access Builds ”页面,该页面包含发行说明的链…

安装Pytorch如何选择CUDA的版本

安装Pytorch时CUDA的选择Nvidia CUDA查看CUDA版本方法查看CUDA的驱动API版本查看CUDA的运行API版本查看官方CUDA的运行API版本方法1方法2查看Anaconda里cudatoolkit包版本CUDA是一个并行计算平台和编程模型,能够使得使用GPU进行通用计算变得简单和优雅。Nvidia官方提…

MySQL的通配符

% 表示匹配任意数量(包含 0 个)的任意字符,跟 like 配合使用_ 下划线表示匹配任意 1 字符

db2 springboot 整合_[SpringBoot]快速配置多数据源(整合MyBatis)

前言由于业务需求,需要同时在SpringBoot中配置两套数据源(连接两个数据库),要求能做到service层在调用各数据库表的mapper时能够自动切换数据源,也就是mapper自动访问正确的数据库。本文内容:在SpringbootMybatis项目的基础上&…

pytorch使用GPU炼丹笔记

如何使用GPU训练/测试模型使用单GPU设置设备将数据转换成CUDA张量将模型参数转换成CUDA张量使用指定GPU1.使用CUDA_VISIBLE_DEVICES。1.1 直接在终端或shell脚本中设定:1.2 python代码中设定:2. 使用函数 set_device使用多GPUDP方法DDP方法需要先初始化数…

java解决错误经验_在Java错误进入生产之前的新处理方式

java解决错误经验我们如何认识到解决预生产错误的旧方法还不够,以及我们如何能够改变它 第一次尝试就没有完美的代码,我们所有人都可以证明我们已经通过艰苦的努力学习了。 不管我们使用多少测试周期,代码审查或工具,总有至少一个…