各类神经网络学习：（十一）注意力机制（第3/4集），位置编码

上一篇	下一篇
注意力机制（2/4集）	注意力机制（4/4集）

位置编码

$RNN$ 和 $L STM$ 这些网络都是串行执行的，在潜移默化中，就包含了顺序关系，也就是词序关系。而注意力机制是并行的，词与词之间不存在顺序关系，比如说输入 $[A, B, C]$ 和 $[B, A, C]$ 会被视为相似，那么这样就会丢失词序信息，所以需要在执行注意力机制之前，先进行位置编码，这样就包含了词序关系。

①位置编码向量添加方式

原本的自注意力机制的输入，就是词向量，但是对其位置编码后，会在原来的词向量上再加一个位置向量变成一个新的向量（对应元素相加），里面包含了当前词向量和其他的词向量之间的位置关系。并且位置向量的维度和词向量的维度是一致的。

②位置编码公式

编码方式其实有多种，不过 $T r an s f or m er$ 中用的就是下方这种（效果不是最好的，只是当时正好想到了这种方式）。

$T r an s f or m er$ 论文中使用的 正弦-余弦位置编码 是固定编码（不可训练），其公式如下：
$\Large PE_{(pos,2i)}=sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})\\ \Large PE_{(pos,2i+1)}=cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})$
其中， $p os$ 表示元素在序列中的位置（ $0 \leq p os \leq 单词个数$ ）。 $i$ 表示编码向量的维度索引（ $\frac{d_{model}}{2}$ ）。 $d_{model}$ 表示模型隐藏层维度（如 $512$ ）。

上述公式表明：偶数位置的元素值使用 $s in$ 函数计算，奇数位置的元素值使用 $cos$ 函数计算（偶 $s in$ 奇 $cos$ ）。

③举例帮助理解

举个例子帮助理解上述参数的含义：假设一句话中有 $m$ 个单词，则有 $0 \leq p os \leq m$ ，每个单词的位置编码向量的维度为 $d_{model}$ （就是这个向量中的元素个数），比如说第 $p os$ 个单词的位置编码向量为 $[0.841, 0.540, 0.860, 0.509, ...]$ 。

现在我们来更具体化这个例子：

令 $m = 3$ ，假设句子为 “ $I l o v e yo u$ ”，包含 $3$ 个单词（对应于位置 $p os = 0, 1, 2$ ），模型维度 $d_{model}=512$ 。则第 $p os$ 个单词的位置编码向量中第 $2 i$ 和第 $2 i + 1$ 个元素的值应按照如下公式计算：
$\Large PE_{(pos,2i)}=sin(\frac{pos}{10000^{\frac{2i}{512}}})\\ \Large PE_{(pos,2i+1)}=cos(\frac{pos}{10000^{\frac{2i}{512}}})$
则有：

单词位置（pos）	维度0	维度1	维度2	维度3	…（共512维）
pos=0 （“I”）	0.000	1.000	0.000	1.000	…
pos=1 （“love”）	0.841	0.540	0.860	0.509	…
pos=2 （“deep”）	0.909	-0.416	0.876	-0.481	…

高频维度（如维度 512 的最后几维）的值接近微小波动，但对模型仍携带位置信息。
单词很多时，其中更远的位置（例如pos=100）会因为频率放大分母，使得大幅衰减为小值。

测试代码：

import math
import numpy as npdef get_div_term(d_model):div_term = np.exp(np.arange(0, d_model, 2) * (-math.log(10000.0) / d_model))return div_term  # 形状: [256]if __name__ == '__main__':np.set_printoptions(suppress=True)# 更改下面的 0 为其他的 posprint(np.sin(0 / get_div_term(512)))  # 输出向量中偶数位置元素print(np.cos(0 / get_div_term(512)))  # 输出向量中奇数位置元素

④为什么位置编码要这样编码

下面只做简单解释，详细的原因可以问 $d ee p see k$

按顺序推导，请耐心观看。

（里面为什么是除以 $10000^{2i/512}$ 不用管，知道宏观公式的原因就行）

灵感来源：三角函数的和差化积公式：
$sin(\alpha+\beta)=sin\alpha·cos\beta+cos\alpha·sin\beta\\ cos(\alpha+\beta)=cos\alpha·cos\beta-sin\alpha·sin\beta$

则第 $p os + k$ 个位置的单词的位置编码向量 $PE_{(pos+k)}$ 中的偶数和奇数位置的元素可被表示为：

$\begin{aligned} \text{偶数位：} & \\ PE_{(pos+k,2i)} &= \sin\left(\frac{pos+k}{10000^{\frac{2i}{512}}}\right) = \sin\left(\frac{pos}{10000^{\frac{2i}{512}}} + \frac{k}{10000^{\frac{2i}{512}}}\right) \\ &= \sin\left(\frac{pos}{10000^{\frac{2i}{512}}}\right) \cdot \cos\left(\frac{k}{10000^{\frac{2i}{512}}}\right) + \cos\left(\frac{pos}{10000^{\frac{2i}{512}}}\right) \cdot \sin\left(\frac{k}{10000^{\frac{2i}{512}}}\right) \\ &= PE_{(pos,2i)} \cdot PE_{(k,2i+1)} + PE_{(pos,2i+1)} \cdot PE_{(k,2i)} \\ \hline\\ \text{奇数位：} & \\ PE_{(pos+k,2i+1)} &= \cos\left(\frac{pos+k}{10000^{\frac{2i}{512}}}\right) = \cos\left(\frac{pos}{10000^{\frac{2i}{512}}} + \frac{k}{10000^{\frac{2i}{512}}}\right) \\ &= \cos\left(\frac{pos}{10000^{\frac{2i}{512}}}\right) \cdot \cos\left(\frac{k}{10000^{\frac{2i}{512}}}\right) - \sin\left(\frac{pos}{10000^{\frac{2i}{512}}}\right) \cdot \sin\left(\frac{k}{10000^{\frac{2i}{512}}}\right) \\ &= PE_{(pos,2i+1)} \cdot PE_{(k,2i+1)} - PE_{(pos,2i)} \cdot PE_{(k,2i)} \end{aligned}$

可以看出，对于 $p os + k$ 位置的位置向量中的 $2 i$ 或 $2 i + 1$ 维而言，可以被表示为： $p os$ 位置与 $k$ 位置的位置向量中的 $2 i$ 与 $2 i + 1$ 维的线性组合，这样的线性组合意味着位置向量中蕴含了相对位置信息（也就是说：第 $p os + k$ 个单词和第 $p os$ 、第 $k$ 个单词有关联）。