【自然语言处理】利用Memory Layer替换Transformer中的FFN

论文地址：https://arxiv.org/pdf/2412.09764

相关博客
【自然语言处理】利用Memory Layer替换Transformer中的FFN
【自然语言处理】【大模型】BitNet：用1-bit Transformer训练LLM
【自然语言处理】BitNet b1.58：1bit LLM时代
【自然语言处理】【长文本处理】RMT：能处理长度超过一百万token的Transformer
【自然语言处理】【大模型】MPT模型结构源码解析(单机版)
【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版)
【自然语言处理】【大模型】BLOOM模型结构源码解析(单机版)

本文提出了一种memory layer用于替换Transformer中的FFN，从而提升模型的知识容量。

一、Memory Layer

这里定义的memory layer与注意力机制类似。即给定query $q\in\mathbb{R}^n$ 、一组key $K\in\mathbb{R}^{N\times n}$ 和一组value $V\in\mathbb{R}^{N\times n}$ ，最终输出value的软组合。但是，memory layer与标准注意力层有两个区别：

(1) 标准注意力中key和value是激活值，而memory layer中是可训练参数；

(2) memory layer中的key和value规模要比标准注意力大很多，需要稀疏查询和更新；

Memory Layer的正式描述。
$I=\text{SelectTopkIndices}(Kq),\quad s=\text{Softmax}(K_I q),\quad y=sV_I\tag{1} \\$
其中：

$I$ 是选中的key-value对的索引集合；
$s\in\mathbb{R}^k$ 是权重向量；
$K_I$ 和 $V_I$ 是选中的key和value；
$y\in\mathbb{R}^n$ 是memory layer的输出；

二、计算Topk索引 $I$ 的优化

1. memory layer的瓶颈

阻碍memory layer大规模应用的一个主要瓶颈就是query-key检索机制。一般来说，可以利用简单的最近邻搜索来比较每个query-key对，但是对于更大规模的记忆来说，这种方法并不可行。当然，也有一些快速近似向量相似度的技术，但是当key在持续训练中不断更新，则需要不断的重新索引。

2. product-key

$K$ 的分解。计算 $I$ 的主要挑战是 $K$ 太大，那么可以考虑用笛卡尔积的方式分解 $K$ 。具体来说，随机初始化 $K_1\in\mathbb{R}^{\sqrt{N}\times\frac{n}{2}}$ 和 $K_2\in\mathbb{R}^{\sqrt{N}\times\frac{n}{2}}$ 两个独立的key集合，通过 $K_1$ 和 $K_2$ 的笛卡尔积就可以得到 $K$ ，即两两拼接 $K_1$ 和 $K_2$ 中的向量：
$K[i,j]=\text{concat}(K_1[i],K_2[j]) \\$
注意，在实际计算中索引 $I$ 的过程中并不需要计算出 $K$ ，直接利用 $K_1$ 和 $K_2$ 即可。

查询。将query $q$ 也分解为两个部分 $q_1,q_2\in\mathbb{R}^{\frac{n}{2}}$ ，然后分别与 $K_1$ 和 $K_2$ 进行相似度计算，得到 $I_1,I_2$ 和 $s_1,s_2$ 。最终topk的索引以及分数为
$\mathop{\arg\max}_{i_1\in I_1,i_2\in I_2}\quad s_1[i_1]+s_2[i_2] \\$

三、并行优化

在这里插入图片描述

memory layer本质上是存储密集型的，其包含了大量可训练参数以及对应的优化器状态。为了能够实现包含数百万个key的memory layer，需要在多个GPU上并行化embedding的查找和聚合操作。

具体来说，在embedding的维度上进行分片。每一步中，从进程组收集索引，然后每个进程在其所属的分片上进行查找和聚合操作。最后，每个进程收集与自身部分索引相对应的部分embedding。通过确保每个GPU只获取其自身那部分数据，从而无需实例化整个embedding输出，控制激活内存。

四、共享记忆

在所有memory layerz中使用一个共享的记忆参数池，从而保持参数量不变并最大化参数共享。实验发现，在一定数量的层内，多个memory layer比具有相同总参数量的单个memory layer效果更好。当在超过这个数量的层内替换FFN会导致性能下降，这表明稀疏层和密集层都是必要的，而且很可能具有互补性。