论文阅读--Qwen22.5技术报告

Qwen2

1 引言

所有模型都是在超过7 trillion token（7万亿）的高质量、大规模数据集上预训练的

2 Tokenizer & Model

2.1 Tokenizer

沿用Qwen（Bai等人，2023a）的做法，我们采用了基于字节级字节对编码的相同Tokenizer

所有大小的模型都采用一个共有词汇表，包含151,643个常规词元和3个控制词元

2.2 模型架构

基于Transformer架构的大型语言模型，具有自注意力和因果掩码。具体来说，该系列包括4个规模的稠密语言模型和一个专家混合（MoE）模型

2.2.1 Qwen2 稠密模型

与Qwen的主要区别如下：

分组查询注意力：我们采用了分组查询注意力（Grouped Query Attention，GQA）而不是传统的多头注意力。GQA在推理期间优化了KV缓存的使用，显著提高了吞吐量。

双块注意力与YARN：为了扩大Qwen2的上下文窗口，我们实现了双块注意力（Dual Chunk Attention，DCA），它将长序列分割成可管理的长度块。如果输入可以在一个块中处理，DCA产生与原始注意力相同的结果。否则，DCA有助于在块内和跨块之间有效地捕获相对位置信息，从而提高长上下文性能。此外，我们还采用了YARN来重新调整注意力权重，以实现更好的长度外推。

我们还沿用了Qwen的使用，包括SwiGLU作为激活函数，旋转位置嵌入（RoPE）作为位置嵌入，QKV偏置用于注意力，RMSNorm和预归一化用于训练稳定性。

2.2.2 Qwen2 专家混合模型（MoE）

专家粒度：从密集架构过渡到MoE架构的一个直接策略是将每个专家的参数设置为原始密集模型中单个FFN的参数。例如，从Mistral-7B过渡到Mixtral 8x7B涉及一次激活八个专家中的一个。不同地，我们的模型采用了细粒度专家，创建了规模更小的专家，同时激活了更多的专家。

专家路由：最近，将共享专家和特定路由专家整合到MoE层内的趋势日益明显。我们采用了这种方法，因为它既促进了在各种任务中应用共享专家，又保留了其他专家在特定路由场景中选择性使用。

专家初始化：我们以类似于废物利用的方式初始化专家，利用密集模型的权重。与此不同，我们的方法强调在细粒度专家之间实现多样化，以增强模型的表现力广度。给定指定的专家中间尺寸 hE ，专家数量 n 以及原始前馈网络中间尺寸 hFFN ，FFN被复制次。这种复制确保了与指定专家数量的兼容性，同时适应任何任意的专家 intermediate size。为了在每个FFN副本中促进多样性， intermediate 维度参数进行shuffle。这确保了即使在不同的FFN副本中，每个细粒度专家也表现出独特的特征。随后，这些专家从FFN副本中提取出来，剩余的维度被丢弃。对于每个细粒度专家，其50%的参数被随机重新初始化。这个过程在专家初始化中引入了额外的随机性，可能增强了模型在训练期间的探索能力。

3 预训练

3.1 预训练数据

质量提升：过滤算法通过额外的启发式和基于模型的方法进行了改进，包括使用Qwen模型过滤掉低质量数据。此外，这些模型还被用于合成高质量的预训练数据。

数据扩展：与Qwen1.5相比，我们收集了更大容量的高质量代码、数学和多语言数据，增强了模型在这些领域的能力。这个新数据集支持约30种语言。

分布改进：为确保模型学习类似于人类学习的分布，我们在小规模的模型上进行实验，优化来自不同来源和领域的数据混合。

基于这些增强，预训练数据从Qwen1.5的3万亿个词元扩展到7万亿个tokens。尝试进一步放宽质量阈值导致了一个12万亿token的数据集。然而，在这个数据集上训练的模型并没有显示出比7万亿词元模型有显著的性能提升。怀疑增加数据量并不一定有益于模型预训练。

所有Qwen2密集模型（除了Qwen2-0.5B）都是在超过7万亿词元的大规模数据集上预训练的。Qwen2-0.5B是使用12万亿词元的数据集进行预训练的。MoE模型接受了额外的4.5万亿词元的预训练，符合 upcycling 的原则。

与之前的Qwen模型类似，高质量的多任务指令数据被整合到Qwen2的预训练过程中，以增强上下文学习和指令跟随能力。

3.2 长上下文训练

在预训练的最后阶段将上下文长度从4096增加到32768，将RoPE的基本频率从10,000调整到1,000,000，，采用了 YARN 机制和 Dual Chunk Attention 双块注意力机制使模型能够处理长达131072个词元的序列(128k)

4 后训练

4.1 后训练数据

后训练数据主要由两部分组成：对齐数据 D = { ( x i , y i ) } 和偏好数据 P = { ( x i , y i + , y i − ) } ，其中 x i 代表指令，y i代表满意的响应，y i +和 y i − 是对 x i 的两种响应，y i + 是比 y i − 更受偏好的选择。集合 D 用于SFT，而 P 用于RLHF。

训练数据的构建包括两个步骤：

（1）协作数据注释和自动化数据合成。首先，我们从大规模指令语料库中提取数据本体，得到广泛和多样化的高质量指令集合。这些指令经过系统性增强，以包含更大的复杂性。通过人工注释，我们获得了目标响应 y i 及其正面和负面标注 ( y i + , y i − ) 。
（2）随后，采用多种自动化对齐策略，在代码、数学、指令跟随、创作、角色扮演和安全等领域合成了大量人工注释的数据。