Large Language Models to Diffusion Finetuning
![]()

目录
1. 概述
2. 研究背景
3. 方法
3.1 用于 LM 微调的高斯扩散
3.2 架构
4. 主要实验结果
5. 结论
1. 概述
本文提出了一种新的微调方法——LM to Diffusion (L2D),旨在赋予预训练的大语言模型(Large Language Models, LLMs)测试时可扩展计算能力。
研究发现,通过在推理过程中增加扩散步数,模型的准确性可以单调增加,从而提高在数学、编程和推理等下游任务中的性能。
此外,该方法可以结合强大的引导技术,优化计算资源的动态分配,同时保持语言模型的单步生成能力。
本文的主要贡献包括:
- 提出 L2D 微调方法,结合语言模型的自回归能力和扩散模型的多步推理能力,利用语言模型的预测来更新扩散状态。
- 证明 L2D 可扩展计算能力,通过增加计算资源提高推理质量。
- 提升 LMs 在数学、编程和推理任务上的表现,同时保留其单步生成能力。
- 实现高效微调:L2D 不修改模型原始参数,仅需修改少量参数,即可在多个任务上取得显著提升。
2. 研究背景
当前自回归(autoregressive)大语言模型在推理能力上存在一定的局限性,主要体现在:
- 无法根据任务的复杂度调整计算资源。
- 生成结果的质量受限于单步预测,而无法进行多步优化。
扩散模型(Diffusion Models)在视觉领域的成功启发了研究人员尝试将其应用于语言建模,以引入多步推理的能力。然而,由于离散文本数据的特殊性,现有的扩散语言模型在性能上落后于自回归模型。
3. 方法
3.1 用于 LM 微调的高斯扩散
L2D 通过将 LMs 视为单步扩散模型,并在其基础上扩展多步推理能力,从而增强 LLM 的推理能力,而不会影响其原始的单步生成能力。
语言建模在有限词汇表 V 上定义的目标分布 p_1 上运行。给定一个由标签 y 索引的 token x_1,该 token 与来自目标数据分布 p_1 的先前 token c 的上下文一起采样,我们的扩散损失公式如下:

使用公式 3 训练扩散模型可以解释为标准的下一个 token 预测,其中为模型提供了一个额外的扩散 token x_t,包含有关目标 y 的一定程度的知识,范围从无信息(t = 0)到完美信息(t = 1)。
- 当 t = 0 时,LM 本质上是用与 L2D 相同的预测目标进行训练的,此时 x_0 与目标 y 完全不相关。
- 遵循算法 1 的推理涉及从模型的 logit 中迭代采样越来越准确的下一个 token ˆx,直到采样预算 T。
- 传统的 LM 推理可以再次被视为此过程的特例(T = 1),其中仅使用模型的第一个样本来预测 y。
这些设计选择的目的是 L2D 旨在通过微调方法扩展预先训练的 LM,而不是从头开始学习新模型。

虽然从一开始就完全采用扩散训练可能看起来更为普遍,但我们认为这可能会失去传统自回归建模所固有的一些训练可扩展性和强大的归纳偏差。正是这些偏差使传统自回归建模在语言领域得到广泛确立。

3.2 架构
L2D 的实现设计为预训练 transformer 的模块化扩展,以有效利用扩散的多步扩展能力,同时保留其原始的单步生成能力。
L2D 在其架构中引入了一条 并行扩散路径,其中传播扩散 token x_t 的隐藏表示,仅在最后一层影响冻结的主 LM 路径。
- L2D 使用 transformer 架构以及与主路径 f_{θ_l} 相同数量的块来实现扩散路径 f_{θ_d} 。为了充分利用预训练 LM 的知识,扩散路径中的所有层也都使用来自 θ_l 的权重进行初始化。
- 扩散路径中的 transformer 由一系列残差 MLP 和交叉注意模块组成。虽然 MLP 模块遵循与 f_{θ_l} 中相应模块相同的结构,但交叉注意模块专门参数化 query 和输出线性层。具体而言,在交叉注意期间,目标 token y_k 的扩散 token x^k_t 会关注从 f_{θ_l} 中相应的自注意模块计算出的所有先前的 key 和 value。
- 最终,只在所有块之后,即 LM 的线性头之前,将 f_θ 中处理的信息整合回主路径。具体来说, 将这两条路径与元素加权和 f_{θ_l} + w_d·f_{θ_d} 合并,其中扩散 token x^k_t 的重新缩放潜变量被添加到前一个 token x^{k−1} 的潜变量中。
4. 主要实验结果
研究者在多个基准测试(benchmark)上对 L2D 进行了实验,包括:数学任务(GSM8K、MATH),编程任务(HumanEval、MBPP),知识推理任务(MMLU、MMLU-Pro)


增加扩散步数(计算量)能显著提高推理能力,但性能提升在一定步数后趋于稳定。


L2D 在所有测试集上均提升了语言模型的性能,特别是在数学和编程任务上,表现尤为明显。
L2D 兼容现有的微调方法(如 LoRA 和全参数微调),且比传统微调方法更高效。
引导技术(Classifier-Free Guidance) 使 L2D 在特定任务上的表现进一步提升,允许用户在生成过程中指定任务需求。
5. 结论
L2D 通过结合扩散模型的推理增强能力,使大语言模型能够更高效地利用计算资源,提高复杂任务的推理能力。这项研究为未来的大语言模型微调提供了一条新的方向,通过引入扩散计算框架,使模型能够智能调整计算资源,提高推理质量,在多个领域展现出了良好的潜力。
【一个比较关心且重要的问题,新添加的扩散路径导致的额外计算开销是多少?原文并未提及】
论文地址:https://arxiv.org/abs/2501.15781
进 Q 学术交流群:922230617