Direct Preference Optimization (DPO): 一种无需强化学习的语言模型偏好优化方法

论文地址：https://arxiv.org/pdf/2305.18290

1. 背景与挑战

近年来，大规模无监督语言模型（LM）在知识获取和推理能力方面取得了显著进展，但如何精确控制其行为仍是一个难题。现有的方法通常通过**强化学习从人类反馈（RLHF）**来引导模型行为，但RLHF存在以下问题：

复杂性高：RLHF需要先训练一个奖励模型来反映人类偏好，然后使用强化学习来微调语言模型，使其在最大化奖励的同时不偏离原始模型太远。
不稳定性：RLHF训练过程复杂且容易不稳定，需要大量超参数调优和采样。
计算成本高：RLHF涉及训练多个模型和在训练循环中采样，消耗大量计算资源。

2. DPO：一种更简单、更高效的方法

为了解决上述问题，本文提出了一种名为 Direct Preference Optimization (DPO) 的新算法，直接从人类偏好数据中优化语言模型，而无需显式的奖励建模或强化学习。

2.1 DPO 的核心思想

DPO 的核心思想是：

将偏好学习问题转化为一个简单的二元分类问题：DPO 通过最大化人类偏好的对数概率，同时最小化不偏好的对数概率，来直接优化语言模型。
引入动态重要性权重：为了防止模型退化，DPO 引入了基于隐式奖励模型的动态重要性权重，该权重根据模型对偏好的排序错误程度进行调整。

2.2 DPO 的工作原理

构建偏好数据集：从参考模型（通常是经过监督微调的语言模型）中采样生成多个候选响应，并使用人类偏好数据对它们进行标注，生成偏好对 $y_w, y_l)$ ，其中 $y_w$ 表示更受偏好的响应， $y_l$ 表示较不受偏好的响应。
定义 DPO 损失函数：

$\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\log\sigma\left(\beta\log\frac{\pi_{\theta}(y_{w}\mid x)}{\pi_{\mathrm{ref}}(y_{w}\mid x)}-\beta\log\frac{\pi_{\theta}(y_{l}\mid x)}{\pi_{\mathrm{ref}}(y_{l}\mid x)}\right)\right]$
- $\pi_{\theta}$ ：待优化的语言模型。
- $\pi_{\mathrm{ref}}$ ：参考模型，通常是初始的监督微调模型。
- $\beta$ ：控制 KL 散度的超参数，用于平衡奖励最大化与模型偏离程度。
- $\sigma$ ： sigmoid 函数，将输入映射到 (0,1) 之间。
该损失函数鼓励模型生成更受偏好的响应，同时惩罚生成不受偏好的响应。
优化模型：

DPO 通过梯度下降法优化上述损失函数，更新模型参数 $\theta$ 。梯度计算如下：

$\nabla_{\theta}\mathcal{L}_{\mathrm{DPO}}(\pi_{\theta};\pi_{\mathrm{ref}}) = -\beta\mathbb{E}_{(x,y_{w},y_{l})\sim\mathcal{D}}\left[\sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big)\left(\nabla_{\theta}\log\pi(y_{w}\mid x)-\nabla_{\theta}\log\pi(y_{l}\mid x)\right)\right]$

其中， $\hat{r}_{\theta}(x,y) = \beta\log\frac{\pi_{\theta}(y|x)}{\pi_{\mathrm{ref}}(y|x)}$ 表示隐式奖励模型。
- 当隐式奖励模型对偏好排序错误时，权重 $\sigma\big(\hat{r}_{\theta}(x,y_{l})-\hat{r}_{\theta}(x,y_{w})\big)$ 更大，这意味着模型会更多地关注那些排序错误的样本，从而更有效地纠正错误。
- 梯度更新方向：增加偏好响应的对数概率，同时减少不偏好响应的对数概率。