前沿专题困难

DPO 损失函数推导？为何无需奖励模型？

#DPO 损失推导#Bradley-Terry#最优策略#无需 RM

题目

请从 RLHF 出发推导 DPO 的损失函数，并说明它为何能跳过奖励模型。

起点：RLHF 的目标。在 KL 约束下最大化奖励：

\max_\pi \mathbb{E}_{x\sim\mathcal{D},\, y\sim\pi(\cdot|x)}[r(x,y)] - \beta\,\mathrm{KL}\big(\pi(\cdot|x)\,\|\,\pi_{\text{ref}}(\cdot|x)\big)

第一步：求最优策略的闭式解。对上式求变分，得最优策略：

\pi^*(y|x) = \frac{1}{Z(x)}\,\pi_{\text{ref}}(y|x)\,\exp\!\left(\frac{r(x,y)}{\beta}\right)

其中 $Z(x)=\sum_y \pi_{\text{ref}}(y|x)\exp(r(x,y)/\beta)$ 是配分函数。

第二步：反解奖励。把上式反过来，用 $\pi^*$ 与 $\pi_{\text{ref}}$ 表达 $r$ ：

r(x,y) = \beta\log\frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + \beta\log Z(x)

第三步：代入 Bradley-Terry 偏好模型。BT 假设 $y_w\succ y_l$ 的概率：

p(y_w\succ y_l|x) = \sigma\big(r(x,y_w)-r(x,y_l)\big)

把第二步的表达式代入， $Z(x)$ 在相减时消掉：

p_\theta(y_w\succ y_l|x) = \sigma\!\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)

第四步：最大似然得 DPO 损失：

\boxed{\;\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x,y_w,y_l)}\Big[\log\sigma\!\left(\beta\log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta\log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\Big]\;}

为何无需奖励模型：

DPO 训练不稳定怎么办：

面试加分点：

出处：CSDN《大模型面试题 72：DPO 如果在训练中不稳定应该怎么处理》、DPO 论文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》。

内容来源

整理自 CSDN《大模型面试题 72：DPO 如果在训练中不稳定应该怎么处理》及 DPO 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。