← 返回题库
训练与微调困难

SFT、RLHF、DPO 三者的区别与联系?

#监督微调#人类反馈强化学习#直接偏好优化#对齐

题目

请对比 SFT、RLHF、DPO 三种训练/对齐方法的目标、流程与优劣。

参考答案

三者构成大模型从”会续写”到”听人话”的对齐链条。

方法全称阶段目标关键流程
SFTSupervised Fine-Tuning监督微调学会指令格式与任务模式用「指令-回答」对做监督学习,交叉熵损失
RLHFReinforcement Learning from Human Feedback对齐对齐人类偏好1) 训奖励模型 RM;2) 用 PPO 等强化学习优化策略,最大化奖励并加 KL 约束
DPODirect Preference Optimization对齐直接用偏好数据对齐跳过 RM,用偏好对(chosen/rejected)直接构造损失优化策略

联系:典型流程是 预训练 → SFT → RLHF/DPO。SFT 让模型”会做”,RLHF/DPO 让模型”做得让人满意”。

优劣对比

  • SFT:简单稳定,但受限于标注数据质量,难以覆盖偏好。
  • RLHF:效果好、对齐能力强,但流程复杂(需训 RM + PPO),训练不稳定,工程成本高。
  • DPO:无需 RM、无 PPO,直接用偏好对训练,更简单稳定;但依赖高质量偏好数据,且对数据噪声敏感。

面试加分点

  • 指出 RLHF 的 KL 约束是为防止策略偏离 SFT 模型太远(reward hacking)。
  • DPO 本质是把偏好优化转化为一个二分类损失,理论等价于在奖励函数上做最大似然。
  • 现代实践常用 RLHF 的简化变体(如 GRPO,DeepSeek-R1 所用)或 DPO 系列。

出处:CSDN《2026 大模型 LLM 面试八股文及高频考点全梳理》。

内容来源

整理自 CSDN《2026 大模型 LLM 面试八股文及高频考点》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。