题目
请对比 SFT、RLHF、DPO 三种训练/对齐方法的目标、流程与优劣。
参考答案
三者构成大模型从”会续写”到”听人话”的对齐链条。
| 方法 | 全称 | 阶段 | 目标 | 关键流程 |
|---|---|---|---|---|
| SFT | Supervised Fine-Tuning | 监督微调 | 学会指令格式与任务模式 | 用「指令-回答」对做监督学习,交叉熵损失 |
| RLHF | Reinforcement Learning from Human Feedback | 对齐 | 对齐人类偏好 | 1) 训奖励模型 RM;2) 用 PPO 等强化学习优化策略,最大化奖励并加 KL 约束 |
| DPO | Direct Preference Optimization | 对齐 | 直接用偏好数据对齐 | 跳过 RM,用偏好对(chosen/rejected)直接构造损失优化策略 |
联系:典型流程是 预训练 → SFT → RLHF/DPO。SFT 让模型”会做”,RLHF/DPO 让模型”做得让人满意”。
优劣对比:
- SFT:简单稳定,但受限于标注数据质量,难以覆盖偏好。
- RLHF:效果好、对齐能力强,但流程复杂(需训 RM + PPO),训练不稳定,工程成本高。
- DPO:无需 RM、无 PPO,直接用偏好对训练,更简单稳定;但依赖高质量偏好数据,且对数据噪声敏感。
面试加分点:
- 指出 RLHF 的 KL 约束是为防止策略偏离 SFT 模型太远(reward hacking)。
- DPO 本质是把偏好优化转化为一个二分类损失,理论等价于在奖励函数上做最大似然。
- 现代实践常用 RLHF 的简化变体(如 GRPO,DeepSeek-R1 所用)或 DPO 系列。
出处:CSDN《2026 大模型 LLM 面试八股文及高频考点全梳理》。
内容来源
整理自 CSDN《2026 大模型 LLM 面试八股文及高频考点》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。