训练与微调困难

SFT、RLHF、DPO 三者的区别与联系？

#监督微调#人类反馈强化学习#直接偏好优化#对齐

题目

请对比 SFT、RLHF、DPO 三种训练/对齐方法的目标、流程与优劣。

三者构成大模型从”会续写”到”听人话”的对齐链条。

方法	全称	阶段	目标	关键流程
SFT	Supervised Fine-Tuning	监督微调	学会指令格式与任务模式	用「指令-回答」对做监督学习，交叉熵损失
RLHF	Reinforcement Learning from Human Feedback	对齐	对齐人类偏好	1) 训奖励模型 RM；2) 用 PPO 等强化学习优化策略，最大化奖励并加 KL 约束
DPO	Direct Preference Optimization	对齐	直接用偏好数据对齐	跳过 RM，用偏好对（chosen/rejected）直接构造损失优化策略

联系：典型流程是 预训练 → SFT → RLHF/DPO。SFT 让模型”会做”，RLHF/DPO 让模型”做得让人满意”。

优劣对比：

面试加分点：

出处：CSDN《2026 大模型 LLM 面试八股文及高频考点全梳理》。

内容来源

整理自 CSDN《2026 大模型 LLM 面试八股文及高频考点》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。