题目
InstructGPT 论文提出”对齐税”概念。请说明它是什么、成因与缓解手段。
参考答案
对齐税(Alignment Tax):模型经 SFT/RLHF 对齐后,某些能力下降——通常基础推理/知识/代码能力略降,称为对齐带来的”性能税”。
典型表现:
- SFT 后模型在 MMLU/GSM8K 等基准分数下降几个点。
- RLHF 后模型回答更”安全”但更啰嗦,复杂推理变弱。
- 多轮指令对齐后早期学到的格式被后期覆盖(与灾难遗忘相关)。
成因:
- 分布偏移:SFT/RLHF 数据分布与预训练差异大,权重被”拉偏”。
- 能力-安全权衡:让模型更安全听话可能牺牲部分开放推理。
- 数据质量:偏好标注噪声让模型学到错误模式。
- 过度对齐:模型过于保守,回避本可回答的问题(sycophancy/over-refusal)。
缓解手段:
- 数据混合:对齐数据中混入预训练/通用指令数据,保持原分布。最有效。
- KL 约束:RLHF 中 KL 散度约束策略不偏离 SFT/基座太远。
- 参数高效对齐:用 LoRA 等只调少量参数,基座冻结,限制遗忘。
- 多阶段对齐:先 SFT 再 RLHF,每阶段都用通用数据”稀释”。
- 能力评测监控:对齐前后跑通用基准,下降就调比例。
- DPO 替代 PPO:DPO 更稳定,副作用常更小。
- RLAIF/宪法 AI:用 AI 反馈替代部分人工标注,规模更大、噪声更低。
面试加分点:
- 指出对齐税本质是”对齐目标与原始能力目标的轻微冲突”,无法完全消除,只能平衡。
- InstructGPT 报告 RLHF 后 175B 模型在某些基准降 1–3 个点,但人类偏好显著提升——这是值得的”税”。
- 现代实践用”少量多次”对齐:小步对齐 + 持续监控 + 通用数据回放,比一次大改更稳。
出处:InstructGPT 论文《Training language models to follow instructions with human feedback》、对齐相关面经。
内容来源
整理自对齐相关面经与 InstructGPT 论文
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。