← 返回题库
前沿专题中等

对齐税(Alignment Tax)是什么?如何缓解?

#对齐税#能力损失#SFT/RLHF 副作用#缓解

题目

InstructGPT 论文提出”对齐税”概念。请说明它是什么、成因与缓解手段。

参考答案

对齐税(Alignment Tax):模型经 SFT/RLHF 对齐后,某些能力下降——通常基础推理/知识/代码能力略降,称为对齐带来的”性能税”。

典型表现

  • SFT 后模型在 MMLU/GSM8K 等基准分数下降几个点。
  • RLHF 后模型回答更”安全”但更啰嗦,复杂推理变弱。
  • 多轮指令对齐后早期学到的格式被后期覆盖(与灾难遗忘相关)。

成因

  1. 分布偏移:SFT/RLHF 数据分布与预训练差异大,权重被”拉偏”。
  2. 能力-安全权衡:让模型更安全听话可能牺牲部分开放推理。
  3. 数据质量:偏好标注噪声让模型学到错误模式。
  4. 过度对齐:模型过于保守,回避本可回答的问题(sycophancy/over-refusal)。

缓解手段

  1. 数据混合:对齐数据中混入预训练/通用指令数据,保持原分布。最有效。
  2. KL 约束:RLHF 中 KL 散度约束策略不偏离 SFT/基座太远。
  3. 参数高效对齐:用 LoRA 等只调少量参数,基座冻结,限制遗忘。
  4. 多阶段对齐:先 SFT 再 RLHF,每阶段都用通用数据”稀释”。
  5. 能力评测监控:对齐前后跑通用基准,下降就调比例。
  6. DPO 替代 PPO:DPO 更稳定,副作用常更小。
  7. RLAIF/宪法 AI:用 AI 反馈替代部分人工标注,规模更大、噪声更低。

面试加分点

  • 指出对齐税本质是”对齐目标与原始能力目标的轻微冲突”,无法完全消除,只能平衡。
  • InstructGPT 报告 RLHF 后 175B 模型在某些基准降 1–3 个点,但人类偏好显著提升——这是值得的”税”。
  • 现代实践用”少量多次”对齐:小步对齐 + 持续监控 + 通用数据回放,比一次大改更稳。

出处:InstructGPT 论文《Training language models to follow instructions with human feedback》、对齐相关面经。

内容来源

整理自对齐相关面经与 InstructGPT 论文

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。