▰AI 求职面经库

← 返回题库

前沿专题中等

对齐税（Alignment Tax）是什么？如何缓解？

#对齐税#能力损失#SFT/RLHF 副作用#缓解

题目

InstructGPT 论文提出”对齐税”概念。请说明它是什么、成因与缓解手段。

参考答案

对齐税（Alignment Tax）：模型经 SFT/RLHF 对齐后，某些能力下降——通常基础推理/知识/代码能力略降，称为对齐带来的”性能税”。

典型表现：

SFT 后模型在 MMLU/GSM8K 等基准分数下降几个点。
RLHF 后模型回答更”安全”但更啰嗦，复杂推理变弱。
多轮指令对齐后早期学到的格式被后期覆盖（与灾难遗忘相关）。

成因：

分布偏移：SFT/RLHF 数据分布与预训练差异大，权重被”拉偏”。
能力-安全权衡：让模型更安全听话可能牺牲部分开放推理。
数据质量：偏好标注噪声让模型学到错误模式。
过度对齐：模型过于保守，回避本可回答的问题（sycophancy/over-refusal）。

缓解手段：

数据混合：对齐数据中混入预训练/通用指令数据，保持原分布。最有效。
KL 约束：RLHF 中 KL 散度约束策略不偏离 SFT/基座太远。
参数高效对齐：用 LoRA 等只调少量参数，基座冻结，限制遗忘。
多阶段对齐：先 SFT 再 RLHF，每阶段都用通用数据”稀释”。
能力评测监控：对齐前后跑通用基准，下降就调比例。
DPO 替代 PPO：DPO 更稳定，副作用常更小。
RLAIF/宪法 AI：用 AI 反馈替代部分人工标注，规模更大、噪声更低。

面试加分点：

指出对齐税本质是”对齐目标与原始能力目标的轻微冲突”，无法完全消除，只能平衡。
InstructGPT 报告 RLHF 后 175B 模型在某些基准降 1–3 个点，但人类偏好显著提升——这是值得的”税”。
现代实践用”少量多次”对齐：小步对齐 + 持续监控 + 通用数据回放，比一次大改更稳。

出处：InstructGPT 论文《Training language models to follow instructions with human feedback》、对齐相关面经。

内容来源

整理自对齐相关面经与 InstructGPT 论文

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。