题目
现代大模型普遍采用 Pre-Norm + RMSNorm + SwiGLU 的组合。请解释 Pre-Norm 与 Post-Norm 的区别、为何选 Pre-Norm,以及 RMSNorm 与 SwiGLU 各自的优势。
参考答案
Pre-Norm vs Post-Norm:区别在于 LayerNorm 相对于残差连接的位置。
- Post-Norm(原始 Transformer):,先残差再归一化。
- Pre-Norm(GPT-2 起、现代大模型):,先归一化再进入子层。
为何现代大模型选 Pre-Norm:
- 训练更稳定:深层模型下,Post-Norm 靠近输出层的梯度易爆炸/消失,需精心 warmup;Pre-Norm 让梯度有”直通大道”(残差路径不归一化),深层训练更稳。
- 可堆叠更深:Pre-Norm 对深度更鲁棒,支持训到 100+ 层。
- 代价:理论上 Pre-Norm 的等价深度略浅于 Post-Norm(部分表达力损失),但工程上稳定性收益远大于此。
RMSNorm vs LayerNorm:
- LayerNorm:减均值 + 除标准差 + 仿射变换。
- RMSNorm:只除 RMS(均方根),不减均值:
- 优势:计算更快(省去均值计算)、效果与 LayerNorm 相当,大模型普遍采用(LLaMA、Qwen、DeepSeek)。
SwiGLU 激活函数:
- 把 FFN 的”线性+激活”改为”两个线性门控相乘”,引入门控机制。
- 优势:相比 ReLU/GELU,在大模型上表现更好(PaLM、LLaMA 验证),是现代大模型 FFN 的标配。
- 代价:参数量增加 1/3(多一个 ),需相应缩小隐藏维。
LLaMA 的现代组合(被广泛沿用):Pre-Norm + RMSNorm + SwiGLU + RoPE,这四件套几乎成了 Decoder-only 大模型的标准配置。
出处:CSDN《大模型面试题 35:Pre-LayerNorm vs Post-LayerNorm》、《2026 大模型 LLM 面试通关秘籍:啃透”三位一体”指南》。
内容来源
整理自 CSDN《大模型面试题 35:Pre-LayerNorm vs Post-LayerNorm》及《2026 大模型 LLM 面试通关秘籍》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。