基础理论中等

Pre-Norm vs Post-Norm？为何现代大模型用 RMSNorm？

#归一化位置#训练稳定性#RMSNorm#SwiGLU

题目

现代大模型普遍采用 Pre-Norm + RMSNorm + SwiGLU 的组合。请解释 Pre-Norm 与 Post-Norm 的区别、为何选 Pre-Norm，以及 RMSNorm 与 SwiGLU 各自的优势。

Pre-Norm vs Post-Norm：区别在于 LayerNorm 相对于残差连接的位置。

Post-Norm（原始 Transformer）： $x_{l+1} = \text{Norm}(x_l + \text{Sublayer}(x_l))$ ，先残差再归一化。
Pre-Norm（GPT-2 起、现代大模型）： $x_{l+1} = x_l + \text{Sublayer}(\text{Norm}(x_l))$ ，先归一化再进入子层。

为何现代大模型选 Pre-Norm：

训练更稳定：深层模型下，Post-Norm 靠近输出层的梯度易爆炸/消失，需精心 warmup；Pre-Norm 让梯度有”直通大道”（残差路径不归一化），深层训练更稳。
可堆叠更深：Pre-Norm 对深度更鲁棒，支持训到 100+ 层。
代价：理论上 Pre-Norm 的等价深度略浅于 Post-Norm（部分表达力损失），但工程上稳定性收益远大于此。

RMSNorm vs LayerNorm：

\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{d}\sum_i x_i^2 + \epsilon}} \cdot \gamma

SwiGLU 激活函数：

\text{SwiGLU}(x) = \text{Swish}(xW_1) \otimes (xW_2)

LLaMA 的现代组合（被广泛沿用）：Pre-Norm + RMSNorm + SwiGLU + RoPE，这四件套几乎成了 Decoder-only 大模型的标准配置。

出处：CSDN《大模型面试题 35：Pre-LayerNorm vs Post-LayerNorm》、《2026 大模型 LLM 面试通关秘籍：啃透”三位一体”指南》。

内容来源

整理自 CSDN《大模型面试题 35：Pre-LayerNorm vs Post-LayerNorm》及《2026 大模型 LLM 面试通关秘籍》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。