训练与微调中等

BF16 与 FP16 区别？为何大模型训练偏好 BF16？

题目

现代大模型训练普遍采用 BF16 混合精度。请说明 BF16 与 FP16 的格式区别，以及为何 BF16 更适合大模型训练。

关键区别：

为何 BF16 更适合大模型训练：

不溢出：大模型训练中梯度量级跨度大，FP16 易上溢（inf）或下溢（0），需复杂的 loss scaling。BF16 动态范围与 FP32 相同，几乎不溢出。
无需 loss scaling：FP16 训练需动态调整 loss 放大梯度避免下溢；BF16 省去此工程复杂度。
训练更稳定：千億级模型训练对数值稳定极敏感，BF16 的宽范围比 FP16 的高精度更重要——稳定性 > 精度。
硬件支持：Ampere（A100）及以后 GPU 原生支持 BF16，无性能损失。

精度损失影响：BF16 尾数只有 7 位，相对误差大于 FP16，但实践证明对训练足够；权重存储与推理可再量化到 INT8/INT4 进一步省显存。

混合精度训练：通常用 BF16 做前向/反向计算，优化器维护一份 FP32 主权重（master weight）做参数更新，兼顾速度与精度。

面试加分点：

出处：CSDN《2026 大模型面试圣经：预训练全流程深度解析》、HuggingFace 文档。

内容来源

整理自《2026 大模型面试圣经：预训练全流程深度解析》及 HuggingFace 文档

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。