训练与微调困难

全参数微调需要多少显存？如何估算？

#显存估算#优化器状态#混合精度

题目

如果想在某个模型基础上做全参数微调，究竟需要多少显存？请说明估算依据。

核心结论：全参数微调的显存约为模型参数量的 16–20 倍（使用 AdamW + 混合精度）。

估算拆解（以 FP16 混合精度 + AdamW 为例）：

合计权重+梯度+优化器 ≈ 16× 参数量，再加激活值。

举例：7B 模型全参微调 ≈ 7B × 16 ≈ 112GB，单卡放不下，需用 DeepSpeed ZeRO-3 / FSDP 分片，或改用 LoRA。

面试加分点：

指出激活值随序列长度线性增长，是长上下文微调的显存大头。
给出降显存手段：梯度检查点（gradient checkpointing，以重算换显存）、ZeRO-3 分片、LoRA/QLoRA（参数高效微调可降至 1× 量级）。

出处：CSDN《最新 AI 大模型岗位面试题之 LLM 微调》。

内容来源

整理自 CSDN《最新 AI 大模型岗位面试题之 LLM 微调》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。