题目
如果想在某个模型基础上做全参数微调,究竟需要多少显存?请说明估算依据。
参考答案
核心结论:全参数微调的显存约为模型参数量的 16–20 倍(使用 AdamW + 混合精度)。
估算拆解(以 FP16 混合精度 + AdamW 为例):
| 组成 | 倍数(相对参数量) | 说明 |
|---|---|---|
| 模型权重(FP16) | 2× | 前向/反向计算用 |
| 梯度(FP16) | 2× | 反向传播产生 |
| 主权重(FP32) | 4× | 优化器维护的精度主副本 |
| Adam 一阶矩(FP32) | 4× | momentum |
| Adam 二阶矩(FP32) | 4× | variance |
| 激活值 | 约 2–6× | 随序列长度/批次增长 |
合计权重+梯度+优化器 ≈ 16× 参数量,再加激活值。
举例:7B 模型全参微调 ≈ 7B × 16 ≈ 112GB,单卡放不下,需用 DeepSpeed ZeRO-3 / FSDP 分片,或改用 LoRA。
面试加分点:
- 指出激活值随序列长度线性增长,是长上下文微调的显存大头。
- 给出降显存手段:梯度检查点(gradient checkpointing,以重算换显存)、ZeRO-3 分片、LoRA/QLoRA(参数高效微调可降至 1× 量级)。
出处:CSDN《最新 AI 大模型岗位面试题之 LLM 微调》。
内容来源
整理自 CSDN《最新 AI 大模型岗位面试题之 LLM 微调》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。