← 返回题库
推理与部署中等

大模型量化有哪些方法?INT8/INT4 的精度损失如何?

#量化方法#AWQ/GPTQ#精度损失#推理加速

题目

大模型量化有哪些主流方法?INT8 与 INT4 量化的精度损失与收益如何权衡?

参考答案

量化(Quantization):把模型权重/激活从 FP16 映射到低精度(INT8/INT4),以显存换速度、以精度换成本。

按时机分

  • PTQ(训练后量化):直接对已训好的模型量化,无需再训练。主流方案:GPTQ、AWQ、SmoothQuant。
  • QAT(量化感知训练):训练时模拟量化误差,精度更高但成本大。

主流方法对比

方法思路特点
GPTQ基于二阶信息(Hessian)逐层量化权重压缩比高,INT4 损失小,量化慢
AWQ识别”重要权重”(激活大的通道)予以保护速度快、精度好,广泛用于 vLLM
SmoothQuant把激活的难度平滑迁移到权重解决激活异常值,适合 W8A8
bitsandbytes简单 NF4/INT8 量化易用,常配合 QLoRA 微调

精度损失经验值(以 7B 模型为例):

  • INT8(W8A16):精度损失通常 < 1%,几乎无感,显存减半,是”免费午餐”。
  • INT4(W4A16):精度损失约 1–3%,显存降至 1/4,需选好方法(AWQ/GPTQ), careless 量化掉点明显。
  • W4A4(权重激活都 4bit):损失较大,需 QAT 或特殊设计。

收益

  • 显存下降:直接降低部署门槛(7B INT4 可跑在 8GB 显卡)。
  • 速度提升:内存带宽是推理瓶颈,低精度减少访存,吞吐显著提升。
  • 成本:结合 vLLM 等推理引擎,可降本 50–70%。

出处:AI Infra 面经(头条《别只盯着大模型了,AI Infra 才是 2026 最值钱的技能》)、推理部署文章。

内容来源

整理自 AI Infra 面经与推理部署文章

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。