基础理论困难

MHA / MQA / GQA / MLA 区别？为何能省 KV Cache？

#注意力头分组#KV Cache 压缩#GQA#MLA 低秩

题目

现代大模型在注意力头上做了多种变体优化（MHA / MQA / GQA / MLA）。请对比四者的原理、对 KV Cache 的影响，以及代表模型。

四者的核心区别在于Q 头与 KV 头的共享方式，直接影响 KV Cache 显存。

MHA（Multi-Head Attention，标准多头）

MQA（Multi-Query Attention）

GQA（Grouped-Query Attention）

MLA（Multi-head Latent Attention，DeepSeek 提出）

KV Cache 显存对比（以 $h=32$ 头、 $d=128$ 维、单 token 计）：

方案	KV 头数	相对显存	质量
MHA	32	1.0×	基准
GQA (g=8)	8	0.25×	接近 MHA
MQA	1	0.03×	略降
MLA	~1（低秩潜在）	0.05–0.1×	接近 MHA

为何要省 KV Cache：长上下文场景下，KV Cache 随序列长度线性增长，常超过模型权重本身成为显存瓶颈（见 KV Cache 题）。压缩 KV 头数是从结构上治本。

面试加分点：

指出 GQA 是工程最优解，绝大多数新模型采用；MLA 是 DeepSeek 的创新，用低秩潜在向量换取极致压缩，是 DeepSeek-V3 能做到极低推理成本的关键之一。
MQA/GQA/MLA 都不改变 Q 头数，只压 KV 头，所以前向计算量基本不变，省的是 KV Cache 与显存带宽。

出处：CSDN《大模型面试基础：Transformer-MHA、MQA、GQA 以及 MLA 技术区别》、DeepSeek-V2 技术报告。

内容来源

整理自 CSDN《大模型面试基础：Transformer MHA、MQA、GQA 以及 MLA 技术区别》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。