← 返回题库
前沿专题困难

Mamba 与状态空间模型(SSM)能替代 Transformer 吗?

#Mamba#状态空间模型#线性复杂度#选择性

题目

Mamba 被视为 Transformer 的潜在挑战者。请说明状态空间模型与 Mamba 的原理、优势与局限。

参考答案

痛点:Transformer 的 Self-Attention 复杂度为 O(N2)O(N^2),长上下文计算与显存爆炸。Flash Attention 只是工程优化,未改复杂度量级。

状态空间模型(SSM)基础

  • 用线性时不变系统建模序列:h(t)=Ah(t)+Bx(t), y(t)=Ch(t)h'(t) = Ah(t) + Bx(t),\ y(t) = Ch(t)
  • 离散化后可像 RNN 一样递推,也可像卷积一样并行训练。
  • 代表:S4、S5。能处理超长序列,但线性时不变导致无法”选择性”关注——对所有输入同等对待。

Mamba 的关键创新:选择性 SSM

  • 让参数 BBCCΔ\Delta 依赖输入(输入相关),即”选择性”地保留或遗忘信息。
  • 类似 RNN 的门控,但保留 SSM 的线性复杂度与并行训练能力。
  • 硬件感知实现(parallel scan)让其在 GPU 上高效。

Mamba 优势

  1. 线性复杂度 O(N)O(N):长序列计算与显存远优于 Transformer。
  2. 常数大小状态:推理时只需固定大小隐状态(vs KV Cache 线性增长),长上下文推理极省显存。
  3. 长程依赖强:在长序列任务(如 Long Range Arena)上显著优于 Transformer。
  4. 生成推理快:无 KV Cache,每步固定开销。

局限

  1. 召回弱于 Transformer:在”大海捞针”等需要精确召回的检索任务上,Mamba 弱于注意力。
  2. 复制能力差:需要逐字复制长段时,SSM 状态压缩易丢信息,Transformer 凭 KV Cache 直接保留。
  3. 生态与规模:还没像 Transformer 那样被 Scaling Law 充分验证到千亿级。
  4. 混合架构更优:现代实践倾向 Mamba + Attention 混合(如 Jamba、Zamba),用 SSM 处理长尾、用注意力处理关键召回段。

Mamba-2:改进了状态维度限制(state size 从 ~16 提到上千),缩小与 Attention 的召回差距。

面试加分点

  • 指出”SSM vs Transformer”不是替代关系,而是混合架构成为趋势——用 SSM 省显存、用注意力保召回。
  • Mamba 的”选择性”是相对 S4 等线性时不变 SSM 的突破,让它接近 RNN 门控的灵活性。
  • 长上下文推理的 KV Cache 显存是 Transformer 的软肋,Mamba 在此处有结构性优势,是潜在突破口。

出处:CSDN《力压 Transformer,详解 Mamba 和状态空间模型》、Mamba 论文《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》。

内容来源

整理自 CSDN《力压 Transformer,详解 Mamba 和状态空间模型》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。