← 返回题库
前沿专题困难

MoE(混合专家)原理是什么?优缺点?

#MoE 架构#稀疏激活#路由机制#负载均衡

题目

DeepSeek-V3、Mixtral 等模型采用 MoE 架构,请说明其原理、优势与工程挑战。

参考答案

MoE(Mixture of Experts,混合专家):用”稀疏激活”打破密集模型”参数越多计算越贵”的线性关系——总参数很大,但每次推理只激活一小部分专家。

原理

  • 每个 MoE 层含 NN 个”专家”(每个通常是 FFN)。
  • 路由器(Router/Gate) 对当前 token 输出一个概率分布,选 Top-K(如 K=2)个专家处理该 token。
  • 该 token 只经过被选中的 K 个专家,结果按路由权重加权求和。
  • 其余 NKN-K 个专家不参与计算 → 稀疏激活

关键指标

  • 总参数 N×N \times 专家参数(决定容量)
  • 激活参数 K×K \times 专家参数(决定单次计算量)

例:DeepSeek-V3 总参 671B、激活仅 37B,“以小算力驱动大容量”。

优势

  1. 容量/算力解耦:参数容量可达数百 B,单次推理算力仅几十 B。
  2. 性能跃升:同等算力下,MoE 显著优于密集模型。
  3. 专业化:不同专家可学到不同能力/领域。

缺点与挑战

  1. 显存占用大:虽只激活部分专家,但所有专家权重都要驻留显存,对显存要求高。
  2. 负载不均:路由易”偏心”少数专家(赢者通吃),需负载均衡损失(auxiliary loss)约束。
  3. 通信开销:多卡部署时专家分布在不同卡,token 路由引发跨卡 all-to-all 通信,是训练/推理的瓶颈。
  4. 训练不稳定:路由是离散选择,梯度难传,需辅助损失或 expert choice routing 等技巧。
  5. 推理碎片:batch 内不同 token 走不同专家,批处理效率低于密集模型。

面试加分点:能区分 Dense vs MoE(密集 vs 稀疏)、点出 Shared Expert(DeepSeek 的设计:少量共享专家处理通用能力,路由专家处理专长,缓解路由冗余)、以及 Expert Parallelism(专家并行)这一分布式训练关键概念。

出处:CSDN《2026 大模型 LLM 面试八股文及高频考点全梳理》。

内容来源

整理自 CSDN《2026 大模型 LLM 面试八股文及高频考点》

本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。