题目
DeepSeek-V3、Mixtral 等模型采用 MoE 架构,请说明其原理、优势与工程挑战。
参考答案
MoE(Mixture of Experts,混合专家):用”稀疏激活”打破密集模型”参数越多计算越贵”的线性关系——总参数很大,但每次推理只激活一小部分专家。
原理:
- 每个 MoE 层含 个”专家”(每个通常是 FFN)。
- 路由器(Router/Gate) 对当前 token 输出一个概率分布,选 Top-K(如 K=2)个专家处理该 token。
- 该 token 只经过被选中的 K 个专家,结果按路由权重加权求和。
- 其余 个专家不参与计算 → 稀疏激活。
关键指标:
- 总参数 专家参数(决定容量)
- 激活参数 专家参数(决定单次计算量)
例:DeepSeek-V3 总参 671B、激活仅 37B,“以小算力驱动大容量”。
优势:
- 容量/算力解耦:参数容量可达数百 B,单次推理算力仅几十 B。
- 性能跃升:同等算力下,MoE 显著优于密集模型。
- 专业化:不同专家可学到不同能力/领域。
缺点与挑战:
- 显存占用大:虽只激活部分专家,但所有专家权重都要驻留显存,对显存要求高。
- 负载不均:路由易”偏心”少数专家(赢者通吃),需负载均衡损失(auxiliary loss)约束。
- 通信开销:多卡部署时专家分布在不同卡,token 路由引发跨卡 all-to-all 通信,是训练/推理的瓶颈。
- 训练不稳定:路由是离散选择,梯度难传,需辅助损失或 expert choice routing 等技巧。
- 推理碎片:batch 内不同 token 走不同专家,批处理效率低于密集模型。
面试加分点:能区分 Dense vs MoE(密集 vs 稀疏)、点出 Shared Expert(DeepSeek 的设计:少量共享专家处理通用能力,路由专家处理专长,缓解路由冗余)、以及 Expert Parallelism(专家并行)这一分布式训练关键概念。
出处:CSDN《2026 大模型 LLM 面试八股文及高频考点全梳理》。
内容来源
整理自 CSDN《2026 大模型 LLM 面试八股文及高频考点》
本站内容整理自公开面经与开源仓库,仅供学习交流,严禁杜撰。