前沿专题困难

MoE（混合专家）原理是什么？优缺点？

#MoE 架构#稀疏激活#路由机制#负载均衡

题目

DeepSeek-V3、Mixtral 等模型采用 MoE 架构，请说明其原理、优势与工程挑战。

MoE（Mixture of Experts，混合专家）：用”稀疏激活”打破密集模型”参数越多计算越贵”的线性关系——总参数很大，但每次推理只激活一小部分专家。

原理：

关键指标：

例：DeepSeek-V3 总参 671B、激活仅 37B，“以小算力驱动大容量”。

优势：

缺点与挑战：

面试加分点：能区分 Dense vs MoE（密集 vs 稀疏）、点出 Shared Expert（DeepSeek 的设计：少量共享专家处理通用能力，路由专家处理专长，缓解路由冗余）、以及 Expert Parallelism（专家并行）这一分布式训练关键概念。

出处：CSDN《2026 大模型 LLM 面试八股文及高频考点全梳理》。

内容来源

整理自 CSDN《2026 大模型 LLM 面试八股文及高频考点》

本站内容整理自公开面经与开源仓库，仅供学习交流，严禁杜撰。