标准回答
原理:MoE 把 Transformer 中的 FFN 层替换为多个并行“专家”FFN,外加一个门控网络(Gating)。门控对每个 token 算出各专家得分,只选 Top-k(常为 1~2)个专家计算并按权重加权求和。因此每个 token 只激活一小部分参数——稀疏激活。
关键区分:总参数量可达数千亿(容量大),但单 token 激活参数量只有其中一小部分(计算省)。这让模型容量与推理算力解耦,相同 FLOPs 下能塞进更多知识,符合 Scaling Law 的高效扩展。
优势:
- 参数规模上去而单次前向计算不成比例增长,预训练/推理更经济;
- 不同专家可分化处理不同模式,提升表达力;
- 易于扩展,是 DeepSeek-V3、Mixtral 等大模型的主流选择。
挑战:需负载均衡(辅助损失)避免专家“旱涝不均”;全部专家常驻显存,显存占用按总参数算;路由不可导、训练稳定性与通信开销较高。
详见 MoE 稀疏化架构 与 MoE。
常见误区
⚠️ 常见踩坑
MoE 省的是“计算量”而非“显存”——所有专家权重都要常驻显存,按总参数算占用;激活参数少不等于部署更省内存。也别把专家理解成按“领域”分工,路由是学出来的、并不对应人类语义类别。
追问
追问 1:MoE 如何解决专家负载不均衡?
常加负载均衡辅助损失(load-balancing loss)鼓励 token 在专家间均匀分布,并设每专家容量上限(capacity factor),超出则丢弃或溢出到其他专家。DeepSeek 等还用无辅助损失的偏置调整路由,减小对主损失的干扰。
追问 2:Dense 模型和同等激活参数的 MoE,哪个效果更好?
相同激活参数(即相近推理算力)下,MoE 通常优于 Dense,因为总参数更大、容量更高;但相同总参数下 Dense 往往更强。MoE 的价值在于用更低的单 token 计算换取更大的有效容量。
追问 3:MoE 推理部署的主要瓶颈是什么?
一是显存:全部专家常驻,需张量/专家并行切分到多卡;二是通信:token 路由跨设备产生 all-to-all 通信,易成瓶颈;三是批内路由不均导致 GPU 利用率波动,需专家并行与高效 kernel(如 vLLM/SGLang 的 MoE 支持)优化。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📚 知识库
🛠️ AI 工具
- DeepSeek-V3
深度求索开源 MoE 架构大语言模型,671B 参数但仅激活 37B,推理成本低且性能对标 GPT-4 级别,支持多语言
- vLLM
高吞吐 LLM 推理引擎,77,418+ stars。采用 PagedAttention 显存优化技术,吞吐量比 HuggingFace Transformers 高 24 倍,是生产环境部署大模型推理的首选方案,支持 OpenAI 兼容 API