混合专家模型（MoE）的原理和优势是什么？

Question 1

Accepted Answer

原理：MoE 把 Transformer 中的 FFN 层替换为多个并行“专家”FFN，外加一个门控网络（Gating）。门控对每个 token 算出各专家得分，只选 Top-k（常为 1~2）个专家计算并按权重加权求和。因此每个 token 只激活一小部分参数——稀疏激活。

关键区分：总参数量可达数千亿（容量大），但单 token 激活参数量只有其中一小部分（计算省）。这让模型容量与推理算力解耦，相同 FLOPs 下能塞进更多知识，符合 Scaling Law 的高效扩展。

优势：

挑战：需负载均衡（辅助损失）避免专家“旱涝不均”；全部专家常驻显存，显存占用按总参数算；路由不可导、训练稳定性与通信开销较高。

Question 2

MoE 如何解决专家负载不均衡？

Accepted Answer

常加负载均衡辅助损失（load-balancing loss）鼓励 token 在专家间均匀分布，并设每专家容量上限（capacity factor），超出则丢弃或溢出到其他专家。DeepSeek 等还用无辅助损失的偏置调整路由，减小对主损失的干扰。

Question 3

Dense 模型和同等激活参数的 MoE，哪个效果更好？

Accepted Answer

相同激活参数（即相近推理算力）下，MoE 通常优于 Dense，因为总参数更大、容量更高；但相同总参数下 Dense 往往更强。MoE 的价值在于用更低的单 token 计算换取更大的有效容量。

Question 4

MoE 推理部署的主要瓶颈是什么？

Accepted Answer

一是显存：全部专家常驻，需张量/专家并行切分到多卡；二是通信：token 路由跨设备产生 all-to-all 通信，易成瓶颈；三是批内路由不均导致 GPU 利用率波动，需专家并行与高效 kernel（如 vLLM/SGLang 的 MoE 支持）优化。

核心要点