Gating Network(门控网络)
就是一个『分诊台』——每来一个 token,它先判断该让哪几个专家来处理,其他专家直接跳过
亦作、亦称:门控网络 · router · MoE router · expert routing · 门控路由
门控网络是混合专家架构的「大脑调度中枢」,决定每个输入交由哪些专家处理。它让超大规模模型在推理时只激活少量参数,兼顾模型容量与计算效率。
概述
门控网络(Gating Network)是混合专家(MoE)架构中负责输入路由的核心模块。
- 作用:接收输入向量,输出对每个专家的激活权重或选择决策
- 目标:让不同专家专注于输入空间的不同子区域,实现「分而治之」
- 本质:一个可学习的分类器或评分函数,与专家网络联合训练
- 在 LLM 中的地位:是实现「条件计算(Conditional Computation)」的关键,使模型总参数量可达万亿级,而每次推理只激活极少部分
工作原理
门控网络的核心流程分为评分、选择、聚合三步。
- 评分:将输入 x 经线性变换得到每个专家的 logit,再通过 Softmax 归一化为概率分布 G(x) = Softmax(W·x)
- 软路由(Soft Gating):对所有专家输出按权重加权求和,梯度流畅但计算量不减
- 稀疏路由(Sparse / Top-K Gating):只保留得分最高的 K 个专家,其余置零,大幅降低激活参数量
- 噪声 Top-K:Shazeer 2017 引入,在 logit 上加标准正态噪声,防止少数专家被永久垄断
- 聚合:将被选中专家的输出按归一化权重相加,得到最终表示
主要变体
随着 MoE 技术演进,门控网络出现了多种设计变体。
- Token-level Routing(token 级路由):Transformer MoE 中每个 token 独立经门控选择专家,是当前主流方案(Mixtral、DeepSeek-MoE 等)
- Expert-choice Routing(专家选 token):由专家主动选择自己最感兴趣的 token,天然均衡负载,但可能导致部分 token 未被覆盖
- Hash Routing(哈希路由):按固定规则分配,无需学习,推理确定性强但灵活性差
- Switch Transformer(K=1):Google 2021 年提出,每 token 只路由到 1 个专家,极简设计在大规模下效果仍优
- 细粒度 MoE:DeepSeek-MoE 将专家粒度更细化,同时增大 K,兼顾专业化与容量
应用场景
门控网络广泛应用于需要大参数量但计算预算有限的场景。
- 大型语言模型:Mixtral 8x7B、DeepSeek-V2/V3、Grok-1 等主流开源 MoE LLM 均依赖门控网络实现稀疏激活
- 多模态模型:在视觉-语言模型中,门控可区分图像 patch 与文本 token 的不同路由需求
- 多任务学习:不同任务的样本经门控路由到专注该任务的专家,减少任务间干扰
- 推荐系统:用户行为特征经门控分配给专门处理不同兴趣域的专家子网络
- 云端推理服务:借助专家并行(Expert Parallelism),将专家分布在多 GPU/多节点上,门控决策驱动 all-to-all 通信
局限与误区
门控网络在实践中存在若干工程挑战和常见误区。
- 路由塌陷(Routing Collapse):训练初期门控可能固定偏好少数专家,导致其余专家「饿死」,需辅助均衡损失(auxiliary load-balancing loss)或 Expert-choice 机制来缓解
- 容量因子(Capacity Factor):每个专家每批能处理的 token 数有上限;超额 token 被丢弃(token dropping),可能影响长尾样本的表示质量
- 通信开销:分布式环境下 all-to-all 通信是瓶颈,门控决策的不确定性使通信量难以静态预估
- 误区:门控网络本身参数量巨大——实际上门控网络通常只是一个小型线性层,参数量远小于专家;真正的容量来自众多专家
- 可解释性不足:门控的路由决策通常不透明,难以直接解读为「专家专注于哪类知识」
发展脉络
门控网络从 1991 年提出到今天经历了数次范式升级。
- 1991 年:Jacobs、Jordan、Nowlan、Hinton 发表《Adaptive Mixtures of Local Experts》,首次用 Softmax 门控 将输入软路由到多个本地专家,奠定理论基础
- 2013 年:Eigen 等人将 MoE 层嵌入深层神经网络,每层独立门控,扩展到 DNN 场景
- 2017 年:Shazeer 等(Google Brain)发表《Outrageously Large Neural Networks》,引入 稀疏 Top-K 门控 与噪声均衡,首次将 MoE 扩展至千亿参数 LSTM 语言模型
- 2021 年:Google Switch Transformer 将 K 降至 1,验证极简门控在万亿参数规模下的可行性
- 2022-2024 年:Mixtral 8x7B(Mistral)、DeepSeek-MoE、Grok-1 等开源模型将稀疏门控 MoE 推向生产级应用,门控设计进入精细化工程优化阶段
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是一个『分诊台』——每来一个 token,它先判断该让哪几个专家来处理,其他专家直接跳过」
- 「可以理解成智能路由器,输入进来先过一道筛选,只有被选中的专家才需要真正计算」
- 「常见误解是以为门控网络本身很复杂——其实它通常只是一个小型线性层,复杂度都在各个专家里」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
MoE 混合专家架构(四):从原理到实战的全面指南
系统讲解 Mixture of Experts(MoE)混合专家架构的原理、训练策略和工程实践。从 Dense 模型的瓶颈出发,深入分析门控网络、Top-K 路由、负载均衡等核心机制,并通过 PyTorch 实战代码演示 MoE 层的完整实现。
- 2
Compound AI Systems:复合式 AI 系统架构详解
Compound AI Systems 是 AI 系统设计的新一代范式——不再依赖单一模型解决所有问题,而是将 LLM、检索系统、工具调用、代码执行等多个组件组合为一个协同工作的复合系统。本文系统讲解 Compound AI 的完整架构:从核心概念到设计原则,从关键组件到实战实现,从单体模型到复合系统的对比分析,帮助你掌握下一代 AI 系统的设计方法。
- 3
小型模型集群架构:用编排智能替代参数暴力的新范式
2026 年 6 月,多项基准测试表明:协调运作的 7B-13B 小型模型集群,在真实生产场景中击败单一前沿大模型(如 GPT-5.5、Claude Opus 4.7),同时成本降低 80%、延迟降低 5 倍。本文系统讲解小型模型集群的架构设计、路由策略、编排框架、容错机制与完整代码实现,帮助你理解这场从「参数暴力」到「编排智能」的范式转移。
外部参考
维基百科:查看「Gating Network」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。