Gating Network(门控网络)

就是一个『分诊台』——每来一个 token,它先判断该让哪几个专家来处理,其他专家直接跳过

亦作、亦称:门控网络 · router · MoE router · expert routing · 门控路由

门控网络是混合专家架构的「大脑调度中枢」,决定每个输入交由哪些专家处理。它让超大规模模型在推理时只激活少量参数,兼顾模型容量与计算效率。

概述

门控网络(Gating Network)是混合专家(MoE)架构中负责输入路由的核心模块。

  • 作用:接收输入向量,输出对每个专家的激活权重或选择决策
  • 目标:让不同专家专注于输入空间的不同子区域,实现「分而治之」
  • 本质:一个可学习的分类器或评分函数,与专家网络联合训练
  • 在 LLM 中的地位:是实现「条件计算(Conditional Computation)」的关键,使模型总参数量可达万亿级,而每次推理只激活极少部分

工作原理

门控网络的核心流程分为评分、选择、聚合三步。

  • 评分:将输入 x 经线性变换得到每个专家的 logit,再通过 Softmax 归一化为概率分布 G(x) = Softmax(W·x)
  • 软路由(Soft Gating):对所有专家输出按权重加权求和,梯度流畅但计算量不减
  • 稀疏路由(Sparse / Top-K Gating):只保留得分最高的 K 个专家,其余置零,大幅降低激活参数量
  • 噪声 Top-K:Shazeer 2017 引入,在 logit 上加标准正态噪声,防止少数专家被永久垄断
  • 聚合:将被选中专家的输出按归一化权重相加,得到最终表示

主要变体

随着 MoE 技术演进,门控网络出现了多种设计变体。

  • Token-level Routing(token 级路由):Transformer MoE 中每个 token 独立经门控选择专家,是当前主流方案(Mixtral、DeepSeek-MoE 等)
  • Expert-choice Routing(专家选 token):由专家主动选择自己最感兴趣的 token,天然均衡负载,但可能导致部分 token 未被覆盖
  • Hash Routing(哈希路由):按固定规则分配,无需学习,推理确定性强但灵活性差
  • Switch Transformer(K=1):Google 2021 年提出,每 token 只路由到 1 个专家,极简设计在大规模下效果仍优
  • 细粒度 MoE:DeepSeek-MoE 将专家粒度更细化,同时增大 K,兼顾专业化与容量

应用场景

门控网络广泛应用于需要大参数量但计算预算有限的场景。

  • 大型语言模型:Mixtral 8x7B、DeepSeek-V2/V3、Grok-1 等主流开源 MoE LLM 均依赖门控网络实现稀疏激活
  • 多模态模型:在视觉-语言模型中,门控可区分图像 patch 与文本 token 的不同路由需求
  • 多任务学习:不同任务的样本经门控路由到专注该任务的专家,减少任务间干扰
  • 推荐系统:用户行为特征经门控分配给专门处理不同兴趣域的专家子网络
  • 云端推理服务:借助专家并行(Expert Parallelism),将专家分布在多 GPU/多节点上,门控决策驱动 all-to-all 通信

局限与误区

门控网络在实践中存在若干工程挑战和常见误区。

  • 路由塌陷(Routing Collapse):训练初期门控可能固定偏好少数专家,导致其余专家「饿死」,需辅助均衡损失(auxiliary load-balancing loss)或 Expert-choice 机制来缓解
  • 容量因子(Capacity Factor):每个专家每批能处理的 token 数有上限;超额 token 被丢弃(token dropping),可能影响长尾样本的表示质量
  • 通信开销:分布式环境下 all-to-all 通信是瓶颈,门控决策的不确定性使通信量难以静态预估
  • 误区:门控网络本身参数量巨大——实际上门控网络通常只是一个小型线性层,参数量远小于专家;真正的容量来自众多专家
  • 可解释性不足:门控的路由决策通常不透明,难以直接解读为「专家专注于哪类知识」

发展脉络

门控网络从 1991 年提出到今天经历了数次范式升级。

  • 1991 年:Jacobs、Jordan、Nowlan、Hinton 发表《Adaptive Mixtures of Local Experts》,首次用 Softmax 门控 将输入软路由到多个本地专家,奠定理论基础
  • 2013 年:Eigen 等人将 MoE 层嵌入深层神经网络,每层独立门控,扩展到 DNN 场景
  • 2017 年:Shazeer 等(Google Brain)发表《Outrageously Large Neural Networks》,引入 稀疏 Top-K 门控 与噪声均衡,首次将 MoE 扩展至千亿参数 LSTM 语言模型
  • 2021 年:Google Switch Transformer 将 K 降至 1,验证极简门控在万亿参数规模下的可行性
  • 2022-2024 年:Mixtral 8x7B(Mistral)、DeepSeek-MoE、Grok-1 等开源模型将稀疏门控 MoE 推向生产级应用,门控设计进入精细化工程优化阶段

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是一个『分诊台』——每来一个 token,它先判断该让哪几个专家来处理,其他专家直接跳过」
  • 「可以理解成智能路由器,输入进来先过一道筛选,只有被选中的专家才需要真正计算」
  • 「常见误解是以为门控网络本身很复杂——其实它通常只是一个小型线性层,复杂度都在各个专家里」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    MoE 混合专家架构(四):从原理到实战的全面指南

    系统讲解 Mixture of Experts(MoE)混合专家架构的原理、训练策略和工程实践。从 Dense 模型的瓶颈出发,深入分析门控网络、Top-K 路由、负载均衡等核心机制,并通过 PyTorch 实战代码演示 MoE 层的完整实现。

  2. 2

    Compound AI Systems:复合式 AI 系统架构详解

    Compound AI Systems 是 AI 系统设计的新一代范式——不再依赖单一模型解决所有问题,而是将 LLM、检索系统、工具调用、代码执行等多个组件组合为一个协同工作的复合系统。本文系统讲解 Compound AI 的完整架构:从核心概念到设计原则,从关键组件到实战实现,从单体模型到复合系统的对比分析,帮助你掌握下一代 AI 系统的设计方法。

  3. 3

    小型模型集群架构:用编排智能替代参数暴力的新范式

    2026 年 6 月,多项基准测试表明:协调运作的 7B-13B 小型模型集群,在真实生产场景中击败单一前沿大模型(如 GPT-5.5、Claude Opus 4.7),同时成本降低 80%、延迟降低 5 倍。本文系统讲解小型模型集群的架构设计、路由策略、编排框架、容错机制与完整代码实现,帮助你理解这场从「参数暴力」到「编排智能」的范式转移。

外部参考

维基百科:查看「Gating Network」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。