Gating Network（门控网络）

就是一个『分诊台』——每来一个 token，它先判断该让哪几个专家来处理，其他专家直接跳过

亦作、亦称：门控网络 · router · MoE router · expert routing · 门控路由

门控网络是混合专家架构的「大脑调度中枢」，决定每个输入交由哪些专家处理。它让超大规模模型在推理时只激活少量参数，兼顾模型容量与计算效率。

概述

门控网络（Gating Network）是混合专家（MoE）架构中负责输入路由的核心模块。

作用：接收输入向量，输出对每个专家的激活权重或选择决策
目标：让不同专家专注于输入空间的不同子区域，实现「分而治之」
本质：一个可学习的分类器或评分函数，与专家网络联合训练
在 LLM 中的地位：是实现「条件计算（Conditional Computation）」的关键，使模型总参数量可达万亿级，而每次推理只激活极少部分

工作原理

门控网络的核心流程分为评分、选择、聚合三步。

评分：将输入 x 经线性变换得到每个专家的 logit，再通过 Softmax 归一化为概率分布 G(x) = Softmax(W·x)
软路由（Soft Gating）：对所有专家输出按权重加权求和，梯度流畅但计算量不减
稀疏路由（Sparse / Top-K Gating）：只保留得分最高的 K 个专家，其余置零，大幅降低激活参数量
噪声 Top-K：Shazeer 2017 引入，在 logit 上加标准正态噪声，防止少数专家被永久垄断
聚合：将被选中专家的输出按归一化权重相加，得到最终表示

主要变体

随着 MoE 技术演进，门控网络出现了多种设计变体。

Token-level Routing（token 级路由）：Transformer MoE 中每个 token 独立经门控选择专家，是当前主流方案（Mixtral、DeepSeek-MoE 等）
Expert-choice Routing（专家选 token）：由专家主动选择自己最感兴趣的 token，天然均衡负载，但可能导致部分 token 未被覆盖
Hash Routing（哈希路由）：按固定规则分配，无需学习，推理确定性强但灵活性差
Switch Transformer（K=1）：Google 2021 年提出，每 token 只路由到 1 个专家，极简设计在大规模下效果仍优
细粒度 MoE：DeepSeek-MoE 将专家粒度更细化，同时增大 K，兼顾专业化与容量

应用场景

门控网络广泛应用于需要大参数量但计算预算有限的场景。

大型语言模型：Mixtral 8x7B、DeepSeek-V2/V3、Grok-1 等主流开源 MoE LLM 均依赖门控网络实现稀疏激活
多模态模型：在视觉-语言模型中，门控可区分图像 patch 与文本 token 的不同路由需求
多任务学习：不同任务的样本经门控路由到专注该任务的专家，减少任务间干扰
推荐系统：用户行为特征经门控分配给专门处理不同兴趣域的专家子网络
云端推理服务：借助专家并行（Expert Parallelism），将专家分布在多 GPU/多节点上，门控决策驱动 all-to-all 通信

局限与误区

门控网络在实践中存在若干工程挑战和常见误区。

路由塌陷（Routing Collapse）：训练初期门控可能固定偏好少数专家，导致其余专家「饿死」，需辅助均衡损失（auxiliary load-balancing loss）或 Expert-choice 机制来缓解
容量因子（Capacity Factor）：每个专家每批能处理的 token 数有上限；超额 token 被丢弃（token dropping），可能影响长尾样本的表示质量
通信开销：分布式环境下 all-to-all 通信是瓶颈，门控决策的不确定性使通信量难以静态预估
误区：门控网络本身参数量巨大——实际上门控网络通常只是一个小型线性层，参数量远小于专家；真正的容量来自众多专家
可解释性不足：门控的路由决策通常不透明，难以直接解读为「专家专注于哪类知识」

发展脉络

门控网络从 1991 年提出到今天经历了数次范式升级。

1991 年：Jacobs、Jordan、Nowlan、Hinton 发表《Adaptive Mixtures of Local Experts》，首次用 Softmax 门控 将输入软路由到多个本地专家，奠定理论基础
2013 年：Eigen 等人将 MoE 层嵌入深层神经网络，每层独立门控，扩展到 DNN 场景
2017 年：Shazeer 等（Google Brain）发表《Outrageously Large Neural Networks》，引入 稀疏 Top-K 门控 与噪声均衡，首次将 MoE 扩展至千亿参数 LSTM 语言模型
2021 年：Google Switch Transformer 将 K 降至 1，验证极简门控在万亿参数规模下的可行性
2022-2024 年：Mixtral 8x7B（Mistral）、DeepSeek-MoE、Grok-1 等开源模型将稀疏门控 MoE 推向生产级应用，门控设计进入精细化工程优化阶段

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是一个『分诊台』——每来一个 token，它先判断该让哪几个专家来处理，其他专家直接跳过」
「可以理解成智能路由器，输入进来先过一道筛选，只有被选中的专家才需要真正计算」
「常见误解是以为门控网络本身很复杂——其实它通常只是一个小型线性层，复杂度都在各个专家里」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Gating Network」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

速览

一句话定义: 门控网络是 MoE 架构中负责将输入动态路由到一个或多个专家子网络的可学习组件，其输出决定各专家的激活权重或选择结果。
提出: 1991 年，Jacobs、Jordan、Nowlan、Hinton 在论文《Adaptive Mixtures of Local Experts》（Neural Computation, 1991）中正式提出；2017 年 Shazeer 等人引入稀疏 Top-K 门控，推动其在深度学习中的规模化应用。
关键论文 / 来源: Jacobs et al.「Adaptive Mixtures of Local Experts」Neural Computation 1991；Shazeer et al.「Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer」ICLR 2017

分类

机器学习深度学习大语言模型

Gating Network（门控网络）

概述

工作原理

主要变体

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

MoE 混合专家架构（四）：从原理到实战的全面指南

Compound AI Systems：复合式 AI 系统架构详解

小型模型集群架构：用编排智能替代参数暴力的新范式

外部参考

概述

工作原理

主要变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

MoE 混合专家架构（四）：从原理到实战的全面指南

Compound AI Systems：复合式 AI 系统架构详解

小型模型集群架构：用编排智能替代参数暴力的新范式

外部参考