Pipeline Parallelism(流水线并行)

就是把模型竖着切开,每块 GPU 只跑几层,数据像流水线一样依次通过每块 GPU

亦作、亦称:流水线并行 · PP · Inter-layer Parallelism · 层间并行

流水线并行将大模型按层切分到多块 GPU,让不同设备同时处理不同批次的数据,是训练千亿参数大模型的核心并行策略之一。它与数据并行、张量并行共同构成现代 LLM 训练的 3D 并行体系。

概述

流水线并行(PP)是解决超大模型无法单卡容纳问题的核心方案之一。

  • 核心思想:将模型层按顺序切成若干 Stage(阶段),每个 Stage 分配给一块或一组 GPU
  • 数据流动:mini-batch 被进一步切分为多个 micro-batch,依次流经各 Stage,形成类工厂流水线
  • 并行性来源:当 Stage N 处理第 k 个 micro-batch 时,Stage N-1 已在处理第 k+1 个 micro-batch
  • 主要优势:跨节点通信量小(仅传递相邻层的 activation),适合节点间带宽受限的场景
  • 适用规模:GPT-3(175B)、Megatron-Turing NLG(530B)等超大模型均采用 PP

工作原理

流水线并行的执行可分为前向传播与反向传播两个阶段。

  • 前向阶段:micro-batch 从 Stage 0 → Stage 1 → … → Stage P-1 依次传递,每级输出 activation 作为下一级输入
  • 反向阶段:梯度从最后一个 Stage 反向流回各 Stage,各 Stage 仅对本地参数计算梯度并更新
  • 同步屏障:GPipe 采用同步策略,所有 micro-batch 完成前向后再统一做反向,保证梯度一致性
  • pipeline bubble(气泡):启动阶段与收尾阶段存在 GPU 空闲时间,bubble 比率约为 (p-1)/p,p 为 Stage 数
  • 重计算(Recomputation):GPipe 不保存中间 activation,反向时重新计算,以显存换计算

主要变体与调度策略

不同调度方式在吞吐量、显存和实现复杂度之间取得不同权衡。

  • GPipe(同步,F-then-B):先完成所有 micro-batch 的前向,再统一反向;实现简单,bubble 比率高
  • PipeDream(异步 1F1B):每完成一次前向立即启动一次反向,减少 bubble,但需保存多版本权重(weight stashing)
  • Megatron-LM interleaved 1F1B:每块 GPU 负责多个不连续 Stage(虚拟 Stage),bubble 比率降至 (p-1)/(p×m)
  • Zero Bubble Pipeline:通过精细调度将 bubble 率趋近于零,代价是额外通信开销
  • 异步 PP(Async PP):完全去除同步屏障,允许权重略微 stale,适合容错场景

应用场景

流水线并行在以下场景中表现尤为突出。

  • 超大 LLM 预训练:GPT 系列、LLaMA、Falcon 等百亿~千亿参数模型训练标配
  • 3D 并行体系:PP × 张量并行(TP) × 数据并行(DP)组合,Megatron-Turing NLG(530B)即采用此方案
  • 跨节点低带宽环境:PP 仅需传输 activation,通信量远低于 TP 的 all-reduce,适合跨机器通信
  • 推理加速:多 GPU 流水线推理可降低单请求延迟,适合长序列或大批量推理场景
  • 框架支持:Megatron-LM、DeepSpeed、FairScale、PyTorch Pipeline API 均原生支持 PP

与相邻并行策略的区别

理解 PP 与其他并行策略的边界有助于正确选型。

  • 数据并行(DP):复制完整模型到每块卡,切分数据;PP 是切分模型层,两者可叠加
  • 张量并行(TP):将单层(如注意力头、FFN 矩阵)横向切分到多卡,需频繁 all-reduce;PP 是纵向按层切分,通信少
  • 专家并行(EP):MoE 结构中将不同专家放到不同卡;PP 针对层级切分,EP 针对专家切分
  • 关键区别:PP 的阶段间通信仅在相邻 Stage 之间传递 activation,带宽需求与模型宽度(hidden size)成正比,而非模型总参数量

局限与常见误区

流水线并行并非银弹,存在若干需要注意的问题。

  • pipeline bubble 不可消除:即使最优调度,仍存在至少 1/(m+p-1) 的气泡率,Stage 数越多越严重
  • 负载均衡难题:各 Stage 的计算量需尽量均等,否则最慢 Stage 成为瓶颈(Transformer 层数不整除时尤为明显)
  • 显存分布不均:嵌入层(Embedding)通常在首 Stage,输出层在末 Stage,可能造成显存不均衡
  • 误区:PP 不等于模型并行:模型并行(Model Parallelism)是更广泛的概念,PP 和 TP 都是其子集
  • 调试难度高:多 Stage 异步调度导致梯度追踪、断点调试比单机训练复杂得多

发展脉络

流水线并行在短短几年内经历了从概念到工程标配的快速演进。

  • 2019 年:Google Brain 发布 GPipe(arXiv:1811.06965),首次系统提出 micro-batch + 重计算的 PP 框架,同年 Microsoft 发布 PipeDream(SOSP 2019),引入 1F1B 异步调度
  • 2021 年:NVIDIA Megatron-LM 引入 interleaved 1F1B 调度,将 bubble 率大幅降低,支撑 530B 参数模型训练
  • 2022 年:DeepSpeed PipelineEngine 与 FairScale 将 PP 工程化,降低使用门槛
  • 2023 年Zero Bubble Pipeline(arXiv:2401.10241)提出近零 bubble 调度,接近理论上限
  • 2024 年 至今:PP 与序列并行(SP)、专家并行(EP)深度融合,成为万卡集群训练标准组件

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是把模型竖着切开,每块 GPU 只跑几层,数据像流水线一样依次通过每块 GPU」
  • 「PP 最大的坑是「流水线气泡」——前几个和最后几个 micro-batch 会让 GPU 空闲,所以 micro-batch 数越多气泡比例越小」
  • 「流水线并行和张量并行不一样:张量并行是把一层横切给多块卡,流水线是把不同层分给不同卡」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 2 篇文章,帮助深入理解该术语。

  1. 1

    Apple Intelligence 生态解析:Gemini 整合、端侧 AI 与 2026 Apple AI 架构变革

    深入解析 Apple Intelligence 的完整技术架构,包括端侧模型与云端模型的混合推理策略、基于 Google Gemini 构建的全新 AI 系统、iOS 27 中 Siri 的 AI 化改造、隐私计算在 AI 中的应用,以及 Apple AI 生态对行业的影响

  2. 2

    Apple AI 硬件生态全景:Apple Silicon、Neural Engine 与端侧智能的完整技术栈

    2026 年 Apple Q2 财报显示营收增长 17%,AI 驱动 Mac 供不应求。Apple 的独特之处在于:它不是通过云端算力竞争,而是通过自研芯片 + 端侧推理 + 统一内存架构构建了一条完全独立的 AI 硬件生态路线。本文系统梳理 Apple AI 硬件生态的完整技术栈,从 Apple Silicon 芯片架构到 Neural Engine 加速原理,从 Core ML 部署框架到 Apple Intelligence 端云协同方案,帮助你全面理解 Apple 在 AI 时代的硬件战略。

外部参考

维基百科:查看「Pipeline Parallelism」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。