Pipeline Parallelism（流水线并行）

就是把模型竖着切开，每块 GPU 只跑几层，数据像流水线一样依次通过每块 GPU

亦作、亦称：流水线并行 · PP · Inter-layer Parallelism · 层间并行

流水线并行将大模型按层切分到多块 GPU，让不同设备同时处理不同批次的数据，是训练千亿参数大模型的核心并行策略之一。它与数据并行、张量并行共同构成现代 LLM 训练的 3D 并行体系。

概述

流水线并行（PP）是解决超大模型无法单卡容纳问题的核心方案之一。

流水线并行的执行可分为前向传播与反向传播两个阶段。

前向阶段：micro-batch 从 Stage 0 → Stage 1 → … → Stage P-1 依次传递，每级输出 activation 作为下一级输入
反向阶段：梯度从最后一个 Stage 反向流回各 Stage，各 Stage 仅对本地参数计算梯度并更新
同步屏障：GPipe 采用同步策略，所有 micro-batch 完成前向后再统一做反向，保证梯度一致性
pipeline bubble（气泡）：启动阶段与收尾阶段存在 GPU 空闲时间，bubble 比率约为 (p-1)/p，p 为 Stage 数
重计算（Recomputation）：GPipe 不保存中间 activation，反向时重新计算，以显存换计算

不同调度方式在吞吐量、显存和实现复杂度之间取得不同权衡。

GPipe（同步，F-then-B）：先完成所有 micro-batch 的前向，再统一反向；实现简单，bubble 比率高
PipeDream（异步 1F1B）：每完成一次前向立即启动一次反向，减少 bubble，但需保存多版本权重（weight stashing）
Megatron-LM interleaved 1F1B：每块 GPU 负责多个不连续 Stage（虚拟 Stage），bubble 比率降至 (p-1)/(p×m)
Zero Bubble Pipeline：通过精细调度将 bubble 率趋近于零，代价是额外通信开销
异步 PP（Async PP）：完全去除同步屏障，允许权重略微 stale，适合容错场景

流水线并行在以下场景中表现尤为突出。

理解 PP 与其他并行策略的边界有助于正确选型。

流水线并行并非银弹，存在若干需要注意的问题。

流水线并行在短短几年内经历了从概念到工程标配的快速演进。

2019 年：Google Brain 发布 GPipe（arXiv:1811.06965），首次系统提出 micro-batch + 重计算的 PP 框架，同年 Microsoft 发布 PipeDream（SOSP 2019），引入 1F1B 异步调度
2021 年：NVIDIA Megatron-LM 引入 interleaved 1F1B 调度，将 bubble 率大幅降低，支撑 530B 参数模型训练
2022 年：DeepSpeed PipelineEngine 与 FairScale 将 PP 工程化，降低使用门槛
2023 年：Zero Bubble Pipeline（arXiv:2401.10241）提出近零 bubble 调度，接近理论上限
2024 年至今：PP 与序列并行（SP）、专家并行（EP）深度融合，成为万卡集群训练标准组件

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。