Optimal Transport（最优传输）

最优传输就是问：把一堆沙子从一个形状搬成另一个形状，怎么搬才最省力？

亦作、亦称：最优传输 · OT · Wasserstein distance · 最优传输理论 · Earth Mover's Distance · EMD · Monge-Kantorovich problem

最优传输理论提供了一种在概率分布之间「搬运质量」的最优方案，其核心度量 Wasserstein 距离因具备良好的几何性质而在深度生成模型、域自适应等 AI 任务中被广泛采用。从 1781 年 Monge 的原始问题到 2013 年 Sinkhorn 算法的工程化突破，OT 已成为现代机器学习中分布比较与对齐的标准工具。

概述

最优传输理论研究如何以最小代价将一个概率分布变换为另一个概率分布。

核心问题：给定源分布 μ 与目标分布 ν，以及逐点搬运代价 c(x,y)，求总代价最小的「传输方案」
Wasserstein 距离：最优传输代价的平方根（或 p 次方根），给出两分布之间几何意义上的距离
推土机直觉：把分布想象成一堆沙子，OT 问的是把沙堆 A 整形成沙堆 B 最少需要搬动多少「土方量×距离」
优势：即使两分布支撑集不重叠，Wasserstein 距离也能给出有意义的数值，弥补了 KL 散度和 JS 散度的缺陷

工作原理

OT 问题本质是一个约束优化问题，Kantorovich 将其表达为线性规划。

Kantorovich 松弛：将严格的点对点映射（Monge map）放宽为联合分布（耦合）γ(x,y)，求解 min∫c(x,y)dγ，满足边际约束
对偶形式：通过 Kantorovich 对偶，OT 也可表达为函数优化问题，便于神经网络参数化（如 WGAN 的 critic）
熵正则化：加入 −ε·H(γ) 正则项后，问题变为严格凸优化，可用 Sinkhorn 迭代高效求解
Sinkhorn 算法：交替对行/列做归一化，迭代收敛，支持 GPU 批量计算与自动微分
计算复杂度：精确 OT 为 O(n³)，熵正则化版本降至 O(n²/ε²)

主要变体

工程实践中发展出多种 OT 变体以应对不同场景的计算挑战。

Sinkhorn 距离（2013）：熵正则化 OT，Cuturi 提出，使 OT 可在 GPU 上大规模计算，是现代 AI 应用最常用形式
Sliced Wasserstein Distance（SWD）：将高维 OT 投影到一维随机切片后求解，复杂度大幅降低，适合图像生成
Unbalanced OT：放松边际等式约束为 KL 散度惩罚，允许「质量有增减」，适合点云局部匹配
Gromov-Wasserstein：在两个不同度量空间之间对齐分布，无需公共嵌入空间，用于跨模态对齐
Mini-batch OT：将大规模分布切分为小批次近似计算，适合深度学习训练循环

应用场景

OT 在 AI 各方向均有重要落地，尤其是需要分布对齐的任务。

生成模型（WGAN）：用 Wasserstein 距离替代 GAN 的 JS 散度作为训练目标，缓解模式崩溃和梯度消失
域自适应：将源域特征分布「传输」到目标域，最小化域偏移，提升跨域迁移效果
点云配准：自动驾驶/三维重建中对齐两帧点云，OT 提供旋转平移不变的匹配方案
图像风格迁移：通过匹配颜色/纹理统计分布实现内容与风格分离
自然语言处理：Word Mover's Distance 用词嵌入上的 OT 度量句子语义距离；文档对齐与机器翻译评估
单细胞生物学：Waddington-OT 利用 OT 追踪细胞发育轨迹

与相邻概念的区别

OT/Wasserstein 距离常与其他分布差异度量混用，需注意本质区别。

vs KL 散度：KL 是信息论度量，无几何意义，支撑集不重叠时为 ∞；Wasserstein 在不重叠分布上仍有意义
vs JS 散度：JS 有界（≤log2），但同样在不重叠分布上梯度消失；Wasserstein 梯度更稳定，是 WGAN 选择它的原因
vs MMD（最大均值差异）：MMD 依赖核函数选择，对高维数据敏感；OT 直接利用空间度量，几何解释更直观
vs Fréchet Inception Distance（FID）：FID 用高斯近似特征分布后计算 Wasserstein-2，是 OT 的特例，常用于图像生成评估

局限与误区

使用 OT 时需注意若干工程与理论层面的陷阱。

计算瓶颈：精确 OT 的 O(n³) 复杂度在样本量大时不可接受，需借助 Sinkhorn 近似或 Sliced 变体
ε 超参数敏感：Sinkhorn 正则化强度 ε 过大会使距离失真（过度平滑），过小会导致数值不稳定
高维诅咒：在高维空间中 Wasserstein 距离的统计估计需要大量样本，样本复杂度随维度指数增长
误区一：把 Wasserstein 距离等同于 EMD——EMD 是 OT 的离散特例，二者在连续分布上有所区分
误区二：认为 WGAN 训练的 critic 直接输出 Wasserstein 距离——实际需满足 Lipschitz 约束（如梯度惩罚），近似程度取决于约束实施质量

发展脉络

OT 理论跨越两个多世纪，近年在 AI 领域迎来爆发式应用。

1781 年：Gaspard Monge 发表《论挖掘与填充》，提出将土方从一处搬运到另一处的最优映射问题
1942 年：Leonid Kantorovich 将 Monge 问题松弛为线性规划，建立现代数学框架（1975 年因此获诺贝尔经济学奖）
1987 年：Brenier 定理证明二次代价下最优传输映射与凸函数梯度等价，奠定几何分析基础
2009 年：Villani 出版《Optimal Transport: Old and New》，获 Fields 奖，系统总结 OT 理论
2013 年：Cuturi 提出 Sinkhorn Distances，使 OT 计算在 GPU 上可行，打通 AI 工程落地通道
2017 年：Arjovsky 等提出 WGAN，将 Wasserstein 距离引入 GAN 训练，显著提升生成模型稳定性
2019 年至今：OT 扩展至 Gromov-Wasserstein、Unbalanced OT、神经 OT 等方向，在多模态对齐、大模型微调（如 RLHF 分布匹配）中持续渗透

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「最优传输就是问：把一堆沙子从一个形状搬成另一个形状，怎么搬才最省力？」
「Wasserstein 距离比 KL 散度更好用的地方在于，就算两个分布没有重叠，它也能算出合理的距离，而 KL 那时候会变成无穷大。」
「有人以为 OT 只是个数学玩具，其实 WGAN 能稳定训练、GAN 不再模式崩溃，背后就是靠 Wasserstein 距离的良好几何性质。」

外部参考

维基百科：查看「Optimal Transport」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。