Mixed Precision Training（混合精度训练）

就是一部分计算用半精度（FP16）跑、省内存也更快，但关键数值还是用 FP32 保着，不会把模型训坏

亦作、亦称：混合精度训练 · AMP · Automatic Mixed Precision · 自动混合精度 · FP16/BF16混合 · MPT

混合精度训练通过在同一模型中混用 FP16/BF16 与 FP32，在保证收敛精度的同时大幅提升训练吞吐量、降低显存需求。它是当今大规模 AI 模型训练的核心基础设施之一。

概述

混合精度训练是一种通过同时使用多种浮点精度来优化深度学习训练效率的技术。

核心目标：在不牺牲模型收敛精度的前提下，利用低精度格式加速运算、减少显存占用
主要格式：FP32（单精度，32 位）、FP16（半精度，16 位）、BF16（Brain Float 16，16 位）
典型收益：训练速度提升 1.5x～5.5x，显存占用减少约 50%
适用范围：图像分类、目标检测、语音识别、大语言模型预训练与微调等主流任务
框架支持：PyTorch torch.cuda.amp、NVIDIA Apex、TensorFlow tf.keras.mixed_precision 均原生支持

混合精度训练通过三项关键机制保证精度与速度的双赢。

FP32 主权重副本：模型权重在内存中保留一份 FP32 拷贝，在前向/反向传播中转为 FP16 计算，梯度更新时再写回 FP32 副本，避免累积舍入误差
损失缩放（Loss Scaling）：FP16 动态范围约 6×10⁻⁵～65504，梯度绝对值常低于此下限导致下溢；通过将 loss 乘以一个大缩放因子（如 1024～32768）再反向传播，使梯度移入 FP16 可表示范围，反向后再除回
动态损失缩放：自动检测梯度是否出现 inf/nan，若正常则逐步增大缩放因子，出现异常则减半并跳过本步更新，无需手动调参
精度敏感操作保留 FP32：批归一化统计量、Softmax、损失计算等仍在 FP32 下进行

FP16 和 BF16 是混合精度训练中两种最常见的低精度格式，特性差异显著。

FP16：5 位指数 + 10 位尾数，精度高但动态范围窄（约 ±65504），训练中必须使用损失缩放，适合 V100/T4 等旧一代 GPU
BF16：8 位指数 + 7 位尾数，动态范围与 FP32 相同（±3.4×10³⁸），无需损失缩放，但精度位更少；适合 A100、H100、TPU v3+ 等新硬件
FP8：更新一代格式（E4M3/E5M2），已在 H100 上用于 LLM 训练，进一步压缩计算成本
选择原则：有 BF16 硬件支持时优先选 BF16；旧硬件回退到 FP16 + 动态损失缩放

混合精度训练已成为大规模 AI 模型训练的标准配置。

混合精度训练常与量化、蒸馏等模型压缩技术混淆，需加以区分。

vs. 量化（Quantization）：量化通常将权重/激活压缩到 INT8/INT4 用于推理，是部署阶段优化；混合精度侧重训练阶段，保留 FP32 副本保证梯度质量
vs. 知识蒸馏：蒸馏通过小模型学习大模型输出来压缩模型体量；混合精度不改变模型结构，只改变数值格式
vs. 纯 FP16 训练：纯 FP16 不维护 FP32 副本，易出现训练不稳定和精度损失；混合精度通过主权重副本解决了这一问题
AMP（自动混合精度）：是混合精度训练的自动化实现，由框架自动决定哪些算子用低精度，用户无需手动标注

混合精度训练并非万能，存在若干实际使用中的常见陷阱。

混合精度训练从学术提案到工业标配经历了数年快速演进。

2017 年：NVIDIA Paulius Micikevicius 等人在 GTC 2017 提出混合精度训练方法，arXiv 预印本发布（1710.03740）
2018 年：论文正式发表于 ICLR 2018；NVIDIA 发布 Apex 库，提供首个实用 AMP 工具
2019 年：Google 推出 BF16 格式并在 TPU v3 上广泛使用，缓解 FP16 动态范围限制
2020 年：PyTorch 1.6 原生集成 torch.cuda.amp，AMP 使用门槛大幅降低
2022 年：A100 GPU 的 BF16 Tensor Core 使 BF16 成为 LLM 训练首选格式
2023-2024 年：NVIDIA H100 引入 FP8 支持，混合精度向更低位数延伸；FP8 训练在 GPT-4 级别模型上得到验证

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。