反向传播（Backprop）

训练神经网络的方法

亦作、亦称：Backprop

反向传播（Backpropagation，简称 Backprop）是训练神经网络的核心算法，通过链式法则从损失函数出发，逐层向输入方向计算各参数的梯度，再由优化器更新权重。它将深度网络训练从理论设想变为工程现实，是现代深度学习的基石。

概述

反向传播本质上是对计算图应用链式法则的系统化过程。

反向传播的历史跨越数十年，经历了多次独立发现与重新普及。

1970：Seppo Linnainmaa 在硕士论文中提出反向模式自动微分，是现代实现的理论先驱
1974：Paul Werbos 在哈佛博士论文《Beyond Regression》中首次将该方法明确应用于神经网络，长期未受重视
1986：Rumelhart、Hinton、Williams 在 Nature 发表「Learning representations by back-propagating errors」，引爆第二次神经网络研究热潮
2012：AlexNet 借助 GPU 加速反向传播，在 ImageNet 大赛中大幅领先，标志深度学习时代正式开启
2017 至今：PyTorch 动态计算图、梯度检查点、混合精度训练等工程优化，使反向传播支撑起千亿参数模型的训练

一次完整的训练迭代包含前向与反向两个阶段，交替执行。

反向传播在实践中面临若干固有挑战，催生了大量改进技术。

梯度消失：多层网络中梯度逐层相乘趋近于零，早期深层网络浅层几乎无法学习； ReLU 激活函数和残差连接是主要应对手段
- 梯度爆炸：梯度连乘后数值过大，导致训练发散；常用梯度裁剪（Gradient Clipping） 缓解
-内存开销：需缓存所有中间激活值用于反向计算； 梯度检查点（Gradient Checkpointing）以重新计算换节省显存
- 不可微操作：离散采样、argmax 等操作无法直接反向传播，需借助直通估计器或强化学习目标替代

当代深度学习框架通过自动微分引擎将反向传播完全自动化。

反向传播并非孤立算法，而是与多个核心概念紧密耦合。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。