反向传播（Backpropagation）是如何工作的？

Question 1

Accepted Answer

整体思路 神经网络是复合函数 y = f_n(...f_2(f_1(x)))，反向传播就是对这个复合函数求导，本质是链式法则的高效实现。 前向传播 逐层计算激活值并缓存中间结果（如各层的输入、加权和），这些缓存供反向阶段复用。 反向传播 从损失 L 出发反向逐层求导： - 输出层直接算 ∂L/∂a； - 每一层用链式法则：本层参数梯度 = 上游传来的梯度 × 本层的局部梯度（如 ∂L/∂W = δ · xᵀ）； - 误差信号 δ 逐层向前传递，每层只需做一次矩阵乘，整体复杂度与前向同阶。 工程实现 PyTorch/TensorFlow 通过自动微分构建计算图，调用 backward() 自动回传，无需手推公式。深层网络中小于 1 的局部梯度连乘会指数衰减（梯度消失），可用 ReLU 族激活、残差连接、BatchNorm/LayerNorm、合理初始化缓解。

Question 2

什么是计算图？

Accepted Answer

计算图是有向图：节点是运算（加减乘、激活），边是张量流动。前向传播沿图计算输出；反向传播沿图用链式法则求梯度。PyTorch 动态构图，TensorFlow 2.x 默认 eager 也可 trace 成图。

Question 3

梯度消失的原因是什么？

Accepted Answer

深层网络连乘小于 1 的激活导数（如 sigmoid/tanh），梯度指数衰减；或权重初始化不当。RNN 长序列尤甚。解决：ReLU 族、残差、Norm、LSTM 门控、梯度裁剪。

反向传播（Backpropagation）是如何工作的？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习