什么是前向传播与反向传播？

Question 1

什么是前向传播与反向传播？

Accepted Answer

前向传播（Forward Propagation）：数据从输入层流向输出层。每层执行 z = Wx + b，再经激活函数 σ(z)。最终得到预测 ŷ，与真实标签计算 损失函数 L（如交叉熵、MSE）。 反向传播（Backpropagation）：训练的关键。利用链式法则，从 L 出发向输入方向计算每个参数对损失的偏导数 ∂L/∂W、∂L/∂b。例如两层网络：∂L/∂W₁ = (∂L/∂ŷ)(∂ŷ/∂h)(∂h/∂W₁)。 训练循环： 1. 前向 → 得 loss 2. 反向 → 得各层梯度 3. 优化器（SGD/Adam）沿梯度反方向更新参数 反向传播 使 深度学习 能从海量数据端到端学习层次特征，而非手工设计。现代框架（PyTorch、TensorFlow）自动完成微分，开发者只需定义前向与 loss。 阶段 方向 产出 ------ ------ ------ 前向 输入→输出 预测、loss 反向 loss→参数 .grad 梯度

Question 2

反向传播和梯度下降是一回事吗？

Accepted Answer

不是。反向传播是计算梯度的算法（链式法则）；梯度下降是用梯度更新参数的优化方法。前者求方向，后者沿方向走一步，二者配合完成训练。

Question 3

为什么激活函数必须可微？

Accepted Answer

反向传播需要对激活求导以继续链式传递。ReLU 在 0 点不可微但实践中用次梯度；阶跃函数不可微，无法有效训练深层网络。

Question 4

前向和反向的计算量谁更大？

Accepted Answer

通常反向略贵（需存中间激活并多一次遍历），但同量级。推理只需前向；训练两者都要。混合精度、梯度检查点等可权衡显存与速度。

什么是前向传播与反向传播？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


阶段	方向	产出
前向	输入→输出	预测、loss
反向	loss→参数	.grad 梯度