PyTorch 中反向传播的过程是怎样的？

Question 1

Accepted Answer

PyTorch 的 反向传播 由 Autograd 自动完成，典型训练步如下： 1. 前向传播：输入 x 经 model(x) 得预测，与标签算 loss = criterion(output, target)。前向中每个可微操作在计算图上记录依赖。 2. 清零梯度：optimizer.zero_grad()（或 model.zero_grad()）——PyTorch 默认梯度累加，不清零会导致多步梯度叠加。 3. 反向传播：loss.backward() 从 loss 节点出发，按链式法则向叶子参数传播，将 ∂loss/∂param 累加到 param.grad。 4. 参数更新：optimizer.step() 按优化器规则（SGD、Adam 等）用 .grad 更新 param.data。 ``python for x, y in loader: optimizer.zero_grad() loss = criterion(model(x), y) loss.backward() optimizer.step() `` 关键机制：requires_grad=True 的张量参与建图；with torch.no_grad() 推理时跳过建图省显存；retain_graph=True 可对同一图多次 backward。详见 反向传播原理。

Question 2

为什么需要 zero_grad？不设会怎样？

Accepted Answer

PyTorch 的 .grad 是累加缓冲区。若不清零，第二步的梯度会叠在第一步之上，等价于增大 batch size 或错误的学习率，训练发散或行为异常。梯度累积场景则有意隔 N 步才 step 一次。

题库延伸：与本追问相关的专题题 → 什么是 K 折交叉验证？为什么需要它？

Question 3

loss.backward() 后 .grad 存的是什么？

Accepted Answer

每个 requires_grad 参数的 .grad 是与参数同 shape 的张量，存储 ∂loss/∂param。optimizer.step() 读取 .grad 执行更新；手动调试可用 param.grad.norm() 检查梯度爆炸/消失。

Question 4

非标量 loss 如何 backward？

Accepted Answer

backward() 默认要求 loss 是标量。若输出是向量，需传入 grad_tensors 权重（如 torch.ones_like(output)）指定各分量对梯度的贡献，等价于加权求和后再反传。

PyTorch 中反向传播的过程是怎样的？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习