PyTorch 张量的 .grad 属性有什么作用？

Question 1

Accepted Answer

在 PyTorch 中，.grad 是张量的梯度缓冲区，存储 ∂loss/∂tensor。 要点： - 仅 requires_grad=True 且为叶子节点（用户创建或 nn.Parameter）的张量默认保留 .grad - 调用 loss.backward() 后，梯度累加到 .grad（同 shape、同 dtype） - optimizer.step() 读取 .grad 更新 .data - 非叶子节点梯度在 backward 后默认释放以省内存；需 retain_grad() 才保留 ``python w = torch.randn(3, 3, requires_grad=True) loss = w.sum() loss.backward() print(w.grad) # 全 1 矩阵 `` 与 .data 的区别：.data 直接暴露底层值、绕过 Autograd 版本检查，是旧 API、易误用；要取无梯度副本应用 .detach()。手动改 .data 不会被记录，可能让反向传播算出错误梯度。 调试：torch.nn.utils.clip_grad_norm_ 裁剪 .grad 防爆炸；param.grad is None 说明未 backward 或不是叶子。详见 反向传播原理。

Question 2

为什么非叶子节点默认不存 .grad？

Accepted Answer

中间激活数量巨大，全保留显存爆炸。通常只需参数梯度；若需对中间层梯度（如可解释性），用 register_hook 或 retain_grad()。

Question 3

backward 后 .grad 会自动清零吗？

Accepted Answer

不会。下一次 backward 会把新梯度累加到现有 .grad 上，所以每个 step 前必须手动 optimizer.zero_grad()（或 set_to_none=True）。这个累加设计正是为了支持梯度累积——分多个小 batch 反向、最后一次 step。

Question 4

能对 .grad 手动赋值吗？

Accepted Answer

能。.grad 是普通张量，可在 no_grad 上下文里手动写入或缩放（如梯度裁剪、自定义优化逻辑就是这么干的），optimizer.step() 会照单全收。但要保证形状/dtype 一致，且通常应在 backward 之后、step 之前操作。

PyTorch 张量的 .grad 属性有什么作用？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习