PyTorch 的 Autograd 如何实现自动微分？

Question 1

Accepted Answer

PyTorch Autograd 实现自动微分（AutoDiff），支撑 反向传播。 前向（建图）： - 每个可微运算创建 Function 节点，记录 inputs → outputs - 张量 .grad_fn 指向创建它的运算 - 叶子节点（用户输入、Parameter）grad_fn is None 反向（求导）： - loss.backward() 从 loss 启动 - 拓扑序遍历图，每个节点调用 grad_fn.backward(grad_output) - 链式法则：grad_input = grad_output × local_jacobian - 累加到叶子 .grad 特点： - 动态图：每轮前向可不同结构（if/for） - 仅保存必要中间值 供反向（可 checkpoint 换显存） ``python x = torch.tensor(2.0, requires_grad=True) y = x 2 y.backward() print(x.grad) # 4.0 `` torch.no_grad() 禁用建图；detach()** 切断梯度。详见 反向传播原理。

Question 2

动态图和静态图 Autograd 区别？

Accepted Answer

动态图（PyTorch、TF2 eager）边执行边建图，每次前向可走不同分支/循环，调试直观、适合变长输入和控制流；静态图（TF1、torch.compile/JIT）先定义后执行，编译期可做算子融合、常量折叠等优化，部署性能更好但灵活性差。现代框架多以动态为默认、按需编译换性能。

Question 3

为什么有些操作用不了 backward？

Accepted Answer

常见原因：该操作不可微（如 argmax、取整、整数索引产生的离散输出局部梯度为 0 或未定义）；或运算在 torch.no_grad() 下、张量被 detach() 切断；或张量 requires_grad=False、dtype 是整型。对不可微环节常用 STE、Gumbel-Softmax 等可微近似绕过。

Question 4

梯度检查点（checkpoint）原理？

Accepted Answer

用 torch.utils.checkpoint 在前向时不保存中间激活，只记录输入；反向需要时再重算一遍前向得到激活。以额外约 30% 计算换显存大幅下降，让大模型/长序列能在有限显存上训练，是常见的显存优化手段。

PyTorch 的 Autograd 如何实现自动微分？

核心要点

标准回答

常见误区

追问

延伸学习