TensorFlow 如何处理自动微分？

Question 1

Accepted Answer

TensorFlow 2.x 的自动微分核心是 tf.GradientTape： ``python with tf.GradientTape() as tape: predictions = model(x, training=True) loss = loss_fn(y, predictions) grads = tape.gradient(loss, model.trainable_variables) optimizer.apply_gradients(zip(grads, model.trainable_variables)) `` 机制：tape 在 with 块内记录所有可微 op 及其依赖（动态计算图）；gradient(target, sources) 从 target 向 sources 反向应用链式法则。 进阶： - persistent=True：允许多次对同一 tape 求不同 target 的梯度 - watch()：显式追踪非 Variable 张量 - @tf.function：将训练步编译为图，tape 在图内仍有效 - tf.keras 的 model.fit 内部自动处理梯度 与 PyTorch Autograd 对比：PyTorch 默认建图更「隐式」；TF 2.x 显式 tape 块，控制更精细。TF 1.x 静态图靠 tf.gradients 符号求导，2.x 以 tape 为主。详见 反向传播原理。

Question 2

GradientTape 和 tf.keras fit 用哪个？

Accepted Answer

标准监督训练直接用 model.fit，简洁且自带回调、分布式、进度条；需要自定义训练逻辑（GAN 多优化器、自定义损失/梯度操作、强化学习、元学习）时才手写 GradientTape 训练循环。也可重写 Model.train_step，在保留 fit 便利的同时插入自定义梯度逻辑。

Question 3

如何求高阶导数？

Accepted Answer

嵌套 GradientTape：外层 tape 记录"内层 tape 求一阶导"的过程，再对一阶导求导得二阶。需让内层 tape persistent=True 或确保被外层追踪。常用于物理约束损失（PINN）、二阶优化、梯度惩罚（如 WGAN-GP）。

Question 4

tape 外定义的变量能求梯度吗？

Accepted Answer

能。关键不是变量在哪定义，而是用到它的运算是否发生在 with 块内被记录。若它是 tf.Variable，tape 自动追踪；若是普通张量，需在块内 tape.watch(x)。只要前向计算在 tape 上下文里执行，tape.gradient 就能算出对它的梯度。

TensorFlow 如何处理自动微分？

核心要点

标准回答

常见误区

追问

延伸学习