PyTorch 中的优化器是什么？如何使用？

Question 1

Accepted Answer

PyTorch 优化器实现各类梯度下降变体，在 loss.backward() 之后调用 optimizer.step() 更新 model.parameters()。 常用优化器： 优化器 特点 典型场景 -------- ------ ---------- SGD 简单，+momentum 加速 CV 经典训练 Adam 自适应学习率，收敛快 默认首选、NLP AdamW 解耦权重衰减 Transformer 预训练 RMSprop 适应非平稳目标 RNN 历史常用 标准用法： ``python optimizer = torch.optim.Adam(model.parameters(), lr=1e-3, weight_decay=1e-4) 训练循环内 optimizer.zero_grad() loss.backward() optimizer.step() `` 进阶：param_groups 为不同层设不同 lr（如 backbone 小 lr、head 大 lr）；torch.optim.lr_scheduler 配合做学习率调度；optimizer.state 存 Adam 的一阶/二阶动量。 选型：小数据集+CNN 可 SGD+momentum；大模型微调多用 AdamW + warmup。详见 深度学习训练技巧。

Question 2

Adam 和 SGD 何时选谁？

Accepted Answer

Adam 默认收敛快、调参友好，适合 NLP/快速实验；SGD+momentum 在 CV 大模型上有时泛化更好但需精细调 lr。微调时常用较小 AdamW lr + warmup。

题库延伸：与本追问相关的专题题 → 梯度下降的原理是什么？SGD 和 Adam 有什么区别？

Question 3

weight_decay 和 L2 正则有何关系？

Accepted Answer

经典 L2 正则把 λ‖W‖² 加入 loss；AdamW 将权重衰减与梯度更新解耦，直接 shrink 权重，是 Transformer 训练的标准做法，效果通常优于在 Adam 里加 L2。

Question 4

如何只优化部分参数？

Accepted Answer

两种做法：构造 optimizer 时只传入要优化的参数子集，如 torch.optim.Adam(model.head.parameters(), lr=...)；或对要冻结的层设 param.requires_grad = False，让其不产生梯度。微调时常冻结 backbone、只训新加的分类头，二者也可结合 param_groups 给不同层不同 lr。

PyTorch 中的优化器是什么？如何使用？

核心要点

标准回答

常见误区

追问

延伸学习


优化器	特点	典型场景
SGD	简单，+momentum 加速	CV 经典训练
Adam	自适应学习率，收敛快	默认首选、NLP
AdamW	解耦权重衰减	Transformer 预训练
RMSprop	适应非平稳目标	RNN 历史常用