如何在 PyTorch 中实现学习率调度？

Question 1

Accepted Answer

学习率调度是稳定训练、提升收敛质量的关键技巧。PyTorch 通过 torch.optim.lr_scheduler 实现。 常见调度器： 调度器 行为 场景 -------- ------ ------ StepLR 每 N epoch lr × γ 基础衰减 MultiStepLR 指定 milestone 衰减 CV 经典 CosineAnnealingLR 余弦退火至 η_min Transformer 微调 OneCycleLR 先升后降单周期 快速收敛 ReduceLROnPlateau 验证指标停滞时降 lr 自适应 示例： ``python optimizer = torch.optim.SGD(model.parameters(), lr=0.1) scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=100) for epoch in range(100): train_one_epoch() scheduler.step() # 通常每个 epoch 末 `` Warmup：大模型训练常先线性增大 lr 再衰减，可用 LambdaLR 或 HuggingFace get_scheduler 实现，避免初期大梯度破坏预训练权重。 详见 深度学习训练技巧。

Question 2

scheduler.step() 放在 epoch 内还是 epoch 外？

Accepted Answer

取决于调度器设计：StepLR、CosineAnnealingLR、MultiStepLR 按 epoch 衰减，放 epoch 循环末尾；OneCycleLR、按 step 的 cosine warmup 则放在每个 batch 的 optimizer.step() 之后。ReduceLROnPlateau 特殊，需传入验证指标 scheduler.step(val_loss)，通常每 epoch 验证后调用。

Question 3

Cosine 和 Step 衰减如何选？

Accepted Answer

Cosine 平滑连续下降到 η_min，无需手调衰减点，是 Transformer 训练和现代默认；Step/MultiStepLR 在指定 epoch 阶梯式 ×γ，可控性强、复现经典 CV 论文（如 ResNet 在 30/60/90 epoch 降 lr）时常用。不确定时优先 Cosine + warmup。

Question 4

ReduceLROnPlateau 监控什么指标？

Accepted Answer

默认监控传入的 metric（通常验证 loss），若 mode="min" 且若干 epoch 无下降则 lr × factor。注意过拟合验证集时盲目降 lr 可能欠拟合。

如何在 PyTorch 中实现学习率调度？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


调度器	行为	场景
StepLR	每 N epoch lr × γ	基础衰减
MultiStepLR	指定 milestone 衰减	CV 经典
CosineAnnealingLR	余弦退火至 η_min	Transformer 微调
OneCycleLR	先升后降单周期	快速收敛
ReduceLROnPlateau	验证指标停滞时降 lr	自适应