Batch Size 的大小对训练有什么影响？BGD/SGD/MBGD 如何选？

Question 1

Accepted Answer

三种梯度下降 按每步用多少样本估计梯度区分：BGD（全量，方向最准但每步慢、占内存、难处理大数据），SGD（单样本，更新快、噪声大、不稳但有跳出局部极小的能力），MBGD（小批量，兼顾稳定性与效率，是深度学习实际使用的范式）。 Batch Size 的权衡 大 batch 让梯度估计更接近真实梯度，训练曲线平滑、GPU 并行利用率高、单 epoch 步数少；但它倾向收敛到「尖锐极小（sharp minima）」，泛化往往不如小 batch，且显存随 batch 线性增长。小 batch 的梯度噪声相当于一种正则化，常带来更好的泛化与更平坦的极小，代价是收敛慢、波动大。 学习率联动 batch 增大后单步梯度方差下降，需同步放大学习率（常用线性法则 $lr \propto B$ 或平方根法则）并加 warmup，否则大 batch 反而欠拟合。实践中先在显存允许范围内选 batch，再调学习率与 warmup。

Question 2

为什么大 batch 容易泛化变差？

Accepted Answer

大 batch 梯度噪声小，优化器更易滑入损失曲面上「尖锐」的极小点，这类极小对参数扰动敏感、对测试分布鲁棒性差；小 batch 的噪声则倾向于把解推向更「平坦」的极小，泛化更好。可用 LARS/LAMB、增大学习率与 warmup 等手段缓解。

Question 3

显存不够但想用大 batch 怎么办？

Accepted Answer

用梯度累积（gradient accumulation）：多个小 batch 的梯度累加后再更新一次，等效于大 batch；也可用混合精度、激活重计算降低显存，或数据并行把 batch 切到多卡上。

Batch Size 的大小对训练有什么影响？BGD/SGD/MBGD 如何选？

核心要点

标准回答

常见误区

追问

延伸学习