Batch Size（批量大小）

batch size 就是每次喂给模型多少条数据，然后才更新一次权重。

亦作、亦称：批量大小 · Mini-batch Size · 批大小 · 批次大小

Batch Size 决定了每次梯度更新所使用的样本数量，是深度学习训练效率与泛化能力之间最核心的权衡旋钮。合理选择 batch size 对模型收敛速度、显存使用和最终精度均有显著影响。

概述

Batch Size 是深度学习训练流程中控制每次参数更新所用样本数的超参数。

每个训练步骤（step）由以下流程组成。

Batch size 的选择深刻影响训练动态与最终模型质量。

在实际落地时，batch size 的配置需结合硬件与任务综合考量。

2 的幂次：选 32、64、128 等值可最大化 GPU 内存对齐与 CUDA 并行效率
梯度累积（Gradient Accumulation）：在显存受限时，将多个小 batch 的梯度累加后再更新，等价于大 batch
动态 batch size：部分训练框架支持 warmup 阶段从小 batch 逐步增大，兼顾早期稳定与后期效率
LLM 训练：以 token 数而非样本数度量，典型值为 0.5M～4M tokens/step
BatchNorm 敏感性：极小的 batch size（<4）会导致 Batch Normalization 统计量不稳定，需改用 LayerNorm 或 GroupNorm

Batch size 常与其他训练超参数混淆，需注意区分。

Batch size vs. 学习率：两者需联动调整，batch size 增大时通常需同步提高学习率
Batch size vs. Epoch：epoch 是全量数据遍历次数，batch size 决定每个 epoch 内的更新步数（steps = N / B）
Mini-batch vs. 在线学习：在线学习（online learning）batch size 为 1，但侧重实时更新而非批量优化
Batch size vs. 序列长度：在 Transformer 中，序列长度和 batch size 共同决定显存消耗，两者需联合权衡

围绕 batch size 存在若干常见误解，需谨慎对待。

Batch size 的研究随深度学习的规模扩张而不断演进。

1980s：反向传播算法确立，早期多用全量批次或单样本更新
1990s～2000s：LeCun 等人推广 Mini-batch SGD，验证其在实践中的高效性
2012：AlexNet 使用 128 的 batch size 在 GPU 上训练，标志大规模 mini-batch 训练范式成熟
2017：Keskar et al. 发表 ICLR 论文，系统揭示大 batch 训练的泛化差距与尖锐极小值问题
2017：Goyal et al.（Facebook）提出 Linear Scaling Rule，成功将 ResNet 的 batch size 扩展到 8192
2020s：LLM 预训练采用超大 batch（百万 token 级），配合学习率调度与梯度裁剪实现稳定训练

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。