标准回答
参数量估算
单层 Transformer:注意力的 Q/K/V/O 四个投影约 4d²,FFN 升降维(通常 4d 中间维)约 8d²,合计约 12d²。L 层主体参数量约 12·L·d²,词嵌入另计 V·d。例如 d=4096、L=32 时约 12×32×4096²≈6.4B(不含嵌入)。
训练显存的四个组成
- 参数:模型权重本身;
- 梯度:与参数等量;
- 优化器状态:Adam 为每个参数维护一阶动量 m 和二阶动量 v;
- 激活:前向缓存、随 batch×序列长度×层数增长。
混合精度下的经验值
每参数约需:fp16 权重 2B + fp16 梯度 2B + fp32 主权重 4B + Adam 的 m、v 各 4B,合计约 16 字节/参数。即仅模型态就需约 16×参数量字节,激活另算。
降显存手段
常见误区
⚠️ 常见踩坑
只按「参数×精度字节数」估显存而漏掉梯度、Adam 双动量与激活;忘记 Adam 的优化器状态往往是参数显存的数倍,是大模型显存的主要来源之一。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
📖 术语表
🛠️ AI 工具
- DeepSpeed
深度学习训练优化库,42,156+ stars。微软开发的开源深度学习优化库,提供 ZeRO 内存优化、3D 并行等核心技术,大幅降低大模型训练成本