核心要点

  • 显存四块构成:模型参数 + 梯度 + 优化器状态 + 激活,全量微调时优化器状态和梯度是大头。

  • 全量微调约 16-20 字节/参数:7B 约需 120-160GB(要多卡),70B 要上 T 级显存(需多机)。

  • LoRA 只训少量适配器参数,梯度和优化器状态骤降;QLoRA 再把基座量化到 4bit,显存进一步大降。

  • QLoRA 量级:7B 单张 10-16GB 消费卡(如 RTX 4090)可跑,70B 单张 48-80GB(A100/A6000)即可。

标准回答

先讲显存怎么构成

微调显存大致由四部分组成:模型参数 + 梯度 + 优化器状态 + 激活值。全量微调时,每个参数都要存梯度(和参数等大)、还要存 AdamW 的两份优化器状态,所以单位成本很高;混合精度下粗算约 16-20 字节/参数。激活值则随 batch size 和序列长度增长。

全量微调的量级

  • 7B 全量:按约 16-20 字节/参数,光参数+梯度+优化器状态就约 112-140GB,再加上激活,实际通常需 120-160GB 以上,单张卡放不下,需要多张 A100/H100 配 ZeRO/FSDP 切分。
  • 70B 全量:直接放大到 上 T 级显存(约 1-1.4TB),必须多机多卡分布式训练,是大团队/大集群才做的事。

LoRA / QLoRA 怎么把显存打下来

  • LoRA:冻结基座,只训练插入的低秩适配器,需要梯度和优化器状态的参数量从「全部」降到「极少数」,优化器状态显存几乎可以忽略,但基座权重仍要常驻显存。
  • QLoRA:在 LoRA 基础上,把冻结的基座量化到 4bit 加载,基座显存再砍掉一大半,是当前单卡微调的主流方案。

对照与硬件建议

方案 7B 70B
全量微调 约 120-160GB,多张 A100/H100 约 1T+,多机多卡
LoRA(fp16 基座) 约 20-30GB,单张 A100 40GB 约 160GB+,多卡
QLoRA(4bit 基座) 约 10-16GB,RTX 4090/3090 消费卡 约 48-80GB,单张 A6000/A100

一句话结论:想用消费级单卡微调 7B,走 QLoRA;想单卡碰 70B,QLoRA + 48-80GB 专业卡基本够;要做 70B 全量,准备多机集群。

常见误区

⚠️ 常见踩坑

别只用「参数量 × 字节数」估参数本身就以为是全部显存——全量微调真正吃显存的是梯度和优化器状态(AdamW 每参数多两份状态),它们常常比模型权重还大;也别忽略激活值,长上下文、大 batch 时激活能占很大一块,可以靠梯度检查点(gradient checkpointing)和梯度累积来压。还有个常见误解:QLoRA 把基座量化到 4bit 不代表精度大幅下降,配合 LoRA 适配器在多数任务上效果接近全量微调。

追问

追问 1为什么 QLoRA 能在一张 24GB 消费卡上微调 7B?

因为它从三处同时省:一是把冻结的基座权重量化到 4bit 加载,7B 基座从约 14GB(fp16)降到约 4-5GB;二是只训练低秩 LoRA 适配器,可训练参数只占百分之一量级,梯度和优化器状态显存几乎可以忽略;三是常配 8-bit 优化器和梯度检查点进一步压激活。三者叠加,7B 的总显存能压到 10-16GB,一张 RTX 4090/3090 就能跑。代价是反向传播时要把 4bit 权重反量化,速度略有损失。

追问 2激活值显存怎么估?有什么手段降低?

激活显存大致正比于 batch size × 序列长度 × 隐藏维度 × 层数,长上下文和大 batch 时会迅速膨胀,有时甚至超过参数本身。主要手段:梯度检查点(gradient checkpointing)只保存部分激活、反向时重算,用算力换显存,通常能省一大半激活;其次是减小 batch、用梯度累积补回有效 batch;再就是 FlashAttention 这类省显存的注意力实现。这些是长序列微调时能不能跑起来的关键。

追问 3LoRA 已经很省了,QLoRA 相比 LoRA 的取舍是什么?

LoRA 的基座仍以 fp16 常驻,7B 约 14GB、70B 约 140GB,所以 70B LoRA 单卡还是放不下;QLoRA 把基座压到 4bit,70B 基座降到约 35-40GB,配 48-80GB 的卡就能单卡微调,这是它最大价值。取舍在于:QLoRA 反向要反量化、训练速度比 LoRA 略慢,极端精度敏感任务上可能有微小差距。一般原则是——显存够就用 LoRA 求快,显存紧或要单卡上大模型就用 QLoRA。

🔗 相似问题

同一考点的不同问法,面试官可能换着问,一起刷更稳

没找到想看的面试题?把你想看的告诉我们 →

延伸学习

按主题分类的相关资源,便于系统复习