模型压缩有哪些方法？剪枝、量化、蒸馏如何取舍？

Question 1

Accepted Answer

剪枝

去掉对输出贡献小的权重或结构。非结构化剪枝（单个权重置零）压缩率高但需硬件支持稀疏才能加速；结构化剪枝（整通道/整头）直接缩小矩阵，能在通用硬件上提速，通常剪枝后需微调恢复精度。

量化

把 FP32/FP16 权重和激活降到 INT8、INT4 等低精度，直接减少显存与带宽、提升吞吐。PTQ（训练后量化）无需重训、部署快，低比特时精度损失较大；QAT（量化感知训练）在训练中模拟量化误差，精度更高但成本高。

蒸馏

让小学生模型拟合大教师模型输出的软标签——软标签携带类别间的相对概率（暗知识），信息量大于硬标签，使小模型获得接近大模型的能力。

如何取舍

Question 2

蒸馏中的「软标签」为什么比硬标签更有用？

Accepted Answer

硬标签只给出正确类别，软标签是教师 softmax 输出的完整概率分布，携带了类别之间的相似关系（如「猫」对「狗」的概率高于对「汽车」），即暗知识。学生学习这种相对结构能更快收敛、泛化更好；常配合温度参数 T 软化分布以放大暗知识。

Question 3

INT4 量化为什么比 INT8 更难？

Accepted Answer

位宽越低可表示的数值越少，量化误差越大，尤其权重/激活中的离群值会被严重压缩，导致精度明显下降。INT4 通常需分组量化、离群值单独处理（如 AWQ、GPTQ）或量化感知训练等技术，才能在大模型上保持可接受的精度。

核心要点