标准回答
PTQ(训练后量化)
在已训练好的模型上直接做量化,不需要重新训练。通过一个小规模校准集统计权重与激活的数值分布,确定缩放因子与零点。优点是快、工程成本低、不依赖训练管线;缺点是在 INT4 等低比特下可能明显掉点,对激活分布敏感的模型尤甚。
QAT(量化感知训练)
在训练(或微调)过程中插入伪量化算子,前向模拟量化的舍入与截断误差,让权重在训练中适应量化,从而把精度损失提前补偿。优点是精度更高、低比特更稳;缺点是需要重训、数据与算力成本高、流程更复杂。
如何选择
工程上优先 PTQ:成本低、迭代快,多数 INT8 场景够用。当目标是 INT4 等激进量化、或 PTQ 掉点超出业务容忍时,再升级到 QAT。配合逐通道量化、混合精度、对敏感层保留高精度,往往能在不上 QAT 的情况下挽回大部分精度。
常见误区
⚠️ 常见踩坑
PTQ 用与部署分布不一致或样本过少的校准集,会导致缩放因子失真、掉点放大;以及误以为「量化越低比特越好」,忽视 INT4 在小模型上的精度悬崖。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。