核心要点

  • 能讲清 PTQ:训练后直接量化,无需重训、上手快,靠校准集统计激活分布,代价是低比特下可能掉点

  • 能讲清 QAT:训练中插入伪量化算子模拟量化误差并反传,精度更高,代价是要重训、成本高

  • 能给选型逻辑:先做 PTQ,掉点可接受就用;INT4 等激进量化或精度要求高时再上 QAT

  • 能补充技巧:逐通道量化、混合精度、保留敏感层为高精度,可显著缓解掉点

标准回答

PTQ(训练后量化)

在已训练好的模型上直接做量化,不需要重新训练。通过一个小规模校准集统计权重与激活的数值分布,确定缩放因子与零点。优点是快、工程成本低、不依赖训练管线;缺点是在 INT4 等低比特下可能明显掉点,对激活分布敏感的模型尤甚。

QAT(量化感知训练)

在训练(或微调)过程中插入伪量化算子,前向模拟量化的舍入与截断误差,让权重在训练中适应量化,从而把精度损失提前补偿。优点是精度更高、低比特更稳;缺点是需要重训、数据与算力成本高、流程更复杂。

如何选择

工程上优先 PTQ:成本低、迭代快,多数 INT8 场景够用。当目标是 INT4 等激进量化、或 PTQ 掉点超出业务容忍时,再升级到 QAT。配合逐通道量化、混合精度、对敏感层保留高精度,往往能在不上 QAT 的情况下挽回大部分精度。

常见误区

⚠️ 常见踩坑

PTQ 用与部署分布不一致或样本过少的校准集,会导致缩放因子失真、掉点放大;以及误以为「量化越低比特越好」,忽视 INT4 在小模型上的精度悬崖。

追问

追问 1校准集应该怎么选?

应贴近真实部署分布、覆盖典型输入,通常几百到上千条无标注样本即可。样本太少或分布偏移会让激活范围估计失真,建议用逐通道/逐张量分位数裁剪离群值,避免少数极端激活拉大量化范围。

追问 2GPTQ、AWQ 这类方法属于 PTQ 还是 QAT?

属于 PTQ 范畴的高级权重量化方法:无需完整重训,仅用少量校准数据。GPTQ 基于二阶信息逐层最小化量化误差,AWQ 按激活幅度保护重要权重通道,二者在 INT4 大模型上掉点远小于朴素 PTQ,是端侧/低显存部署常用方案。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。