模型量化部署（PTQ 与 QAT）如何选择？

Question 1

Accepted Answer

PTQ（训练后量化） 在已训练好的模型上直接做量化，不需要重新训练。通过一个小规模校准集统计权重与激活的数值分布，确定缩放因子与零点。优点是快、工程成本低、不依赖训练管线；缺点是在 INT4 等低比特下可能明显掉点，对激活分布敏感的模型尤甚。 QAT（量化感知训练） 在训练（或微调）过程中插入伪量化算子，前向模拟量化的舍入与截断误差，让权重在训练中适应量化，从而把精度损失提前补偿。优点是精度更高、低比特更稳；缺点是需要重训、数据与算力成本高、流程更复杂。 如何选择 工程上优先 PTQ：成本低、迭代快，多数 INT8 场景够用。当目标是 INT4 等激进量化、或 PTQ 掉点超出业务容忍时，再升级到 QAT。配合逐通道量化、混合精度、对敏感层保留高精度，往往能在不上 QAT 的情况下挽回大部分精度。

Question 2

校准集应该怎么选？

Accepted Answer

应贴近真实部署分布、覆盖典型输入，通常几百到上千条无标注样本即可。样本太少或分布偏移会让激活范围估计失真，建议用逐通道/逐张量分位数裁剪离群值，避免少数极端激活拉大量化范围。

Question 3

GPTQ、AWQ 这类方法属于 PTQ 还是 QAT？

Accepted Answer

属于 PTQ 范畴的高级权重量化方法：无需完整重训，仅用少量校准数据。GPTQ 基于二阶信息逐层最小化量化误差，AWQ 按激活幅度保护重要权重通道，二者在 INT4 大模型上掉点远小于朴素 PTQ，是端侧/低显存部署常用方案。

模型量化部署（PTQ 与 QAT）如何选择？

核心要点

标准回答

常见误区

追问

延伸学习