GPTQ

大模型后训练量化

亦作、亦称：GPT Quantization

GPTQ 是一种面向大型生成式预训练 Transformer 的训练后权重量化方法，通过利用近似二阶（Hessian）信息逐层补偿量化误差，可在数小时内将百亿级参数模型压缩至 3-4 比特，同时保持极低的精度损失。

概述

大语言模型参数量爆炸式增长，导致推理部署成本高昂，训练后量化（PTQ）成为无需重新训练即可压缩模型的关键手段。

训练后量化（PTQ）：模型训练完成后直接对权重进行低比特压缩，无需昂贵的量化感知训练（QAT）
OBQ 局限：此前的 Optimal Brain Quantization（OBQ）方法理论扎实但复杂度极高，压缩 175B 参数模型估计需耗时超 6 个月
工程需求：随着 GPT-3、OPT、BLOOM 等超大模型涌现，亟需能在数小时内完成压缩的实用方案
校准数据少：GPTQ 通常只需约 128 条样本估计 Hessian，无需完整训练数据集

GPTQ 在 OBQ 框架基础上引入三项关键改进，使量化效率提升超过三个数量级。

GPTQ 在精度与效率两方面均显著优于此前最优的一次性量化方法。

GPTQ 已成为本地大模型部署生态中最广泛使用的量化格式之一。

在训练后量化领域，GPTQ 与 AWQ、GGUF 量化及 QAT 各有侧重。

GPTQ vs AWQ：AWQ（Activation-aware Weight Quantization）关注激活异常值通道并对关键权重保护精度，量化速度更快；GPTQ 工具链更成熟、社区存量模型更多
GPTQ vs GGUF：GGUF 是 llama.cpp 采用的格式，主要面向 CPU 推理；GPTQ 面向 GPU 加速推理，两者格式不互通
GPTQ vs QAT：量化感知训练精度更高但需重新训练，成本远高于 GPTQ 的离线压缩路线
GPTQ vs bitsandbytes NF4：NF4（用于 QLoRA）无需预先 Hessian 计算，更便捷；GPTQ 在相同比特宽度下通常精度更优

GPTQ 并非万能，使用时需注意以下局限。

GPTQ 的二阶量化思路有深厚学术渊源，近年随开源 LLM 的普及迅速走红。

1990 年代：LeCun 等提出 Optimal Brain Damage，Hassibi 等提出 Optimal Brain Surgeon，奠定二阶剪枝与量化的理论基础
2022 年初：Frantar 等提出 OBQ（Optimal Brain Quantization），将经典框架现代化并扩展至大规模神经网络
2022 年 10 月：GPTQ 论文发布（arXiv:2210.17323），首次实现大规模 LLM 的实用一次性二阶 PTQ
2023 年：论文被 ICLR 2023 收录；AutoGPTQ、ExLlamaV2 工具成熟，Hugging Face Hub 上 GPTQ 量化模型规模迅速扩大
2024 年：AWQ 等方案形成竞争，但 GPTQ 凭借更成熟工具链继续保持广泛使用
2026 年：ISTA 团队发表后续工作，从格几何视角（Babai 最近平面算法）揭示 GPTQ 的数学本质，发表于 ICLR 2026

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。