AWQ

保护重要激活的量化

亦作、亦称：Activation-aware Weight Quantization

AWQ（Activation-aware Weight Quantization）是专为大语言模型设计的训练后权重量化方法，通过识别并优先保护对激活输出贡献最大的关键权重通道，在将模型压缩到 INT4 等低比特格式时将精度损失降到最低。该方法由 MIT HAN Lab 韩松团队于 2023 年提出，荣获 MLSys 2024 最佳论文奖，已成为本地推理和边缘部署的主流量化方案之一。

概述

AWQ 属于 训练后量化（PTQ） 范畴，无需重新训练，只需少量校准数据即可完成。

-目标：将模型权重从 FP16/BF16 压缩为 INT4，显著降低显存占用与推理延迟。
- 核心发现：权重矩阵中仅约1% 的通道对最终输出贡献极大，这些「重要通道」对应高激活值（large activation）。
-保护策略：仅对重要通道施以特殊缩放保护，而非均匀量化所有通道，从而在相同压缩比下大幅减少精度损失。
- 无额外推理开销：缩放变换在离线量化阶段一次性完成，推理时模型仍以低比特整数存储，直接解包参与矩阵乘法。
-校准门槛低：只需少量（通常数百条）代表性文本样本即可统计激活分布，远低于量化感知训练（QAT）的要求。

工作原理

AWQ 的量化流程分为三步，核心是「等效缩放」变换，保证数学等价性。

第一步——激活统计：在校准集上前向传播，记录每个权重通道对应的平均激活幅度，识别出高激活通道（即「重要通道」）。
第二步——通道缩放：对重要权重通道乘以放大系数 s，使其在 INT4 网格上获得更高的相对精度；同时对对应激活除以相同的 s，保持矩阵乘法输出不变——这是 AWQ 的等效变换关键。
第三步——量化存储：对缩放后的权重执行均匀 INT4 量化，以低比特格式写入磁盘。
无需反向传播：与 GPTQ 不同，AWQ 不依赖二阶泰勒展开，无需求解 Hessian 矩阵，量化速度更快，单 GPU 数分钟内可完成 7B 模型量化。
分组量化：实践中常配合 group quantization（常见 group size 为 128）进一步细化保护粒度，以提升精度。

主要实现与生态

AWQ 发布后迅速被主流推理框架和社区采纳，形成完整工具链。

llm-awq：MIT HAN Lab 官方参考实现，随论文同步开源，最早支持 LLaMA 系列模型。
AutoAWQ：社区维护的高层封装库，与 Hugging Face transformers 深度集成，支持 LLaMA 3、Qwen、Mistral 等主流开源模型，是实际使用最广泛的方案。
vLLM：原生支持加载 AWQ 量化模型，可结合 continuous batching 实现高吞吐生产部署。
TGI（Text Generation Inference）：Hugging Face 官方推理服务器支持 AWQ 格式。
TinyChat：由论文作者团队随 AWQ 一同发布的轻量推理框架，针对 4-bit 模型在桌面端和移动 GPU 上提供超过 3 倍于 FP16 的加速。
Hugging Face Hub：大量热门模型均有社区发布的 AWQ 预量化版本，可直接下载部署。

应用场景

AWQ 主要解决「大模型跑在小硬件」的部署问题。

消费级单卡部署：70B 参数模型经 AWQ INT4 量化后约需 35 GB 显存，可运行在单张 RTX 4090（24 GB）或双卡配置上；13B 模型可在 8 GB 显存卡流畅运行。
本地离线推理：配合 ollama、llama.cpp 或 LM Studio 等工具，用户无需联网即可在个人电脑上运行量化模型。
边缘设备：通过 MLC LLM 等框架，AWQ 量化模型可部署到移动端 NPU 或嵌入式 GPU。
云端降本：同等显存下，INT4 量化模型可承载更大的 batch size，提升吞吐量（throughput），降低单 token 推理成本。

与相邻概念的区别

AWQ 常与其他量化方法混淆，以下是主要对比。

AWQ vs GPTQ：GPTQ 基于二阶泰勒展开逐层最小化量化误差，计算成本高；AWQ 依赖激活统计做通道缩放，速度更快，相同比特宽度下精度通常持平或略优。
AWQ vs QAT：量化感知训练（QAT）需完整反向传播，精度上限更高但成本极大；AWQ 无需训练，适合资源受限场景。
AWQ vs GGUF/Q4_K_M：GGUF 是 llama.cpp 专用格式，针对 CPU 及异构设备优化；AWQ 专为 CUDA GPU 矩阵乘法加速设计，面向不同硬件目标。
AWQ vs SmoothQuant：SmoothQuant 同时量化权重和激活值，主攻 INT8 推理；AWQ 只量化权重（激活保持高精度），主攻 INT4 权重压缩。

局限与误区

AWQ 并非万能，使用时需注意以下边界条件。

仅量化权重，不压缩激活：KV Cache 仍以 FP16 存储，在长上下文（long context）推理时显存节省效果打折扣。
校准集依赖：若校准数据分布与实际推理数据差异较大，重要通道识别可能不准，导致精度下降超预期。
高精度任务损失明显：数学推理、代码生成等对精度敏感的任务在 4-bit 量化后可能出现较明显的性能下降。
需要专用 CUDA kernel：AWQ 的高效整数矩阵乘法依赖定制 GEMM kernel，并非所有推理框架都直接兼容，移植成本存在。
误区——AWQ ≠ 无损压缩：量化是有损操作，AWQ 只是在同等压缩比下尽量减少损失，不能保证与原模型输出完全等价。

发展脉络

2022 年底：LLaMA 等开源大模型兴起，消费级硬件部署需求急剧增长，GPTQ 成为首批广泛使用的 PTQ 方案之一。
2023 年 6 月：MIT HAN Lab 发布 AWQ 论文（arXiv:2306.00978），提出激活感知的通道保护策略，量化速度更快且精度持平或更优；随论文同步开源 llm-awq 和 TinyChat。
2023 年下半年：AutoAWQ 作为高层封装库发布，大幅降低使用门槛；vLLM、TGI 相继加入原生 AWQ 支持。
2024 年初：AWQ 论文在 MLSys 2024 荣获最佳论文奖，标志其在学术界和工业界的双重认可。
2024 年：随着 LLaMA 3、Qwen2、Mistral 等新模型发布，AWQ 预量化权重在 Hugging Face Hub 上大量涌现，成为本地部署的主流格式之一。
2024—2025 年：AWQ 与 KV Cache 量化、投机解码（speculative decoding） 等技术组合使用，进一步压榨推理效率。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「保护重要激活的量化」
「INT4 部署常见方案」
「低比特精度保持更好」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

AWQ

概述

工作原理

主要实现与生态

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

模型量化与压缩：从 FP32 到 INT4 的完整指南（ML 全场景）

端侧 AI 技术路线：从 NPU 到 Agent 的完整指南

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

觉得内容有帮助？请站长喝杯咖啡 ☕