INT4 Quantization（INT4 量化）

就是把模型权重从 32 位小数压缩成只有 4 位的整数，相当于用更粗的尺子量东西，模型变小了但大部分能力还在。

亦作、亦称：INT4 量化 · 4-bit Quantization · 4位量化 · W4 量化 · INT4

INT4 量化通过将模型权重压缩至 4 位整数，实现约 8 倍内存节省与显著推理加速，是大语言模型低成本部署的关键技术。以 GPTQ 和 AWQ 为代表的先进算法将精度损失控制在极小范围，推动了百亿级模型在消费级硬件上的普及。

概述

INT4 量化是模型压缩领域的重要分支，专注于用 4 位整数表示原本 32 位或 16 位的浮点权重。

核心目标：在可接受的精度损失范围内，将模型内存占用和推理延迟压缩至极致
压缩效果：相比 FP32 节省约 87.5% 存储空间（8 倍），相比 FP16 节省 75%（4 倍），相比 INT8 节省 50%（2 倍）
适用场景：大语言模型（LLM）边缘部署、移动端 AI、低显存服务器推理
典型硬件支持：NVIDIA GPU（Turing 架构起）、Apple Silicon（ANE/Metal）、高通 Hexagon NPU

工作原理

INT4 量化的本质是将连续浮点空间映射到离散的 16 个整数格点（有符号 −8 到 7，或无符号 0 到 15）。

线性量化：通过缩放因子（scale）和零点（zero-point）将浮点值映射到整数：q = round(x / scale) + zero_point
逐通道量化（Per-channel）：每个输出通道独立计算 scale，精度优于逐张量量化，是主流选择
分组量化（Group Quantization）：将权重按固定大小（如 128 个元素）分组，每组独立 scale，进一步提升精度
后训练量化（PTQ）：无需重新训练，通过校准数据集调整量化参数，GPTQ 和 AWQ 均属此类
量化感知训练（QAT）：在训练阶段模拟量化误差，精度更高但成本大

关键算法与变体

INT4 量化领域已形成多种主流算法，各有侧重。

GPTQ（2022）：基于 Hessian 矩阵的逐层权重量化，用二阶梯度信息补偿量化误差，支持 3/4 位，首次使 175B 模型在单卡 INT4 推理成为可能
AWQ（2023）：激活感知权重量化，识别约 1% 的关键权重通道并对其做缩放保护，再统一量化，在同等 bit 宽下精度优于 GPTQ，荣获 MLSys 2024 最佳论文
GGUF/llama.cpp 量化：面向 CPU 推理的 Q4_K_M 等格式，广泛用于本地部署（Ollama、LM Studio）
W4A8：权重 INT4 + 激活 INT8 的混合方案，兼顾存储节省与矩阵乘法加速
NF4（Normal Float 4）：QLoRA 提出的非线性 4 位格式，针对正态分布权重设计，用于微调场景

应用场景

INT4 量化已广泛落地于 LLM 的生产推理与边缘部署。

本地大模型运行：Llama 3 70B、Qwen2.5 72B 等模型经 INT4 量化后可在单张 24GB 消费级 GPU 运行
移动端 AI：手机 SoC（如高通 Snapdragon、Apple A18）支持 4 位整数矩阵运算，实现端侧 LLM
低成本云推理：vLLM、TensorRT-LLM 等框架支持 AWQ/GPTQ INT4，可将 GPU 利用率提升 2–3 倍
QLoRA 微调：以 NF4 量化基础模型后叠加 LoRA 适配器，在消费级 GPU 上微调 70B 模型
边缘视觉推理：CNN 模型（如 ResNet、MobileNet）的 INT4 量化用于嵌入式视觉芯片

局限与误区

INT4 量化并非银弹，存在若干实际使用中的误区与限制。

误区：INT4 = 简单截断：实际上 GPTQ/AWQ 等方法使用复杂补偿算法，朴素 INT4 在大模型上会有显著精度退化
精度损失不可忽视：对推理、数学等需要精确计算的任务，INT4 量化模型表现可能明显弱于原始模型
需要硬件内核支持：量化后模型若无针对性 CUDA/Metal 内核，实际推理速度可能不升反降
校准数据敏感：校准集分布与目标任务差异过大会导致量化质量下降
量化不等于加速：内存节省立竿见影，但计算加速取决于硬件对 INT4 算术的原生支持程度

发展脉络

INT4 量化的演进见证了大模型推理民主化的过程。

2015–2019 年：早期 4 位量化研究集中于 CNN，精度损失较大，多用于嵌入式视觉
2022 年：GPTQ 论文（arXiv:2210.17323）首次将 4 位权重量化成功应用于 GPT 系列超大模型，成为里程碑
2023 年：AWQ 提出激活感知策略，精度进一步提升；QLoRA 引入 NF4，将 INT4 量化引入微调范式；llama.cpp 的 GGUF 格式推动本地 4 位模型普及
2024 年：AWQ 获 MLSys 最佳论文，vLLM/TensorRT-LLM 原生支持 INT4；主流模型（Llama 3、Mistral、Qwen）开始随模型发布提供 AWQ/GPTQ 版本
2025–2026 年：W4A8 混合方案进入生产，移动端 LLM 推理成主流，INT4 成为端侧 AI 标准量化精度

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是把模型权重从 32 位小数压缩成只有 4 位的整数，相当于用更粗的尺子量东西，模型变小了但大部分能力还在。」
「4-bit 量化让原本只能跑在数据中心的百亿大模型，塞进一张普通显卡甚至手机芯片里。」
「INT4 不等于直接截断精度，GPTQ 和 AWQ 这类方法会用补偿算法把误差控制在可接受范围内。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「INT4 Quantization」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

INT4 Quantization（INT4 量化）

概述

工作原理

关键算法与变体

应用场景

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

模型量化与压缩：从 FP32 到 INT4 的完整指南（ML 全场景）

LLM 推理优化（一）：量化、剪枝与蒸馏全面指南

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

外部参考

概述

工作原理

关键算法与变体

应用场景

与相邻概念的区别

局限与误区

发展脉络

常见误解

相关术语

延伸阅读

模型量化与压缩：从 FP32 到 INT4 的完整指南（ML 全场景）

LLM 推理优化（一）：量化、剪枝与蒸馏全面指南

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

外部参考