INT4 Quantization(INT4 量化)

就是把模型权重从 32 位小数压缩成只有 4 位的整数,相当于用更粗的尺子量东西,模型变小了但大部分能力还在。

亦作、亦称:INT4 量化 · 4-bit Quantization · 4位量化 · W4 量化 · INT4

INT4 量化通过将模型权重压缩至 4 位整数,实现约 8 倍内存节省与显著推理加速,是大语言模型低成本部署的关键技术。以 GPTQ 和 AWQ 为代表的先进算法将精度损失控制在极小范围,推动了百亿级模型在消费级硬件上的普及。

概述

INT4 量化是模型压缩领域的重要分支,专注于用 4 位整数表示原本 32 位或 16 位的浮点权重。

  • 核心目标:在可接受的精度损失范围内,将模型内存占用和推理延迟压缩至极致
  • 压缩效果:相比 FP32 节省约 87.5% 存储空间(8 倍),相比 FP16 节省 75%(4 倍),相比 INT8 节省 50%(2 倍)
  • 适用场景:大语言模型(LLM)边缘部署、移动端 AI、低显存服务器推理
  • 典型硬件支持:NVIDIA GPU(Turing 架构起)、Apple Silicon(ANE/Metal)、高通 Hexagon NPU

工作原理

INT4 量化的本质是将连续浮点空间映射到离散的 16 个整数格点(有符号 −8 到 7,或无符号 0 到 15)。

  • 线性量化:通过缩放因子(scale)和零点(zero-point)将浮点值映射到整数:q = round(x / scale) + zero_point
  • 逐通道量化(Per-channel):每个输出通道独立计算 scale,精度优于逐张量量化,是主流选择
  • 分组量化(Group Quantization):将权重按固定大小(如 128 个元素)分组,每组独立 scale,进一步提升精度
  • 后训练量化(PTQ):无需重新训练,通过校准数据集调整量化参数,GPTQ 和 AWQ 均属此类
  • 量化感知训练(QAT):在训练阶段模拟量化误差,精度更高但成本大

关键算法与变体

INT4 量化领域已形成多种主流算法,各有侧重。

  • GPTQ(2022):基于 Hessian 矩阵的逐层权重量化,用二阶梯度信息补偿量化误差,支持 3/4 位,首次使 175B 模型在单卡 INT4 推理成为可能
  • AWQ(2023):激活感知权重量化,识别约 1% 的关键权重通道并对其做缩放保护,再统一量化,在同等 bit 宽下精度优于 GPTQ,荣获 MLSys 2024 最佳论文
  • GGUF/llama.cpp 量化:面向 CPU 推理的 Q4_K_M 等格式,广泛用于本地部署(Ollama、LM Studio)
  • W4A8:权重 INT4 + 激活 INT8 的混合方案,兼顾存储节省与矩阵乘法加速
  • NF4(Normal Float 4):QLoRA 提出的非线性 4 位格式,针对正态分布权重设计,用于微调场景

应用场景

INT4 量化已广泛落地于 LLM 的生产推理与边缘部署。

  • 本地大模型运行:Llama 3 70B、Qwen2.5 72B 等模型经 INT4 量化后可在单张 24GB 消费级 GPU 运行
  • 移动端 AI:手机 SoC(如高通 Snapdragon、Apple A18)支持 4 位整数矩阵运算,实现端侧 LLM
  • 低成本云推理:vLLM、TensorRT-LLM 等框架支持 AWQ/GPTQ INT4,可将 GPU 利用率提升 2–3 倍
  • QLoRA 微调:以 NF4 量化基础模型后叠加 LoRA 适配器,在消费级 GPU 上微调 70B 模型
  • 边缘视觉推理:CNN 模型(如 ResNet、MobileNet)的 INT4 量化用于嵌入式视觉芯片

局限与误区

INT4 量化并非银弹,存在若干实际使用中的误区与限制。

  • 误区:INT4 = 简单截断:实际上 GPTQ/AWQ 等方法使用复杂补偿算法,朴素 INT4 在大模型上会有显著精度退化
  • 精度损失不可忽视:对推理、数学等需要精确计算的任务,INT4 量化模型表现可能明显弱于原始模型
  • 需要硬件内核支持:量化后模型若无针对性 CUDA/Metal 内核,实际推理速度可能不升反降
  • 校准数据敏感:校准集分布与目标任务差异过大会导致量化质量下降
  • 量化不等于加速:内存节省立竿见影,但计算加速取决于硬件对 INT4 算术的原生支持程度

发展脉络

INT4 量化的演进见证了大模型推理民主化的过程。

  • 2015–2019 年:早期 4 位量化研究集中于 CNN,精度损失较大,多用于嵌入式视觉
  • 2022 年:GPTQ 论文(arXiv:2210.17323)首次将 4 位权重量化成功应用于 GPT 系列超大模型,成为里程碑
  • 2023 年:AWQ 提出激活感知策略,精度进一步提升;QLoRA 引入 NF4,将 INT4 量化引入微调范式;llama.cpp 的 GGUF 格式推动本地 4 位模型普及
  • 2024 年:AWQ 获 MLSys 最佳论文,vLLM/TensorRT-LLM 原生支持 INT4;主流模型(Llama 3、Mistral、Qwen)开始随模型发布提供 AWQ/GPTQ 版本
  • 2025–2026 年:W4A8 混合方案进入生产,移动端 LLM 推理成主流,INT4 成为端侧 AI 标准量化精度

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是把模型权重从 32 位小数压缩成只有 4 位的整数,相当于用更粗的尺子量东西,模型变小了但大部分能力还在。」
  • 「4-bit 量化让原本只能跑在数据中心的百亿大模型,塞进一张普通显卡甚至手机芯片里。」
  • 「INT4 不等于直接截断精度,GPTQ 和 AWQ 这类方法会用补偿算法把误差控制在可接受范围内。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    模型量化与压缩:从 FP32 到 INT4 的完整指南(ML 全场景)

    系统讲解模型量化与压缩的核心技术——从 PTQ/QAT 实战到知识蒸馏与结构化剪枝,涵盖 INT8、INT4 等主流方案在 ML 全场景的应用

  2. 2

    LLM 推理优化(一):量化、剪枝与蒸馏全面指南

    从 FP16 到 INT4 量化,从结构化剪枝到知识蒸馏,系统讲解大语言模型推理优化的三大核心技术路线,帮助你在成本与性能之间找到最优平衡点

  3. 3

    LLM 推理优化:量化、剪枝、蒸馏与推理加速实战

    系统讲解大语言模型推理优化的四大核心技术——量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)和推理引擎加速,覆盖从原理到实战的完整链路

外部参考

维基百科:查看「INT4 Quantization」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。