模型量化与压缩：从 FP32 到 INT4 的完整指南（ML 全场景）

💡

文章摘要

系统讲解模型量化与压缩的核心技术——从 PTQ/QAT 实战到知识蒸馏与结构化剪枝，涵盖 INT8、INT4 等主流方案在 ML 全场景的应用

1为什么模型需要量化与压缩

2026 年，大语言模型已经成为 AI 基础设施的核心，但模型体积的爆炸式增长与实际部署需求之间的矛盾也日益突出。GPT-4 级别的模型拥有超过 1.7 万亿参数，即使以 FP16 精度存储也需要 3.4 TB 显存。这对于绝大多数应用场景来说是不可接受的。

模型量化与压缩的核心目标是在尽可能保持精度的前提下，大幅降低模型的计算和存储开销。这不是一个单纯的工程优化问题，而是涉及数学、硬件架构和算法设计的交叉领域。

量化（Quantization）是将模型中的高精度浮点数（如 FP32）映射到低精度整数（如 INT8、INT4）的过程。压缩（Compression）则包含更广泛的技术：剪枝（Pruning）、知识蒸馏（Knowledge Distillation）、低秩分解（Low-Rank Decomposition）等。这些技术通常组合使用，才能达到最优的效果。

2026 年的量化技术已经非常成熟：LLaMA 3 级别的模型可以在 INT4 精度下保持 95% 以上的原始精度，且推理速度提升 3-4 倍。这使得在消费级 GPU 甚至手机上运行大模型成为可能。

图表加载中…

💡 一句话理解

在开始量化之前，先明确你的部署目标：是追求极致推理速度（INT8），还是追求极致体积缩减（INT4），或者需要在边缘设备上运行（INT4 + 剪枝）。不同的目标决定了不同的技术路线。

⚠️ 常见踩坑

量化不总是无损的。INT8 量化通常可以保持 98%+ 的原始精度，但 INT4 量化可能导致 5-15% 的精度下降。在量化后必须进行充分的验证，确保精度下降在可接受范围内。

2量化的数学基础：从连续到离散的映射

量化的本质是一个数学映射问题：如何将连续的高精度数值空间映射到离散的低位数值空间，同时最小化信息损失。

仿射量化（Affine Quantization）是最常用的量化方法。它的核心公式是：将实数 x 映射到整数 q，公式为 q = round(x / scale) + zero_point。其中 scale 是缩放因子，zero_point 是零点偏移。这个公式看似简单，但scale 和 zero_point 的选择直接决定了量化后的精度。

对称量化是仿射量化的特例，zero_point 固定为 0，公式简化为 q = round(x / scale)。对称量化的计算更简单，但在数据分布不对称时（如 ReLU 后的激活值），精度损失更大。

per-tensor 量化对整个张量使用同一组 scale 和 zero_point，而per-channel 量化对每个通道（如卷积核的每个输出通道）独立计算量化参数。per-channel 量化的精度显著优于 per-tensor 量化，因为不同通道的数值分布差异很大。

理解这些基础概念是选择量化策略的前提。2026 年的主流框架（PyTorch、TensorRT、GGUF）默认使用 per-channel 对称量化，因为这在精度和性能之间取得了最佳平衡。

图表加载中…

python

import numpy as np

def affine_quantize(x: np.ndarray, n_bits: int = 8):
    """将浮点数组量化为 n_bits 整数"""
    # 确定量化范围
    qmin = -(2 ** (n_bits - 1))      # INT8: -128
    qmax = 2 ** (n_bits - 1) - 1     # INT8: 127
    
    # 计算缩放参数
    x_min, x_max = x.min(), x.max()
    scale = (x_max - x_min) / (qmax - qmin)
    zero_point = round(-x_min / scale)
    
    # 量化
    q = np.clip(np.round(x / scale) + zero_point, qmin, qmax)
    return q.astype(np.int8), scale, zero_point

def dequantize(q: np.ndarray, scale: float, zero_point: int):
    """将量化值反量化回浮点"""
    return (q.astype(np.float32) - zero_point) * scale

# 示例：量化一个权重张量
weights = np.random.randn(64, 64).astype(np.float32)
q_weights, scale, zp = affine_quantize(weights, n_bits=8)
recovered = dequantize(q_weights, scale, zp)

# 精度损失
mse = np.mean((weights - recovered) ** 2)
print(f"量化 MSE: {mse:.6f}")  # 通常 < 0.001

💡 一句话理解

per-channel 量化比 per-tensor 量化的精度通常高 1-3 个百分点。对于卷积层和线性层，始终优先使用 per-channel 量化。

⚠️ 常见踩坑

不要对 BatchNorm 层的 running_mean 和 running_var 进行量化——它们是统计量，不是权重，量化后会破坏归一化效果。

3训练后量化（PTQ）：最快的压缩方案

训练后量化（Post-Training Quantization, PTQ）是最简单、最快速的量化方法——不需要重新训练模型，只需要少量的校准数据就能完成量化。

PTQ 的工作流程是：首先在少量校准数据（通常 100-1000 条样本）上运行模型，收集每个张量的激活值分布；然后根据这些统计信息计算每个张量的最优量化参数（scale 和 zero_point）；最后将模型权重和激活值都转换为低精度格式。

PTQ 的核心挑战是激活值的量化。权重是静态的，可以精确分析其数值分布。但激活值在推理时是动态的，不同的输入会产生不同的激活值分布。PTQ 需要通过校准数据来估计激活值的全局范围。

2026 年，PTQ 已经是 INT8 量化的默认方案。对于大多数模型，PTQ INT8 的精度损失在 1% 以内，推理速度提升 2-3 倍。但 PTQ 在 INT4 精度下效果较差——精度损失通常超过 5%，因为 INT4 的量化间隔更大，信息损失更严重。

PTQ 最适合的场景：模型已经训练完成且不想重新训练；推理延迟要求不是极致；目标精度是 INT8 而非 INT4。

图表加载中…

python

import torch
import torch.quantization
from torch.utils.data import DataLoader

# 1. 加载预训练模型
model = load_pretrained_model()
model.eval()

# 2. 设置量化配置
model.qconfig = torch.quantization.get_default_qconfig('fbgemm')

# 3. 插入量化/反量化节点
torch.quantization.prepare(model, inplace=True)

# 4. 校准：在少量数据上运行推理
calib_loader = get_calibration_data(num_samples=500)
with torch.no_grad():
    for batch in calib_loader:
        model(batch)  # 收集激活值统计

# 5. 转换：将模型转换为量化格式
torch.quantization.convert(model, inplace=True)

# 6. 验证精度
accuracy = evaluate(model, test_loader)
print(f"PTQ INT8 精度: {accuracy:.4f}")

# 7. 保存量化模型
torch.jit.save(torch.jit.script(model), "model_int8.pt")

💡 一句话理解

校准数据的质量和数量直接影响 PTQ 的精度。建议使用 500-1000 条具有代表性的样本，覆盖真实数据的分布。不要只用训练集的前 100 条——那可能没有代表性。

⚠️ 常见踩坑

PTQ 对模型中的异常值非常敏感。如果某个张量中有极大的激活值，会导致 scale 过大，大部分数值被量化到同一个整数值，精度急剧下降。可以使用 outlier-aware 量化策略来处理。

4量化感知训练（QAT）：精度最高的量化方案

量化感知训练（Quantization-Aware Training, QAT）是在训练过程中模拟量化误差，让模型"学会"在低精度下工作的技术。

QAT 的核心思想是在前向传播中插入伪量化节点（Fake Quantize）：这些节点在前向传播中模拟量化过程（将浮点数四舍五入为整数再转回浮点数），但在反向传播中使用直通估计器（Straight-Through Estimator, STE）传递梯度。这样模型在训练时就"体验"了量化带来的精度损失，并学会补偿它。

QAT 的流程是：首先加载一个预训练的 FP32 模型；然后在模型中插入伪量化节点；接着用完整的训练数据（或微调数据）进行若干轮训练；最后将伪量化节点转换为真正的量化节点。

QAT 的精度显著优于 PTQ——在 INT8 下，QAT 通常可以保持 99%+ 的原始精度；在 INT4 下，QAT 的精度损失可以控制在 3% 以内，而 PTQ 的损失通常在 5-15%。

2026 年，QAT 是 INT4 量化的标准方案。虽然需要重新训练（或微调），但精度优势明显。对于生产环境中的关键模型，QAT 是推荐的量化路径。

图表加载中…

python

import torch
import torch.quantization

# 1. 加载预训练模型
model = load_pretrained_model()
model.train()

# 2. 设置 QAT 配置
model.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')

# 3. 准备 QAT：插入伪量化节点
torch.quantization.prepare_qat(model, inplace=True)

# 4. 量化感知微调（通常 5-10 轮就够了）
optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)
for epoch in range(5):
    for batch, labels in train_loader:
        optimizer.zero_grad()
        output = model(batch)
        loss = criterion(output, labels)
        loss.backward()
        optimizer.step()

# 5. 转换为推理模式并真正量化
model.eval()
torch.quantization.convert(model, inplace=True)

# 6. 验证
accuracy = evaluate(model, test_loader)
print(f"QAT INT8 精度: {accuracy:.4f}")

💡 一句话理解

QAT 微调时建议使用较小的学习率（原始学习率的 1/10 到 1/100），因为模型已经接近最优，只需要微调来适应量化噪声。

⚠️ 常见踩坑

QAT 需要训练数据和计算资源。如果模型非常大（如 70B 参数的 LLM），QAT 可能需要多张 GPU 运行数天。在这种情况下，可以考虑 LoRA-QAT 等参数高效方法。

5INT4 量化：大模型压缩的终极方案

INT4 量化将每个参数压缩到 4 位，相比 FP32 体积减小 8 倍，相比 FP16 减小 4 倍。这是目前大语言模型压缩的极限精度——再低（如 INT2、INT1）会导致严重的精度崩溃。

INT4 量化的核心挑战在于4 位只能表示 16 个不同的值，而 FP32 可以表示约 43 亿个不同的值。这种极端的离散化意味着量化策略的选择变得至关重要。

GGUF 格式是 2026 年最流行的 INT4 量化格式，由 llama.cpp 项目开发。GGUF 使用group-wise 量化策略：每 32 或 64 个权重为一组，独立计算量化参数。这种方式比 per-tensor 量化精细得多，能有效处理权重分布的不均匀性。

QLoRA是另一种重要的 INT4 量化方案：先将 LLM 量化到 INT4，然后使用低秩适配器（LoRA）在 INT4 模型上进行微调。QLoRA 使得在单张 24GB GPU 上微调 65B 参数模型成为可能，这是 2023-2026 年 AI 民主化的关键技术之一。

2026 年的 INT4 量化实践表明：对于 7B-70B 参数的 LLM，INT4 量化的精度损失通常在 3-8% 范围内，具体取决于模型架构和量化策略。对于推理场景，INT4 是一个性价比极高的选择。

图表加载中…

python

from transformers import AutoModelForCausalLM, BitsAndBytesConfig
import torch

# 配置 INT4 量化
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",       # 归一化浮点 4 位
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,  # 双重量化，进一步压缩
)

# 加载 INT4 量化模型
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3-70B",
    quantization_config=bnb_config,
    device_map="auto",
)

# 模型已以 INT4 精度加载到 GPU
# 显存占用：FP16 需要 ~140GB，INT4 只需 ~35GB
print(f"模型显存: {model.get_memory_footprint() / 1e9:.1f} GB")

# 可以直接用于推理
output = model.generate(**inputs, max_new_tokens=100)

bash

# 将 HuggingFace 模型转换为 GGUF 格式
python convert-hf-to-gguf.py meta-llama/Llama-3-8B \
    --outfile llama-3-8b-f16.gguf

# 量化到 INT4（Q4_K_M 是推荐的平衡方案）
./quantize llama-3-8b-f16.gguf llama-3-8b-q4_k_m.gguf Q4_K_M

# Q4_K_M vs Q4_0 vs Q5_K_M 对比：
# Q4_0: 最简单，精度最低
# Q4_K_M: 推荐方案，精度和体积平衡
# Q5_K_M: 精度更高，体积稍大

# 查看量化后大小
ls -lh llama-3-8b-*.gguf
# f16: ~16GB, q4_k_m: ~4.9GB (压缩 3.3x)

💡 一句话理解

对于 LLM 的 INT4 量化，推荐使用 NF4（Normalized Float 4）而不是普通的 INT4。NF4 针对神经网络权重的正态分布进行了优化，精度比普通 INT4 高 1-2 个百分点。

⚠️ 常见踩坑

INT4 量化不适用于所有模型。小型模型（< 1B 参数）在 INT4 下精度损失会非常严重，因为每个参数承载的信息量更大。INT4 最适合 7B 以上的大模型。

6知识蒸馏：让小模型继承大模型的能力

知识蒸馏（Knowledge Distillation）是一种不同的压缩思路：不直接修改原模型，而是训练一个更小的模型来模仿大模型的行为。

知识蒸馏的核心机制是让小模型（Student）不仅学习真实标签（Hard Labels），还学习大模型（Teacher）的输出概率分布（Soft Labels）。Soft Labels 包含了比 Hard Labels 更丰富的信息——它不仅告诉你正确答案是什么，还告诉你哪些答案是"接近正确"的。

蒸馏过程中使用温度参数（Temperature）来软化 Teacher 的输出分布。温度越高，分布越平滑，Student 能学到的"暗知识"越多。训练完成后，Student 模型以正常的温度（T=1）进行推理。

2026 年，知识蒸馏是大模型压缩的主流方案之一：DistilBERT 在保持 BERT 97% 精度的同时将体积减半；TinyLlama 通过蒸馏从 LLaMA 2 继承了大部分能力，但体积只有 1.1B 参数。

蒸馏 + 量化可以组合使用：先用蒸馏训练一个小模型，再对小模型进行 INT8 量化，可以获得 10 倍以上的压缩比。

图表加载中…

python

import torch
import torch.nn as nn
import torch.nn.functional as F

class DistillationLoss(nn.Module):
    """知识蒸馏的损失函数"""
    def __init__(self, temperature=3.0, alpha=0.7):
        super().__init__()
        self.temperature = temperature
        self.alpha = alpha  # 蒸馏损失的权重
    
    def forward(self, student_logits, teacher_logits, labels):
        # 任务损失（Student 对真实标签）
        hard_loss = F.cross_entropy(student_logits, labels)
        
        # 蒸馏损失（Student 模仿 Teacher 的 Soft Labels）
        T = self.temperature
        soft_student = F.log_softmax(student_logits / T, dim=1)
        soft_teacher = F.softmax(teacher_logits / T, dim=1)
        soft_loss = F.kl_div(soft_student, soft_teacher, reduction="batchmean") * (T * T)
        
        # 加权组合
        return self.alpha * soft_loss + (1 - self.alpha) * hard_loss

# 训练循环
teacher = load_teacher_model()
teacher.eval()
student = load_student_model()
student.train()
criterion = DistillationLoss(temperature=3.0, alpha=0.7)
optimizer = torch.optim.AdamW(student.parameters(), lr=2e-5)

for batch, labels in train_loader:
    optimizer.zero_grad()
    with torch.no_grad():
        teacher_logits = teacher(batch)
    student_logits = student(batch)
    loss = criterion(student_logits, teacher_logits, labels)
    loss.backward()
    optimizer.step()

💡 一句话理解

蒸馏的温度参数是关键超参数。对于分类任务，T=3-5 通常效果最好；对于生成任务（如 LLM），T=1.5-2 更合适。温度过高会导致分布过于平滑，过低则失去了 Soft Labels 的优势。

⚠️ 常见踩坑

蒸馏训练的计算成本不低——每次迭代都需要运行 Teacher 模型。如果 Teacher 非常大，可以考虑预先计算 Teacher 的输出（离线蒸馏），这样训练时只需要 Student 的前向传播。

7结构化剪枝：移除冗余连接

剪枝（Pruning）是另一种压缩策略：通过识别并移除模型中不重要的连接或神经元，来减小模型体积和加速推理。

剪枝分为两种：非结构化剪枝（Unstructured Pruning）将单个权重置为零，产生稀疏矩阵；结构化剪枝（Structured Pruning）移除完整的通道、滤波器或层，保持矩阵的密集结构。

非结构化剪枝可以获得极高的压缩率（90%+ 的权重被剪掉），但稀疏矩阵在通用硬件上不一定更快——除非使用专门的稀疏计算库。结构化剪枝的压缩率较低（30-50%），但在任何硬件上都能直接加速，因为密集矩阵的乘法是高度优化的。

2026 年的剪枝最佳实践是：先做结构化剪枝获得直接加速，再做非结构化剪枝获得极致压缩，最后用 PTQ 进一步压缩。三者的组合可以将模型体积压缩 10-20 倍，同时保持 95%+ 的精度。

LLM 剪枝是一个活跃的研究方向。与 CNN 不同，Transformer 的剪枝需要考虑注意力头的冗余性。2026 年的研究表明，LLaMA 3 70B 中可以安全地剪掉约 20% 的注意力头和 MLP 通道，精度损失不到 1%。

图表加载中…

python

import torch
import torch.nn.utils.prune as prune

# 加载预训练模型
model = load_pretrained_model()

# 对每个卷积层进行结构化剪枝
for name, module in model.named_modules():
    if isinstance(module, torch.nn.Conv2d):
        # 按 L1 范数剪枝最不重要的通道
        prune.l1_unstructured(
            module, name="weight",
            amount=0.3,  # 剪掉 30% 的通道
            dim=[0]       # 按输出通道维度
        )
        
        # 将剪枝永久化（移除剪枝 mask）
        prune.remove(module, "weight")

# 验证剪枝后的精度
accuracy = evaluate(model, test_loader)
print(f"剪枝后精度: {accuracy:.4f}")

# 如果精度下降可接受，继续微调
# 否则减少 amount 参数重试

💡 一句话理解

剪枝后一定要进行微调（Fine-tuning）。即使剪掉 30% 的参数，微调 2-3 轮也能恢复 90%+ 的原始精度。直接部署而不微调通常会导致显著的精度下降。

⚠️ 常见踩坑

不要对预训练模型进行过度剪枝。剪掉超过 50% 的参数后，即使经过大量微调也难以恢复原始精度。建议从 20-30% 开始，逐步增加。

8量化方案选择与实战决策

面对多种压缩技术，如何选择最适合的方案？这取决于你的具体需求和约束条件。

推理速度优先：选择 INT8 PTQ。这是最快实现加速的方案，通常在几小时内就能完成量化和验证。精度损失 < 1%，速度提升 2-3 倍。

存储体积优先：选择 INT4 量化（GGUF/Q4_K_M）。体积减小 4 倍，速度提升 3-4 倍，但精度损失 3-8%。适合部署在资源受限的设备上。

极致压缩：蒸馏 + INT4 + 剪枝的组合方案。先用蒸馏训练一个小模型，再进行 INT4 量化和结构化剪枝，可以获得 10-20 倍的压缩比，但需要 1-2 周的开发时间。

移动端部署：优先使用 Core ML（iOS）或 TFLite（Android）的内置量化工具。它们会自动选择最适合目标硬件的量化策略，你只需要提供模型和少量校准数据。

2026 年的行业标准：对于服务端部署，INT8 PTQ 是默认选择；对于端侧部署，INT4 GGUF 是主流方案；对于超大规模模型（> 100B），QLoRA 微调是唯一可行的方案。

图表加载中…

方案	压缩比	精度损失	开发时间	适用场景
INT8 PTQ	4x	< 1%	几小时	服务端推理
INT8 QAT	4x	< 0.5%	1-2 天	高精度需求
INT4 GGUF	8x	3-8%	几小时	端侧部署
INT4 QLoRA	8x	2-5%	1-3 天	大模型微调
蒸馏	2-4x	1-3%	1-2 周	小模型训练
结构化剪枝	1.5-2x	1-2%	1-2 天	加速推理
组合方案	10-20x	5-10%	2-3 周	极致压缩

💡 一句话理解

在做量化决策时，始终先定义精度阈值。比如"精度下降不超过 2%"，然后在这个约束下选择压缩比最高的方案。没有阈值的量化是没有意义的。

⚠️ 常见踩坑

不要在量化后直接用原始测试集评估精度就认为完成了。对于 LLM，还需要评估生成质量（困惑度、BLEU、人工评估），因为量化可能影响生成的流畅性和事实性。

9量化调试与精度回归排查

量化后遇到精度下降是正常的，但需要系统化的方法来排查和修复。以下是经过验证的量化调试流程。

首先，逐层分析量化误差。不是所有层对量化同样敏感：注意力层的 QKV 投影通常对量化敏感，而 MLP 层通常容忍度更高。通过比较量化前后的逐层输出，可以精确定位问题层。

其次，检查异常值。单个极大的激活值会导致整个层的 scale 过大，大部分数值被量化到极小的范围内。平滑激活值（如使用 SmoothQuant 技术）可以显著改善 INT8 量化的精度。

第三，尝试混合精度量化。不是所有层都需要量化到相同精度。敏感层保持 FP16，不敏感层量化到 INT8 或 INT4。混合精度量化在精度和性能之间取得了更好的平衡。

2026 年的量化调试工具链已经非常成熟：PyTorch 的 FX Graph Mode Quantization 提供了自动化的敏感度分析；TensorRT 的量化调试工具可以可视化每层的量化误差；llama.cpp 的 gguf-dump 工具可以检查 GGUF 文件的量化参数。

图表加载中…

python

import torch
import torch.nn as nn

def analyze_quantization_error(fp32_model, int8_model, sample_input):
    """逐层比较 FP32 和 INT8 模型的输出差异"""
    fp32_outputs = {}
    int8_outputs = {}
    
    # 注册 hook 收集每层输出
    def make_hook(name, store_dict):
        def hook(module, input, output):
            store_dict[name] = output.detach()
        return hook
    
    for name, module in fp32_model.named_modules():
        if isinstance(module, (nn.Linear, nn.Conv2d)):
            module.register_forward_hook(make_hook(name, fp32_outputs))
    
    for name, module in int8_model.named_modules():
        if isinstance(module, (nn.Linear, nn.Conv2d)):
            module.register_forward_hook(make_hook(name, int8_outputs))
    
    # 运行推理
    with torch.no_grad():
        fp32_model(sample_input)
        int8_model(sample_input)
    
    # 计算每层的量化误差
    errors = {}
    for name in fp32_outputs:
        if name in int8_outputs:
            fp32_out = fp32_outputs[name]
            int8_out = int8_outputs[name].to(fp32_out.dtype)
            # 反量化后比较
            error = torch.mean((fp32_out - int8_out) ** 2).item()
            errors[name] = error
    
    # 按误差排序
    sorted_errors = sorted(errors.items(), key=lambda x: x[1], reverse=True)
    print("量化误差最大的层:")
    for name, error in sorted_errors[:5]:
        print(f"  {name}: MSE = {error:.6f}")
    
    return sorted_errors

💡 一句话理解

量化误差分析时，关注相对误差（MSE / 原始方差）而不是绝对误差。不同层的激活值量级差异很大，绝对误差不能直接比较。

⚠️ 常见踩坑

不要只关注最终输出的精度下降。有时中间层的量化误差很大，但被后续层"吸收"了，最终精度看起来正常。这种情况下模型在新数据上可能表现不稳定。

10扩展阅读与前沿趋势

模型量化与压缩是一个快速发展的领域，2026 年的几个重要趋势值得关注。

FP8 量化正在成为服务端推理的新标准。FP8（8 位浮点）比 INT8 更适合神经网络——它保留了浮点数的动态范围，同时提供了 2 倍的压缩比。NVIDIA 的 Hopper 架构和 AMD 的 MI300 系列都原生支持 FP8 计算。

KV Cache 量化是 LLM 推理优化的新焦点。KV Cache 占 LLM 推理显存的 50% 以上，对其进行 INT4 量化可以显著降低长序列推理的显存占用。2026 年的研究表明，KV Cache INT4 量化对生成质量的影响极小（困惑度增加 < 0.1）。

神经架构搜索与量化联合优化是一个新兴方向：不再先设计架构再量化，而是在架构搜索过程中就考虑量化敏感度。这样设计出的模型天生就"量化友好"，在低精度下也能保持高精度。

对于想要深入了解的读者，推荐以下资源：

1.论文：SmoothQuant（2023）- 解决 LLM INT8 量化的异常值问题
2.论文：QLoRA（2023）- 高效的大模型 INT4 微调方案
3.工具：llama.cpp / GGUF - 最流行的 LLM 量化格式
4.工具：TensorRT-LLM - NVIDIA 的 LLM 推理优化框架
5.工具：bitsandbytes - HuggingFace 推荐的量化工具库
6.教程：PyTorch Quantization Tutorial - 官方量化教程

图表加载中…

💡 一句话理解

关注 HuggingFace 的 Optimum 库——它整合了多种量化和压缩工具，提供了统一的接口。对于大多数项目，从 Optimum 开始是最快的路径。

⚠️ 常见踩坑

量化是一个权衡游戏：精度、速度、体积、开发时间。不要追求"最优"，而是追求"够用"。先定义你的精度阈值和性能目标，然后选择最简单的方案。

🎯 相关面试题

巩固本篇知识点，备战 AI 岗位面试。

浏览全部面试题 →

模型量化与压缩：从 FP32 到 INT4 的完整指南（ML 全场景）

文章摘要

1为什么模型需要量化与压缩

2量化的数学基础：从连续到离散的映射

3训练后量化（PTQ）：最快的压缩方案

4量化感知训练（QAT）：精度最高的量化方案

5INT4 量化：大模型压缩的终极方案

6知识蒸馏：让小模型继承大模型的能力

7结构化剪枝：移除冗余连接

8量化方案选择与实战决策

9量化调试与精度回归排查

10扩展阅读与前沿趋势

标签

📚 相关文章推荐

LLM 量化技术实战：从 FP16 到 INT4 的压缩艺术

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

LLM 推理优化（一）：量化、剪枝与蒸馏全面指南

继续你的 AI 学习之旅

觉得内容有帮助？请站长喝杯咖啡 ☕