LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

💡

文章摘要

系统讲解大语言模型推理优化的四大核心技术——量化（Quantization）、剪枝（Pruning）、知识蒸馏（Knowledge Distillation）和推理引擎加速，覆盖从原理到实战的完整链路

一、阅读本篇你将收获什么

2026 年，大语言模型（LLM）已经从研究实验室走向生产环境的核心基础设施。然而，模型规模的爆炸式增长带来了严峻的推理成本挑战。关键数据（2026）：- GPT-5.5 参数量约1.8 万亿，FP16 推理需要约3.6TB 显存- 全球 AI 推理支出预计 2026 年超过4200 亿美元- 单次 LLM 推理成本中，GPU 计算占 60%+，内存传输占 30%+- 优化良好的量化模型可将推理成本降低4-8 倍，质量损失 < 2%

推理优化的本质是在 模型质量 和推理效率之间找到最优平衡点。本文将从四个维度系统讲解 LLM 推理优化技术：

1.量化（Quantization）：降低数值精度，减少内存和计算量
2.剪枝（Pruning）：移除冗余参数，压缩模型体积
3.知识蒸馏（Knowledge Distillation）：用大模型教小模型
4.推理引擎优化：通过系统级优化加速推理过程

💡前置阅读收获： 理解 LLM 推理优化的核心驱动力是成本和质量之间的权衡。现代推理优化技术可以将推理成本降低 4-8 倍而质量损失不到 2%。

图表加载中…

💡 一句话理解

在生产环境中，推理优化不是一次性的选择，而是持续的过程。每次模型更新后都应重新评估优化策略。

⚠️ 常见踩坑

不要盲目追求极致的量化（如 2-bit）。INT2 量化通常会导致显著的质量下降，在大多数场景下 INT4 是性价比最优的选择。

二、量化技术：从 FP16 到 INT4 的精度之旅

量化（Quantization）的核心思想是将模型权重和激活值从高精度浮点数（FP16/BF16）转换为低精度整数（INT8/INT4），从而减少内存占用和计算量。

量化精度对比


精度	每参数字节	内存占用（70B 模型）	精度损失	适用场景
FP32	4 字节	280 GB	基准	训练
FP16/BF16	2 字节	140 GB	基准	推理（无优化）
INT8	1 字节	70 GB	< 1%	生产推理
INT4	0.5 字节	35 GB	1-3%	边缘/消费级 GPU
INT2	0.25 字节	17.5 GB	3-8%	极低端部署

PTQ 与 QAT

PTQ（Post-Training Quantization，训练后量化）：

不需要重新训练
速度快，成本低
精度损失略高于 QAT
适用场景：快速部署、资源有限

QAT（Quantization-Aware Training，量化感知训练）：

在训练过程中模拟量化效果
精度损失更小
需要额外的训练资源和时间
适用场景：对质量要求极高的场景

GPTQ 与 AWQ

2026 年主流的量化方法：

GPTQ（Generative Pretrained Quantization）：

逐层量化，保留少量校准数据
4-bit 量化质量接近 FP16
推理速度提升 3-4 倍

AWQ（Activation-aware Weight Quantization）：

基于激活值感知的重要权重保护
在 INT4 量化下保持更好的质量
特别适合 Llama/Mistral 系列

图表加载中…

💡 一句话理解

对于 70B 级别的模型，优先尝试 AWQ INT4 量化。它在大多数基准上比 GPTQ INT4 有 0.5-1 分的质量优势。

⚠️ 常见踩坑

量化后的模型必须使用专门的推理引擎（如 GPTQ-for-LLaMa、AutoAWQ）加载，不能直接用 HuggingFace 标准加载。

三、量化实战：使用 AutoGPTQ 进行 4-bit 量化

量化是 LLM 推理优化的第一道关卡。INT4 量化在大多数场景下是性价比最优选择，可以将内存需求降低 4 倍而质量损失不到 3%。

AutoGPTQ 是目前最常用的 GPTQ 量化实现，支持几乎所有主流 LLM 架构。

量化步骤：

1.准备校准数据：需要少量代表性文本（通常 128-256 条）作为量化参考
2.配置量化参数：bits=4（INT4）、group_size=128、desc_act=False
3.执行量化：逐层量化，保留少量校准数据
4.保存量化模型：生成 INT4 格式的模型文件
5.验证质量：在基准数据集上测试量化后的质量损失

推理引擎适配：

量化后的模型需要使用专门的推理引擎：
-AutoGPTQ：GPTQ 量化的官方推理引擎
-vLLM：支持 GPTQ 量化模型的高并发推理
-TensorRT-LLM：NVIDIA 的优化推理引擎，支持 INT4/INT8

性能对比：

以 Llama-3-70B 为例：

FP16：吞吐量 12 token/s，显存 140 GB
INT4 (AWQ)：吞吐量 35 token/s，显存 35 GB
INT4 + vLLM：吞吐量 55 token/s，显存 35 GB

推理速度提升 4.6 倍，显存降低 75%，质量损失仅 2.3%（MMLU 从 82.1 降到 80.2）。

python

from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig

quantize_config = BaseQuantizeConfig(
    bits=4,              # 量化到 4-bit
    group_size=128,      # 分组大小
    desc_act=False       # 关闭描述性激活
)

model = AutoGPTQForCausalLM.from_pretrained(
    "meta-llama/Llama-3-70B",
    quantize_config=quantize_config,
    trust_remote_code=True
)

# 量化模型
model.quantize(calibration_data)

# 保存量化后的模型
model.save_quantized("llama-70b-int4")

💡 一句话理解

量化前先在小模型上测试流程。用 Llama-3-8B 跑通量化流程后，再扩展到 70B 模型，避免浪费时间和资源。

⚠️ 常见踩坑

量化过程中如果出现 NaN 或 Inf，通常是 group_size 设置不当。尝试增大 group_size（如 128 → 256）可以解决这个问题。

四、剪枝技术：移除冗余参数，压缩模型体积

剪枝（Pruning）通过识别并移除模型中的冗余参数来压缩模型。与量化不同，剪枝直接减少参数数量，因此可以获得更显著的压缩比。

结构化剪枝 vs 非结构化剪枝


维度	结构化剪枝	非结构化剪枝
方式	移除整个头/层/通道	移除单个权重
硬件友好度	✅ 直接加速	❌ 需要稀疏矩阵支持
压缩比	中等（2-4 倍）	高（4-10 倍）
质量损失	较低	较高
工具支持	广泛	有限

注意力头剪枝

Transformer 架构中的注意力头（Attention Head）存在大量冗余。研究表明，许多模型中 20-30% 的注意力头可以被安全移除而几乎不影响输出质量。

剪枝策略：
1.基于重要性评分：计算每个注意力头的贡献度
2.迭代剪枝 + 微调：每次移除少量头，微调恢复质量
3.一次性剪枝：根据预定义阈值直接移除

层剪枝与通道剪枝

层剪枝直接移除整个 Transformer 层：

适合深度模型（如 70 层以上）
移除底部或顶部的冗余层
需要重新校准 LayerNorm 参数

通道剪枝移除 FFN 中的冗余通道：

FFN 中的神经元存在显著冗余
可以安全移除 30-50% 的通道
对质量影响较小

图表加载中…

💡 一句话理解

剪枝和量化可以组合使用：先剪枝移除冗余参数，再量化降低精度。这种组合可以获得最大的压缩比。

⚠️ 常见踩坑

剪枝后的模型必须重新微调以恢复质量。不要期望剪枝后模型能保持与原始模型完全相同的性能。

五、知识蒸馏：用大模型教小模型

知识蒸馏（Knowledge Distillation）的核心思想是让一个大的Teacher 模型「教」一个小的Student 模型，使小模型获得接近大模型的能力，但参数量和推理成本大幅降低。

蒸馏的三种方式

1. 输出蒸馏（Logits Distillation）：

Student 模仿 Teacher 的输出概率分布
使用温度参数 T 软化分布
最简单也最常用的方式

2. 中间层蒸馏（Hidden State Distillation）：

Student 的中间层输出与 Teacher 对齐
保留更多的结构信息
效果优于输出蒸馏，但实现复杂

3. 指令蒸馏（Instruction Distillation）：

将 Teacher 的高质量回答蒸馏为训练数据
用于微调小模型
2026 年最热门的蒸馏方向

MiniLLM 与 DistillSpec

2026 年的前沿蒸馏方法：

MiniLLM：

使用 KL 散度作为损失函数
Student 直接在 Teacher 的分布上训练
适用于指令调优模型的蒸馏

DistillSpec（规范蒸馏）：

不仅模仿输出，还模仿 Teacher 的推理过程
提取 Chain-of-Thought 蒸馏到小模型
显著提升小模型的推理能力

蒸馏实战：从 70B 到 8B

典型蒸馏流程：

选择 Teacher：70B 模型（如 Llama-3-70B-Instruct）
选择 Student：8B 模型（如 Llama-3-8B）
准备指令数据集：10-50 万条高质量指令数据
Teacher 生成答案：使用 Teacher 模型为所有数据生成高质量回答
蒸馏训练：Student 在 Teacher 的回答上微调
评估验证：在基准数据集上评估蒸馏效果

效果预期：

8B 蒸馏模型 ≈ 原始 30-40B 模型的质量
推理速度提升 8-10 倍
内存需求降低 8-10 倍

图表加载中…

💡 一句话理解

指令蒸馏（Instruction Distillation）在 2026 年效果最好——让大模型生成高质量的思维链（CoT）数据，再用这些数据微调小模型。

⚠️ 常见踩坑

蒸馏不是万能的。如果 Teacher 模型在某些领域能力不足，Student 也无法超越这个上限。选择高质量的 Teacher 是成功的关键。

六、知识蒸馏实战：输出蒸馏实现

知识蒸馏是将大模型能力压缩到小模型的最有效方法。8B 蒸馏模型可以达到原始 30-40B 模型的质量水平。

蒸馏损失函数的核心原理：

蒸馏损失使用 KL 散度来衡量 Student 和 Teacher 输出分布之间的差异。温度参数 T 控制分布的「软化」程度：

-T = 1：标准 softmax，分布尖锐
-T > 1：分布变平滑，Student 能学到更多「暗知识」（dark knowledge）
-T 太大：分布过于均匀，失去区分度

最佳实践：

温度参数 T 通常在 2-5 之间
混合损失：蒸馏损失 + 真实标签损失（各占 50%）
学习率设为原始微调的 1/10，避免过度拟合 Teacher 的错误

训练技巧：

使用梯度累积来模拟更大的 batch size
定期在验证集上评估 Student 的质量，防止过拟合
如果 Student 在某些任务上表现异常，检查 Teacher 在这些任务上的表现

python

import torch
import torch.nn.functional as F

def distillation_loss(student_logits, teacher_logits, temperature=2.0):
    """
    知识蒸馏损失函数
    temperature: 温度参数，越大分布越平滑
    """
    # 软化概率分布
    soft_teacher = F.softmax(teacher_logits / temperature, dim=-1)
    soft_student = F.log_softmax(student_logits / temperature, dim=-1)
    
    # KL 散度
    loss = F.kl_div(
        soft_student, 
        soft_teacher, 
        reduction="batchmean"
    ) * (temperature ** 2)
    
    return loss

# 训练循环中的蒸馏
for batch in dataloader:
    with torch.no_grad():
        teacher_outputs = teacher_model(batch["input_ids"])
    
    student_outputs = student_model(batch["input_ids"])
    
    # 混合损失：蒸馏损失 + 真实标签损失
    distill_loss = distillation_loss(
        student_outputs.logits, 
        teacher_outputs.logits, 
        temperature=2.0
    )
    hard_loss = F.cross_entropy(
        student_outputs.logits, 
        batch["labels"]
    )
    
    total_loss = 0.5 * distill_loss + 0.5 * hard_loss
    total_loss.backward()
    optimizer.step()

💡 一句话理解

蒸馏训练的学习率要设为原始微调的 1/10。Teacher 的输出虽然高质量但并非完美，过大的学习率会导致 Student 过度拟合 Teacher 的错误。

⚠️ 常见踩坑

蒸馏数据集的质量至关重要。如果 Teacher 生成的回答包含错误或幻觉，Student 会学习并放大这些错误。务必人工审核蒸馏数据集的抽样。

七、推理引擎优化：vLLM、TensorRT 与 ONNX

推理引擎在模型不变的情况下，通过系统级优化大幅提升推理速度。2026 年主流的推理引擎有vLLM、TensorRT-LLM和ONNX Runtime。

vLLM：PagedAttention 的革命

PagedAttention是 vLLM 的核心创新，灵感来自操作系统的虚拟内存管理：

-KV Cache 分页管理：将 KV Cache 分成固定大小的「页」，按需分配
-消除内存碎片：非连续的物理内存可以组合成连续的逻辑 KV Cache
-高吞吐批处理：支持 continuous batching，动态调整批大小

vLLM 关键特性：


特性	效果	适用场景
PagedAttention	2-4 倍吞吐提升	高并发服务
Continuous Batching	1.5-2 倍吞吐提升	混合长度请求
Tensor Parallel	多 GPU 加速	大模型部署
Speculative Decoding	2-3 倍速度提升	短文本生成

TensorRT-LLM：NVIDIA 的极致优化

TensorRT-LLM是 NVIDIA 针对 LLM 推理的专用引擎：

-层融合（Layer Fusion）：将多个操作融合为单个 kernel
-内核自动调优（Kernel Auto-Tuning）：为特定 GPU 选择最优 kernel
-INT8/FP8 量化原生支持：在硬件层面加速低精度计算
-In-flight Batching：类似 vLLM 的 continuous batching

推测解码（Speculative Decoding）

推测解码是 2026 年推理优化的热门方向：

基本原理：

用一个小模型（Draft Model）快速生成多个候选 token
用大模型（Target Model）并行验证这些 token
验证通过的 token 直接接受，不通过的重新生成

效果：

在短文本生成场景下，速度提升 2-3 倍
质量无损（与大模型完全一致）
适合对话、摘要等短文本场景

图表加载中…

💡 一句话理解

如果你的场景是高并发 API 服务，首选 vLLM。如果你追求极致速度且有 NVIDIA GPU，选择 TensorRT-LLM。如果需要跨平台部署，选择 ONNX Runtime。

⚠️ 常见踩坑

vLLM 的 PagedAttention 对 KV Cache 的管理非常高效，但需要足够的 GPU 内存来存储分页表。在低内存环境下效果可能不如预期。

八、推理引擎实战：使用 vLLM 启动推理服务

vLLM 的 PagedAttention 是 2026 年最实用的推理优化技术，可以将高并发场景下的吞吐量提升 2-4 倍。

启动 vLLM 推理服务：

1.安装 vLLM：支持 CUDA 12.0+，需要 Python 3.9+
2.加载模型：指定模型路径、并行度、最大序列长度
3.配置采样参数：temperature、top_p、max_tokens
4.批量推理：传入多个 prompts，vLLM 自动优化批处理

性能调优建议：

-gpu_memory_utilization：设为 0.95，留 5% 给系统
-max_model_len：根据实际需求设置，过大会浪费显存
-tensor_parallel_size：多 GPU 时设为 GPU 数量
-dtype：auto 自动选择最佳精度

监控指标：

吞吐量（token/s）：核心性能指标
首 token 延迟：用户体验关键指标
GPU 利用率：确保资源充分利用
KV Cache 命中率：PagedAttention 效果指标

python

from vllm import LLM, SamplingParams

llm = LLM(
    model="meta-llama/Llama-3-8B-Instruct",
    tensor_parallel_size=1,
    max_model_len=4096,
    dtype="auto",
    gpu_memory_utilization=0.95
)

sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.9,
    max_tokens=256
)

prompts = [
    "解释一下 Transformer 的核心原理",
    "Python 中如何实现快速排序",
    "量子计算的基本概念是什么"
]

outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(f"Prompt: {output.prompt}")
    print(f"Generated: {output.outputs[0].text}")

💡 一句话理解

vLLM 的 continuous batching 功能在处理不同长度的请求时效果显著。如果你的服务同时处理短请求（如问答）和长请求（如摘要），开启此功能可以大幅提升吞吐量。

⚠️ 常见踩坑

vLLM 的 max_model_len 设置过大会导致 KV Cache 占用过多显存，减少并发能力。建议根据实际请求的平均长度来设置，而不是模型支持的最大长度。

九、FP8 量化：2026 年的新趋势

2026 年，随着 NVIDIA H100/H200 和新一代 GPU 对FP8（8 位浮点数）的硬件级支持，FP8 量化成为推理优化的新热点。

FP8 vs INT8 对比


维度	FP8	INT8
动态范围	更大（浮点特性）	较小（整数限制）
精度保持	更好（特别是在激活值上）	一般
硬件支持	H100+ / MI300+	几乎所有 GPU
速度提升	1.5-2 倍（vs FP16）	1.5-2 倍（vs FP16）
质量损失	< 0.5%	0.5-1%

FP8 的适用场景

FP8 特别适合以下场景：
-激活值量化：FP8 的浮点特性使其在激活值上比 INT8 表现更好
-权重 + 激活混合量化：权重用 FP8，激活也用 FP8
-大模型部署：在保持质量的同时减少显存需求

FP8 实战指南

使用 NVIDIA 的 Transformer Engine 可以方便地进行 FP8 推理。FP8 有两种格式：
-E4M3：4 位指数 + 3 位尾数，适合前向传播
-E5M2：5 位指数 + 2 位尾数，适合反向传播

Transformer Engine 的 HYBRID 格式会自动选择最佳格式。

python

import transformer_engine.pytorch as te
from transformer_engine.common import recipe

model = te.Linear(
    in_features=4096,
    out_features=4096,
    bias=True,
    params_dtype=torch.bfloat16
)

fp8_format = recipe.Format.HYBRID

with te.fp8_autocast(enabled=True, fp8_format=fp8_format):
    output = model(input_tensor)

💡 一句话理解

如果你的硬件支持 FP8（H100/MI300+），优先尝试 FP8 量化。它的动态范围比 INT8 更大，在激活值量化上表现更好。

⚠️ 常见踩坑

FP8 目前只在较新的 GPU 上有硬件级支持（NVIDIA H100+、AMD MI300+）。在旧硬件上 FP8 会回退到软件模拟，性能反而更差。

十、优化方案对比与选择指南

面对量化、剪枝、蒸馏和推理引擎优化四种技术，如何选择取决于你的约束条件和质量要求。

决策矩阵


约束条件	推荐方案	预期效果
内存受限（单 GPU 40GB）	INT4 量化 + vLLM	70B 模型可部署
延迟敏感（< 100ms）	蒸馏到小模型 + TensorRT	8B 模型亚 100ms
质量要求极高	FP8 量化 + 推理引擎	< 0.5% 质量损失
成本敏感	蒸馏 + INT4 量化	最大性价比
边缘设备	剪枝 + INT8 + ONNX	跨平台部署
高并发服务	vLLM + Continuous Batching	最大吞吐量

组合策略

最佳实践是组合多种优化技术：

策略 1：极致压缩
剪枝（30% 参数）→ INT4 量化 → 部署

压缩比：约 10 倍
质量损失：约 5%
适用：资源极端受限

策略 2：平衡方案
蒸馏（70B → 8B）→ INT4 量化 → vLLM 部署

压缩比：约 8 倍
质量损失：约 3%
适用：大多数生产环境

策略 3：高质量方案
FP8 量化 + TensorRT-LLM

压缩比：约 2 倍
质量损失：< 0.5%
适用：对质量要求极高的场景

性能基准（Llama-3-70B，H100 80GB）


方案	吞吐量（token/s）	首 token 延迟	加速比
FP16（基准）	12	250ms	1x
FP8	22	140ms	1.8x
INT8	20	150ms	1.7x
INT4 (AWQ)	35	90ms	2.9x
INT4 + vLLM	55	60ms	4.6x

内存基准


方案	显存占用	节省比例
FP16	140 GB	基准
FP8	70 GB	50%
INT8	70 GB	50%
INT4	35 GB	75%

质量基准（MMLU 得分，Llama-3-70B）


方案	MMLU	质量损失
FP16	82.1	基准
FP8	81.8	-0.3%
INT8	81.5	-0.7%
INT4 (AWQ)	80.2	-2.3%
蒸馏 8B	76.5	-6.8%

图表加载中…

💡 一句话理解

在生产环境中，建议从最保守的方案开始（FP8 量化 + 推理引擎优化），逐步增加优化力度，直到达到性能和质量的平衡点。

⚠️ 常见踩坑

组合多种优化技术时，必须按正确的顺序进行：先蒸馏/剪枝（改变模型结构），再量化（降低精度），最后推理引擎优化（加速）。顺序错误会导致优化效果不佳。

十一、总结与最佳实践

LLM 推理优化是一个系统工程，需要综合考虑模型、硬件、场景和质量要求。

核心原则

1.先评估需求：明确你的延迟、吞吐、内存和质量要求
2.从保守开始：先尝试影响最小的优化（FP8/INT8）
3.逐步深入：如果保守方案不够，再尝试更激进的优化（INT4/蒸馏）
4.持续监控：优化后的模型必须在生产环境中持续监控质量
5.自动化流程：将优化流程集成到 CI/CD 中

2026 年推荐方案

生产环境首选：

AWQ INT4 量化 + vLLM
理由：在速度（4.6x）、内存（75% 节省）和质量（-2.3%）之间取得最佳平衡

高质量场景：

FP8 量化 + TensorRT-LLM
理由：质量损失 < 0.5%，速度提升 1.8x

极端资源受限：

蒸馏到 8B + INT4 + ONNX
理由：最大压缩比，跨平台部署

未来展望

2026-2027 年推理优化的关键趋势：
-FP4/FP2 量化：更低精度的量化方案正在成熟
-MoE 模型的原生优化：针对混合专家模型的特殊优化
-边缘推理：在手机和 IoT 设备上运行 LLM
-推理-训练联合优化：推理优化和训练过程的联合设计

LLM 推理优化不是一次性的选择，而是持续演进的过程。2026 年的 INT4 + vLLM 是最佳起点，但需要关注新技术的发展。

💡 一句话理解

建立一个推理优化实验平台，定期评估新技术对你的模型和硬件的效果。推理优化领域发展迅速，保持关注才能持续获益。

⚠️ 常见踩坑

不要为了优化而优化。如果当前方案已经满足需求，就不需要额外的优化。过度优化可能引入不必要的复杂性和风险。

十二、扩展阅读与资源

以下是深入了解 LLM 推理优化的核心资源：

论文与项目：- AutoGPTQ: Easy-to-use LLM Quantization Package75

vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention
NVIDIA TensorRT-LLM Documentation
AWQ: Activation-aware Weight Quantization for LLM Compression
MiniLLM: Knowledge Distillation of Large Language Models
FP8 Formats for Deep Learning (NVIDIA)
Speculative Decoding: Lossless Acceleration for LLMs397相关专题：- 大语言模型预训练（llm-004）— 数据准备与训练策略
RLHF 基于人类反馈的强化学习（llm-005）— 对齐方法
LLM 推理优化实践（llm-008）— 上下文窗口扩展
AI 工程化基础设施（aieng-001）— GPU/TPU、分布式训练

💡前置阅读收获： LLM 推理优化是一个持续演进的领域。建立实验平台，定期评估新技术，是保持竞争力的关键。

💡 一句话理解

扩展阅读建议按顺序进行：先理解量化原理，再学习推理引擎架构，最后研究蒸馏和剪枝的组合策略。

⚠️ 常见踩坑

推理优化领域的论文和项目更新非常快。建议关注 GitHub 上的 vLLM、AutoGPTQ、AutoAWQ 等项目的 Release 页面，获取最新进展。

🎯 相关面试题

巩固本篇知识点，备战 AI 岗位面试。

浏览全部面试题 →

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

文章摘要

一、阅读本篇你将收获什么

二、量化技术：从 FP16 到 INT4 的精度之旅

量化精度对比

PTQ 与 QAT

GPTQ 与 AWQ

三、量化实战：使用 AutoGPTQ 进行 4-bit 量化

四、剪枝技术：移除冗余参数，压缩模型体积

结构化剪枝 vs 非结构化剪枝

注意力头剪枝

层剪枝与通道剪枝

五、知识蒸馏：用大模型教小模型

蒸馏的三种方式

MiniLLM 与 DistillSpec

蒸馏实战：从 70B 到 8B

六、知识蒸馏实战：输出蒸馏实现

七、推理引擎优化：vLLM、TensorRT 与 ONNX

vLLM：PagedAttention 的革命

TensorRT-LLM：NVIDIA 的极致优化

推测解码（Speculative Decoding）

八、推理引擎实战：使用 vLLM 启动推理服务

九、FP8 量化：2026 年的新趋势

FP8 vs INT8 对比

FP8 的适用场景

FP8 实战指南

十、优化方案对比与选择指南

决策矩阵

组合策略

性能基准（Llama-3-70B，H100 80GB）

内存基准

质量基准（MMLU 得分，Llama-3-70B）

十一、总结与最佳实践

核心原则

2026 年推荐方案

未来展望

十二、扩展阅读与资源

标签

📚 相关文章推荐

LLM 部署实践：vLLM, TGI, Ollama

LLM 应用开发学习导览

LLM 推理优化（一）：量化、剪枝与蒸馏全面指南

继续你的 AI 学习之旅