Decode（解码阶段）

就是大模型一个字一个字往外吐词的那个过程，每生成一个字都得重新跑一遍模型。

亦作、亦称：解码阶段 · Token Generation · 自回归解码 · Autoregressive Decoding · 生成阶段

解码阶段是 LLM 推理的核心环节，决定了模型逐 token 生成文本的速度与质量。理解其工作机制是优化推理性能、降低延迟的基础。

概述

解码阶段（Decode Phase）是大语言模型推理流水线的第二阶段，在 Prefill 完成输入并建立 KV Cache 后启动。

每个解码步骤可拆解为以下环节：

读取 KV Cache 27： 从 GPU 显存中加载之前所有 token 的 Key/Value 矩阵，以完成注意力计算
-前向传播：将当前 token 的 embedding 送入 Transformer 各层，计算自注意力（Causal Mask 保证只看历史）与 FFN
- 采样策略：对最终 logit 向量应用 Softmax，再通过贪婪解码（argmax）、Top-k 采样、Top-p（Nucleus）采样 或温度（Temperature） 缩放选出下一 token
-追加序列：将新 token 追加到序列并更新 KV Cache，为下一步做准备
- 终止判断：检测到EOS token 356或达到 max_new_tokens 时停止

不同采样策略在质量与多样性之间做出不同权衡：

解码阶段广泛存在于所有自回归生成任务中：

Prefill 与 Decode 是推理的两个性质截然不同的阶段：

理解解码阶段时需注意以下几点：

误区：Decode 与 Autoencoder 解码器混淆——LLM 推理的「解码阶段」与 VAE/AE 中「Decoder 网络」是完全不同的概念，前者指推理流程，后者指网络结构
误区：增大 batch size 能线性加速 Decode——受内存带宽限制，Decode 吞吐对 batch size 不敏感，直到达到内存瓶颈
KV Cache 显存压力：长上下文时 KV Cache 可能占满显存，需要 PagedAttention 或 KV 量化等技术缓解
采样随机性：Temperature > 0 时每次生成结果不同，不适合需要确定性输出的场景
自回归的根本限制：串行生成无法通过加更多 GPU 直接加速单请求延迟，只能通过算法创新（投机解码等）突破

解码技术随 LLM 规模扩大而持续演进：

2017：《Attention Is All You Need》提出 Transformer，Decoder 自回归生成成为标准范式
2018-2020：GPT、GPT-2、GPT-3 验证大规模自回归语言模型的有效性，解码阶段延迟问题开始受到重视
2022：FlashAttention（Dao et al.）大幅降低注意力计算的内存开销，间接加速 Decode
2023：投机解码（Speculative Decoding，Leviathan et al. / Chen et al.）首次实现无损 2-3× 加速；PagedAttention（vLLM）解决 KV Cache 显存碎片问题
2024-2025：Prefill-Decode 分离架构（Mooncake、DistServe 等）在生产系统中广泛落地；MLA（Multi-head Latent Attention，DeepSeek-V2）大幅压缩 KV Cache 规模
2025-2026：面向长上下文与 Agent 场景的解码优化（流式 KV 驱逐、分层 KV Cache）成为研究热点

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 3 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。