Prefill（预填充阶段）

就是大模型在回答你之前，先把你说的所有话都过一遍脑子，把关键信息存进 KV Cache，然后才开始吐第一个字。

亦作、亦称：预填充阶段 · Prompt Processing · Context Encoding · 提示词处理 · 上下文编码

Prefill 是 LLM 推理的第一阶段，决定用户看到第一个字需要等多久。理解 Prefill 的计算特性与优化策略，是构建低延迟、高吞吐推理系统的必备基础。

概述

Prefill 阶段是大语言模型推理的入口，负责将用户输入转化为模型内部状态，为后续自回归生成做准备。

Prefill 阶段通过一次完整的 Transformer 前向传播完成输入处理：

Token 嵌入：将输入 token 序列映射为稠密向量（embedding），加入位置编码（Positional Encoding / RoPE）
自注意力计算：每个 token 与序列中所有前驱 token 执行因果注意力（Causal Attention），计算出 Key（K） 和 Value（V） 矩阵
KV Cache 存储：将每层的 K、V 矩阵写入 GPU 显存（KV Cache），供后续 Decode 阶段复用，避免重复计算
FFN 前向传播：经过多头注意力与前馈网络（FFN），每层逐步提炼语义表示
首 token 输出：最后一个 token 位置的 logit 向量经 Softmax 后，采样得到第一个输出 token，随即进入 Decode 阶段

Prefill 与 Decode 阶段具有截然不同的计算特性，理解这一点是优化推理系统的关键：

针对 Prefill 阶段的优化已形成完整技术体系：

Prefix Caching（前缀缓存）：对固定系统提示词或重复上下文预先计算并缓存 KV Cache，命中时跳过对应 Prefill 计算，可显著降低 TTFT
Chunked Prefill（分块预填充）：将超长 Prefill 拆分为多个小块，与 Decode 批次交替执行，在不阻塞解码的前提下完成长上下文处理
Prefill-Decode 分离（Disaggregated Prefill/Decode）：将 Prefill 与 Decode 部署在不同 GPU 实例，各自独立调度，通过网络传输 KV Cache；DistServe、Mooncake、NVIDIA Dynamo 均采用此架构
FlashAttention：通过 IO-aware 分块计算大幅降低注意力的显存读写量，加速长序列 Prefill
量化与稀疏化：对 Prefill 阶段的权重与激活进行 FP8/INT8 量化，在几乎不损精度的前提下提升计算吞吐

Prefill 与 Decode 是推理流水线中性质相反的两个阶段：

在理解和使用 Prefill 时需警惕以下误区：

误区：Prefill 越快越好，与 Decode 无关——Prefill-Decode 混跑时，Prefill 的计算密集操作会抢占 Decode 的内存带宽，导致已在运行的请求出现卡顿（jitter）
误区：只有用户输入才算 Prefill——系统提示词（System Prompt）、RAG 检索到的文档、Few-shot 示例均属于 Prefill 输入，长系统提示词是 TTFT 高的常见隐患
KV Cache 传输开销：Prefill-Decode 分离架构需通过网络传输 KV Cache，会增加额外的 TTFT，需权衡
Prefix Cache 失效：提示词前缀稍有变动即导致缓存失效，模板设计需将变化部分置于末尾
长上下文显存溢出：超长 Prefill 的 KV Cache 可能撑满显存，需配合 PagedAttention 或 KV 量化使用

Prefill 阶段的重要性随 LLM 上下文长度增长和服务规模扩大而日益凸显：

2017：Transformer（Vaswani et al.）确立 Decoder-only 自回归推理范式，输入处理与 token 生成的两阶段结构初步形成
2018-2022：GPT 系列、LLaMA 等模型兴起，Prefill 一词逐渐在工程社区成为标准术语
2022：FlashAttention（Dao et al.）通过 IO-aware 分块注意力大幅加速长序列 Prefill
2023：PagedAttention（vLLM）引入虚拟内存管理，解决 Prefill 产生的 KV Cache 显存碎片问题；Prefix Caching 技术被多个推理框架引入
2024：DistServe（Zhong et al., OSDI 2024）首次系统化提出 Prefill-Decode 分离架构，推动生产级落地；Chunked Prefill 被 vLLM、SGLang 等框架集成
2025-2026：NVIDIA Dynamo、Mooncake 等系统在超大规模集群中实现智能化 Prefill 调度；面向超长上下文（百万 token）的 Prefill 优化成为研究前沿

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。