Prefill(预填充阶段)

就是大模型在回答你之前,先把你说的所有话都过一遍脑子,把关键信息存进 KV Cache,然后才开始吐第一个字。

亦作、亦称:预填充阶段 · Prompt Processing · Context Encoding · 提示词处理 · 上下文编码

Prefill 是 LLM 推理的第一阶段,决定用户看到第一个字需要等多久。理解 Prefill 的计算特性与优化策略,是构建低延迟、高吞吐推理系统的必备基础。

概述

Prefill 阶段是大语言模型推理的入口,负责将用户输入转化为模型内部状态,为后续自回归生成做准备。

  • 核心任务:并行处理全部输入 token,建立 KV Cache,生成第一个输出 token
  • 输入:分词后的提示词(Prompt)token 序列,包含系统提示、历史对话、用户问题等
  • 输出:存储在显存中的 KV Cache 矩阵 + 首 token 的 logit 向量
  • 并行特性:所有输入 token 可同步计算,本质是矩阵-矩阵乘(GEMM),GPU 利用率高
  • 性能指标:以 TTFT(Time To First Token,首 token 延迟)衡量,直接影响用户感知响应速度

工作原理

Prefill 阶段通过一次完整的 Transformer 前向传播完成输入处理:

  • Token 嵌入:将输入 token 序列映射为稠密向量(embedding),加入位置编码(Positional Encoding / RoPE)
  • 自注意力计算:每个 token 与序列中所有前驱 token 执行因果注意力(Causal Attention),计算出 Key(K)Value(V) 矩阵
  • KV Cache 存储:将每层的 K、V 矩阵写入 GPU 显存(KV Cache),供后续 Decode 阶段复用,避免重复计算
  • FFN 前向传播:经过多头注意力与前馈网络(FFN),每层逐步提炼语义表示
  • 首 token 输出:最后一个 token 位置的 logit 向量经 Softmax 后,采样得到第一个输出 token,随即进入 Decode 阶段

计算特性与性能影响

Prefill 与 Decode 阶段具有截然不同的计算特性,理解这一点是优化推理系统的关键:

  • 计算密集型(compute-bound):Prefill 以矩阵-矩阵乘为主,算术强度高,GPU 核心利用率接近峰值
  • 提示词长度敏感:TTFT 与提示词长度大致呈线性增长,100 token 与 10000 token 的 Prefill 耗时相差百倍
  • 吞吐与延迟权衡:增大 batch size 可提升 Prefill 吞吐,但会增加单请求等待时间(排队延迟)
  • 显存压力:长序列的 KV Cache 占用大量显存(每 token 约数 KB),是长上下文服务的主要挑战
  • 优先级干扰:Prefill 计算密集,若与 Decode 混跑同一 GPU,会抢占 Decode 所需的内存带宽,导致 TPOT 波动

主要优化技术

针对 Prefill 阶段的优化已形成完整技术体系:

  • Prefix Caching(前缀缓存):对固定系统提示词或重复上下文预先计算并缓存 KV Cache,命中时跳过对应 Prefill 计算,可显著降低 TTFT
  • Chunked Prefill(分块预填充):将超长 Prefill 拆分为多个小块,与 Decode 批次交替执行,在不阻塞解码的前提下完成长上下文处理
  • Prefill-Decode 分离(Disaggregated Prefill/Decode):将 Prefill 与 Decode 部署在不同 GPU 实例,各自独立调度,通过网络传输 KV Cache;DistServe、Mooncake、NVIDIA Dynamo 均采用此架构
  • FlashAttention:通过 IO-aware 分块计算大幅降低注意力的显存读写量,加速长序列 Prefill
  • 量化与稀疏化:对 Prefill 阶段的权重与激活进行 FP8/INT8 量化,在几乎不损精度的前提下提升计算吞吐

与 Decode 阶段的区别

Prefill 与 Decode 是推理流水线中性质相反的两个阶段:

  • 并行度:Prefill 对所有输入 token 并行计算(矩阵-矩阵乘);Decode 每步仅处理 1 个新 token(矩阵-向量乘)
  • 瓶颈类型:Prefill 是计算密集型;Decode 是内存带宽密集型(memory-bound)
  • 延迟贡献:Prefill 决定 TTFT(首 token 延迟);Decode 决定 TPOT(逐 token 延迟)和总生成时长
  • 执行次数:Prefill 每请求只执行一次;Decode 执行次数等于输出 token 数
  • 优化工具:Prefill 优化关注算子融合、Prefix Cache、分离架构;Decode 优化关注投机解码、连续批处理、KV Cache 压缩

局限与常见误区

在理解和使用 Prefill 时需警惕以下误区:

  • 误区:Prefill 越快越好,与 Decode 无关——Prefill-Decode 混跑时,Prefill 的计算密集操作会抢占 Decode 的内存带宽,导致已在运行的请求出现卡顿(jitter)
  • 误区:只有用户输入才算 Prefill——系统提示词(System Prompt)、RAG 检索到的文档、Few-shot 示例均属于 Prefill 输入,长系统提示词是 TTFT 高的常见隐患
  • KV Cache 传输开销:Prefill-Decode 分离架构需通过网络传输 KV Cache,会增加额外的 TTFT,需权衡
  • Prefix Cache 失效:提示词前缀稍有变动即导致缓存失效,模板设计需将变化部分置于末尾
  • 长上下文显存溢出:超长 Prefill 的 KV Cache 可能撑满显存,需配合 PagedAttention 或 KV 量化使用

发展脉络

Prefill 阶段的重要性随 LLM 上下文长度增长和服务规模扩大而日益凸显:

  • 2017:Transformer(Vaswani et al.)确立 Decoder-only 自回归推理范式,输入处理与 token 生成的两阶段结构初步形成
  • 2018-2022:GPT 系列、LLaMA 等模型兴起,Prefill 一词逐渐在工程社区成为标准术语
  • 2022FlashAttention(Dao et al.)通过 IO-aware 分块注意力大幅加速长序列 Prefill
  • 2023PagedAttention(vLLM)引入虚拟内存管理,解决 Prefill 产生的 KV Cache 显存碎片问题;Prefix Caching 技术被多个推理框架引入
  • 2024DistServe(Zhong et al., OSDI 2024)首次系统化提出 Prefill-Decode 分离架构,推动生产级落地;Chunked Prefill 被 vLLM、SGLang 等框架集成
  • 2025-2026:NVIDIA Dynamo、Mooncake 等系统在超大规模集群中实现智能化 Prefill 调度;面向超长上下文(百万 token)的 Prefill 优化成为研究前沿

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是大模型在回答你之前,先把你说的所有话都过一遍脑子,把关键信息存进 KV Cache,然后才开始吐第一个字。」
  • 「Prefill 越长,等首字的时间就越久——长上下文、长系统提示词都会让 TTFT 飙升。」
  • 「Prefill 和 Decode 是推理的两条流水线:Prefill 并行处理输入,超快但只干一次;Decode 串行生成输出,慢但要跑很多步。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    LLM 推理优化 2026:从 Prefill-Decode 分离到投机解码的全栈技术指南

    2026 年,LLM 推理优化已经从单一的模型量化发展为涵盖架构设计、调度策略、内存管理、硬件协同的全栈工程。本文系统梳理 LLM 推理优化的完整技术图谱:Prefill-Decode 分离架构(PD Separation)、投机解码(Speculative Decoding)、PagedAttention v2、动态批处理、KV Cache 压缩、以及 vLLM/TensorRT-LLM/SGLang 三大推理引擎的深度对比与选型指南。

  2. 2

    LLM 推理服务架构 2026:从单机部署到分布式推理的完整技术体系

    2026 年,LLM 推理服务已成为 AI 基础设施的核心组件。本文系统讲解 LLM 推理服务的架构演进,从单机部署到分布式推理,深入 KV Cache 管理、PagedAttention、推测解码、量化部署等核心技术,帮助工程师构建高性能、低成本的推理服务系统。

  3. 3

    AI 推理引擎选型实战:vLLM vs SGLang vs TensorRT-LLM 2026 生产级深度对比

    2026 年 LLM 推理引擎市场已形成三足鼎立格局:vLLM 以灵活性称王、SGLang 以 RadixAttention 前缀缓存称霸低延迟场景、TensorRT-LLM 以编译优化统治极限吞吐。本文基于 H100 80GB + Llama 3.3 70B Instruct FP8 基准测试,从架构原理、性能数据、部署复杂度、适用场景四个维度做生产级深度对比,附带完整选型决策树和代码示例。