MLSys 2026 推理优化前沿：Prefill-Decode 分离、异构调度与 Prefill CDN 的技术深度解析

💡

文章摘要

MLSys 2026 揭示了 LLM 推理优化的三大趋势：Prefill-Decode 分离（15-25% TCO 降低）、异构 GPU 调度（多目标贝叶斯优化）、Prefill CDN（9-50 倍计算节省）。本文深入解析每篇核心论文的技术细节，并给出 AI 工程师的实践建议。

引言：MLSys 2026 揭示的推理优化三大趋势

2026 年 5 月，MLSys 会议在 ML 系统领域投下了一颗重磅炸弹。 来自 Meta、NVIDIA、Groq、AMD 等公司的多篇论文，揭示了 LLM 推理优化的三个关键趋势——这些趋势将直接影响每一个 AI 工程师的部署决策。

趋势一：Prefill-Decode 分离从理论走向实践

Meta 的 Industry Track 论文《Optimizing Deployment Configurations for LLM Inference》首次公开了大规模生产环境的数据：Prefill 和 Decode 分离部署可以带来 15-25% 的 TCO（总拥有成本）降低。

这不是实验室数据，而是 Meta 在生产环境中验证的结果。

为什么分离有效？

Prefill 是计算密集型：需要高 FLOP/s，适合 A100 这类高算力 GPU
Decode 是内存带宽密集型：需要高 HBM 带宽，适合 H100 这类高带宽 GPU

将两者混在一起部署，意味着 GPU 要么算力浪费、要么带宽浪费。分离后，每种硬件都能发挥最大价值。

但 NVIDIA 在同一会议上的报告也指出了一个现实：Prefill-Decode 分离只有在同时解决以下四个问题时才有价值：

速率匹配（Rate Matching）：Prefill 和 Decode 的速度不同，需要缓冲区
KV 传输（KV Transfer）：Prefill 节点需要将 KV Cache 传给 Decode 节点
缓存路由（Cache Routing）：请求需要路由到有对应缓存的节点
弹性伸缩（Elastic Scaling）：两个集群需要独立伸缩

如果这四个问题没有同时解决，分离部署可能反而更差。

趋势二：异构部署成为标配

多篇论文探讨了使用不同类型的 GPU 混合部署的策略。核心思想是：不是所有请求都需要相同的硬件。

复杂推理（长上下文、高 token 输出）→ 高端 GPU（H100/B200）
简单请求（短对话、低 token）→ 中端 GPU（A10/L40）
批处理任务（离线分析）→ 竞价实例

BOute 论文将「哪种模型跑在哪种 GPU」建模为一个多目标贝叶斯优化问题，自动搜索最优的异构部署配置。

趋势三：Prefill CDN——复用 KV Cache 的新范式

来自哈尔滨工业大学（深圳）的论文提出了一个直觉性的想法：如果多个请求共享相同的前缀（如系统 prompt），为什么不让它们复用 KV Cache？

这就像内容分发网络（CDN）缓存热门内容一样——「Prefill CDN」缓存热门前缀的 KV Cache。

结果：9-50 倍的计算成本节省，且输出与原始计算完全一致（token-exact）。

本文将深入解析这三大趋势的技术细节、实现方案和工程影响。

图表加载中…

💡 一句话理解

阅读建议：本文涉及 MLSys 2026 的多篇论文。如果你想了解具体实现，建议先阅读本站的《LLM 推理服务架构 2026》知识库文章，理解 Prefill/Decode 的基本概念。

⚠️ 常见踩坑

MLSys 论文的数据来自特定场景（Meta 的大规模部署），你的场景可能不同。在采纳任何优化策略前，务必在自己的工作负载上进行 benchmark。

一、Prefill-Decode 分离：从论文到生产的完整路径

Prefill-Decode 分离不是新概念，但 MLSys 2026 首次展示了大规模生产验证。

1.1 为什么分离有效？

LLM 推理的两个阶段有截然不同的计算特性：

特性	Prefill	Decode
计算类型	矩阵-矩阵乘法（GEMM）	矩阵-向量乘法
瓶颈	算力（FLOP/s）	内存带宽（HBM GB/s）
GPU 利用率	高（80%+）	低（20-40%）
最佳硬件	A100（高算力）	H100（高带宽）
延迟特征	一次性（100-500ms）	逐 token（10-50ms/token）

混合部署的问题：

当 Prefill 和 Decode 在同一个 GPU 上运行时：

Prefill 期间，Decode 请求排队等待
Decode 期间，GPU 算力大量空闲
两种请求互相干扰，延迟不可预测

分离部署的优势：

Prefill 节点专注计算，GPU 利用率 80%+
Decode 节点专注带宽，GPU 利用率 60%+
两个集群独立伸缩，资源利用率最优

1.2 Meta 的生产数据

Meta 的论文报告了以下关键数据：

TCO 降低 15-25%：在单模型部署中也能获益
Prefill 节点：使用 A100（高算力，低带宽）
Decode 节点：使用 H100（高带宽，适度算力）
KV 传输：通过 RDMA 网络，延迟 <1ms

1.3 NVIDIA 的务实评估

NVIDIA 在同一会议上的报告《Beyond the Buzz: A Pragmatic Take on Inference Disaggregation》给出了更冷静的评估：

分离部署有价值的条件：

请求量大到需要多个 GPU 节点
Prefill 和 Decode 的负载比例差异大（如 Prefill 多、Decode 少）
有高速互联（NVLink/RDMA）

分离部署可能更差的条件：

请求量小，单节点就能处理
网络延迟高（如跨机房）
KV Cache 传输成为瓶颈

关键洞察：速率匹配是最大的工程挑战。

Prefill 节点生成 KV Cache 的速度可能快于或慢于 Decode 节点消费的速度。需要：

缓冲区（Buffer）：吸收速率差异
背压（Backpressure）：当缓冲区满时，通知 Prefill 减速
动态调度：根据实时负载调整 Prefill/Decode 节点数量

1.4 工程实现方案

方案一：Splitwise（Meta 开源）

Splitwise 是 Meta 开源的 Prefill-Decode 分离框架，核心设计：

Prefill 集群：处理输入，生成 KV Cache
Decode 集群：接收 KV Cache，逐 token 生成
KV 传输层：通过 RDMA 高速传输 KV Cache
调度器：根据负载动态分配请求

方案二：DeepSpeed-MII（Microsoft）

Microsoft 的方案更轻量，适合中小规模部署：

Splitwise 模式：自动将请求分为 Prefill 和 Decode
动态批处理：Prefill 和 Decode 使用不同的批处理策略
无需额外硬件：在同一 GPU 上逻辑分离

方案三：TriInfer（MLSys 2026 新论文）

TriInfer 将分离扩展到三阶段：Encode-Prefill-Decode，专门针对多模态模型：

Encode 节点：处理图像/音频输入，生成视觉/音频 token
Prefill 节点：处理所有 token 的注意力计算
Decode 节点：逐 token 生成输出

这是多模态推理优化的下一步。

图表加载中…

💡 一句话理解

如果你的部署规模超过 8 GPU，Prefill-Decode 分离值得尝试。关键是先 benchmark 你的工作负载中 Prefill 和 Decode 的比例，如果差异大（如 70/30），分离的收益更高。

⚠️ 常见踩坑

不要在小规模部署中使用分离架构。如果你的请求量只需要 2-4 GPU，分离带来的网络开销可能超过收益。分离适合 8+ GPU 的大规模部署。

二、异构推理调度：让每种 GPU 发挥最大价值

现实中的数据中心的 GPU 不是统一的——你有 A100、H100、L40、甚至消费级 GPU。 异构调度的目标是让每种 GPU 处理最适合它的任务。

2.1 异构的必然性

大多数团队的数据中心是「混合舰队」：

去年买的 A100（40GB/80GB）
今年买的 H100
几台 L40 用于推理
一些消费级 GPU 用于开发

问题：如何让这些异构硬件协同工作？

2.2 BOute：多目标贝叶斯优化

MLSys 2026 的 BOute 论文将异构部署建模为一个搜索问题：

输入：

可用 GPU 列表（类型、数量、显存）
可用模型列表（参数量、精度）
工作负载特征（请求分布、上下文长度分布）

输出：

每种模型在每种 GPU 上的部署数量
请求路由策略

优化目标：

最小化延迟（P99）
最小化成本（GPU 小时）
最大化吞吐量

BOute 使用贝叶斯优化搜索最优配置，而不是暴力枚举。在 Meta 的生产环境中，BOute 找到了比人工配置节省 20-30% 成本的方案。

2.3 SuperInfer：Superchip 的软件优化

另一篇论文 SuperInfer 关注了一个有趣的问题：为什么 GH200 Superchip 的 NVLink-C2C 互联利用率不到 5%？

GH200 的 NVLink-C2C 带宽高达 900 GB/s，但现有框架只利用了不到 5%（约 45 GB/s）。

原因：软件栈把 NVLink-C2C 当作 PCIe 使用。

NVLink-C2C 和 PCIe 的编程模型不同：

PCIe：基于请求-响应，延迟高
NVLink-C2C：基于内存映射，延迟极低

现有框架（如 PyTorch）的 offloading 逻辑是为 PCIe 设计的，没有利用 NVLink-C2C 的内存映射特性。

SuperInfer 的解决方案：

重写 offloading 逻辑，使用内存映射而非请求-响应
针对 GH200 的 SLO（Service Level Objective）优化调度
利用 NVLink-C2C 的低延迟特性做推测解码

结果：在 GH200 上实现 2-3 倍的推理加速。

2.4 SHIP：Groq 的 SRAM 推理管线

Groq 的 SHIP 论文展示了另一种异构思路：不用 GPU，用 LPU（Language Processing Unit）。

Groq LPU 的特点：

全 SRAM：整个模型放在 SRAM 中，无需 HBM
编译器静态调度：所有通信在编译时确定，运行时零调度开销
确定性延迟：每个 token 的生成时间是固定的

SHIP 的核心创新：

将模型切分到多个 LPU 芯片
编译器在周期粒度（cycle granularity）上调度集合通信
利用 SRAM 的确定性延迟实现精确的流水线调度

结果：Groq 的 LPU 在延迟上比 GPU 快 10-18 倍（对于小模型），因为 GPU 的 HBM 访问延迟是 SRAM 的 10-100 倍。

但 LPU 的局限也很明显：

SRAM 容量有限（目前最大 230MB/chip），无法部署大模型
需要大量芯片的张量并行才能部署 70B+ 模型
生态不成熟，工具链有限

2.5 TokenWeave：分布式推理的通信优化

TokenWeave 解决了一个具体问题：多 GPU 推理中的通信开销。

在张量并行中，每个 token 的生成都需要 All-Reduce 通信。对于 8 GPU 的张量并行，通信量是计算量的 30-50%。

TokenWeave 的核心思想：计算-通信重叠。

使用 PyTorch 的 SymmetricMemory API
利用 NVLink4 的 NVSHARP 引擎
在计算当前层的同时，异步传输上一层的结果

结果：通信开销从 30-50% 降低到 10-15%。

python

# 异构推理路由伪代码
from dataclasses import dataclass
from typing import List

@dataclass
class GPUInstance:
    gpu_type: str      # "A100", "H100", "L40"
    vram_gb: int       # 显存大小
    bandwidth_gb_s: int # 内存带宽
    flops_tflops: int   # 算力
    current_load: float # 当前负载 0-1

class HeterogeneousRouter:
    def __init__(self, instances: List[GPUInstance]):
        self.instances = instances
    
    def route(self, request) -> GPUInstance:
        """根据请求特征路由到最合适的 GPU"""
        context_len = request.context_length
        output_len = request.max_output_tokens
        
        # 长上下文请求 → 高带宽 GPU（Decode 友好）
        if context_len > 8192:
            candidates = [i for i in self.instances 
                         if i.bandwidth_gb_s > 2000]
        # 短请求 → 高算力 GPU（Prefill 友好）
        elif context_len < 1024:
            candidates = [i for i in self.instances 
                         if i.flops_tflops > 300]
        else:
            candidates = self.instances
        
        # 选择负载最低的
        return min(candidates, key=lambda x: x.current_load)

# 使用示例
router = HeterogeneousRouter([
    GPUInstance("A100", 80, 2039, 312, 0.6),
    GPUInstance("H100", 80, 3350, 989, 0.3),
    GPUInstance("L40", 48, 864, 362, 0.8),
])

# 长上下文请求 → 路由到 H100
best = router.route(context_length=16384, max_output_tokens=2048)
print(f"路由到: {best.gpu_type}")  # H100

💡 一句话理解

异构调度的关键是理解你的工作负载。如果主要是长上下文请求，优先路由到高带宽 GPU；如果主要是短请求，优先路由到高算力 GPU。

⚠️ 常见踩坑

异构调度增加了系统复杂度。如果你的数据中心只有一种 GPU，不需要引入异构调度。简单就是美。

三、Prefill CDN：复用 KV Cache 的 9-50 倍加速

哈工大（深圳）的论文提出了一个极其直觉的想法：把热门前缀的 KV Cache 像 CDN 缓存一样分发。

3.1 问题背景

在企业应用中，大量请求共享相同的前缀：

系统 Prompt：所有用户共享相同的系统指令（如「你是一个客服助手...」）
RAG 上下文：多个用户查询同一份文档
Few-shot 示例：所有请求包含相同的示例

传统方法的问题：

每个请求都独立计算前缀的 KV Cache，即使前缀完全相同。

对于一个 2000 token 的系统 prompt：

每次请求需要 2000 token 的 Prefill 计算
如果每秒 100 个请求，每秒需要 200,000 token 的 Prefill 计算
这些计算 99% 是重复的

3.2 Prefill CDN 的设计

Prefill CDN 的核心架构：

KV Cache 存储：集中存储热门前缀的 KV Cache
前缀匹配：新请求到达时，检查是否有匹配的前缀
缓存加载：从存储中加载匹配的 KV Cache，跳过 Prefill 计算
增量计算：只计算新 token 的 KV Cache

关键设计决策：

① 如何匹配前缀？

使用 Trie（前缀树） 索引所有缓存的前缀：

将 token 序列插入 Trie
新请求的 token 序列沿 Trie 匹配
匹配到最长前缀后，加载对应的 KV Cache

② 如何存储 KV Cache？

分层存储：热前缀放 GPU 显存，温前缀放 CPU 内存，冷前缀放 SSD
压缩存储：KV Cache 可以量化到 INT8，节省 50% 空间
分块存储：大前缀切分为块，支持部分匹配

③ 如何保证一致性？

前缀的 KV Cache 是确定性的（相同输入 → 相同输出）
只要模型不变，缓存的 KV Cache 永远有效
模型更新时，清除所有缓存（或使用版本化缓存）

3.3 实验结果

论文在多个场景下测试了 Prefill CDN：

场景	前缀长度	加速比	成本节省
系统 Prompt	2K token	9x	89%
RAG 文档	8K token	25x	96%
长文档分析	32K token	50x	98%

关键发现：前缀越长，节省越多。

这是因为长前缀的 Prefill 计算成本更高，复用的收益更大。

输出是 token-exact 的——与重新计算的结果完全一致，没有任何精度损失。

3.4 工程实现

vLLM 的 Prefix Caching 已经支持类似功能：

vLLM 0.5+ 版本内置了 Prefix Caching：

自动检测共享前缀
在 GPU 显存中缓存 KV Cache
支持 LRU 淘汰策略

使用方法：

但 vLLM 的实现是「本地缓存」——每台推理实例独立缓存。

Prefill CDN 论文的贡献是提出了「分布式缓存」——多个推理实例共享一个 KV Cache 存储，类似 CDN 的架构。

这在大规模部署中更有价值：

实例 A 缓存了某个前缀
实例 B 收到相同前缀的请求
实例 B 直接从共享存储加载，无需重新计算

3.5 对开发者的影响

如果你使用系统 Prompt（几乎所有应用都是）：

启用 Prefix Caching 可以节省 30-50% 的 Prefill 时间
对于长系统 Prompt（>2000 token），节省更多

如果你做 RAG：

同一文档的多次查询可以复用 KV Cache
建议将文档 chunk 的 KV Cache 预计算并缓存

如果你做多租户服务：

不同租户可能共享相同的系统 Prompt
分布式 KV Cache 可以跨租户复用

图表加载中…

python

# 启用 Prefix Caching
# 方法 1：命令行
# vllm serve meta-llama/Llama-3.1-70B-Instruct \
#     --enable-prefix-caching

# 方法 2：Python API
from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3.1-70B-Instruct",
    enable_prefix_caching=True,  # 启用前缀缓存
    max_model_len=32768,
    gpu_memory_utilization=0.9,
)

# 以下两个请求共享系统 Prompt 的 KV Cache
# 第二个请求的 Prefill 时间将大幅减少

response1 = llm.generate([
    "你是一个专业的客服助手。[2000 token 的产品知识]...\n用户：退货政策是什么？"
])

response2 = llm.generate([
    "你是一个专业的客服助手。[相同的 2000 token 产品知识]...\n用户：如何修改地址？"
])
# response2 的 Prefill 几乎为零，因为系统 Prompt 的 KV Cache 已缓存

bash

vllm serve meta-llama/Llama-3.1-70B-Instruct \\
    --enable-prefix-caching \\
    --max-model-len 32768

💡 一句话理解

立即启用 vLLM 的 Prefix Caching。如果你的应用有共享的系统 Prompt 或 RAG 上下文，这是零成本的免费加速。

⚠️ 常见踩坑

Prefix Caching 会占用额外的 GPU 显存来存储 KV Cache。如果显存紧张（如部署大模型时），可能需要调整 gpu_memory_utilization 或减少 max_model_len。

四、CPU 推理的新突破：SMEPilot 与 Apple Accelerate

不是所有推理都需要 GPU。MLSys 2026 展示了 CPU 推理的新可能性。

4.1 为什么关注 CPU 推理？

普及性：CPU 无处不在，不需要专门的 GPU 硬件
成本：CPU 推理的成本是 GPU 的 1/10-1/100
隐私：本地 CPU 推理不需要将数据发送到云端
边缘：IoT 设备和嵌入式系统只有 CPU

4.2 SMEPilot：ARM 可扩展矩阵扩展

SMEPilot 利用了 ARM v9 的 SME（Scalable Matrix Extensions） 指令集：

SME 是什么？

SME 是 ARM 为矩阵计算设计的专用指令集，类似于 Intel 的 AMX（Advanced Matrix Extensions）：

专用的矩阵寄存器（ZT0）
外积（Outer Product）指令
可伸缩的向量长度

SMEPilot 的创新：

SME + CPU 协同：将大矩阵运算分配到 SME 单元和 CPU 核心
Prefill 优化：FFN GEMM 加速 1.42-1.67 倍（vs Apple Accelerate）
Attention 优化：CPU FlashAttention 加速 1.56-3.50 倍
Decode 优化：比纯 CPU 推理加速 3.48 倍

结果：在 Apple M 系列芯片上实现 3.94 倍的端到端加速（vs llama.cpp）。

4.3 Apple Accelerate 的 SME 支持

Apple 在 2026 年的 macOS 中为 Accelerate 框架添加了 SME 支持：

自动检测 M 系列芯片的 SME 能力
使用 SME 指令加速矩阵运算
对开发者透明（通过 Accelerate 框架自动利用）

这意味着： 在 Mac 上运行 llama.cpp 或 vLLM，会自动利用 SME 加速，无需手动配置。

4.4 llama.cpp 的 CPU 优化

llama.cpp 也在持续优化 CPU 推理：

GGUF 格式：专为 CPU 推理优化的模型格式
量化支持：INT2/INT4/INT8/FP16 混合精度
多线程：充分利用 CPU 多核
内存映射：大模型不需要全部加载到内存

在 Apple M3 Max 上的性能参考：

模型	精度	tokens/s	适用场景
Llama-3.1-8B	Q4_K_M	45 t/s	实时对话
Llama-3.1-70B	Q4_K_M	8 t/s	批处理
Llama-3.1-8B	Q8_0	30 t/s	高质量输出
Phi-3-mini (3.8B)	Q4_K_M	80 t/s	边缘/嵌入式

4.5 CPU 推理的适用场景

适合 CPU 推理的场景：

小模型（<10B 参数）
对延迟不敏感（批处理、离线分析）
隐私要求高（本地处理）
成本敏感（无 GPU 预算）

不适合 CPU 推理的场景：

大模型（>30B 参数）
低延迟要求（<100ms）
高并发（>10 QPS）
长上下文（>8K token）

bash

# 安装 llama.cpp（自动启用 SME/AMX）
brew install llama.cpp

# 下载量化模型
# 从 Hugging Face 下载 GGUF 格式
huggingface-cli download TheBloke/Llama-2-7B-GGUF \
    llama-2-7b.Q4_K_M.gguf --local-dir ./models

# 运行推理（自动使用所有 CPU 核心 + SME）
llama-cli \
    -m ./models/llama-2-7b.Q4_K_M.gguf \
    -p "解释量子计算的基本原理" \
    -n 512 \
    -t 12  # 使用 12 个线程（M3 Max 有 12 个性能核心）

# 性能测试
llama-bench \
    -m ./models/llama-2-7b.Q4_K_M.gguf \
    -t 12 \
    -n 128 \
    -r 5  # 运行 5 次取平均

💡 一句话理解

如果你在 Mac 上开发 AI 应用，CPU 推理是原型开发和本地测试的最佳选择。不需要 GPU，不需要云服务，直接在笔记本上运行。

⚠️ 常见踩坑

CPU 推理不适合生产环境的大规模部署。它适合开发、测试、小模型和边缘场景。生产环境的高并发推理仍然需要 GPU。

五、Latent Thought Flow：在潜空间中推理

新加坡管理大学和蚂蚁集团联合提出的 Latent Thought Flow（LTF）可能是 MLSys 2026 最有前瞻性的论文。

5.1 核心思想

传统 LLM 推理在文本空间中进行：每个推理步骤都生成一个文本 token，然后作为下一步的输入。

LTF 提出在潜空间（Latent Space）中进行推理：推理步骤不生成文本 token，而是在模型的隐藏状态空间中直接传递信息。

类比：

传统推理：每一步都在纸上写出中间结果（文本 token）
LTF 推理：每一步都在大脑中思考（隐藏状态），只在最后写出答案

5.2 技术实现

LTF 使用 GFlowNets（Generative Flow Networks） 来控制潜空间推理的流程：

自适应推理步数：根据问题复杂度动态决定推理步数
- 简单问题：1-2 步
- 复杂问题：5-10 步
潜空间传递：推理步骤之间通过隐藏状态传递，不生成文本
- 减少 token 消耗
- 减少推理长度
最终输出：只在最后一步生成文本答案

5.3 实验结果

LTF 在多个 LLM 后端上测试：

平均准确率提升 9.5%（vs 现有潜空间推理方法）
推理长度减少 27.2%（生成的 token 更少）
适用性广：在 Llama、GPT、Claude 等后端上都有效

5.4 为什么这很重要？

1. 成本降低

推理长度减少 27.2% 意味着 Token 消耗减少 27.2%。对于大规模部署，这是直接的成本节省。

2. 推理质量提升

在潜空间中推理避免了「文本瓶颈」——传统方法中，中间推理步骤必须用文本表达，可能丢失信息。潜空间推理保留了更丰富的信息。

3. 新的优化维度

LTF 打开了一个全新的优化方向：不是优化模型本身，而是优化模型的推理方式。

5.5 局限性

LTF 目前还处于研究阶段，有几个局限：

需要修改模型的推理流程，不能直接用于 API 调用
GFlowNet 的训练需要额外的数据和计算
目前只在基准测试上验证，生产环境的效果待观察

但方向是正确的：未来的推理优化不仅在模型层面，还在推理策略层面。

图表加载中…

💡 一句话理解

Latent Thought Flow 代表了推理优化的下一个前沿。虽然目前还不能直接使用，但关注这个方向有助于理解未来推理技术的发展趋势。

⚠️ 常见踩坑

LTF 是学术研究，距离生产应用还有距离。不要试图在生产环境中实现 LTF——等它成熟后再考虑。

六、对 AI 工程师的实践建议

MLSys 2026 的论文很多，但哪些是现在就能用的？哪些需要等？

立即可用（2026 Q2-Q3）

① 启用 Prefix Caching

vLLM 0.5+ 已内置
零成本，立即节省 30-50% Prefill 时间
适合所有有共享前缀的场景

② 推测解码

vLLM、TensorRT-LLM 均已支持
加速 2-3 倍，几乎无精度损失
适合对延迟敏感的场景

③ FP8 量化（H100/B200 用户）

原生硬件支持，精度损失 <0.1%
内存节省 50%，速度提升 1.5x
没有理由不用

④ INT4 量化（消费级 GPU 用户）

AWQ/GPTQ 成熟稳定
70B 模型可以在单张 24GB GPU 上运行
精度损失 <1%

中期规划（2026 Q4-2027）

⑤ Prefill-Decode 分离

需要 8+ GPU 的规模
需要高速互联（NVLink/RDMA）
建议先在测试环境验证

⑥ 异构调度

需要多种 GPU 类型
建议使用 BOute 等工具自动搜索最优配置
从简单的规则路由开始，逐步引入自动优化

长期关注（2027+）

⑦ 潜空间推理（LTF）

关注论文进展和开源实现
可能在 2027 年进入生产环境

⑧ 推理专用芯片

Tensordyne Napier 预计 2026 Q4 发货
关注实际性能数据
不适合立即迁移，但值得规划

学习资源

论文：

Meta《Optimizing Deployment Configurations for LLM Inference》
NVIDIA《Beyond the Buzz: A Pragmatic Take on Inference Disaggregation》
SuperInfer《SLO-Aware Rotary Scheduling for LLM Inference on Superchips》
SHIP《SRAM-Based Huge Inference Pipelines for Fast LLM Serving》
TokenWeave《Efficient Compute-Communication Overlap for Distributed LLM Inference》
SMEPilot《Characterizing and Optimizing LLM Inference with Scalable Matrix Extensions》
Latent Thought Flow《Adaptive Efficient Multi-Step Reasoning in Latent Space》

开源项目：

vLLM（Prefix Caching、推测解码）
SGLang（结构化生成优化）
llama.cpp（CPU 推理）
Splitwise（Prefill-Decode 分离）

结论：MLSys 2026 展示了推理优化的丰富可能性。 作为工程师，不需要追逐每一篇论文，但需要理解趋势、掌握成熟技术、规划未来方向。Prefill-Decode 分离、异构调度、Prefill CDN 是 2026-2027 年的三大确定性趋势。

七、Tensordyne Napier 深度技术解析：对数数学如何颠覆推理芯片格局（2026 年 6 月新增）

2026 年 6 月 15 日，Tensordyne 宣布 Napier（TDN）推理专用芯片成功流片。 这是自 NVIDIA GPU 主导 AI 计算以来，第一个从数学底层重新设计的推理加速器。它的核心不是「更快的矩阵乘法」，而是彻底绕开矩阵乘法。

7.1 GPU 的困境：通用计算的代价

NVIDIA GPU（从 H100 到 Blackwell）是通用并行处理器。LLM 推理的核心运算是矩阵-向量乘法（每次生成一个 token 时，需要将整个模型权重与当前隐藏状态相乘）。

问题在于：GPU 的 CUDA 核心和 Tensor Core 都是为乘法优化的。但乘法在晶体管层面比加法复杂 3-5 倍——一个乘法器需要约 40 个晶体管，而一个加法器只需要约 8 个。

推理的本质矛盾：每生成一个 token，需要读取整个模型权重（70B INT4 模型约 35GB）。H100 的 HBM3e 带宽 3.35TB/s，每 token 需要 10ms+。瓶颈不是算力，而是内存带宽。

7.2 Napier 的核心创新：对数数学（Logarithmic Mathematics）

Napier 的设计哲学令人震撼：既然乘法这么贵，为什么不把乘法变成加法？

数学基础：log(a × b) = log(a) + log(b)

Napier 的 ALU（算术逻辑单元）工作在对数域：

将输入权重和激活值转换为对数表示
用加法替代乘法（O(n²) 次加法 vs O(n²) 次乘法）
将结果从对数域转换回线性域

工程实现的关键：对数转换本身需要计算（log 和 exp 函数），如果用传统方式实现，转换开销可能抵消加法节省的时间。Napier 的突破是设计了硬件级对数查找表（Log Lookup Table）——用 SRAM 存储预计算的对数/指数映射，查找延迟仅 1 个时钟周期。

7.3 实测数据：17x tokens/watt

Tensordyne 公布的 benchmark（2026 年 6 月，Llama-3-70B INT4）：

指标	NVIDIA B200	Tensordyne Napier	对比
tokens/watt	1x（基准）	17x	17 倍能效比
tokens/s（单芯片）	100%	85%	绝对吞吐略低
芯片面积	100%	40%	芯片更小
HBM 需求	192GB	96GB	一半的显存
TDP	1000W	300W	功耗降低 70%

关键洞察：Napier 的绝对吞吐（tokens/s）比 B200 低约 15%，但每瓦特生成的 token 数是 B200 的 17 倍。这意味着：

相同电费下，推理成本降低 94%
相同散热条件下，数据中心可以部署 3x 更多的 Napier 芯片
边缘部署成为可能（300W 可以在边缘服务器上运行）

7.4 Napier 的局限性

Napier 不是万能的：

只适合推理：对数数学在推理的矩阵-向量乘法中有效，但训练的矩阵-矩阵乘法需要精确的梯度计算，对数域的精度损失不可接受
精度限制：对数查找表的精度有限（目前 8-bit），不适合需要 FP16/BF16 精度的场景
生态不成熟：CUDA 生态（cuDNN、TensorRT）无法直接在 Napier 上运行，需要专门的编译器工具链
量产时间：预计 2026 Q4 才开始向首批客户发货

7.5 对 AI 工程师的影响

短期（2026 H2）：Napier 不影响你的日常部署决策。继续使用 GPU。

中期（2027）：如果 Napier 的量产顺利，云服务商（AWS、GCP、Azure）可能推出 Napier 实例。届时对于延迟不敏感但成本敏感的工作负载（如批量文本处理、离线分析），Napier 实例可能是更经济的选择。

长期（2028+）：推理专用芯片可能改变 AI 基础设施的成本结构。如果 tokens/watt 提升 10-20x 成为现实，AI 应用的边际成本将趋近于零——这将催生全新的商业模式。

图表加载中…

💡 一句话理解

Napier 的 17x tokens/watt 是在 INT4 量化、Llama-3-70B、batch_size=32 的条件下测试的。不同模型和量化精度的结果可能不同。关注 Tensordyne 后续的多样化 benchmark。

⚠️ 常见踩坑

Napier 预计 2026 Q4 才发货，目前无法在生产环境中使用。不要基于 Napier 的预期性能做当前的架构决策。

🎯 相关面试题

结合本篇技术观点，备战 AI 岗位面试。

浏览全部面试题 →

文章摘要

引言：MLSys 2026 揭示的推理优化三大趋势

趋势一：Prefill-Decode 分离从理论走向实践

这不是实验室数据，而是 Meta 在生产环境中验证的结果。

为什么分离有效？

Prefill 是计算密集型：需要高 FLOP/s，适合 A100 这类高算力 GPU
Decode 是内存带宽密集型：需要高 HBM 带宽，适合 H100 这类高带宽 GPU

将两者混在一起部署，意味着 GPU 要么算力浪费、要么带宽浪费。分离后，每种硬件都能发挥最大价值。

但 NVIDIA 在同一会议上的报告也指出了一个现实：Prefill-Decode 分离只有在同时解决以下四个问题时才有价值：

速率匹配（Rate Matching）：Prefill 和 Decode 的速度不同，需要缓冲区
KV 传输（KV Transfer）：Prefill 节点需要将 KV Cache 传给 Decode 节点
缓存路由（Cache Routing）：请求需要路由到有对应缓存的节点
弹性伸缩（Elastic Scaling）：两个集群需要独立伸缩

如果这四个问题没有同时解决，分离部署可能反而更差。

趋势二：异构部署成为标配

多篇论文探讨了使用不同类型的 GPU 混合部署的策略。核心思想是：不是所有请求都需要相同的硬件。

复杂推理（长上下文、高 token 输出）→ 高端 GPU（H100/B200）
简单请求（短对话、低 token）→ 中端 GPU（A10/L40）
批处理任务（离线分析）→ 竞价实例

BOute 论文将「哪种模型跑在哪种 GPU」建模为一个多目标贝叶斯优化问题，自动搜索最优的异构部署配置。

趋势三：Prefill CDN——复用 KV Cache 的新范式

来自哈尔滨工业大学（深圳）的论文提出了一个直觉性的想法：如果多个请求共享相同的前缀（如系统 prompt），为什么不让它们复用 KV Cache？

这就像内容分发网络（CDN）缓存热门内容一样——「Prefill CDN」缓存热门前缀的 KV Cache。

结果：9-50 倍的计算成本节省，且输出与原始计算完全一致（token-exact）。

本文将深入解析这三大趋势的技术细节、实现方案和工程影响。

图表加载中…

💡 一句话理解

⚠️ 常见踩坑

MLSys 论文的数据来自特定场景（Meta 的大规模部署），你的场景可能不同。在采纳任何优化策略前，务必在自己的工作负载上进行 benchmark。

一、Prefill-Decode 分离：从论文到生产的完整路径

Prefill-Decode 分离不是新概念，但 MLSys 2026 首次展示了大规模生产验证。

1.1 为什么分离有效？

LLM 推理的两个阶段有截然不同的计算特性：

特性	Prefill	Decode
计算类型	矩阵-矩阵乘法（GEMM）	矩阵-向量乘法
瓶颈	算力（FLOP/s）	内存带宽（HBM GB/s）
GPU 利用率	高（80%+）	低（20-40%）
最佳硬件	A100（高算力）	H100（高带宽）
延迟特征	一次性（100-500ms）	逐 token（10-50ms/token）

混合部署的问题：

当 Prefill 和 Decode 在同一个 GPU 上运行时：

Prefill 期间，Decode 请求排队等待
Decode 期间，GPU 算力大量空闲
两种请求互相干扰，延迟不可预测

分离部署的优势：

Prefill 节点专注计算，GPU 利用率 80%+
Decode 节点专注带宽，GPU 利用率 60%+
两个集群独立伸缩，资源利用率最优

1.2 Meta 的生产数据

Meta 的论文报告了以下关键数据：

TCO 降低 15-25%：在单模型部署中也能获益
Prefill 节点：使用 A100（高算力，低带宽）
Decode 节点：使用 H100（高带宽，适度算力）
KV 传输：通过 RDMA 网络，延迟 <1ms

1.3 NVIDIA 的务实评估

NVIDIA 在同一会议上的报告《Beyond the Buzz: A Pragmatic Take on Inference Disaggregation》给出了更冷静的评估：

分离部署有价值的条件：

请求量大到需要多个 GPU 节点
Prefill 和 Decode 的负载比例差异大（如 Prefill 多、Decode 少）
有高速互联（NVLink/RDMA）

分离部署可能更差的条件：

请求量小，单节点就能处理
网络延迟高（如跨机房）
KV Cache 传输成为瓶颈

关键洞察：速率匹配是最大的工程挑战。

Prefill 节点生成 KV Cache 的速度可能快于或慢于 Decode 节点消费的速度。需要：

缓冲区（Buffer）：吸收速率差异
背压（Backpressure）：当缓冲区满时，通知 Prefill 减速
动态调度：根据实时负载调整 Prefill/Decode 节点数量

1.4 工程实现方案

方案一：Splitwise（Meta 开源）

Splitwise 是 Meta 开源的 Prefill-Decode 分离框架，核心设计：

Prefill 集群：处理输入，生成 KV Cache
Decode 集群：接收 KV Cache，逐 token 生成
KV 传输层：通过 RDMA 高速传输 KV Cache
调度器：根据负载动态分配请求

方案二：DeepSpeed-MII（Microsoft）

Microsoft 的方案更轻量，适合中小规模部署：

Splitwise 模式：自动将请求分为 Prefill 和 Decode
动态批处理：Prefill 和 Decode 使用不同的批处理策略
无需额外硬件：在同一 GPU 上逻辑分离

方案三：TriInfer（MLSys 2026 新论文）

TriInfer 将分离扩展到三阶段：Encode-Prefill-Decode，专门针对多模态模型：

Encode 节点：处理图像/音频输入，生成视觉/音频 token
Prefill 节点：处理所有 token 的注意力计算
Decode 节点：逐 token 生成输出

这是多模态推理优化的下一步。

图表加载中…

💡 一句话理解

⚠️ 常见踩坑

不要在小规模部署中使用分离架构。如果你的请求量只需要 2-4 GPU，分离带来的网络开销可能超过收益。分离适合 8+ GPU 的大规模部署。

二、异构推理调度：让每种 GPU 发挥最大价值

现实中的数据中心的 GPU 不是统一的——你有 A100、H100、L40、甚至消费级 GPU。 异构调度的目标是让每种 GPU 处理最适合它的任务。

2.1 异构的必然性

大多数团队的数据中心是「混合舰队」：

去年买的 A100（40GB/80GB）
今年买的 H100
几台 L40 用于推理
一些消费级 GPU 用于开发

问题：如何让这些异构硬件协同工作？

2.2 BOute：多目标贝叶斯优化

MLSys 2026 的 BOute 论文将异构部署建模为一个搜索问题：

输入：

可用 GPU 列表（类型、数量、显存）
可用模型列表（参数量、精度）
工作负载特征（请求分布、上下文长度分布）

输出：

每种模型在每种 GPU 上的部署数量
请求路由策略

优化目标：

最小化延迟（P99）
最小化成本（GPU 小时）
最大化吞吐量

BOute 使用贝叶斯优化搜索最优配置，而不是暴力枚举。在 Meta 的生产环境中，BOute 找到了比人工配置节省 20-30% 成本的方案。

2.3 SuperInfer：Superchip 的软件优化

另一篇论文 SuperInfer 关注了一个有趣的问题：为什么 GH200 Superchip 的 NVLink-C2C 互联利用率不到 5%？

GH200 的 NVLink-C2C 带宽高达 900 GB/s，但现有框架只利用了不到 5%（约 45 GB/s）。

原因：软件栈把 NVLink-C2C 当作 PCIe 使用。

NVLink-C2C 和 PCIe 的编程模型不同：

PCIe：基于请求-响应，延迟高
NVLink-C2C：基于内存映射，延迟极低

现有框架（如 PyTorch）的 offloading 逻辑是为 PCIe 设计的，没有利用 NVLink-C2C 的内存映射特性。

SuperInfer 的解决方案：

重写 offloading 逻辑，使用内存映射而非请求-响应
针对 GH200 的 SLO（Service Level Objective）优化调度
利用 NVLink-C2C 的低延迟特性做推测解码

结果：在 GH200 上实现 2-3 倍的推理加速。

2.4 SHIP：Groq 的 SRAM 推理管线

Groq 的 SHIP 论文展示了另一种异构思路：不用 GPU，用 LPU（Language Processing Unit）。

Groq LPU 的特点：

全 SRAM：整个模型放在 SRAM 中，无需 HBM
编译器静态调度：所有通信在编译时确定，运行时零调度开销
确定性延迟：每个 token 的生成时间是固定的

SHIP 的核心创新：

将模型切分到多个 LPU 芯片
编译器在周期粒度（cycle granularity）上调度集合通信
利用 SRAM 的确定性延迟实现精确的流水线调度

结果：Groq 的 LPU 在延迟上比 GPU 快 10-18 倍（对于小模型），因为 GPU 的 HBM 访问延迟是 SRAM 的 10-100 倍。

但 LPU 的局限也很明显：

SRAM 容量有限（目前最大 230MB/chip），无法部署大模型
需要大量芯片的张量并行才能部署 70B+ 模型
生态不成熟，工具链有限

2.5 TokenWeave：分布式推理的通信优化

TokenWeave 解决了一个具体问题：多 GPU 推理中的通信开销。

在张量并行中，每个 token 的生成都需要 All-Reduce 通信。对于 8 GPU 的张量并行，通信量是计算量的 30-50%。

TokenWeave 的核心思想：计算-通信重叠。

使用 PyTorch 的 SymmetricMemory API
利用 NVLink4 的 NVSHARP 引擎
在计算当前层的同时，异步传输上一层的结果

结果：通信开销从 30-50% 降低到 10-15%。

python

# 异构推理路由伪代码
from dataclasses import dataclass
from typing import List

@dataclass
class GPUInstance:
    gpu_type: str      # "A100", "H100", "L40"
    vram_gb: int       # 显存大小
    bandwidth_gb_s: int # 内存带宽
    flops_tflops: int   # 算力
    current_load: float # 当前负载 0-1

class HeterogeneousRouter:
    def __init__(self, instances: List[GPUInstance]):
        self.instances = instances
    
    def route(self, request) -> GPUInstance:
        """根据请求特征路由到最合适的 GPU"""
        context_len = request.context_length
        output_len = request.max_output_tokens
        
        # 长上下文请求 → 高带宽 GPU（Decode 友好）
        if context_len > 8192:
            candidates = [i for i in self.instances 
                         if i.bandwidth_gb_s > 2000]
        # 短请求 → 高算力 GPU（Prefill 友好）
        elif context_len < 1024:
            candidates = [i for i in self.instances 
                         if i.flops_tflops > 300]
        else:
            candidates = self.instances
        
        # 选择负载最低的
        return min(candidates, key=lambda x: x.current_load)

# 使用示例
router = HeterogeneousRouter([
    GPUInstance("A100", 80, 2039, 312, 0.6),
    GPUInstance("H100", 80, 3350, 989, 0.3),
    GPUInstance("L40", 48, 864, 362, 0.8),
])

# 长上下文请求 → 路由到 H100
best = router.route(context_length=16384, max_output_tokens=2048)
print(f"路由到: {best.gpu_type}")  # H100

💡 一句话理解

异构调度的关键是理解你的工作负载。如果主要是长上下文请求，优先路由到高带宽 GPU；如果主要是短请求，优先路由到高算力 GPU。

⚠️ 常见踩坑

异构调度增加了系统复杂度。如果你的数据中心只有一种 GPU，不需要引入异构调度。简单就是美。

三、Prefill CDN：复用 KV Cache 的 9-50 倍加速

哈工大（深圳）的论文提出了一个极其直觉的想法：把热门前缀的 KV Cache 像 CDN 缓存一样分发。

3.1 问题背景

在企业应用中，大量请求共享相同的前缀：

系统 Prompt：所有用户共享相同的系统指令（如「你是一个客服助手...」）
RAG 上下文：多个用户查询同一份文档
Few-shot 示例：所有请求包含相同的示例

传统方法的问题：

每个请求都独立计算前缀的 KV Cache，即使前缀完全相同。

对于一个 2000 token 的系统 prompt：

每次请求需要 2000 token 的 Prefill 计算
如果每秒 100 个请求，每秒需要 200,000 token 的 Prefill 计算
这些计算 99% 是重复的

3.2 Prefill CDN 的设计

Prefill CDN 的核心架构：

KV Cache 存储：集中存储热门前缀的 KV Cache
前缀匹配：新请求到达时，检查是否有匹配的前缀
缓存加载：从存储中加载匹配的 KV Cache，跳过 Prefill 计算
增量计算：只计算新 token 的 KV Cache

关键设计决策：

① 如何匹配前缀？

使用 Trie（前缀树） 索引所有缓存的前缀：

将 token 序列插入 Trie
新请求的 token 序列沿 Trie 匹配
匹配到最长前缀后，加载对应的 KV Cache

② 如何存储 KV Cache？

分层存储：热前缀放 GPU 显存，温前缀放 CPU 内存，冷前缀放 SSD
压缩存储：KV Cache 可以量化到 INT8，节省 50% 空间
分块存储：大前缀切分为块，支持部分匹配

③ 如何保证一致性？

前缀的 KV Cache 是确定性的（相同输入 → 相同输出）
只要模型不变，缓存的 KV Cache 永远有效
模型更新时，清除所有缓存（或使用版本化缓存）

3.3 实验结果

论文在多个场景下测试了 Prefill CDN：

场景	前缀长度	加速比	成本节省
系统 Prompt	2K token	9x	89%
RAG 文档	8K token	25x	96%
长文档分析	32K token	50x	98%

关键发现：前缀越长，节省越多。

这是因为长前缀的 Prefill 计算成本更高，复用的收益更大。

输出是 token-exact 的——与重新计算的结果完全一致，没有任何精度损失。

3.4 工程实现

vLLM 的 Prefix Caching 已经支持类似功能：

vLLM 0.5+ 版本内置了 Prefix Caching：

自动检测共享前缀
在 GPU 显存中缓存 KV Cache
支持 LRU 淘汰策略

使用方法：

但 vLLM 的实现是「本地缓存」——每台推理实例独立缓存。

Prefill CDN 论文的贡献是提出了「分布式缓存」——多个推理实例共享一个 KV Cache 存储，类似 CDN 的架构。

这在大规模部署中更有价值：

实例 A 缓存了某个前缀
实例 B 收到相同前缀的请求
实例 B 直接从共享存储加载，无需重新计算

3.5 对开发者的影响

如果你使用系统 Prompt（几乎所有应用都是）：

启用 Prefix Caching 可以节省 30-50% 的 Prefill 时间
对于长系统 Prompt（>2000 token），节省更多

如果你做 RAG：

同一文档的多次查询可以复用 KV Cache
建议将文档 chunk 的 KV Cache 预计算并缓存

如果你做多租户服务：

不同租户可能共享相同的系统 Prompt
分布式 KV Cache 可以跨租户复用

图表加载中…

python

# 启用 Prefix Caching
# 方法 1：命令行
# vllm serve meta-llama/Llama-3.1-70B-Instruct \
#     --enable-prefix-caching

# 方法 2：Python API
from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3.1-70B-Instruct",
    enable_prefix_caching=True,  # 启用前缀缓存
    max_model_len=32768,
    gpu_memory_utilization=0.9,
)

# 以下两个请求共享系统 Prompt 的 KV Cache
# 第二个请求的 Prefill 时间将大幅减少

response1 = llm.generate([
    "你是一个专业的客服助手。[2000 token 的产品知识]...\n用户：退货政策是什么？"
])

response2 = llm.generate([
    "你是一个专业的客服助手。[相同的 2000 token 产品知识]...\n用户：如何修改地址？"
])
# response2 的 Prefill 几乎为零，因为系统 Prompt 的 KV Cache 已缓存

bash

vllm serve meta-llama/Llama-3.1-70B-Instruct \\
    --enable-prefix-caching \\
    --max-model-len 32768

💡 一句话理解

立即启用 vLLM 的 Prefix Caching。如果你的应用有共享的系统 Prompt 或 RAG 上下文，这是零成本的免费加速。

⚠️ 常见踩坑

Prefix Caching 会占用额外的 GPU 显存来存储 KV Cache。如果显存紧张（如部署大模型时），可能需要调整 gpu_memory_utilization 或减少 max_model_len。

四、CPU 推理的新突破：SMEPilot 与 Apple Accelerate

不是所有推理都需要 GPU。MLSys 2026 展示了 CPU 推理的新可能性。

4.1 为什么关注 CPU 推理？

普及性：CPU 无处不在，不需要专门的 GPU 硬件
成本：CPU 推理的成本是 GPU 的 1/10-1/100
隐私：本地 CPU 推理不需要将数据发送到云端
边缘：IoT 设备和嵌入式系统只有 CPU

4.2 SMEPilot：ARM 可扩展矩阵扩展

SMEPilot 利用了 ARM v9 的 SME（Scalable Matrix Extensions） 指令集：

SME 是什么？

SME 是 ARM 为矩阵计算设计的专用指令集，类似于 Intel 的 AMX（Advanced Matrix Extensions）：

专用的矩阵寄存器（ZT0）
外积（Outer Product）指令
可伸缩的向量长度

SMEPilot 的创新：

SME + CPU 协同：将大矩阵运算分配到 SME 单元和 CPU 核心
Prefill 优化：FFN GEMM 加速 1.42-1.67 倍（vs Apple Accelerate）
Attention 优化：CPU FlashAttention 加速 1.56-3.50 倍
Decode 优化：比纯 CPU 推理加速 3.48 倍

结果：在 Apple M 系列芯片上实现 3.94 倍的端到端加速（vs llama.cpp）。

4.3 Apple Accelerate 的 SME 支持

Apple 在 2026 年的 macOS 中为 Accelerate 框架添加了 SME 支持：

自动检测 M 系列芯片的 SME 能力
使用 SME 指令加速矩阵运算
对开发者透明（通过 Accelerate 框架自动利用）

这意味着： 在 Mac 上运行 llama.cpp 或 vLLM，会自动利用 SME 加速，无需手动配置。

4.4 llama.cpp 的 CPU 优化

llama.cpp 也在持续优化 CPU 推理：

GGUF 格式：专为 CPU 推理优化的模型格式
量化支持：INT2/INT4/INT8/FP16 混合精度
多线程：充分利用 CPU 多核
内存映射：大模型不需要全部加载到内存

在 Apple M3 Max 上的性能参考：

模型	精度	tokens/s	适用场景
Llama-3.1-8B	Q4_K_M	45 t/s	实时对话
Llama-3.1-70B	Q4_K_M	8 t/s	批处理
Llama-3.1-8B	Q8_0	30 t/s	高质量输出
Phi-3-mini (3.8B)	Q4_K_M	80 t/s	边缘/嵌入式

4.5 CPU 推理的适用场景

适合 CPU 推理的场景：

小模型（<10B 参数）
对延迟不敏感（批处理、离线分析）
隐私要求高（本地处理）
成本敏感（无 GPU 预算）

不适合 CPU 推理的场景：

大模型（>30B 参数）
低延迟要求（<100ms）
高并发（>10 QPS）
长上下文（>8K token）

bash

# 安装 llama.cpp（自动启用 SME/AMX）
brew install llama.cpp

# 下载量化模型
# 从 Hugging Face 下载 GGUF 格式
huggingface-cli download TheBloke/Llama-2-7B-GGUF \
    llama-2-7b.Q4_K_M.gguf --local-dir ./models

# 运行推理（自动使用所有 CPU 核心 + SME）
llama-cli \
    -m ./models/llama-2-7b.Q4_K_M.gguf \
    -p "解释量子计算的基本原理" \
    -n 512 \
    -t 12  # 使用 12 个线程（M3 Max 有 12 个性能核心）

# 性能测试
llama-bench \
    -m ./models/llama-2-7b.Q4_K_M.gguf \
    -t 12 \
    -n 128 \
    -r 5  # 运行 5 次取平均

💡 一句话理解

如果你在 Mac 上开发 AI 应用，CPU 推理是原型开发和本地测试的最佳选择。不需要 GPU，不需要云服务，直接在笔记本上运行。

⚠️ 常见踩坑

CPU 推理不适合生产环境的大规模部署。它适合开发、测试、小模型和边缘场景。生产环境的高并发推理仍然需要 GPU。

五、Latent Thought Flow：在潜空间中推理

新加坡管理大学和蚂蚁集团联合提出的 Latent Thought Flow（LTF）可能是 MLSys 2026 最有前瞻性的论文。

5.1 核心思想

传统 LLM 推理在文本空间中进行：每个推理步骤都生成一个文本 token，然后作为下一步的输入。

LTF 提出在潜空间（Latent Space）中进行推理：推理步骤不生成文本 token，而是在模型的隐藏状态空间中直接传递信息。

类比：

传统推理：每一步都在纸上写出中间结果（文本 token）
LTF 推理：每一步都在大脑中思考（隐藏状态），只在最后写出答案

5.2 技术实现

LTF 使用 GFlowNets（Generative Flow Networks） 来控制潜空间推理的流程：

自适应推理步数：根据问题复杂度动态决定推理步数
- 简单问题：1-2 步
- 复杂问题：5-10 步
潜空间传递：推理步骤之间通过隐藏状态传递，不生成文本
- 减少 token 消耗
- 减少推理长度
最终输出：只在最后一步生成文本答案

5.3 实验结果

LTF 在多个 LLM 后端上测试：

平均准确率提升 9.5%（vs 现有潜空间推理方法）
推理长度减少 27.2%（生成的 token 更少）
适用性广：在 Llama、GPT、Claude 等后端上都有效

5.4 为什么这很重要？

1. 成本降低

推理长度减少 27.2% 意味着 Token 消耗减少 27.2%。对于大规模部署，这是直接的成本节省。

2. 推理质量提升

在潜空间中推理避免了「文本瓶颈」——传统方法中，中间推理步骤必须用文本表达，可能丢失信息。潜空间推理保留了更丰富的信息。

3. 新的优化维度

LTF 打开了一个全新的优化方向：不是优化模型本身，而是优化模型的推理方式。

5.5 局限性

LTF 目前还处于研究阶段，有几个局限：

需要修改模型的推理流程，不能直接用于 API 调用
GFlowNet 的训练需要额外的数据和计算
目前只在基准测试上验证，生产环境的效果待观察

但方向是正确的：未来的推理优化不仅在模型层面，还在推理策略层面。

图表加载中…

💡 一句话理解

Latent Thought Flow 代表了推理优化的下一个前沿。虽然目前还不能直接使用，但关注这个方向有助于理解未来推理技术的发展趋势。

⚠️ 常见踩坑

LTF 是学术研究，距离生产应用还有距离。不要试图在生产环境中实现 LTF——等它成熟后再考虑。

六、对 AI 工程师的实践建议

MLSys 2026 的论文很多，但哪些是现在就能用的？哪些需要等？

立即可用（2026 Q2-Q3）

① 启用 Prefix Caching

vLLM 0.5+ 已内置
零成本，立即节省 30-50% Prefill 时间
适合所有有共享前缀的场景

② 推测解码

vLLM、TensorRT-LLM 均已支持
加速 2-3 倍，几乎无精度损失
适合对延迟敏感的场景

③ FP8 量化（H100/B200 用户）

原生硬件支持，精度损失 <0.1%
内存节省 50%，速度提升 1.5x
没有理由不用

④ INT4 量化（消费级 GPU 用户）

AWQ/GPTQ 成熟稳定
70B 模型可以在单张 24GB GPU 上运行
精度损失 <1%

中期规划（2026 Q4-2027）

⑤ Prefill-Decode 分离

需要 8+ GPU 的规模
需要高速互联（NVLink/RDMA）
建议先在测试环境验证

⑥ 异构调度

需要多种 GPU 类型
建议使用 BOute 等工具自动搜索最优配置
从简单的规则路由开始，逐步引入自动优化

长期关注（2027+）

⑦ 潜空间推理（LTF）

关注论文进展和开源实现
可能在 2027 年进入生产环境

⑧ 推理专用芯片

Tensordyne Napier 预计 2026 Q4 发货
关注实际性能数据
不适合立即迁移，但值得规划

学习资源

论文：

Meta《Optimizing Deployment Configurations for LLM Inference》
NVIDIA《Beyond the Buzz: A Pragmatic Take on Inference Disaggregation》
SuperInfer《SLO-Aware Rotary Scheduling for LLM Inference on Superchips》
SHIP《SRAM-Based Huge Inference Pipelines for Fast LLM Serving》
TokenWeave《Efficient Compute-Communication Overlap for Distributed LLM Inference》
SMEPilot《Characterizing and Optimizing LLM Inference with Scalable Matrix Extensions》
Latent Thought Flow《Adaptive Efficient Multi-Step Reasoning in Latent Space》

开源项目：

vLLM（Prefix Caching、推测解码）
SGLang（结构化生成优化）
llama.cpp（CPU 推理）
Splitwise（Prefill-Decode 分离）

七、Tensordyne Napier 深度技术解析：对数数学如何颠覆推理芯片格局（2026 年 6 月新增）

7.1 GPU 的困境：通用计算的代价

7.2 Napier 的核心创新：对数数学（Logarithmic Mathematics）

Napier 的设计哲学令人震撼：既然乘法这么贵，为什么不把乘法变成加法？

数学基础：log(a × b) = log(a) + log(b)

Napier 的 ALU（算术逻辑单元）工作在对数域：

将输入权重和激活值转换为对数表示
用加法替代乘法（O(n²) 次加法 vs O(n²) 次乘法）
将结果从对数域转换回线性域

7.3 实测数据：17x tokens/watt

Tensordyne 公布的 benchmark（2026 年 6 月，Llama-3-70B INT4）：

指标	NVIDIA B200	Tensordyne Napier	对比
tokens/watt	1x（基准）	17x	17 倍能效比
tokens/s（单芯片）	100%	85%	绝对吞吐略低
芯片面积	100%	40%	芯片更小
HBM 需求	192GB	96GB	一半的显存
TDP	1000W	300W	功耗降低 70%

关键洞察：Napier 的绝对吞吐（tokens/s）比 B200 低约 15%，但每瓦特生成的 token 数是 B200 的 17 倍。这意味着：

相同电费下，推理成本降低 94%
相同散热条件下，数据中心可以部署 3x 更多的 Napier 芯片
边缘部署成为可能（300W 可以在边缘服务器上运行）

7.4 Napier 的局限性

Napier 不是万能的：

只适合推理：对数数学在推理的矩阵-向量乘法中有效，但训练的矩阵-矩阵乘法需要精确的梯度计算，对数域的精度损失不可接受
精度限制：对数查找表的精度有限（目前 8-bit），不适合需要 FP16/BF16 精度的场景
生态不成熟：CUDA 生态（cuDNN、TensorRT）无法直接在 Napier 上运行，需要专门的编译器工具链
量产时间：预计 2026 Q4 才开始向首批客户发货

7.5 对 AI 工程师的影响

短期（2026 H2）：Napier 不影响你的日常部署决策。继续使用 GPU。

图表加载中…

💡 一句话理解

Napier 的 17x tokens/watt 是在 INT4 量化、Llama-3-70B、batch_size=32 的条件下测试的。不同模型和量化精度的结果可能不同。关注 Tensordyne 后续的多样化 benchmark。

⚠️ 常见踩坑

Napier 预计 2026 Q4 才发货，目前无法在生产环境中使用。不要基于 Napier 的预期性能做当前的架构决策。

🎯 相关面试题

结合本篇技术观点，备战 AI 岗位面试。

浏览全部面试题 →

MLSys 2026 推理优化前沿：Prefill-Decode 分离、异构调度与 Prefill CDN 的技术深度解析

文章摘要

引言：MLSys 2026 揭示的推理优化三大趋势

一、Prefill-Decode 分离：从论文到生产的完整路径

1.1 为什么分离有效？

1.2 Meta 的生产数据

1.3 NVIDIA 的务实评估

1.4 工程实现方案

二、异构推理调度：让每种 GPU 发挥最大价值

2.1 异构的必然性

2.2 BOute：多目标贝叶斯优化

2.3 SuperInfer：Superchip 的软件优化

2.4 SHIP：Groq 的 SRAM 推理管线

2.5 TokenWeave：分布式推理的通信优化

三、Prefill CDN：复用 KV Cache 的 9-50 倍加速

3.1 问题背景

3.2 Prefill CDN 的设计

3.3 实验结果

3.4 工程实现

3.5 对开发者的影响

四、CPU 推理的新突破：SMEPilot 与 Apple Accelerate

4.1 为什么关注 CPU 推理？

4.2 SMEPilot：ARM 可扩展矩阵扩展

4.3 Apple Accelerate 的 SME 支持

4.4 llama.cpp 的 CPU 优化

4.5 CPU 推理的适用场景

五、Latent Thought Flow：在潜空间中推理

5.1 核心思想

5.2 技术实现

5.3 实验结果

5.4 为什么这很重要？

5.5 局限性

六、对 AI 工程师的实践建议

立即可用（2026 Q2-Q3）

中期规划（2026 Q4-2027）

长期关注（2027+）

学习资源

七、Tensordyne Napier 深度技术解析：对数数学如何颠覆推理芯片格局（2026 年 6 月新增）

7.1 GPU 的困境：通用计算的代价

7.2 Napier 的核心创新：对数数学（Logarithmic Mathematics）

7.3 实测数据：17x tokens/watt

7.4 Napier 的局限性

7.5 对 AI 工程师的影响

标签

📚 相关文章推荐

NVIDIA TwoTower扩散语言模型：2.42倍吞吐量提升如何终结自回归时代

AI推理经济学：当推理成本成为AI运营最大支出时的工程决策框架

继续探索更多 AI 内容

MLSys 2026 推理优化前沿：Prefill-Decode 分离、异构调度与 Prefill CDN 的技术深度解析

文章摘要

引言：MLSys 2026 揭示的推理优化三大趋势

一、Prefill-Decode 分离：从论文到生产的完整路径

1.1 为什么分离有效？

1.2 Meta 的生产数据

1.3 NVIDIA 的务实评估

1.4 工程实现方案

二、异构推理调度：让每种 GPU 发挥最大价值

2.1 异构的必然性

2.2 BOute：多目标贝叶斯优化

2.3 SuperInfer：Superchip 的软件优化

2.4 SHIP：Groq 的 SRAM 推理管线

2.5 TokenWeave：分布式推理的通信优化

三、Prefill CDN：复用 KV Cache 的 9-50 倍加速

3.1 问题背景

3.2 Prefill CDN 的设计

3.3 实验结果

3.4 工程实现

3.5 对开发者的影响

四、CPU 推理的新突破：SMEPilot 与 Apple Accelerate

4.1 为什么关注 CPU 推理？

4.2 SMEPilot：ARM 可扩展矩阵扩展

4.3 Apple Accelerate 的 SME 支持

4.4 llama.cpp 的 CPU 优化

4.5 CPU 推理的适用场景

五、Latent Thought Flow：在潜空间中推理

5.1 核心思想

5.2 技术实现

5.3 实验结果

5.4 为什么这很重要？

5.5 局限性