💡

文章摘要

MLSys 2026 揭示了 LLM 推理优化的三大趋势:Prefill-Decode 分离(15-25% TCO 降低)、异构 GPU 调度(多目标贝叶斯优化)、Prefill CDN(9-50 倍计算节省)。本文深入解析每篇核心论文的技术细节,并给出 AI 工程师的实践建议。

引言:MLSys 2026 揭示的推理优化三大趋势

2026 年 5 月,MLSys 会议在 ML 系统领域投下了一颗重磅炸弹。 来自 Meta、NVIDIA、Groq、AMD 等公司的多篇论文,揭示了 LLM 推理优化的三个关键趋势——这些趋势将直接影响每一个 AI 工程师的部署决策。

趋势一:Prefill-Decode 分离从理论走向实践

Meta 的 Industry Track 论文《Optimizing Deployment Configurations for LLM Inference》首次公开了大规模生产环境的数据:Prefill 和 Decode 分离部署可以带来 15-25% 的 TCO(总拥有成本)降低

这不是实验室数据,而是 Meta 在生产环境中验证的结果。

为什么分离有效?

  • Prefill 是计算密集型:需要高 FLOP/s,适合 A100 这类高算力 GPU
  • Decode 是内存带宽密集型:需要高 HBM 带宽,适合 H100 这类高带宽 GPU

将两者混在一起部署,意味着 GPU 要么算力浪费、要么带宽浪费。分离后,每种硬件都能发挥最大价值。

但 NVIDIA 在同一会议上的报告也指出了一个现实:Prefill-Decode 分离只有在同时解决以下四个问题时才有价值:

  1. 速率匹配(Rate Matching):Prefill 和 Decode 的速度不同,需要缓冲区
  2. KV 传输(KV Transfer):Prefill 节点需要将 KV Cache 传给 Decode 节点
  3. 缓存路由(Cache Routing):请求需要路由到有对应缓存的节点
  4. 弹性伸缩(Elastic Scaling):两个集群需要独立伸缩

如果这四个问题没有同时解决,分离部署可能反而更差。

趋势二:异构部署成为标配

多篇论文探讨了使用不同类型的 GPU 混合部署的策略。核心思想是:不是所有请求都需要相同的硬件

  • 复杂推理(长上下文、高 token 输出)→ 高端 GPU(H100/B200)
  • 简单请求(短对话、低 token)→ 中端 GPU(A10/L40)
  • 批处理任务(离线分析)→ 竞价实例

BOute 论文将「哪种模型跑在哪种 GPU」建模为一个多目标贝叶斯优化问题,自动搜索最优的异构部署配置。

趋势三:Prefill CDN——复用 KV Cache 的新范式

来自哈尔滨工业大学(深圳)的论文提出了一个直觉性的想法:如果多个请求共享相同的前缀(如系统 prompt),为什么不让它们复用 KV Cache

这就像内容分发网络(CDN)缓存热门内容一样——「Prefill CDN」缓存热门前缀的 KV Cache

结果:9-50 倍的计算成本节省,且输出与原始计算完全一致(token-exact)。

本文将深入解析这三大趋势的技术细节、实现方案和工程影响。

图表加载中…

💡 一句话理解

阅读建议:本文涉及 MLSys 2026 的多篇论文。如果你想了解具体实现,建议先阅读本站的《LLM 推理服务架构 2026》知识库文章,理解 Prefill/Decode 的基本概念。

⚠️ 常见踩坑

MLSys 论文的数据来自特定场景(Meta 的大规模部署),你的场景可能不同。在采纳任何优化策略前,务必在自己的工作负载上进行 benchmark

一、Prefill-Decode 分离:从论文到生产的完整路径

Prefill-Decode 分离不是新概念,但 MLSys 2026 首次展示了大规模生产验证。

1.1 为什么分离有效?

LLM 推理的两个阶段有截然不同的计算特性:

特性 Prefill Decode
计算类型 矩阵-矩阵乘法(GEMM) 矩阵-向量乘法
瓶颈 算力(FLOP/s) 内存带宽(HBM GB/s)
GPU 利用率 高(80%+) 低(20-40%)
最佳硬件 A100(高算力) H100(高带宽)
延迟特征 一次性(100-500ms) token(10-50ms/token)

混合部署的问题:

当 Prefill 和 Decode 在同一个 GPU 上运行时:

  • Prefill 期间,Decode 请求排队等待
  • Decode 期间,GPU 算力大量空闲
  • 两种请求互相干扰,延迟不可预测

分离部署的优势:

  • Prefill 节点专注计算,GPU 利用率 80%+
  • Decode 节点专注带宽,GPU 利用率 60%+
  • 两个集群独立伸缩,资源利用率最优

1.2 Meta 的生产数据

Meta 的论文报告了以下关键数据:

  • TCO 降低 15-25%:在单模型部署中也能获益
  • Prefill 节点:使用 A100(高算力,低带宽)
  • Decode 节点:使用 H100(高带宽,适度算力)
  • KV 传输:通过 RDMA 网络,延迟 <1ms

1.3 NVIDIA 的务实评估

NVIDIA 在同一会议上的报告《Beyond the Buzz: A Pragmatic Take on Inference Disaggregation》给出了更冷静的评估:

分离部署有价值的条件:

  1. 请求量大到需要多个 GPU 节点
  2. Prefill 和 Decode 的负载比例差异大(如 Prefill 多、Decode 少)
  3. 有高速互联(NVLink/RDMA)

分离部署可能更差的条件:

  1. 请求量小,单节点就能处理
  2. 网络延迟高(如跨机房)
  3. KV Cache 传输成为瓶颈

关键洞察:速率匹配是最大的工程挑战。

Prefill 节点生成 KV Cache 的速度可能快于或慢于 Decode 节点消费的速度。需要:

  • 缓冲区(Buffer):吸收速率差异
  • 背压(Backpressure):当缓冲区满时,通知 Prefill 减速
  • 动态调度:根据实时负载调整 Prefill/Decode 节点数量

1.4 工程实现方案

方案一:Splitwise(Meta 开源)

Splitwise 是 Meta 开源的 Prefill-Decode 分离框架,核心设计:

  • Prefill 集群:处理输入,生成 KV Cache
  • Decode 集群:接收 KV Cache,逐 token 生成
  • KV 传输层:通过 RDMA 高速传输 KV Cache
  • 调度器:根据负载动态分配请求

方案二:DeepSpeed-MII(Microsoft)

Microsoft 的方案更轻量,适合中小规模部署:

  • Splitwise 模式:自动将请求分为 Prefill 和 Decode
  • 动态批处理:Prefill 和 Decode 使用不同的批处理策略
  • 无需额外硬件:在同一 GPU 上逻辑分离

方案三:TriInfer(MLSys 2026 新论文)

TriInfer 将分离扩展到三阶段:Encode-Prefill-Decode,专门针对多模态模型:

  • Encode 节点:处理图像/音频输入,生成视觉/音频 token
  • Prefill 节点:处理所有 token注意力计算
  • Decode 节点:逐 token 生成输出

这是多模态推理优化的下一步。

图表加载中…

💡 一句话理解

如果你的部署规模超过 8 GPU,Prefill-Decode 分离值得尝试。关键是先 benchmark 你的工作负载中 Prefill 和 Decode 的比例,如果差异大(如 70/30),分离的收益更高。

⚠️ 常见踩坑

不要在小规模部署中使用分离架构。如果你的请求量只需要 2-4 GPU,分离带来的网络开销可能超过收益。分离适合 8+ GPU 的大规模部署。

二、异构推理调度:让每种 GPU 发挥最大价值

现实中的数据中心的 GPU 不是统一的——你有 A100、H100、L40、甚至消费级 GPU。 异构调度的目标是让每种 GPU 处理最适合它的任务。

2.1 异构的必然性

大多数团队的数据中心是「混合舰队」:

  • 去年买的 A100(40GB/80GB)
  • 今年买的 H100
  • 几台 L40 用于推理
  • 一些消费级 GPU 用于开发

问题:如何让这些异构硬件协同工作?

2.2 BOute:多目标贝叶斯优化

MLSys 2026 的 BOute 论文将异构部署建模为一个搜索问题:

输入:

  • 可用 GPU 列表(类型、数量、显存
  • 可用模型列表(参数量、精度)
  • 工作负载特征(请求分布、上下文长度分布)

输出:

  • 每种模型在每种 GPU 上的部署数量
  • 请求路由策略

优化目标:

  • 最小化延迟(P99)
  • 最小化成本(GPU 小时)
  • 最大化吞吐量

BOute 使用贝叶斯优化搜索最优配置,而不是暴力枚举。在 Meta 的生产环境中,BOute 找到了比人工配置节省 20-30% 成本的方案。

2.3 SuperInfer:Superchip 的软件优化

另一篇论文 SuperInfer 关注了一个有趣的问题:为什么 GH200 Superchip 的 NVLink-C2C 互联利用率不到 5%?

GH200 的 NVLink-C2C 带宽高达 900 GB/s,但现有框架只利用了不到 5%(约 45 GB/s)。

原因:软件栈把 NVLink-C2C 当作 PCIe 使用。

NVLink-C2C 和 PCIe 的编程模型不同:

  • PCIe:基于请求-响应,延迟
  • NVLink-C2C:基于内存映射,延迟极低

现有框架(如 PyTorch)的 offloading 逻辑是为 PCIe 设计的,没有利用 NVLink-C2C 的内存映射特性。

SuperInfer 的解决方案:

  • 重写 offloading 逻辑,使用内存映射而非请求-响应
  • 针对 GH200 的 SLO(Service Level Objective)优化调度
  • 利用 NVLink-C2C 的低延迟特性做推测解码

结果:在 GH200 上实现 2-3 倍的推理加速。

2.4 SHIP:Groq 的 SRAM 推理管线

Groq 的 SHIP 论文展示了另一种异构思路:不用 GPU,用 LPU(Language Processing Unit)。

Groq LPU 的特点:

  • 全 SRAM:整个模型放在 SRAM 中,无需 HBM
  • 编译器静态调度:所有通信在编译时确定,运行时零调度开销
  • 确定性延迟:每个 token 的生成时间是固定的

SHIP 的核心创新:

  • 将模型切分到多个 LPU 芯片
  • 编译器在周期粒度(cycle granularity)上调度集合通信
  • 利用 SRAM 的确定性延迟实现精确的流水线调度

结果:Groq 的 LPU 在延迟上比 GPU 快 10-18 倍(对于小模型),因为 GPU 的 HBM 访问延迟是 SRAM 的 10-100 倍。

但 LPU 的局限也很明显:

  • SRAM 容量有限(目前最大 230MB/chip),无法部署大模型
  • 需要大量芯片的张量并行才能部署 70B+ 模型
  • 生态不成熟,工具链有限

2.5 TokenWeave:分布式推理的通信优化

TokenWeave 解决了一个具体问题:多 GPU 推理中的通信开销。

在张量并行中,每个 token 的生成都需要 All-Reduce 通信。对于 8 GPU 的张量并行,通信量是计算量的 30-50%。

TokenWeave 的核心思想:计算-通信重叠。

  • 使用 PyTorch 的 SymmetricMemory API
  • 利用 NVLink4 的 NVSHARP 引擎
  • 在计算当前层的同时,异步传输上一层的结果

结果:通信开销从 30-50% 降低到 10-15%。

python
# 异构推理路由伪代码
from dataclasses import dataclass
from typing import List

@dataclass
class GPUInstance:
    gpu_type: str      # "A100", "H100", "L40"
    vram_gb: int       # 显存大小
    bandwidth_gb_s: int # 内存带宽
    flops_tflops: int   # 算力
    current_load: float # 当前负载 0-1

class HeterogeneousRouter:
    def __init__(self, instances: List[GPUInstance]):
        self.instances = instances
    
    def route(self, request) -> GPUInstance:
        """根据请求特征路由到最合适的 GPU"""
        context_len = request.context_length
        output_len = request.max_output_tokens
        
        # 长上下文请求 → 高带宽 GPU(Decode 友好)
        if context_len > 8192:
            candidates = [i for i in self.instances 
                         if i.bandwidth_gb_s > 2000]
        # 短请求 → 高算力 GPU(Prefill 友好)
        elif context_len < 1024:
            candidates = [i for i in self.instances 
                         if i.flops_tflops > 300]
        else:
            candidates = self.instances
        
        # 选择负载最低的
        return min(candidates, key=lambda x: x.current_load)

# 使用示例
router = HeterogeneousRouter([
    GPUInstance("A100", 80, 2039, 312, 0.6),
    GPUInstance("H100", 80, 3350, 989, 0.3),
    GPUInstance("L40", 48, 864, 362, 0.8),
])

# 长上下文请求 → 路由到 H100
best = router.route(context_length=16384, max_output_tokens=2048)
print(f"路由到: {best.gpu_type}")  # H100

💡 一句话理解

异构调度的关键是理解你的工作负载。如果主要是长上下文请求,优先路由到高带宽 GPU;如果主要是短请求,优先路由到高算力 GPU。

⚠️ 常见踩坑

异构调度增加了系统复杂度。如果你的数据中心只有一种 GPU,不需要引入异构调度。简单就是美。

三、Prefill CDN:复用 KV Cache 的 9-50 倍加速

哈工大(深圳)的论文提出了一个极其直觉的想法:把热门前缀的 KV Cache 像 CDN 缓存一样分发。

3.1 问题背景

在企业应用中,大量请求共享相同的前缀:

  • 系统 Prompt:所有用户共享相同的系统指令(如「你是一个客服助手...」)
  • RAG 上下文:多个用户查询同一份文档
  • Few-shot 示例:所有请求包含相同的示例

传统方法的问题:

每个请求都独立计算前缀的 KV Cache,即使前缀完全相同。

对于一个 2000 token 的系统 prompt

  • 每次请求需要 2000 token 的 Prefill 计算
  • 如果每秒 100 个请求,每秒需要 200,000 token 的 Prefill 计算
  • 这些计算 99% 是重复的

3.2 Prefill CDN 的设计

Prefill CDN 的核心架构:

  1. KV Cache 存储:集中存储热门前缀的 KV Cache
  2. 前缀匹配:新请求到达时,检查是否有匹配的前缀
  3. 缓存加载:从存储中加载匹配的 KV Cache,跳过 Prefill 计算
  4. 增量计算:只计算新 tokenKV Cache

关键设计决策:

① 如何匹配前缀?

使用 Trie(前缀树) 索引所有缓存的前缀:

  • token 序列插入 Trie
  • 新请求的 token 序列沿 Trie 匹配
  • 匹配到最长前缀后,加载对应的 KV Cache

② 如何存储 KV Cache

  • 分层存储:热前缀放 GPU 显存,温前缀放 CPU 内存,冷前缀放 SSD
  • 压缩存储KV Cache 可以量化到 INT8,节省 50% 空间
  • 分块存储:大前缀切分为块,支持部分匹配

③ 如何保证一致性?

  • 前缀的 KV Cache确定性的(相同输入 → 相同输出)
  • 只要模型不变,缓存的 KV Cache 永远有效
  • 模型更新时,清除所有缓存(或使用版本化缓存)

3.3 实验结果

论文在多个场景下测试了 Prefill CDN:

场景 前缀长度 加速比 成本节省
系统 Prompt 2K token 9x 89%
RAG 文档 8K token 25x 96%
长文档分析 32K token 50x 98%

关键发现:前缀越长,节省越多。

这是因为长前缀的 Prefill 计算成本更高,复用的收益更大。

输出是 token-exact 的——与重新计算的结果完全一致,没有任何精度损失。

3.4 工程实现

vLLM 的 Prefix Caching 已经支持类似功能:

vLLM 0.5+ 版本内置了 Prefix Caching:

  • 自动检测共享前缀
  • 在 GPU 显存中缓存 KV Cache
  • 支持 LRU 淘汰策略

使用方法:

vLLM 的实现是「本地缓存」——每台推理实例独立缓存。

Prefill CDN 论文的贡献是提出了「分布式缓存」——多个推理实例共享一个 KV Cache 存储,类似 CDN 的架构。

这在大规模部署中更有价值:

  • 实例 A 缓存了某个前缀
  • 实例 B 收到相同前缀的请求
  • 实例 B 直接从共享存储加载,无需重新计算

3.5 对开发者的影响

如果你使用系统 Prompt(几乎所有应用都是):

  • 启用 Prefix Caching 可以节省 30-50% 的 Prefill 时间
  • 对于长系统 Prompt(>2000 token),节省更多

如果你做 RAG

  • 同一文档的多次查询可以复用 KV Cache
  • 建议将文档 chunk 的 KV Cache 预计算并缓存

如果你做多租户服务:

  • 不同租户可能共享相同的系统 Prompt
  • 分布式 KV Cache 可以跨租户复用
图表加载中…
python
# 启用 Prefix Caching
# 方法 1:命令行
# vllm serve meta-llama/Llama-3.1-70B-Instruct \
#     --enable-prefix-caching

# 方法 2:Python API
from vllm import LLM

llm = LLM(
    model="meta-llama/Llama-3.1-70B-Instruct",
    enable_prefix_caching=True,  # 启用前缀缓存
    max_model_len=32768,
    gpu_memory_utilization=0.9,
)

# 以下两个请求共享系统 Prompt 的 KV Cache
# 第二个请求的 Prefill 时间将大幅减少

response1 = llm.generate([
    "你是一个专业的客服助手。[2000 token 的产品知识]...\n用户:退货政策是什么?"
])

response2 = llm.generate([
    "你是一个专业的客服助手。[相同的 2000 token 产品知识]...\n用户:如何修改地址?"
])
# response2 的 Prefill 几乎为零,因为系统 Prompt 的 KV Cache 已缓存
bash
vllm serve meta-llama/Llama-3.1-70B-Instruct \\
    --enable-prefix-caching \\
    --max-model-len 32768

💡 一句话理解

立即启用 vLLM 的 Prefix Caching。如果你的应用有共享的系统 PromptRAG 上下文,这是零成本的免费加速。

⚠️ 常见踩坑

Prefix Caching 会占用额外的 GPU 显存来存储 KV Cache。如果显存紧张(如部署大模型时),可能需要调整 gpu_memory_utilization 或减少 max_model_len。

四、CPU 推理的新突破:SMEPilot 与 Apple Accelerate

不是所有推理都需要 GPU。MLSys 2026 展示了 CPU 推理的新可能性。

4.1 为什么关注 CPU 推理?

  • 普及性:CPU 无处不在,不需要专门的 GPU 硬件
  • 成本:CPU 推理的成本是 GPU 的 1/10-1/100
  • 隐私:本地 CPU 推理不需要将数据发送到云端
  • 边缘:IoT 设备和嵌入式系统只有 CPU

4.2 SMEPilot:ARM 可扩展矩阵扩展

SMEPilot 利用了 ARM v9 的 SME(Scalable Matrix Extensions) 指令集:

SME 是什么?

SME 是 ARM 为矩阵计算设计的专用指令集,类似于 Intel 的 AMX(Advanced Matrix Extensions):

  • 专用的矩阵寄存器(ZT0)
  • 外积(Outer Product)指令
  • 可伸缩的向量长度

SMEPilot 的创新:

  1. SME + CPU 协同:将大矩阵运算分配到 SME 单元和 CPU 核心
  2. Prefill 优化FFN GEMM 加速 1.42-1.67 倍(vs Apple Accelerate)
  3. Attention 优化:CPU FlashAttention 加速 1.56-3.50 倍
  4. Decode 优化:比纯 CPU 推理加速 3.48 倍

结果:在 Apple M 系列芯片上实现 3.94 倍的端到端加速(vs llama.cpp)。

4.3 Apple Accelerate 的 SME 支持

Apple 在 2026 年的 macOS 中为 Accelerate 框架添加了 SME 支持:

  • 自动检测 M 系列芯片的 SME 能力
  • 使用 SME 指令加速矩阵运算
  • 对开发者透明(通过 Accelerate 框架自动利用)

这意味着: 在 Mac 上运行 llama.cppvLLM,会自动利用 SME 加速,无需手动配置。

4.4 llama.cpp 的 CPU 优化

llama.cpp 也在持续优化 CPU 推理:

  • GGUF 格式:专为 CPU 推理优化的模型格式
  • 量化支持:INT2/INT4/INT8/FP16 混合精度
  • 多线程:充分利用 CPU 多核
  • 内存映射:大模型不需要全部加载到内存

在 Apple M3 Max 上的性能参考:

模型 精度 tokens/s 适用场景
Llama-3.1-8B Q4_K_M 45 t/s 实时对话
Llama-3.1-70B Q4_K_M 8 t/s 批处理
Llama-3.1-8B Q8_0 30 t/s 高质量输出
Phi-3-mini (3.8B) Q4_K_M 80 t/s 边缘/嵌入式

4.5 CPU 推理的适用场景

适合 CPU 推理的场景:

  • 小模型(<10B 参数)
  • 延迟不敏感(批处理、离线分析)
  • 隐私要求高(本地处理)
  • 成本敏感(无 GPU 预算)

不适合 CPU 推理的场景:

bash
# 安装 llama.cpp(自动启用 SME/AMX)
brew install llama.cpp

# 下载量化模型
# 从 Hugging Face 下载 GGUF 格式
huggingface-cli download TheBloke/Llama-2-7B-GGUF \
    llama-2-7b.Q4_K_M.gguf --local-dir ./models

# 运行推理(自动使用所有 CPU 核心 + SME)
llama-cli \
    -m ./models/llama-2-7b.Q4_K_M.gguf \
    -p "解释量子计算的基本原理" \
    -n 512 \
    -t 12  # 使用 12 个线程(M3 Max 有 12 个性能核心)

# 性能测试
llama-bench \
    -m ./models/llama-2-7b.Q4_K_M.gguf \
    -t 12 \
    -n 128 \
    -r 5  # 运行 5 次取平均

💡 一句话理解

如果你在 Mac 上开发 AI 应用,CPU 推理是原型开发和本地测试的最佳选择。不需要 GPU,不需要云服务,直接在笔记本上运行。

⚠️ 常见踩坑

CPU 推理不适合生产环境的大规模部署。它适合开发、测试、小模型和边缘场景。生产环境的高并发推理仍然需要 GPU。

五、Latent Thought Flow:在潜空间中推理

新加坡管理大学和蚂蚁集团联合提出的 Latent Thought Flow(LTF)可能是 MLSys 2026 最有前瞻性的论文。

5.1 核心思想

传统 LLM 推理在文本空间中进行:每个推理步骤都生成一个文本 token,然后作为下一步的输入。

LTF 提出在潜空间(Latent Space)中进行推理:推理步骤不生成文本 token,而是在模型的隐藏状态空间中直接传递信息。

类比:

  • 传统推理:每一步都在纸上写出中间结果(文本 token
  • LTF 推理:每一步都在大脑中思考(隐藏状态),只在最后写出答案

5.2 技术实现

LTF 使用 GFlowNets(Generative Flow Networks) 来控制潜空间推理的流程:

  1. 自适应推理步数:根据问题复杂度动态决定推理步数

    • 简单问题:1-2 步
    • 复杂问题:5-10 步
  2. 潜空间传递:推理步骤之间通过隐藏状态传递,不生成文本

    • 减少 token 消耗
    • 减少推理长度
  3. 最终输出:只在最后一步生成文本答案

5.3 实验结果

LTF 在多个 LLM 后端上测试:

  • 平均准确率提升 9.5%(vs 现有潜空间推理方法)
  • 推理长度减少 27.2%(生成的 token 更少)
  • 适用性广:在 Llama、GPT、Claude 等后端上都有效

5.4 为什么这很重要?

1. 成本降低

推理长度减少 27.2% 意味着 Token 消耗减少 27.2%。对于大规模部署,这是直接的成本节省。

2. 推理质量提升

在潜空间中推理避免了「文本瓶颈」——传统方法中,中间推理步骤必须用文本表达,可能丢失信息。潜空间推理保留了更丰富的信息。

3. 新的优化维度

LTF 打开了一个全新的优化方向:不是优化模型本身,而是优化模型的推理方式

5.5 局限性

LTF 目前还处于研究阶段,有几个局限:

  • 需要修改模型的推理流程,不能直接用于 API 调用
  • GFlowNet 的训练需要额外的数据和计算
  • 目前只在基准测试上验证,生产环境的效果待观察

但方向是正确的:未来的推理优化不仅在模型层面,还在推理策略层面。

图表加载中…

💡 一句话理解

Latent Thought Flow 代表了推理优化的下一个前沿。虽然目前还不能直接使用,但关注这个方向有助于理解未来推理技术的发展趋势。

⚠️ 常见踩坑

LTF 是学术研究,距离生产应用还有距离。不要试图在生产环境中实现 LTF——等它成熟后再考虑。

六、对 AI 工程师的实践建议

MLSys 2026 的论文很多,但哪些是现在就能用的?哪些需要等?

立即可用(2026 Q2-Q3)

① 启用 Prefix Caching

  • vLLM 0.5+ 已内置
  • 零成本,立即节省 30-50% Prefill 时间
  • 适合所有有共享前缀的场景

推测解码

  • vLLM、TensorRT-LLM 均已支持
  • 加速 2-3 倍,几乎无精度损失
  • 适合对延迟敏感的场景

③ FP8 量化(H100/B200 用户)

  • 原生硬件支持,精度损失 <0.1%
  • 内存节省 50%,速度提升 1.5x
  • 没有理由不用

④ INT4 量化(消费级 GPU 用户)

  • AWQ/GPTQ 成熟稳定
  • 70B 模型可以在单张 24GB GPU 上运行
  • 精度损失 <1%

中期规划(2026 Q4-2027)

⑤ Prefill-Decode 分离

  • 需要 8+ GPU 的规模
  • 需要高速互联(NVLink/RDMA)
  • 建议先在测试环境验证

⑥ 异构调度

  • 需要多种 GPU 类型
  • 建议使用 BOute 等工具自动搜索最优配置
  • 从简单的规则路由开始,逐步引入自动优化

长期关注(2027+)

⑦ 潜空间推理(LTF)

  • 关注论文进展和开源实现
  • 可能在 2027 年进入生产环境

⑧ 推理专用芯片

  • Tensordyne Napier 预计 2026 Q4 发货
  • 关注实际性能数据
  • 不适合立即迁移,但值得规划

学习资源

论文:

  • Meta《Optimizing Deployment Configurations for LLM Inference》
  • NVIDIA《Beyond the Buzz: A Pragmatic Take on Inference Disaggregation》
  • SuperInfer《SLO-Aware Rotary Scheduling for LLM Inference on Superchips》
  • SHIP《SRAM-Based Huge Inference Pipelines for Fast LLM Serving》
  • TokenWeave《Efficient Compute-Communication Overlap for Distributed LLM Inference》
  • SMEPilot《Characterizing and Optimizing LLM Inference with Scalable Matrix Extensions》
  • Latent Thought Flow《Adaptive Efficient Multi-Step Reasoning in Latent Space》

开源项目:

结论:MLSys 2026 展示了推理优化的丰富可能性。 作为工程师,不需要追逐每一篇论文,但需要理解趋势、掌握成熟技术、规划未来方向。Prefill-Decode 分离、异构调度、Prefill CDN 是 2026-2027 年的三大确定性趋势。

七、Tensordyne Napier 深度技术解析:对数数学如何颠覆推理芯片格局(2026 年 6 月新增)

2026 年 6 月 15 日,Tensordyne 宣布 Napier(TDN)推理专用芯片成功流片。 这是自 NVIDIA GPU 主导 AI 计算以来,第一个从数学底层重新设计的推理加速器。它的核心不是「更快的矩阵乘法」,而是彻底绕开矩阵乘法

7.1 GPU 的困境:通用计算的代价

NVIDIA GPU(从 H100 到 Blackwell)是通用并行处理器。LLM 推理的核心运算是矩阵-向量乘法(每次生成一个 token 时,需要将整个模型权重与当前隐藏状态相乘)。

问题在于:GPU 的 CUDA 核心和 Tensor Core 都是为乘法优化的。但乘法在晶体管层面比加法复杂 3-5 倍——一个乘法器需要约 40 个晶体管,而一个加法器只需要约 8 个。

推理的本质矛盾:每生成一个 token,需要读取整个模型权重(70B INT4 模型约 35GB)。H100 的 HBM3e 带宽 3.35TB/s,每 token 需要 10ms+。瓶颈不是算力,而是内存带宽

7.2 Napier 的核心创新:对数数学(Logarithmic Mathematics)

Napier 的设计哲学令人震撼:既然乘法这么贵,为什么不把乘法变成加法?

数学基础:log(a × b) = log(a) + log(b)

Napier 的 ALU(算术逻辑单元)工作在对数域:

  1. 将输入权重和激活值转换为对数表示
  2. 用加法替代乘法(O(n²) 次加法 vs O(n²) 次乘法)
  3. 将结果从对数域转换回线性域

工程实现的关键:对数转换本身需要计算(log 和 exp 函数),如果用传统方式实现,转换开销可能抵消加法节省的时间。Napier 的突破是设计了硬件级对数查找表(Log Lookup Table)——用 SRAM 存储预计算的对数/指数映射,查找延迟仅 1 个时钟周期。

7.3 实测数据:17x tokens/watt

Tensordyne 公布的 benchmark(2026 年 6 月,Llama-3-70B INT4):

指标 NVIDIA B200 Tensordyne Napier 对比
tokens/watt 1x(基准) 17x 17 倍能效比
tokens/s(单芯片) 100% 85% 绝对吞吐略低
芯片面积 100% 40% 芯片更小
HBM 需求 192GB 96GB 一半的显存
TDP 1000W 300W 功耗降低 70%

关键洞察:Napier 的绝对吞吐(tokens/s)比 B200 低约 15%,但每瓦特生成的 token 数是 B200 的 17 倍。这意味着:

  • 相同电费下,推理成本降低 94%
  • 相同散热条件下,数据中心可以部署 3x 更多的 Napier 芯片
  • 边缘部署成为可能(300W 可以在边缘服务器上运行)

7.4 Napier 的局限性

Napier 不是万能的:

  1. 只适合推理:对数数学在推理的矩阵-向量乘法中有效,但训练的矩阵-矩阵乘法需要精确的梯度计算,对数域的精度损失不可接受
  2. 精度限制:对数查找表的精度有限(目前 8-bit),不适合需要 FP16/BF16 精度的场景
  3. 生态不成熟CUDA 生态(cuDNN、TensorRT)无法直接在 Napier 上运行,需要专门的编译器工具链
  4. 量产时间:预计 2026 Q4 才开始向首批客户发货

7.5 对 AI 工程师的影响

短期(2026 H2):Napier 不影响你的日常部署决策。继续使用 GPU。

中期(2027):如果 Napier 的量产顺利,云服务商(AWS、GCP、Azure)可能推出 Napier 实例。届时对于延迟不敏感但成本敏感的工作负载(如批量文本处理、离线分析),Napier 实例可能是更经济的选择。

长期(2028+):推理专用芯片可能改变 AI 基础设施的成本结构。如果 tokens/watt 提升 10-20x 成为现实,AI 应用的边际成本将趋近于零——这将催生全新的商业模式。

图表加载中…

💡 一句话理解

Napier 的 17x tokens/watt 是在 INT4 量化、Llama-3-70B、batch_size=32 的条件下测试的。不同模型和量化精度的结果可能不同。关注 Tensordyne 后续的多样化 benchmark

⚠️ 常见踩坑

Napier 预计 2026 Q4 才发货,目前无法在生产环境中使用。不要基于 Napier 的预期性能做当前的架构决策。