大语言模型昨天·Xiaomi Blog + Hacker News

MiMo-v2.5-Pro-UltraSpeed:万亿参数模型推理速度突破 1000 tokens/s

小米发布 MiMo-v2.5-Pro-UltraSpeed,在万亿参数(1T)规模下实现 1000 tokens/s 的生成速度。通过 FP4 量化和 DFlash 推测解码技术,大幅降低模型体积并最大化硬件带宽利用,同时保持模型能力基本不变。

MiMo-v2.5-Pro-UltraSpeed 推理速度突破

2026年6月,小米发布 MiMo-v2.5-Pro-UltraSpeed。

核心技术

  • FP4 量化仅作用于 MoE Experts,其余模块保持原始精度
  • DFlash 推测解码:Muon 二阶优化器 + 模型自蒸馏
  • 万亿参数规模下达到 1000 tokens/s

应用前景

  • 实时交互成为可能
  • 从等待工具到思维延伸
  • 范式级转变

来源: Xiaomi Blog + Hacker News (389 points)
链接: https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

AI Master 解读

核心事件

小米在万亿参数模型推理速度上实现突破,达到 1000 tokens/s。

行业影响

当模型速度足够快时,它不再是一个需要等待的工具,而是成为思维的延伸。MiMo 的 TileRT 技术通过 FP4 QAT 和 DFlash 推测解码,在保持 MoE 架构精度的同时实现极致推理速度。

AI Master 建议

关注大模型推理速度优化方向,特别是 FP4 量化和推测解码在生产环境中的应用。