大语言模型昨天·Xiaomi Blog + Hacker News

MiMo-v2.5-Pro-UltraSpeed：万亿参数模型推理速度突破 1000 tokens/s

小米发布 MiMo-v2.5-Pro-UltraSpeed，在万亿参数（1T）规模下实现 1000 tokens/s 的生成速度。通过 FP4 量化和 DFlash 推测解码技术，大幅降低模型体积并最大化硬件带宽利用，同时保持模型能力基本不变。

MiMo-v2.5-Pro-UltraSpeed 推理速度突破

2026年6月，小米发布 MiMo-v2.5-Pro-UltraSpeed。

来源: Xiaomi Blog + Hacker News (389 points)
链接: https://mimo.xiaomi.com/blog/mimo-tilert-1000tps

核心事件

小米在万亿参数模型推理速度上实现突破，达到 1000 tokens/s。

行业影响

当模型速度足够快时，它不再是一个需要等待的工具，而是成为思维的延伸。MiMo 的 TileRT 技术通过 FP4 QAT 和 DFlash 推测解码，在保持 MoE 架构精度的同时实现极致推理速度。

AI Master 建议

关注大模型推理速度优化方向，特别是 FP4 量化和推测解码在生产环境中的应用。

📰 原始来源

← 上一篇

Apple 发布全新 AI 架构：基于 Google Gemini 模型的 Apple Intelligence

ChatGPT发布1200天，AI距离真正变革还有多远？