MiMo-v2.5-Pro-UltraSpeed 推理速度突破
2026年6月,小米发布 MiMo-v2.5-Pro-UltraSpeed。
核心技术
- FP4 量化仅作用于 MoE Experts,其余模块保持原始精度
- DFlash 推测解码:Muon 二阶优化器 + 模型自蒸馏
- 万亿参数规模下达到 1000 tokens/s
应用前景
- 实时交互成为可能
- 从等待工具到思维延伸
- 范式级转变
来源: Xiaomi Blog + Hacker News (389 points)
链接: https://mimo.xiaomi.com/blog/mimo-tilert-1000tps
AI Master 解读
核心事件
小米在万亿参数模型推理速度上实现突破,达到 1000 tokens/s。
行业影响
当模型速度足够快时,它不再是一个需要等待的工具,而是成为思维的延伸。MiMo 的 TileRT 技术通过 FP4 QAT 和 DFlash 推测解码,在保持 MoE 架构精度的同时实现极致推理速度。
AI Master 建议
关注大模型推理速度优化方向,特别是 FP4 量化和推测解码在生产环境中的应用。