NVIDIA SANA-WM:高效世界模型
2026 年 5 月 17 日,NVIDIA 正式开源 SANA-WM 世界模型。
技术亮点
- 仅 26 亿参数:相比行业基线规模大幅缩小
- 单卡 H100 推理:无需多卡集群即可生成高质量视频
- 1 分钟 720p 视频:支持精确的 6-DoF 相机控制
- 混合线性注意力:结合门控 DeltaNet 和 softmax 注意力,实现高效的长上下文建模
- 36 倍更高吞吐:相比大型工业基线的效率提升
架构四大创新
- 混合线性注意力:帧间 GDN + softmax 注意力
- 原生 1 分钟训练:直接以 60 秒为目标进行训练
- 尺度级 6-DoF 控制:精确的相机运动控制
- Diffusion Transformer:基于 DiT 架构的高效视频生成
对比
在视觉质量上与 LingBot-World、HY-WorldPlay 等大型工业基线相当,但训练和推理成本显著降低。
来源: arXiv + NVIDIA
链接: https://arxiv.org/abs/2605.15178