开源项目2026-05-18 08:00·arXiv + NVIDIA

NVIDIA 开源 SANA-WM:26 亿参数世界模型,单卡 H100 生成 1 分钟 720p 可控视频

NVIDIA 正式发布并开源 SANA-WM 世界模型,仅 2.6B 参数即可将一张静态图片加相机轨迹转化为长达 1 分钟、720p 分辨率的可控视角视频。采用混合线性注意力架构,吞吐效率比大型工业基线高 36 倍

NVIDIA SANA-WM:高效世界模型

2026 年 5 月 17 日,NVIDIA 正式开源 SANA-WM 世界模型。

技术亮点

  • 仅 26 亿参数:相比行业基线规模大幅缩小
  • 单卡 H100 推理:无需多卡集群即可生成高质量视频
  • 1 分钟 720p 视频:支持精确的 6-DoF 相机控制
  • 混合线性注意力:结合门控 DeltaNet 和 softmax 注意力,实现高效的长上下文建模
  • 36 倍更高吞吐:相比大型工业基线的效率提升

架构四大创新

  1. 混合线性注意力:帧间 GDN + softmax 注意力
  2. 原生 1 分钟训练:直接以 60 秒为目标进行训练
  3. 尺度级 6-DoF 控制:精确的相机运动控制
  4. Diffusion Transformer:基于 DiT 架构的高效视频生成

对比

在视觉质量上与 LingBot-World、HY-WorldPlay 等大型工业基线相当,但训练和推理成本显著降低。

来源: arXiv + NVIDIA
链接: https://arxiv.org/abs/2605.15178