核心要点

  • 先用编码器把视频压到时空 latent,再切成时空 patch(spacetime patches)作为 token

  • 主干是 Diffusion Transformer(DiT):在 latent 空间对加噪 token 迭代去噪。

  • 时空 patch 化让模型统一处理不同分辨率、时长、宽高比的视频与图像。

  • 关键挑战是数据/算力规模化与跨帧的时空一致性(物体、运动、光照连贯)。

标准回答

整体路线

Sora 类模型走「latent 扩散 + Transformer」路线。先用一个视频压缩自编码器把原始视频降到低维时空 latent,再将其切分为一系列时空 patch(spacetime patches),每个 patch 作为一个 token。

去噪主干

主干是 Diffusion Transformer(DiT):在 latent 空间对加噪的 patch token 序列迭代去噪,文本条件通过交叉注意力等方式注入,实现文本到视频生成。把视频统一表示为 patch token,使同一模型能处理可变分辨率、时长和宽高比,并把图像当作单帧视频一起训练。

关键要素

  • 规模化:大规模视频数据 + 算力是质量与时长的主要驱动,体现 scaling 思想。
  • 时空一致性:要保证物体身份、运动轨迹、遮挡与光照在帧间连贯,这是视频区别于图像生成的核心难点。
  • 世界模型雏形:高质量长视频生成隐含对物理与场景动态的建模能力。

常见误区

⚠️ 常见踩坑

Sora 不是逐帧独立用图像扩散生成再拼接,而是在统一的时空 latent 上联合去噪整段视频;逐帧独立生成会丢失时序一致性、产生闪烁与物体跳变。

追问

追问 1为什么用「时空 patch」而不是固定分辨率的帧?

把视频压成 latent 后切成时空 patch,token 数量随内容自适应,模型可在不同分辨率、时长、宽高比上训练与推理,无需把所有视频缩放裁剪到统一尺寸,既提升数据利用率也增强泛化。

追问 2为什么说视频生成模型是「世界模型」的雏形?

要生成长且一致的视频,模型必须隐式学到物体恒存、碰撞、遮挡、重力等动态规律,等于对世界如何随时间演化建模。虽不显式给出物理方程,但这种可预测未来帧的能力被视为通向世界模型与具身智能的路径之一。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。