Sora 这类视频生成模型的技术路线是什么？

Question 1

Accepted Answer

整体路线 Sora 类模型走「latent 扩散 + Transformer」路线。先用一个视频压缩自编码器把原始视频降到低维时空 latent，再将其切分为一系列时空 patch（spacetime patches），每个 patch 作为一个 token。 去噪主干 主干是 Diffusion Transformer（DiT）：在 latent 空间对加噪的 patch token 序列迭代去噪，文本条件通过交叉注意力等方式注入，实现文本到视频生成。把视频统一表示为 patch token，使同一模型能处理可变分辨率、时长和宽高比，并把图像当作单帧视频一起训练。 关键要素 - 规模化：大规模视频数据 + 算力是质量与时长的主要驱动，体现 scaling 思想。 - 时空一致性：要保证物体身份、运动轨迹、遮挡与光照在帧间连贯，这是视频区别于图像生成的核心难点。 - 世界模型雏形：高质量长视频生成隐含对物理与场景动态的建模能力。

Question 2

为什么用「时空 patch」而不是固定分辨率的帧？

Accepted Answer

把视频压成 latent 后切成时空 patch，token 数量随内容自适应，模型可在不同分辨率、时长、宽高比上训练与推理，无需把所有视频缩放裁剪到统一尺寸，既提升数据利用率也增强泛化。

Question 3

为什么说视频生成模型是「世界模型」的雏形？

Accepted Answer

要生成长且一致的视频，模型必须隐式学到物体恒存、碰撞、遮挡、重力等动态规律，等于对世界如何随时间演化建模。虽不显式给出物理方程，但这种可预测未来帧的能力被视为通向世界模型与具身智能的路径之一。

Sora 这类视频生成模型的技术路线是什么？

核心要点

标准回答

常见误区

追问

延伸学习