核心要点
先用编码器把视频压到时空 latent,再切成时空 patch(spacetime patches)作为 token。
主干是 Diffusion Transformer(DiT):在 latent 空间对加噪 token 迭代去噪。
时空 patch 化让模型统一处理不同分辨率、时长、宽高比的视频与图像。
关键挑战是数据/算力规模化与跨帧的时空一致性(物体、运动、光照连贯)。
常见误区
⚠️ 常见踩坑
Sora 不是逐帧独立用图像扩散生成再拼接,而是在统一的时空 latent 上联合去噪整段视频;逐帧独立生成会丢失时序一致性、产生闪烁与物体跳变。
追问
追问 1:为什么用「时空 patch」而不是固定分辨率的帧?
把视频压成 latent 后切成时空 patch,token 数量随内容自适应,模型可在不同分辨率、时长、宽高比上训练与推理,无需把所有视频缩放裁剪到统一尺寸,既提升数据利用率也增强泛化。
追问 2:为什么说视频生成模型是「世界模型」的雏形?
要生成长且一致的视频,模型必须隐式学到物体恒存、碰撞、遮挡、重力等动态规律,等于对世界如何随时间演化建模。虽不显式给出物理方程,但这种可预测未来帧的能力被视为通向世界模型与具身智能的路径之一。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。