核心要点

  • 时序一致性:同一物体/人物在帧间的身份、纹理、光照要保持稳定,避免闪烁、漂移、忽变

  • 运动连贯:动作要符合物理与因果(速度、惯性、碰撞),而非逐帧独立的画面拼贴

  • 算力显存:视频是「图像×时间」,token 数暴涨,训练与采样成本远高于图像生成

  • 长度与 3D 一致:长片段易累积漂移;缺乏显式 3D/世界建模时,遮挡、视角变化下几何易穿帮

标准回答

为什么比文生图难得多

视频在图像之上多了时间维度,要同时建模空间内容和跨帧动态。token 量和计算量随帧数线性甚至更高地增长,训练数据也更稀缺、标注更难。

时序一致性与运动连贯

最核心的难点是帧间一致:物体身份、纹理、颜色、光照不能跳变,否则出现闪烁、漂移、「换脸」。同时运动要连贯且符合物理——速度、惯性、碰撞、流体都要自洽,而不是把独立画面强行串起来。主流做法用时空注意力或 3D 卷积、在隐空间(latent)上做扩散来联合建模时间。

长度、算力与 3D 一致

生成长视频时误差会逐帧累积,越往后越容易崩坏,因此常用分段生成、关键帧 + 插帧、自回归续写等策略。算力是硬约束,多采用 latent 压缩、级联生成降本。此外缺乏显式 3D/世界模型时,视角变化、遮挡前后物体的几何和恒存性容易穿帮,这也是「世界模型」方向想解决的问题。

常见误区

⚠️ 常见踩坑

别把文生视频说成「逐帧文生图拼接」——那恰恰会导致闪烁和运动不连贯;核心难点正是跨帧的时序与 3D 一致性,而非单帧画质。

追问

追问 1为什么很多模型在 latent 空间生成视频而非像素空间?

视频像素量巨大,直接在像素空间做扩散算力与显存难以承受。先用 VAE 把每帧(或时空块)压到低维 latent,在 latent 上做时空扩散,最后解码回像素,可把计算量降低一两个数量级,同时仍保留主要语义和结构信息。

追问 2如何缓解长视频中的误差累积与漂移?

常见手段:分段生成再拼接、生成关键帧后插帧、以前几帧/前一段为条件做自回归续写、加入显式或隐式的全局一致性约束(如参考帧、3D/世界状态)。这些都是为了让后续帧锚定到已生成内容,抑制逐帧漂移。

追问 3世界模型与文生视频是什么关系?

文生视频偏「生成好看且连贯的画面」,世界模型更强调对场景几何、物理与状态演化的内部建模,可在给定动作下预测未来。世界模型能为视频生成提供 3D/物理一致性与可控性,二者正在融合,是提升长时一致与可交互性的关键路线。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。