标准回答
为什么比文生图难得多
视频在图像之上多了时间维度,要同时建模空间内容和跨帧动态。token 量和计算量随帧数线性甚至更高地增长,训练数据也更稀缺、标注更难。
时序一致性与运动连贯
最核心的难点是帧间一致:物体身份、纹理、颜色、光照不能跳变,否则出现闪烁、漂移、「换脸」。同时运动要连贯且符合物理——速度、惯性、碰撞、流体都要自洽,而不是把独立画面强行串起来。主流做法用时空注意力或 3D 卷积、在隐空间(latent)上做扩散来联合建模时间。
长度、算力与 3D 一致
生成长视频时误差会逐帧累积,越往后越容易崩坏,因此常用分段生成、关键帧 + 插帧、自回归续写等策略。算力是硬约束,多采用 latent 压缩、级联生成降本。此外缺乏显式 3D/世界模型时,视角变化、遮挡前后物体的几何和恒存性容易穿帮,这也是「世界模型」方向想解决的问题。
常见误区
⚠️ 常见踩坑
别把文生视频说成「逐帧文生图拼接」——那恰恰会导致闪烁和运动不连贯;核心难点正是跨帧的时序与 3D 一致性,而非单帧画质。
追问
追问 1:为什么很多模型在 latent 空间生成视频而非像素空间?
视频像素量巨大,直接在像素空间做扩散算力与显存难以承受。先用 VAE 把每帧(或时空块)压到低维 latent,在 latent 上做时空扩散,最后解码回像素,可把计算量降低一两个数量级,同时仍保留主要语义和结构信息。
追问 2:如何缓解长视频中的误差累积与漂移?
常见手段:分段生成再拼接、生成关键帧后插帧、以前几帧/前一段为条件做自回归续写、加入显式或隐式的全局一致性约束(如参考帧、3D/世界状态)。这些都是为了让后续帧锚定到已生成内容,抑制逐帧漂移。
追问 3:世界模型与文生视频是什么关系?
文生视频偏「生成好看且连贯的画面」,世界模型更强调对场景几何、物理与状态演化的内部建模,可在给定动作下预测未来。世界模型能为视频生成提供 3D/物理一致性与可控性,二者正在融合,是提升长时一致与可交互性的关键路线。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。