文生视频模型面临哪些核心挑战？

Question 1

文生视频模型面临哪些核心挑战？

Accepted Answer

为什么比文生图难得多 视频在图像之上多了时间维度，要同时建模空间内容和跨帧动态。token 量和计算量随帧数线性甚至更高地增长，训练数据也更稀缺、标注更难。 时序一致性与运动连贯 最核心的难点是帧间一致：物体身份、纹理、颜色、光照不能跳变，否则出现闪烁、漂移、「换脸」。同时运动要连贯且符合物理——速度、惯性、碰撞、流体都要自洽，而不是把独立画面强行串起来。主流做法用时空注意力或 3D 卷积、在隐空间（latent）上做扩散来联合建模时间。 长度、算力与 3D 一致 生成长视频时误差会逐帧累积，越往后越容易崩坏，因此常用分段生成、关键帧 + 插帧、自回归续写等策略。算力是硬约束，多采用 latent 压缩、级联生成降本。此外缺乏显式 3D/世界模型时，视角变化、遮挡前后物体的几何和恒存性容易穿帮，这也是「世界模型」方向想解决的问题。

Question 2

为什么很多模型在 latent 空间生成视频而非像素空间？

Accepted Answer

视频像素量巨大，直接在像素空间做扩散算力与显存难以承受。先用 VAE 把每帧（或时空块）压到低维 latent，在 latent 上做时空扩散，最后解码回像素，可把计算量降低一两个数量级，同时仍保留主要语义和结构信息。

Question 3

如何缓解长视频中的误差累积与漂移？

Accepted Answer

常见手段：分段生成再拼接、生成关键帧后插帧、以前几帧/前一段为条件做自回归续写、加入显式或隐式的全局一致性约束（如参考帧、3D/世界状态）。这些都是为了让后续帧锚定到已生成内容，抑制逐帧漂移。

Question 4

世界模型与文生视频是什么关系？

Accepted Answer

文生视频偏「生成好看且连贯的画面」，世界模型更强调对场景几何、物理与状态演化的内部建模，可在给定动作下预测未来。世界模型能为视频生成提供 3D/物理一致性与可控性，二者正在融合，是提升长时一致与可交互性的关键路线。

文生视频模型面临哪些核心挑战？

核心要点

标准回答

常见误区

追问

延伸学习