核心要点

  • 自回归图像生成把图像编码为离散 token 序列,用 Transformer 按序列逐步预测下一个 token(如 Parti),属生成式语言建模范式的迁移。

  • VAR(Visual Autoregressive)改用 next-scale prediction:从粗到细逐尺度预测整张特征图,而非逐 patch token,提升效率与质量。

  • 扩散模型DDPM 等)则通过对全图迭代去噪生成,是连续噪声反演范式,与自回归的「序列预测」路线根本不同。

  • 取舍:自回归与 LLM 栈统一、易做多模态KV Cache 加速;扩散在高保真图像上长期占优,但需多步去噪。

标准回答

两条路线

  • 自回归(AR)图像生成:先用 VQ-VAE/VQGAN 把图像压成离散 token,再用 Transformer 按序列逐个预测下一个 token(如 Parti、原始 image-GPT),本质是把语言建模迁到图像。
  • 扩散模型:对整张图(或潜空间)从纯噪声开始迭代去噪,逐步还原数据,是连续的噪声反演过程(见 Diffusion 与 GAN 对比)。

VAR 的创新:next-scale prediction

传统 AR 逐 patch token 预测,序列长、慢且打破图像的二维结构。VAR(Visual Autoregressive) 改为逐尺度预测:从粗分辨率到细分辨率,依次预测每个尺度的整张 token 图(next-scale 而非 next-token)。这更符合图像由粗到细的生成直觉,显著提升速度与生成质量。

关键区别

维度 自回归 / VAR 扩散
生成方式 序列/尺度预测下一项 对全图迭代去噪
表示 离散 token 连续噪声→数据
加速 KV Cache、与 LLM 栈统一 少步采样器、蒸馏

取舍:AR 路线天然兼容 LLM 基础设施、利于多模态统一与缓存加速;扩散在高保真图像上长期表现强,但需多步迭代。

常见误区

⚠️ 常见踩坑

VAR 的「自回归」不是传统的逐 token(next-token)预测,而是逐尺度(next-scale)预测整张特征图——别把它和早期 image-GPT 的逐 patch 范式混为一谈。也别认为自回归图像生成一定比扩散差:VAR 等已在质量与速度上与扩散竞争。

追问

追问 1VAR 的 next-scale prediction 相比逐 token 自回归有什么优势?

逐 token 预测序列极长、推理慢,且把二维图像强行展平成一维序列、破坏空间局部性。next-scale 把每一步的预测单位从单个 token 变成一整个尺度的 token 图,从粗到细逐级细化:步数大幅减少、保留二维结构、并行度更高,因此速度更快、质量更好,还表现出类似 LLM 的 scaling 特性。

追问 2为什么自回归图像生成需要先做向量量化(VQ)?

自回归 Transformer 在离散词表上做 softmax 分类预测,而原始像素是连续高维的,直接逐像素自回归代价极高。VQ-VAE/VQGAN 把图像压缩到一个离散码本(codebook)上的 token 网格,既降低序列长度,又把生成问题转化为可用 Transformer 建模的离散序列预测。

追问 3在多模态统一建模上,自回归相比扩散有何潜在优势?

自回归图像生成与文本生成共享同一套「下一项预测 + Transformer」范式和基础设施,便于把图像 token 与文本 token 放进同一序列做统一建模,复用 KV Cache、连续批处理等推理优化,更容易构建图文交错的统一多模态模型;扩散则需要单独的去噪流程,与 LLM 栈耦合相对松散。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。