自回归图像生成（如 VAR）与扩散模型有何区别？

Question 1

Accepted Answer

两条路线 - 自回归（AR）图像生成：先用 VQ-VAE/VQGAN 把图像压成离散 token，再用 Transformer 按序列逐个预测下一个 token（如 Parti、原始 image-GPT），本质是把语言建模迁到图像。 - 扩散模型：对整张图（或潜空间）从纯噪声开始迭代去噪，逐步还原数据，是连续的噪声反演过程（见 Diffusion 与 GAN 对比）。 VAR 的创新：next-scale prediction 传统 AR 逐 patch token 预测，序列长、慢且打破图像的二维结构。VAR（Visual Autoregressive） 改为逐尺度预测：从粗分辨率到细分辨率，依次预测每个尺度的整张 token 图（next-scale 而非 next-token）。这更符合图像由粗到细的生成直觉，显著提升速度与生成质量。 关键区别 维度 自回归 / VAR 扩散 --- --- --- 生成方式 序列/尺度预测下一项 对全图迭代去噪 表示 离散 token 连续噪声→数据 加速 KV Cache、与 LLM 栈统一 少步采样器、蒸馏 取舍：AR 路线天然兼容 LLM 基础设施、利于多模态统一与缓存加速；扩散在高保真图像上长期表现强，但需多步迭代。

Question 2

VAR 的 next-scale prediction 相比逐 token 自回归有什么优势？

Accepted Answer

逐 token 预测序列极长、推理慢，且把二维图像强行展平成一维序列、破坏空间局部性。next-scale 把每一步的预测单位从单个 token 变成一整个尺度的 token 图，从粗到细逐级细化：步数大幅减少、保留二维结构、并行度更高，因此速度更快、质量更好，还表现出类似 LLM 的 scaling 特性。

Question 3

为什么自回归图像生成需要先做向量量化（VQ）？

Accepted Answer

自回归 Transformer 在离散词表上做 softmax 分类预测，而原始像素是连续高维的，直接逐像素自回归代价极高。VQ-VAE/VQGAN 把图像压缩到一个离散码本（codebook）上的 token 网格，既降低序列长度，又把生成问题转化为可用 Transformer 建模的离散序列预测。

Question 4

在多模态统一建模上，自回归相比扩散有何潜在优势？

Accepted Answer

自回归图像生成与文本生成共享同一套「下一项预测 + Transformer」范式和基础设施，便于把图像 token 与文本 token 放进同一序列做统一建模，复用 KV Cache、连续批处理等推理优化，更容易构建图文交错的统一多模态模型；扩散则需要单独的去噪流程，与 LLM 栈耦合相对松散。

自回归图像生成（如 VAR）与扩散模型有何区别？

核心要点

标准回答

常见误区

追问

延伸学习


维度	自回归 / VAR	扩散
生成方式	序列/尺度预测下一项	对全图迭代去噪
表示	离散 token	连续噪声→数据
加速	KV Cache、与 LLM 栈统一	少步采样器、蒸馏