标准回答
两条路线
- 自回归(AR)图像生成:先用 VQ-VAE/VQGAN 把图像压成离散 token,再用 Transformer 按序列逐个预测下一个 token(如 Parti、原始 image-GPT),本质是把语言建模迁到图像。
- 扩散模型:对整张图(或潜空间)从纯噪声开始迭代去噪,逐步还原数据,是连续的噪声反演过程(见 Diffusion 与 GAN 对比)。
VAR 的创新:next-scale prediction
传统 AR 逐 patch token 预测,序列长、慢且打破图像的二维结构。VAR(Visual Autoregressive) 改为逐尺度预测:从粗分辨率到细分辨率,依次预测每个尺度的整张 token 图(next-scale 而非 next-token)。这更符合图像由粗到细的生成直觉,显著提升速度与生成质量。
关键区别
| 维度 | 自回归 / VAR | 扩散 |
|---|---|---|
| 生成方式 | 序列/尺度预测下一项 | 对全图迭代去噪 |
| 表示 | 离散 token | 连续噪声→数据 |
| 加速 | KV Cache、与 LLM 栈统一 | 少步采样器、蒸馏 |
取舍:AR 路线天然兼容 LLM 基础设施、利于多模态统一与缓存加速;扩散在高保真图像上长期表现强,但需多步迭代。
常见误区
⚠️ 常见踩坑
VAR 的「自回归」不是传统的逐 token(next-token)预测,而是逐尺度(next-scale)预测整张特征图——别把它和早期 image-GPT 的逐 patch 范式混为一谈。也别认为自回归图像生成一定比扩散差:VAR 等已在质量与速度上与扩散竞争。
追问
追问 1:VAR 的 next-scale prediction 相比逐 token 自回归有什么优势?
逐 token 预测序列极长、推理慢,且把二维图像强行展平成一维序列、破坏空间局部性。next-scale 把每一步的预测单位从单个 token 变成一整个尺度的 token 图,从粗到细逐级细化:步数大幅减少、保留二维结构、并行度更高,因此速度更快、质量更好,还表现出类似 LLM 的 scaling 特性。
追问 2:为什么自回归图像生成需要先做向量量化(VQ)?
自回归 Transformer 在离散词表上做 softmax 分类预测,而原始像素是连续高维的,直接逐像素自回归代价极高。VQ-VAE/VQGAN 把图像压缩到一个离散码本(codebook)上的 token 网格,既降低序列长度,又把生成问题转化为可用 Transformer 建模的离散序列预测。
追问 3:在多模态统一建模上,自回归相比扩散有何潜在优势?
自回归图像生成与文本生成共享同一套「下一项预测 + Transformer」范式和基础设施,便于把图像 token 与文本 token 放进同一序列做统一建模,复用 KV Cache、连续批处理等推理优化,更容易构建图文交错的统一多模态模型;扩散则需要单独的去噪流程,与 LLM 栈耦合相对松散。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。