Autoregressive Model(自回归模型)
就是让模型一个字一个字往后猜,每次都把之前说的都当输入,这样生成的内容才能前后连贯。
亦作、亦称:自回归模型 · AR model · 自回归生成模型 · causal language model · 因果语言模型
自回归模型通过逐步预测序列中的下一个元素来生成数据,是 GPT、LLaMA 等大语言模型的核心生成范式。其「用过去预测未来」的机制在文本、音频、图像生成领域均取得了里程碑式的成果。
概述
自回归模型(Autoregressive Model)是生成式 AI 的基础范式之一,以链式条件概率为核心建模原则。
- 核心公式:P(x₁, x₂, …, xₙ) = ∏ᵢ P(xᵢ | x₁, …, xᵢ₋₁),将复杂的联合分布拆解为可逐步计算的条件分布。
- 生成逻辑:每步输入已生成的全部历史,输出下一个 token 的概率分布,再通过采样(greedy / top-k / top-p)确定实际输出。
- 覆盖模态:最初用于一维时间序列,现已扩展至文本(GPT)、音频(WaveNet)、图像(PixelCNN)、视频等多种模态。
- 训练目标:通常为最大化对数似然 log P(x),即最小化交叉熵损失(next-token prediction)。
工作原理
自回归模型的训练与推理在机制上存在关键差异,理解这一点有助于避免常见误区。
- 训练阶段(Teacher Forcing):将真实序列的每个位置 xᵢ 作为条件输入,并行计算所有位置的预测损失,训练效率高。
- 推理阶段(自回归解码):串行逐步生成——将第 t 步的输出追加到上下文,再输入模型预测第 t+1 步,直到生成结束符(EOS)或达到最大长度。
- 注意力掩码(Causal Mask):Transformer 中通过上三角掩码确保每个位置只能看到左侧(过去)的 token,这一设计正是「因果语言模型」名称的由来。
- Exposure Bias:训练时使用真实 token 为上下文,推理时使用模型自身输出,两者分布不完全一致,可能导致错误累积。
主要变体与代表模型
自回归思想在不同模态和架构中衍生出多种重要变体。
- 文本领域:GPT 系列(OpenAI)、LLaMA(Meta)、Claude(Anthropic)、Gemini(Google)均采用 decoder-only Transformer 自回归架构。
- 音频领域:WaveNet(DeepMind,2016)将自回归应用于原始音频波形,逐采样点生成,音质极高但速度慢。
- 图像领域:PixelRNN/PixelCNN(Google Brain,2016)按光栅扫描顺序逐像素生成图像;VQ-VAE + 自回归先验进一步提升质量。
- 跨模态:DALL-E 1(OpenAI,2021)将图像 token 化后与文本 token 拼接,统一用自回归 Transformer 生成图文序列。
- σ-GPTs(2024)探索打破从左到右固定顺序、允许任意生成顺序的新思路。
应用场景
自回归模型已成为当前生成式 AI 最主流的技术路线,应用范围极为广泛。
- 自然语言生成:对话系统、代码补全(GitHub Copilot)、摘要、翻译等,几乎所有主流 LLM 均基于此范式。
- 音频合成:语音合成(TTS)、音乐生成、语音克隆,WaveNet 架构影响深远。
- 图像生成:在扩散模型流行前,PixelCNN 系列是图像生成的最优方案之一;现仍用于图像补全与编辑。
- 时间序列预测:金融、气象、工业传感器数据的预测,统计 AR 模型与深度自回归模型均有应用。
- 科学计算:蛋白质序列生成(如 ProtGPT2)、分子设计、代码合成等结构化序列任务。
与相邻概念的区别
自回归模型常与其他生成范式混淆,以下对比有助于厘清边界。
- vs 扩散模型:扩散模型对整个样本加噪再逐步去噪,可并行生成;AR 模型串行逐 token 生成,两者在速度与质量上各有取舍,当前趋势是将两者融合。
- vs 变分自编码器(VAE):VAE 学习连续隐变量空间并一次性解码;AR 模型直接建模序列的条件概率链,无隐变量压缩瓶颈。
- vs 掩码语言模型(如 BERT):BERT 是双向的,可看到全部上下文,擅长理解任务;AR 模型是单向因果的,天然适合生成任务,但理解任务需要特殊处理。
- vs 流模型(Normalizing Flow):流模型要求变换可逆,AR 模型无此限制,建模更灵活。
局限与常见误区
理解自回归模型的局限有助于在实际应用中做出更合理的选择。
- 串行推理慢:生成每个 token 均需一次完整前向计算,无法并行,长文本生成延迟高;投机解码(Speculative Decoding)通过草稿模型+验证模型加速,但工程复杂度增加。
- 错误累积:一旦在某步生成了错误 token,后续所有生成都会受其影响,且无法回溯修正(除非使用 beam search 等策略)。
- Exposure Bias:训练与推理的上下文分布不一致,可能导致模型在长序列生成时「跑偏」。
- 误区:AR 不等于 Transformer:自回归是生成范式,Transformer 是架构;RNN/LSTM 也可以做自回归模型,两者是正交概念。
- 误区:AR 只能用于文本:音频、图像、视频、代码、分子序列等均可用自回归范式建模。
发展脉络
自回归模型的历史横跨统计学与深度学习两个时代。
- 1927 年:Yule 提出统计自回归模型(AR model)用于时间序列分析,奠定数学基础。
- 2016 年:Google DeepMind 发布 WaveNet,首次将深度自回归模型用于原始音频生成,开启深度 AR 生成模型时代;同年 PixelRNN/PixelCNN 将自回归扩展至图像像素生成。
- 2018 年:OpenAI 发布 GPT-1(Radford et al.),确立「大规模无监督预训练 + 自回归 Transformer + 下游微调」范式。
- 2019-2020 年:GPT-2(15 亿参数)、GPT-3(1750 亿参数)相继发布,展示自回归语言模型的规模涌现能力。
- 2021-2022 年:DALL-E 1 将自回归扩展至文生图;InstructGPT 引入 RLHF,使自回归模型更好地遵循人类指令。
- 2023 年至今:LLaMA、Mixtral、Claude 3/4、GPT-4o 等持续演进;多模态自回归(文本+图像+音频统一序列建模)成为前沿方向。
常见误解
日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。
- 「就是让模型一个字一个字往后猜,每次都把之前说的都当输入,这样生成的内容才能前后连贯。」
- 「自回归就像在接龙:前面说了什么,后面才能接什么,天然保证了上下文一致性。」
- 「AR 模型和扩散模型最大的区别就是顺序——AR 是从左到右一步步生成,扩散是从噪声里逐步去噪还原整体。」
相关术语
和本术语关联紧密的其他词条,便于串联理解。
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。
- 1
扩散模型文本生成:从 DDPM 到 Diffusion-LM 的技术原理与应用
扩散模型正在从图像生成杀入文本生成赛道。系统掌握扩散模型在 NLP 中的原理、架构差异、与 Transformer 的对比分析,以及 2026 年扩散文本生成的最新进展
- 2
扩散语言模型:原理、架构与实战
从自回归到扩散,理解语言模型的新范式。详解扩散语言模型的原理、架构设计、训练方法以及与 Transformer 的对比分析。
- 3
世界模型 World Model 技术路线全面解析
深入理解世界模型的核心概念、三种主流技术路线(Jepa、Diffusion、Transformer)、在自动驾驶和视频生成中的应用,以及 NVIDIA Cosmos、Sora、Genie 等代表产品的对比分析
外部参考
维基百科:查看「Autoregressive Model」词条本页内容为本站原创撰写;维基百科链接仅作延伸参考。