Autoregressive Model(自回归模型)

就是让模型一个字一个字往后猜,每次都把之前说的都当输入,这样生成的内容才能前后连贯。

亦作、亦称:自回归模型 · AR model · 自回归生成模型 · causal language model · 因果语言模型

自回归模型通过逐步预测序列中的下一个元素来生成数据,是 GPT、LLaMA 等大语言模型的核心生成范式。其「用过去预测未来」的机制在文本、音频、图像生成领域均取得了里程碑式的成果。

概述

自回归模型(Autoregressive Model)是生成式 AI 的基础范式之一,以链式条件概率为核心建模原则。

  • 核心公式:P(x₁, x₂, …, xₙ) = ∏ᵢ P(xᵢ | x₁, …, xᵢ₋₁),将复杂的联合分布拆解为可逐步计算的条件分布。
  • 生成逻辑:每步输入已生成的全部历史,输出下一个 token 的概率分布,再通过采样(greedy / top-k / top-p)确定实际输出。
  • 覆盖模态:最初用于一维时间序列,现已扩展至文本(GPT)、音频(WaveNet)、图像(PixelCNN)、视频等多种模态。
  • 训练目标:通常为最大化对数似然 log P(x),即最小化交叉熵损失(next-token prediction)。

工作原理

自回归模型的训练与推理在机制上存在关键差异,理解这一点有助于避免常见误区。

  • 训练阶段(Teacher Forcing):将真实序列的每个位置 xᵢ 作为条件输入,并行计算所有位置的预测损失,训练效率高。
  • 推理阶段(自回归解码):串行逐步生成——将第 t 步的输出追加到上下文,再输入模型预测第 t+1 步,直到生成结束符(EOS)或达到最大长度。
  • 注意力掩码(Causal Mask):Transformer 中通过上三角掩码确保每个位置只能看到左侧(过去)的 token,这一设计正是「因果语言模型」名称的由来。
  • Exposure Bias:训练时使用真实 token 为上下文,推理时使用模型自身输出,两者分布不完全一致,可能导致错误累积。

主要变体与代表模型

自回归思想在不同模态和架构中衍生出多种重要变体。

  • 文本领域:GPT 系列(OpenAI)、LLaMA(Meta)、Claude(Anthropic)、Gemini(Google)均采用 decoder-only Transformer 自回归架构。
  • 音频领域WaveNet(DeepMind,2016)将自回归应用于原始音频波形,逐采样点生成,音质极高但速度慢。
  • 图像领域PixelRNN/PixelCNN(Google Brain,2016)按光栅扫描顺序逐像素生成图像;VQ-VAE + 自回归先验进一步提升质量。
  • 跨模态DALL-E 1(OpenAI,2021)将图像 token 化后与文本 token 拼接,统一用自回归 Transformer 生成图文序列。
  • σ-GPTs(2024)探索打破从左到右固定顺序、允许任意生成顺序的新思路。

应用场景

自回归模型已成为当前生成式 AI 最主流的技术路线,应用范围极为广泛。

  • 自然语言生成:对话系统、代码补全(GitHub Copilot)、摘要、翻译等,几乎所有主流 LLM 均基于此范式。
  • 音频合成:语音合成(TTS)、音乐生成、语音克隆,WaveNet 架构影响深远。
  • 图像生成:在扩散模型流行前,PixelCNN 系列是图像生成的最优方案之一;现仍用于图像补全与编辑。
  • 时间序列预测:金融、气象、工业传感器数据的预测,统计 AR 模型与深度自回归模型均有应用。
  • 科学计算:蛋白质序列生成(如 ProtGPT2)、分子设计、代码合成等结构化序列任务。

与相邻概念的区别

自回归模型常与其他生成范式混淆,以下对比有助于厘清边界。

  • vs 扩散模型:扩散模型对整个样本加噪再逐步去噪,可并行生成;AR 模型串行逐 token 生成,两者在速度与质量上各有取舍,当前趋势是将两者融合。
  • vs 变分自编码器(VAE):VAE 学习连续隐变量空间并一次性解码;AR 模型直接建模序列的条件概率链,无隐变量压缩瓶颈。
  • vs 掩码语言模型(如 BERT):BERT 是双向的,可看到全部上下文,擅长理解任务;AR 模型是单向因果的,天然适合生成任务,但理解任务需要特殊处理。
  • vs 流模型(Normalizing Flow):流模型要求变换可逆,AR 模型无此限制,建模更灵活。

局限与常见误区

理解自回归模型的局限有助于在实际应用中做出更合理的选择。

  • 串行推理慢:生成每个 token 均需一次完整前向计算,无法并行,长文本生成延迟高;投机解码(Speculative Decoding)通过草稿模型+验证模型加速,但工程复杂度增加。
  • 错误累积:一旦在某步生成了错误 token,后续所有生成都会受其影响,且无法回溯修正(除非使用 beam search 等策略)。
  • Exposure Bias:训练与推理的上下文分布不一致,可能导致模型在长序列生成时「跑偏」。
  • 误区:AR 不等于 Transformer:自回归是生成范式,Transformer 是架构;RNN/LSTM 也可以做自回归模型,两者是正交概念。
  • 误区:AR 只能用于文本:音频、图像、视频、代码、分子序列等均可用自回归范式建模。

发展脉络

自回归模型的历史横跨统计学与深度学习两个时代。

  • 1927 年:Yule 提出统计自回归模型(AR model)用于时间序列分析,奠定数学基础。
  • 2016 年:Google DeepMind 发布 WaveNet,首次将深度自回归模型用于原始音频生成,开启深度 AR 生成模型时代;同年 PixelRNN/PixelCNN 将自回归扩展至图像像素生成。
  • 2018 年:OpenAI 发布 GPT-1(Radford et al.),确立「大规模无监督预训练 + 自回归 Transformer + 下游微调」范式。
  • 2019-2020 年:GPT-2(15 亿参数)、GPT-3(1750 亿参数)相继发布,展示自回归语言模型的规模涌现能力。
  • 2021-2022 年:DALL-E 1 将自回归扩展至文生图;InstructGPT 引入 RLHF,使自回归模型更好地遵循人类指令。
  • 2023 年至今:LLaMA、Mixtral、Claude 3/4、GPT-4o 等持续演进;多模态自回归(文本+图像+音频统一序列建模)成为前沿方向。

常见误解

日常交流中容易听到的简化说法,未必准确,但能帮助理解误解从何而来。

  • 「就是让模型一个字一个字往后猜,每次都把之前说的都当输入,这样生成的内容才能前后连贯。」
  • 「自回归就像在接龙:前面说了什么,后面才能接什么,天然保证了上下文一致性。」
  • 「AR 模型和扩散模型最大的区别就是顺序——AR 是从左到右一步步生成,扩散是从噪声里逐步去噪还原整体。」

相关术语

和本术语关联紧密的其他词条,便于串联理解。

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    扩散模型文本生成:从 DDPM 到 Diffusion-LM 的技术原理与应用

    扩散模型正在从图像生成杀入文本生成赛道。系统掌握扩散模型在 NLP 中的原理、架构差异、与 Transformer 的对比分析,以及 2026 年扩散文本生成的最新进展

  2. 2

    扩散语言模型:原理、架构与实战

    从自回归到扩散,理解语言模型的新范式。详解扩散语言模型的原理、架构设计、训练方法以及与 Transformer 的对比分析。

  3. 3

    世界模型 World Model 技术路线全面解析

    深入理解世界模型的核心概念、三种主流技术路线(Jepa、Diffusion、Transformer)、在自动驾驶和视频生成中的应用,以及 NVIDIA Cosmos、Sora、Genie 等代表产品的对比分析

外部参考

维基百科:查看「Autoregressive Model」词条

本页内容为本站原创撰写;维基百科链接仅作延伸参考。