Autoregressive Model（自回归模型）

就是让模型一个字一个字往后猜，每次都把之前说的都当输入，这样生成的内容才能前后连贯。

亦作、亦称：自回归模型 · AR model · 自回归生成模型 · causal language model · 因果语言模型

自回归模型通过逐步预测序列中的下一个元素来生成数据，是 GPT、LLaMA 等大语言模型的核心生成范式。其「用过去预测未来」的机制在文本、音频、图像生成领域均取得了里程碑式的成果。

概述

自回归模型（Autoregressive Model）是生成式 AI 的基础范式之一，以链式条件概率为核心建模原则。

核心公式：P(x₁, x₂, …, xₙ) = ∏ᵢ P(xᵢ | x₁, …, xᵢ₋₁)，将复杂的联合分布拆解为可逐步计算的条件分布。
生成逻辑：每步输入已生成的全部历史，输出下一个 token 的概率分布，再通过采样（greedy / top-k / top-p）确定实际输出。
覆盖模态：最初用于一维时间序列，现已扩展至文本（GPT）、音频（WaveNet）、图像（PixelCNN）、视频等多种模态。
训练目标：通常为最大化对数似然 log P(x)，即最小化交叉熵损失（next-token prediction）。

工作原理

自回归模型的训练与推理在机制上存在关键差异，理解这一点有助于避免常见误区。

训练阶段（Teacher Forcing）：将真实序列的每个位置 xᵢ 作为条件输入，并行计算所有位置的预测损失，训练效率高。
推理阶段（自回归解码）：串行逐步生成——将第 t 步的输出追加到上下文，再输入模型预测第 t+1 步，直到生成结束符（EOS）或达到最大长度。
注意力掩码（Causal Mask）：Transformer 中通过上三角掩码确保每个位置只能看到左侧（过去）的 token，这一设计正是「因果语言模型」名称的由来。
Exposure Bias：训练时使用真实 token 为上下文，推理时使用模型自身输出，两者分布不完全一致，可能导致错误累积。

主要变体与代表模型

自回归思想在不同模态和架构中衍生出多种重要变体。

文本领域：GPT 系列（OpenAI）、LLaMA（Meta）、Claude（Anthropic）、Gemini（Google）均采用 decoder-only Transformer 自回归架构。
音频领域：WaveNet（DeepMind，2016）将自回归应用于原始音频波形，逐采样点生成，音质极高但速度慢。
图像领域：PixelRNN/PixelCNN（Google Brain，2016）按光栅扫描顺序逐像素生成图像；VQ-VAE + 自回归先验进一步提升质量。
跨模态：DALL-E 1（OpenAI，2021）将图像 token 化后与文本 token 拼接，统一用自回归 Transformer 生成图文序列。
σ-GPTs（2024）探索打破从左到右固定顺序、允许任意生成顺序的新思路。

应用场景

自回归模型已成为当前生成式 AI 最主流的技术路线，应用范围极为广泛。

自然语言生成：对话系统、代码补全（GitHub Copilot）、摘要、翻译等，几乎所有主流 LLM 均基于此范式。
音频合成：语音合成（TTS）、音乐生成、语音克隆，WaveNet 架构影响深远。
图像生成：在扩散模型流行前，PixelCNN 系列是图像生成的最优方案之一；现仍用于图像补全与编辑。
时间序列预测：金融、气象、工业传感器数据的预测，统计 AR 模型与深度自回归模型均有应用。
科学计算：蛋白质序列生成（如 ProtGPT2）、分子设计、代码合成等结构化序列任务。

与相邻概念的区别

自回归模型常与其他生成范式混淆，以下对比有助于厘清边界。

vs 扩散模型：扩散模型对整个样本加噪再逐步去噪，可并行生成；AR 模型串行逐 token 生成，两者在速度与质量上各有取舍，当前趋势是将两者融合。
vs 变分自编码器（VAE）：VAE 学习连续隐变量空间并一次性解码；AR 模型直接建模序列的条件概率链，无隐变量压缩瓶颈。
vs 掩码语言模型（如 BERT）：BERT 是双向的，可看到全部上下文，擅长理解任务；AR 模型是单向因果的，天然适合生成任务，但理解任务需要特殊处理。
vs 流模型（Normalizing Flow）：流模型要求变换可逆，AR 模型无此限制，建模更灵活。

局限与常见误区

理解自回归模型的局限有助于在实际应用中做出更合理的选择。

串行推理慢：生成每个 token 均需一次完整前向计算，无法并行，长文本生成延迟高；投机解码（Speculative Decoding）通过草稿模型+验证模型加速，但工程复杂度增加。
错误累积：一旦在某步生成了错误 token，后续所有生成都会受其影响，且无法回溯修正（除非使用 beam search 等策略）。
Exposure Bias：训练与推理的上下文分布不一致，可能导致模型在长序列生成时「跑偏」。
误区：AR 不等于 Transformer：自回归是生成范式，Transformer 是架构；RNN/LSTM 也可以做自回归模型，两者是正交概念。
误区：AR 只能用于文本：音频、图像、视频、代码、分子序列等均可用自回归范式建模。

发展脉络

自回归模型的历史横跨统计学与深度学习两个时代。

1927 年：Yule 提出统计自回归模型（AR model）用于时间序列分析，奠定数学基础。
2016 年：Google DeepMind 发布 WaveNet，首次将深度自回归模型用于原始音频生成，开启深度 AR 生成模型时代；同年 PixelRNN/PixelCNN 将自回归扩展至图像像素生成。
2018 年：OpenAI 发布 GPT-1（Radford et al.），确立「大规模无监督预训练 + 自回归 Transformer + 下游微调」范式。
2019-2020 年：GPT-2（15 亿参数）、GPT-3（1750 亿参数）相继发布，展示自回归语言模型的规模涌现能力。
2021-2022 年：DALL-E 1 将自回归扩展至文生图；InstructGPT 引入 RLHF，使自回归模型更好地遵循人类指令。
2023 年至今：LLaMA、Mixtral、Claude 3/4、GPT-4o 等持续演进；多模态自回归（文本+图像+音频统一序列建模）成为前沿方向。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「就是让模型一个字一个字往后猜，每次都把之前说的都当输入，这样生成的内容才能前后连贯。」
「自回归就像在接龙：前面说了什么，后面才能接什么，天然保证了上下文一致性。」
「AR 模型和扩散模型最大的区别就是顺序——AR 是从左到右一步步生成，扩散是从噪声里逐步去噪还原整体。」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「Autoregressive Model」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

速览

一句话定义: 自回归模型将数据的联合分布分解为条件概率链积，在生成每个新 token 时仅依赖已生成的历史序列。
提出: 统计自回归模型可追溯至 20 世纪初（Yule，1927）；深度自回归生成模型的现代形式由 Google DeepMind 的 WaveNet（2016）和 OpenAI 的 GPT-1（2018）奠定。
关键论文 / 来源: Radford et al.《Improving Language Understanding by Generative Pre-Training》(GPT-1, 2018)；van den Oord et al.《WaveNet: A Generative Model for Raw Audio》(2016)；van den Oord et al.《Pixel Recurrent Neural Networks》(PixelRNN, 2016)

分类

大语言模型生成式 AI 深度学习