GPT 系列

OpenAI 的对话模型

GPT（Generative Pre-trained Transformer）是 OpenAI 自 2018 年起推出的一系列 Decoder-only 自回归大语言模型，通过在海量文本上无监督预训练再对齐下游任务，开创了「预训练+提示」的现代 NLP 范式。从 GPT-3 起涌现的上下文学习能力，以及 GPT-4 引入的多模态理解与工具调用，使 GPT 系列成为当代对话 AI 与 Agent 系统的核心基座。

概述

核心架构

GPT 系列统一采用 Decoder-only Transformer，以因果自注意力（causal self-attention）实现从左到右的单向语言建模。

自回归生成：每个 token 只能关注左侧上下文，推理时逐 token 采样输出，保证因果性。
无编码器设计：与 Encoder-Decoder 架构（如 T5）不同，GPT 仅保留解码器栈，结构更简洁，推理部署更高效。
规模跨越：从 GPT-1 约 1.17 亿参数，到 GPT-3 约 1750 亿参数，增长超千倍，验证了 Scaling Law。
对齐层叠：GPT-3.5/4 在预训练基础上叠加指令微调（SFT）与基于人类反馈的强化学习（RLHF），使输出更安全可用。

发展脉络

GPT 系列每一代都在架构、数据或训练范式上引入关键创新。

2018：GPT-1 发布，约 1.17 亿参数，论文「Improving Language Understanding by Generative Pre-Training」首次验证「无监督预训练 + 有监督微调」两阶段范式。
2019：GPT-2 发布，约 15 亿参数，零样本泛化能力引发广泛关注，OpenAI 以潜在滥用风险为由分批开放权重。
2020：GPT-3 发布，约 1750 亿参数，论文「Language Models are Few-Shot Learners」（NeurIPS 2020）提出 in-context learning，无需梯度更新即可适应新任务。
2022：InstructGPT（基于 RLHF）与 ChatGPT 上线，将对齐技术带入公众视野。
2023：GPT-4 发布，引入多模态输入（图像+文本）与 function calling 接口，成为 Agent 生态核心底座。
2024：GPT-4o（omni）发布，统一文本、图像、音频于单一模型；o1 系列推理模型采用「思维链扩展」范式，擅长数学与代码。

上下文学习（In-Context Learning）

GPT-3 展示的 in-context learning 是该系列最重要的涌现能力，彻底改变了模型使用范式。

零样本（Zero-Shot）：仅凭自然语言任务描述，模型无需示例即可完成任务。
少样本（Few-Shot）：在提示中附上几条输入-输出示例，模型通过类比推断新输入的答案，无需修改权重。
涌现特性：该能力在参数量超过一定阈值后才显著出现，是大模型规模涌现（Emergent Ability）的典型案例。
局限：对提示措辞高度敏感，受限于上下文窗口长度，且无法超越训练数据的知识边界。

RLHF 对齐

原始预训练 GPT 的输出未必符合人类偏好，OpenAI 通过 RLHF 使模型更安全、更有用。

监督微调（SFT）：先用高质量人工示范数据对预训练模型做有监督微调，建立基础指令跟随能力。
奖励模型（RM）：训练一个奖励模型，依据人工排序学习对输出质量打分。
PPO 优化：以奖励模型分数为信号，用近端策略优化（PPO）进一步调整策略模型。
InstructGPT 证明：13 亿参数的 InstructGPT 在人类偏好评估中优于未对齐的 1750 亿参数 GPT-3，说明对齐质量比单纯规模更重要。

多模态与工具调用

GPT-4 起，模型能力从纯文本扩展到视觉理解与外部工具集成。

视觉输入（GPT-4V）：接收图像+文本混合输入，支持图表理解、OCR、视觉推理等任务。
函数调用（Function Calling）：模型可结构化输出 JSON 触发外部 API，是构建 AI Agent 的关键接口。
GPT-4o（omni）：原生端到端多模态处理，统一文本、语音、图像，大幅降低交互延迟。
长上下文：GPT-4 Turbo 支持 128K token 上下文窗口，满足整本书级别文档处理需求。

与相邻概念的区别

GPT 系列常与其他架构或产品混淆，厘清边界有助于准确使用。

GPT vs BERT：GPT 是 Decoder-only 自回归模型，擅长生成；BERT 是 Encoder-only 双向模型，擅长理解与分类，定位互补。
GPT vs ChatGPT：ChatGPT 是在 GPT-3.5/4 权重上叠加 RLHF 对齐的对话产品，GPT 指底层架构与预训练权重，两者常被混用但含义不同。
GPT vs LLaMA/Mistral：LLaMA、Mistral 采用相同的 Decoder-only 自回归范式，但为开放权重模型，不属于 GPT 系列。
GPT vs o1/o3：o1 系列在推理时引入内部思维链扩展（test-time compute），属于 OpenAI 推理模型分支，与标准 GPT 的自回归输出范式有本质差异。

局限与误区

了解 GPT 系列的已知缺陷，是避免生产事故的关键前提。

幻觉（Hallucination）：模型拟合统计分布而非存储事实，会以高置信度输出错误信息，不应不加验证地直接采信。
知识截止：训练数据有明确的 knowledge cutoff，对截止后事件一无所知，需结合 RAG 或工具调用补充实时信息。
非检索引擎：GPT 无法精确引用来源，「给我找一篇论文」类请求容易产生虚假引用（幻构引用）。
推理成本：自回归生成计算量随序列长度线性增长，大规模部署需关注延迟与 API 费用。
复杂推理短板：在精确计数、多步数学证明等任务上仍有明显缺陷，o1/o3 系列部分缓解但未根治。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「OpenAI 的对话模型」
「大模型圈高频词」
「跟 GPT 系列是一回事吗」

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「GPT 系列」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。