GPT 系列从 GPT-1 到 GPT-4 关键演进了什么？

Question 1

Accepted Answer

主线：自回归 Decoder GPT 全系都是单向（causal）Transformer Decoder，按 next-token prediction 预训练，核心变量是规模、数据与对齐方式。 GPT-1：提出「生成式预训练 + 任务微调」，证明无监督预训练能迁移到多种下游任务。 GPT-2：大幅扩大参数与数据，强调 zero-shot，提出语言模型本身就是多任务学习器，不必为每个任务单独训练。 GPT-3：175B 参数，确立 in-context learning——把示例写进 prompt（few-shot）即可完成任务，无需更新权重，体现 Scaling Law 效应。 GPT-3.5 / GPT-4：引入 RLHF（SFT + 奖励模型 + PPO）对齐人类意图，显著改善指令遵循与安全性；GPT-4 支持多模态输入、长上下文与更强推理，展现能力涌现。详见 大语言模型训练全流程与 RLHF。

Question 2

In-context learning 和微调有什么本质区别？

Accepted Answer

微调会用梯度更新模型参数、持久改变权重；in-context learning 不改权重，仅靠 prompt 中的示例在单次前向推理内「临时」适应任务。前者需训练资源和数据，后者零训练但受上下文长度和示例质量限制。

Question 3

为什么 GPT 用 Decoder 而 BERT 用 Encoder？

Accepted Answer

GPT 目标是自回归生成，需 causal mask 保证只看历史、逐词生成；BERT 目标是双向理解，用 Encoder 同时看左右上下文做 MLM。任务目标不同决定了架构与注意力掩码方式不同。

GPT 系列从 GPT-1 到 GPT-4 关键演进了什么？

核心要点

标准回答

常见误区

追问

延伸学习