核心要点
GPT-1:生成式预训练 + 下游有监督微调,验证单向 Decoder 预训练范式
GPT-2:放大规模、强调 zero-shot,提出语言模型即多任务学习器
GPT-3:175B 参数,靠 in-context learning(few-shot 提示)免微调完成任务
GPT-3.5/4:RLHF 对齐人类偏好、多模态输入、复杂推理与能力涌现
标准回答
主线:自回归 Decoder
GPT 全系都是单向(causal)Transformer Decoder,按 next-token prediction 预训练,核心变量是规模、数据与对齐方式。
GPT-1:提出「生成式预训练 + 任务微调」,证明无监督预训练能迁移到多种下游任务。
GPT-2:大幅扩大参数与数据,强调 zero-shot,提出语言模型本身就是多任务学习器,不必为每个任务单独训练。
GPT-3:175B 参数,确立 in-context learning——把示例写进 prompt(few-shot)即可完成任务,无需更新权重,体现 Scaling Law 效应。
GPT-3.5 / GPT-4:引入 RLHF(SFT + 奖励模型 + PPO)对齐人类意图,显著改善指令遵循与安全性;GPT-4 支持多模态输入、长上下文与更强推理,展现能力涌现。详见 大语言模型训练全流程与 RLHF。
常见误区
⚠️ 常见踩坑
in-context learning 不更新模型权重,只是利用提示中的示例,别说成「在线微调」;RLHF 是 GPT-3.5 起的对齐手段,而非 GPT-3 原生能力。
追问
追问 1:In-context learning 和微调有什么本质区别?
微调会用梯度更新模型参数、持久改变权重;in-context learning 不改权重,仅靠 prompt 中的示例在单次前向推理内「临时」适应任务。前者需训练资源和数据,后者零训练但受上下文长度和示例质量限制。
追问 2:为什么 GPT 用 Decoder 而 BERT 用 Encoder?
GPT 目标是自回归生成,需 causal mask 保证只看历史、逐词生成;BERT 目标是双向理解,用 Encoder 同时看左右上下文做 MLM。任务目标不同决定了架构与注意力掩码方式不同。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。