核心要点

  • BERT 是 Encoder-only 双向注意力,每个 token 能看到左右全文,适合「理解」类任务

  • GPT 是 Decoder-only 因果注意力,只看左侧,天然适配自回归「生成」与对话

  • 预训练目标决定能力:BERT 用 Masked LM 完形填空,GPT 用下一 token 预测

  • 选型看任务:分类/NER/检索重排用 BERT 更省成本,开放生成/Agent 用 GPT

简要回答

BERT 用 Masked LM 双向编码,擅长理解类任务;GPT 用因果 LM 从左到右生成,擅长续写、对话和 Agent。

标准回答

维度 BERT GPT
架构 Encoder-only Decoder-only
注意力 双向 因果(只看左侧)
预训练 Masked LM + NSP 下一 token 预测
擅长 分类、NER、匹配 生成、对话、推理

现代 LLM 多以 GPT 式 Decoder-only 为主;BERT 系仍在检索、重排序Embedding 等理解任务有优势。

常见误区

⚠️ 常见踩坑

把「BERT 弱、GPT 强」当结论——二者目标不同,分类/检索任务上微调 BERT 往往比大 GPT 更准更省;误以为 BERT 也能像 GPT 那样逐词生成长文本(它的双向 Masked LM 训练方式并不适合自回归续写)。

追问

追问 1T5 和 BART 属于哪类?

均为 Encoder-Decoder(seq2seq)架构:T5 把一切 NLP 任务统一为 text-to-text;BART 用去噪自编码预训练再微调生成/理解任务。区别于 GPT 的 Decoder-only。

追问 2为什么 LLM 时代 BERT 仍有用?

题库专题:大模型为什么会产生幻觉?如何缓解?

分类、NER、检索 rerank、Embedding 等小模型场景成本低、延迟小;BERT 类双塔检索成熟;端侧/合规场景可本地部署。LLM 做理解也行,但未必最经济。

题库延伸:与本追问相关的专题题 → 什么是 LLM 幻觉?如何缓解?

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。