BERT 和 GPT 的架构与适用场景有何不同？

Question 1

Accepted Answer

维度 BERT GPT ------ ------ ----- 架构 Encoder-only Decoder-only 注意力 双向 因果（只看左侧） 预训练 Masked LM + NSP 下一 token 预测 擅长 分类、NER、匹配 生成、对话、推理 现代 LLM 多以 GPT 式 Decoder-only 为主；BERT 系仍在检索、重排序、Embedding 等理解任务有优势。

Question 2

T5 和 BART 属于哪类？

Accepted Answer

均为 Encoder-Decoder（seq2seq）架构：T5 把一切 NLP 任务统一为 text-to-text；BART 用去噪自编码预训练再微调生成/理解任务。区别于 GPT 的 Decoder-only。

Question 3

为什么 LLM 时代 BERT 仍有用？

Accepted Answer

分类、NER、检索 rerank、Embedding 等小模型场景成本低、延迟小；BERT 类双塔检索成熟；端侧/合规场景可本地部署。LLM 做理解也行，但未必最经济。

题库延伸：与本追问相关的专题题 → 什么是 LLM 幻觉？如何缓解？

BERT 和 GPT 的架构与适用场景有何不同？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


维度	BERT	GPT
架构	Encoder-only	Decoder-only
注意力	双向	因果（只看左侧）
预训练	Masked LM + NSP	下一 token 预测
擅长	分类、NER、匹配	生成、对话、推理