简要回答
BERT 用 Masked LM 双向编码,擅长理解类任务;GPT 用因果 LM 从左到右生成,擅长续写、对话和 Agent。
常见误区
⚠️ 常见踩坑
把「BERT 弱、GPT 强」当结论——二者目标不同,分类/检索任务上微调 BERT 往往比大 GPT 更准更省;误以为 BERT 也能像 GPT 那样逐词生成长文本(它的双向 Masked LM 训练方式并不适合自回归续写)。
追问
追问 1:T5 和 BART 属于哪类?
均为 Encoder-Decoder(seq2seq)架构:T5 把一切 NLP 任务统一为 text-to-text;BART 用去噪自编码预训练再微调生成/理解任务。区别于 GPT 的 Decoder-only。
追问 2:为什么 LLM 时代 BERT 仍有用?
题库专题:大模型为什么会产生幻觉?如何缓解?分类、NER、检索 rerank、Embedding 等小模型场景成本低、延迟小;BERT 类双塔检索成熟;端侧/合规场景可本地部署。LLM 做理解也行,但未必最经济。
题库延伸:与本追问相关的专题题 → 什么是 LLM 幻觉?如何缓解?
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。
🛠️ AI 工具
- spaCy
工业级 Python NLP 库,33K+ stars。提供高效的文本分词、命名实体识别、依存句法分析等能力,内置预训练模型支持 70+ 语言,是生产环境 NLP 任务的标准选择