核心要点
能讲规模化与泛化:结构简单、易堆参数与数据,配合 scaling law 与 in-context learning,靠规模就能做理解类任务
能讲推理高效:因果掩码使生成时可用 KV Cache 增量解码,无需重复编码已生成内容
能对比 encoder-decoder:T5 等 encoder-decoder 更适合明确的 seq2seq(翻译/摘要),但 Decoder-only 更通用、更易做统一的通用预训练
标准回答
训练信号更密集
Decoder-only 用因果掩码做自回归语言建模,序列中每个位置都要预测它的下一个 token。这意味着一条长度为 L 的样本能产生 L 个监督信号,训练目标统一为「预测下一词」,数据利用率高、预训练高效,天然契合大规模无标注语料。
易规模化与涌现能力
结构单一(只有解码器栈),便于工程上把参数、数据、算力同步放大,符合 scaling law。规模上去后模型展现出强 in-context learning 能力——给几个示例就能完成新任务,从而靠同一套预训练权重覆盖理解与生成两类任务,无需为每个任务单独设计架构。
推理高效
因果注意力保证位置 t 只依赖前文,生成时可缓存历史 K/V(KV Cache)做增量解码,避免重复计算。相比之下,encoder-decoder(如 T5)在明确的 seq2seq 任务上有结构优势,但通用性和工程简洁性不及 Decoder-only,后者已成主流。
常见误区
⚠️ 常见踩坑
别说「Decoder-only 不能做理解任务」——它靠规模和 in-context learning 同样能做分类、抽取等理解任务;也别把架构选择等同于性能上限,数据和训练方法同样关键。
追问
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。