核心要点

  • 能讲训练效率:因果自回归让每个位置都预测下一个 token,训练信号密集、样本利用率高,预训练目标统一

  • 能讲规模化与泛化:结构简单、易堆参数与数据,配合 scaling lawin-context learning,靠规模就能做理解类任务

  • 能讲推理高效:因果掩码使生成时可用 KV Cache 增量解码,无需重复编码已生成内容

  • 能对比 encoder-decoder:T5 等 encoder-decoder 更适合明确的 seq2seq(翻译/摘要),但 Decoder-only 更通用、更易做统一的通用预训练

标准回答

训练信号更密集

Decoder-only 用因果掩码做自回归语言建模,序列中每个位置都要预测它的下一个 token。这意味着一条长度为 L 的样本能产生 L 个监督信号,训练目标统一为「预测下一词」,数据利用率高、预训练高效,天然契合大规模无标注语料。

易规模化与涌现能力

结构单一(只有解码器栈),便于工程上把参数、数据、算力同步放大,符合 scaling law。规模上去后模型展现出强 in-context learning 能力——给几个示例就能完成新任务,从而靠同一套预训练权重覆盖理解与生成两类任务,无需为每个任务单独设计架构。

推理高效

因果注意力保证位置 t 只依赖前文,生成时可缓存历史 K/V(KV Cache)做增量解码,避免重复计算。相比之下,encoder-decoder(如 T5)在明确的 seq2seq 任务上有结构优势,但通用性和工程简洁性不及 Decoder-only,后者已成主流。

常见误区

⚠️ 常见踩坑

别说「Decoder-only 不能做理解任务」——它靠规模和 in-context learning 同样能做分类、抽取等理解任务;也别把架构选择等同于性能上限,数据和训练方法同样关键。

追问

追问 1Decoder-only 用单向注意力,会不会损失对全文的理解?

理论上单向注意力让每个 token 只能看到前文,似乎弱于 BERT 的双向编码。但在足够规模和数据下,自回归模型通过深层堆叠和庞大上下文仍能学到充分的语义表示;且单向掩码正是支持高效自回归生成的前提,是工程上值得的权衡。

追问 2什么场景下 encoder-decoder 仍有优势?

输入输出边界清晰、需要对完整输入做双向编码的任务,如机器翻译、文本摘要、语法纠错,encoder-decoder 能更充分地编码源序列,往往用更小参数量就取得好效果。但通用对话与开放生成场景,Decoder-only 的统一性更占优。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。