为什么主流大模型多采用 Decoder-only 架构？

Question 1

Accepted Answer

训练信号更密集 Decoder-only 用因果掩码做自回归语言建模，序列中每个位置都要预测它的下一个 token。这意味着一条长度为 L 的样本能产生 L 个监督信号，训练目标统一为「预测下一词」，数据利用率高、预训练高效，天然契合大规模无标注语料。 易规模化与涌现能力 结构单一（只有解码器栈），便于工程上把参数、数据、算力同步放大，符合 scaling law。规模上去后模型展现出强 in-context learning 能力——给几个示例就能完成新任务，从而靠同一套预训练权重覆盖理解与生成两类任务，无需为每个任务单独设计架构。 推理高效 因果注意力保证位置 t 只依赖前文，生成时可缓存历史 K/V（KV Cache）做增量解码，避免重复计算。相比之下，encoder-decoder（如 T5）在明确的 seq2seq 任务上有结构优势，但通用性和工程简洁性不及 Decoder-only，后者已成主流。

Question 2

Decoder-only 用单向注意力，会不会损失对全文的理解？

Accepted Answer

理论上单向注意力让每个 token 只能看到前文，似乎弱于 BERT 的双向编码。但在足够规模和数据下，自回归模型通过深层堆叠和庞大上下文仍能学到充分的语义表示；且单向掩码正是支持高效自回归生成的前提，是工程上值得的权衡。

Question 3

什么场景下 encoder-decoder 仍有优势？

Accepted Answer

输入输出边界清晰、需要对完整输入做双向编码的任务，如机器翻译、文本摘要、语法纠错，encoder-decoder 能更充分地编码源序列，往往用更小参数量就取得好效果。但通用对话与开放生成场景，Decoder-only 的统一性更占优。

为什么主流大模型多采用 Decoder-only 架构？

核心要点

标准回答

常见误区

追问

延伸学习