T5 的「Text-to-Text」统一范式是什么？

Question 1

Accepted Answer

统一范式 T5（Text-to-Text Transfer Transformer）的核心思想是：无论分类、翻译、摘要还是问答，全部建模为「输入一段文本、输出一段文本」。分类任务输出类别词，回归任务输出数字字符串，从而用同一套模型、损失和解码流程处理所有任务。 任务前缀 通过在输入前加自然语言前缀区分任务，例如 translate English to German: ...、summarize: ...，让单一模型多任务复用。 架构 采用标准 Transformer Encoder-Decoder：Encoder 双向编码输入，Decoder 自回归生成输出，兼顾理解与生成，区别于纯 Encoder 的 BERT 和纯 Decoder 的 GPT。 预训练目标：span corruption 随机遮盖输入中的连续 span，用哨兵 token 占位，让 Decoder 依次生成被遮盖的片段（而非逐词 mask），更贴合生成式目标。详见 NLP 基础。

Question 2

span corruption 和 BERT 的 MLM 有何不同？

Accepted Answer

MLM 逐个独立 mask 单 token，由 Encoder 做分类式还原；span corruption 遮盖连续片段并用哨兵占位，由 Decoder 自回归生成整段内容。后者更接近生成任务，且能一次预测多 token、建模片段内依赖。

Question 3

Encoder-Decoder 相比纯 Decoder 有什么取舍？

Accepted Answer

Encoder-Decoder 把输入双向编码后交叉注意力给 Decoder，理解输入更充分，适合翻译/摘要等有明确源-目标的任务；但参数和推理成本偏高。纯 Decoder（GPT 式）结构更简单、易于规模化与统一预训练，是当前大模型主流。

T5 的「Text-to-Text」统一范式是什么？

核心要点

标准回答

常见误区

追问

延伸学习