核心要点

  • 把分类、翻译、摘要、问答等所有任务统一为「文本输入 → 文本输出」

  • 用任务前缀(如 translate English to German:)告诉模型当前要做什么

  • 架构是标准 Encoder-Decoder,区别于 BERT(纯Encoder)、GPT(纯Decoder)

  • 预训练用 span corruption:遮盖连续片段,让模型生成被遮盖的内容

标准回答

统一范式

T5(Text-to-Text Transfer Transformer)的核心思想是:无论分类、翻译、摘要还是问答,全部建模为「输入一段文本、输出一段文本」。分类任务输出类别词,回归任务输出数字字符串,从而用同一套模型、损失和解码流程处理所有任务。

任务前缀

通过在输入前加自然语言前缀区分任务,例如 translate English to German: ...summarize: ...,让单一模型多任务复用。

架构

采用标准 Transformer Encoder-Decoder:Encoder 双向编码输入,Decoder 自回归生成输出,兼顾理解与生成,区别于纯 Encoder 的 BERT 和纯 Decoder 的 GPT。

预训练目标:span corruption

随机遮盖输入中的连续 span,用哨兵 token 占位,让 Decoder 依次生成被遮盖的片段(而非逐词 mask),更贴合生成式目标。详见 NLP 基础

常见误区

⚠️ 常见踩坑

T5 不是纯 Encoder 也不是纯 Decoder,而是 Encoder-Decoder;其预训练是遮盖连续 span 并生成,而非 BERT 式逐 token 分类预测。

追问

追问 1span corruption 和 BERT 的 MLM 有何不同?

MLM 逐个独立 mask 单 token,由 Encoder 做分类式还原;span corruption 遮盖连续片段并用哨兵占位,由 Decoder 自回归生成整段内容。后者更接近生成任务,且能一次预测多 token、建模片段内依赖。

追问 2Encoder-Decoder 相比纯 Decoder 有什么取舍?

Encoder-Decoder 把输入双向编码后交叉注意力给 Decoder,理解输入更充分,适合翻译/摘要等有明确源-目标的任务;但参数和推理成本偏高。纯 Decoder(GPT 式)结构更简单、易于规模化与统一预训练,是当前大模型主流。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。