标准回答
统一范式
T5(Text-to-Text Transfer Transformer)的核心思想是:无论分类、翻译、摘要还是问答,全部建模为「输入一段文本、输出一段文本」。分类任务输出类别词,回归任务输出数字字符串,从而用同一套模型、损失和解码流程处理所有任务。
任务前缀
通过在输入前加自然语言前缀区分任务,例如 translate English to German: ...、summarize: ...,让单一模型多任务复用。
架构
采用标准 Transformer Encoder-Decoder:Encoder 双向编码输入,Decoder 自回归生成输出,兼顾理解与生成,区别于纯 Encoder 的 BERT 和纯 Decoder 的 GPT。
预训练目标:span corruption
随机遮盖输入中的连续 span,用哨兵 token 占位,让 Decoder 依次生成被遮盖的片段(而非逐词 mask),更贴合生成式目标。详见 NLP 基础。
常见误区
⚠️ 常见踩坑
T5 不是纯 Encoder 也不是纯 Decoder,而是 Encoder-Decoder;其预训练是遮盖连续 span 并生成,而非 BERT 式逐 token 分类预测。
追问
追问 1:span corruption 和 BERT 的 MLM 有何不同?
MLM 逐个独立 mask 单 token,由 Encoder 做分类式还原;span corruption 遮盖连续片段并用哨兵占位,由 Decoder 自回归生成整段内容。后者更接近生成任务,且能一次预测多 token、建模片段内依赖。
追问 2:Encoder-Decoder 相比纯 Decoder 有什么取舍?
Encoder-Decoder 把输入双向编码后交叉注意力给 Decoder,理解输入更充分,适合翻译/摘要等有明确源-目标的任务;但参数和推理成本偏高。纯 Decoder(GPT 式)结构更简单、易于规模化与统一预训练,是当前大模型主流。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。