Transformer
「只有 Attention 的模型」
2017 年提出的序列建模架构,核心是 Self-Attention 与 FFN,Encoder/Decoder 变体分别适合理解与生成功能。 Transformer 用注意力替代循环结构,成为 NLP、CV、语音与多模态模型的统一骨架。
工作原理
输入序列映射为 Query/Key/Value,Attention 权重决定 token 间信息流动。Encoder(BERT)偏理解;Decoder(GPT)偏自回归生成;Encoder-Decoder(T5)适合 seq2seq。FFN、残差连接、LayerNorm 与位置编码(绝对/RoPE)是标准组件。
应用场景
几乎所有现代 LLM、ViT 视觉 Transformer、语音模型与多模态大模型均基于其变体。也是理解 Flash Attention、MoE、长上下文等优化的前提。
局限与误区
「只有 Attention」忽略了 FFN 与归一化层的作用。原始 Attention 复杂度 O(n²),长序列需 Flash Attention、稀疏注意力等优化。训练与推理对算力、显存要求都很高。
发展脉络
2017 年 Google《Attention Is All You Need》提出;2018 BERT/GPT 验证;2020 年后向超大尺度 scaling;2022 起架构创新集中在效率(MoE、GQA)与长上下文。
人们怎么说
日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。
- 「只有 Attention 的模型」
- 「Google 那个 Attention 论文」
- 「BERT/GPT 的祖宗架构」
参见
延伸阅读
从知识库精选 3 篇文章,帮助深入理解该术语。