Transformer

「只有 Attention 的模型」

2017 年提出的序列建模架构,核心是 Self-Attention 与 FFN,Encoder/Decoder 变体分别适合理解与生成功能。 Transformer 用注意力替代循环结构,成为 NLP、CV、语音与多模态模型的统一骨架。

工作原理

输入序列映射为 Query/Key/Value,Attention 权重决定 token 间信息流动。Encoder(BERT)偏理解;Decoder(GPT)偏自回归生成;Encoder-Decoder(T5)适合 seq2seq。FFN、残差连接、LayerNorm 与位置编码(绝对/RoPE)是标准组件。

应用场景

几乎所有现代 LLM、ViT 视觉 Transformer、语音模型与多模态大模型均基于其变体。也是理解 Flash Attention、MoE、长上下文等优化的前提。

局限与误区

「只有 Attention」忽略了 FFN 与归一化层的作用。原始 Attention 复杂度 O(n²),长序列需 Flash Attention、稀疏注意力等优化。训练与推理对算力、显存要求都很高。

发展脉络

2017 年 Google《Attention Is All You Need》提出;2018 BERT/GPT 验证;2020 年后向超大尺度 scaling;2022 起架构创新集中在效率(MoE、GQA)与长上下文。

人们怎么说

日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。

  • 「只有 Attention 的模型」
  • 「Google 那个 Attention 论文」
  • 「BERT/GPT 的祖宗架构」

参见

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    注意力机制与 Transformer 架构

    详解 Self-Attention、Multi-Head Attention 和 Transformer 的编码器-解码器结构

  2. 2

    NLP 基础:从词嵌入到 Transformer

    自然语言处理的核心技术路线。从 One-Hot 到 Word2Vec,从 RNN/LSTM 到注意力机制,再到 Transformer 架构的完整演进历程。包含词向量可视化、注意力权重计算和简易 Transformer 的 Python 实现。

  3. 3

    神经网络基础:从感知机到多层网络

    理解神经元、激活函数、反向传播和梯度消失问题