Transformer 架构如何工作？通常用于哪些场景？

Question 1

Accepted Answer

Transformer（Vaswani et al., 2017）以 Self-Attention 为核心，摒弃 RNN 的序列递归，实现并行计算与长程依赖建模。 核心机制： - 输入嵌入 + 位置编码（绝对/相对/RoPE） - 多头自注意力：Q/K/V 投影 → Attention(Q,K,V)=softmax(QK^T/√d)V - 前馈网络 FFN + 残差连接 + LayerNorm - Encoder：双向上下文（BERT）；Decoder：因果掩码自回归（GPT）；Encoder-Decoder：翻译（原始论文） 典型场景： 场景 代表模型 结构 ------ ---------- ------ 理解/分类 BERT Encoder 文本生成 GPT 系列 Decoder 翻译/摘要 T5, BART Enc-Dec 视觉 ViT, Swin Patch + Attention 多模态 CLIP, LLaVA 跨模态 Attention 优势：可扩展性强、易堆叠深层、适合大规模预训练。代价：标准 Attention 复杂度 O(n²)，长序列需 Flash Attention、稀疏注意力等优化。详见 Transformer 详解 与 大模型入门。

Question 2

Transformer 为什么需要位置编码？

Accepted Answer

Self-Attention 对输入集合置换不变，无法区分 token 顺序。位置编码（正弦、可学习、ALiBi、RoPE）注入顺序信息，使模型感知「第 i 个词」的语义。

Question 3

Encoder 和 Decoder 的 Mask 有何不同？

Accepted Answer

Encoder 通常无掩码或 padding mask；Decoder 用 causal mask 禁止看到未来 token，保证自回归生成时训练与推理一致。Cross-attention 中 Query 来自 Decoder、K/V 来自 Encoder 输出。

Question 4

Transformer 如何扩展到百万 token 上下文？

Accepted Answer

采用稀疏注意力（Longformer）、线性注意力、滑动窗口、KV Cache 复用、Ring Attention 分片等技术；硬件上用 Flash Attention 降显存。仍是活跃研究方向。

Transformer 架构如何工作？通常用于哪些场景？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习


场景	代表模型	结构
理解/分类	BERT	Encoder
文本生成	GPT 系列	Decoder
翻译/摘要	T5, BART	Enc-Dec
视觉	ViT, Swin	Patch + Attention
多模态	CLIP, LLaVA	跨模态 Attention