请解释 Transformer 中 Self-Attention 的计算过程

Question 1

请解释 Transformer 中 Self-Attention 的计算过程？

Accepted Answer

计算步骤：给定输入序列 X，先线性投影得到 Q=XW_Q、K=XW_K、V=XW_V，再计算缩放点积注意力： Attention(Q,K,V) = softmax(QK^T / √d_k) · V 直觉：每个 token 的 Query 与所有 Key 算相似度，Softmax 归一化为权重，对 Value 加权求和，得到融合全局上下文的新表示。 多头注意力（MHA）：在 h 个独立子空间并行计算 Attention，拼接后再线性变换。不同 head 可学习语法、共指、位置等不同依赖关系。 缩放因子 √d_k：防止 d_k 较大时点积过大，Softmax 进入饱和区导致梯度消失。 详见 Transformer 原理 与术语 注意力机制。

Question 2

Self-Attention 的时间/空间复杂度是多少？

Accepted Answer

标准 Self-Attention 对序列长度 n 为 O(n²·d)，显存与计算都随上下文平方增长。Flash Attention 通过分块计算降低显存；线性 Attention、稀疏 Attention 可降至近似 O(n)。

Question 3

Causal Mask 在 Decoder 中的作用？

Accepted Answer

在自回归解码器中，掩码阻止位置 i 注意到未来 token j>i，保证训练时不会「偷看」答案，与逐步生成时的信息可见性一致，避免标签泄漏。

Question 4

Flash Attention 优化了什么？

Accepted Answer

通过分块计算避免物化完整 n×n 注意力矩阵，减少 HBM 读写，在相同数学结果下显著降显存、提速度。

请解释 Transformer 中 Self-Attention 的计算过程

核心要点

简要回答

标准回答

常见误区

追问

延伸学习