手撕代码：实现多头注意力（Multi-Head Attention）

Question 1

手撕代码：实现多头注意力（Multi-Head Attention）？

Accepted Answer

多头注意力把模型维度切分成 H 个并行的头，每个头在更低维的子空间中独立计算缩放点积注意力，从而能同时捕捉不同类型的依赖（如语法、指代等）。实现上先用线性层得到 Q、K、V，reshape 成 (B, H, L, d_h) 并把头维度 transpose 到前面，对每个头并行做注意力；最后把所有头的输出拼接回 d_model 维，再经过输出投影矩阵 Wo 融合信息。下面用 PyTorch 实现：

Question 2

复杂度是多少？多头相比单头开销如何？

Accepted Answer

每头注意力为 O(L²·d_h)，H 个头合计仍是 O(L²·d_model)，与同维度的单头基本持平——多头是把维度切分而非叠加，几乎不增加计算量却提升表达力。瓶颈仍是 L² 项，可用 FlashAttention 缓解。

Question 3

什么是 MQA / GQA，为什么能加速推理？

Accepted Answer

MQA（多查询注意力）让所有头共享同一组 K、V；GQA（分组查询注意力）让若干头共享一组 K、V，介于 MHA 与 MQA 之间。它们大幅减小 KV Cache 体积，降低解码时的显存带宽压力，从而提升长序列推理吞吐，是 Llama 2/3 等模型的常用设计。

手撕代码：实现多头注意力（Multi-Head Attention）

核心要点

标准回答

常见误区

追问

延伸学习