手撕代码：用 NumPy/PyTorch 实现 Self-Attention

Question 1

手撕代码：用 NumPy/PyTorch 实现 Self-Attention？

Accepted Answer

Self-Attention（自注意力）让序列中每个位置都能关注到其他所有位置。先把输入投影成查询 Q、键 K、值 V，用 Q 与 K 的点积衡量两两相关性，除以 sqrt(d) 进行缩放避免点积数值过大使 softmax 进入饱和区。随后对每一行做 softmax 得到归一化权重，最后用权重对 V 加权求和得到输出。softmax 实现时务必先减去行最大值再取指数，保证数值稳定。下面给出纯 NumPy 实现：

Question 2

复杂度是多少？如何优化？

Accepted Answer

序列长度为 L 时，QKᵀ 与 attn@V 各为 O(L²·d)，时间与显存均随 L 平方增长。优化手段包括 FlashAttention（分块计算、不显式存储 L×L 矩阵，把显存降到 O(L)）、稀疏/线性注意力，以及推理时的 KV Cache 复用历史键值。

Question 3

如何加入因果掩码实现解码器自注意力？

Accepted Answer

在 softmax 之前，把上三角（未来位置）的 scores 置为 -inf（或一个很大的负数），这样 softmax 后这些位置权重为 0，保证位置 i 只能看到 i 及之前的 token，符合自回归生成的因果约束。

手撕代码：用 NumPy/PyTorch 实现 Self-Attention

核心要点

标准回答

常见误区

追问

延伸学习