手撕代码：实现正弦位置编码（Positional Encoding）

Question 1

手撕代码：实现正弦位置编码（Positional Encoding）？

Accepted Answer

Transformer 本身对输入顺序不敏感，需要位置编码为每个位置注入唯一的位置信号，再与词嵌入相加。正弦位置编码对偶数维用 sin、奇数维用 cos，且同一对 (2i, 2i+1) 共享频率 1/10000^(2i/d)；随着维度增大波长变长、频率几何衰减，使不同维度刻画从高频到低频的位置变化，模型可由此线性表达相对位置。计算分母时用 exp(−log(10000)·2i/d) 的对数形式更数值稳定。下面用 NumPy 实现：

Question 2

正弦位置编码相比可学习位置编码有什么优势？

Accepted Answer

正弦编码无需参数、可外推到训练时未见过的更长序列（因为是确定性函数），且其线性性质便于模型表达相对位移；可学习位置编码表达力更强但受限于最大长度、难外推。实际中两者效果相近，长文本场景更倾向用可外推的方案。

Question 3

RoPE 与正弦绝对位置编码有何不同？

Accepted Answer

RoPE（旋转位置编码）不把位置信息加到嵌入上，而是在注意力计算中对 Q、K 按位置做旋转，使点积自然依赖相对位置差。它兼具相对位置的优良性质和较好的长度外推能力，配合插值/NTK 缩放可扩展上下文，已成为 LLaMA、Qwen 等主流大模型的标配。

手撕代码：实现正弦位置编码（Positional Encoding）

核心要点

标准回答

常见误区

追问

延伸学习