RoPE（Rotary Position Embedding，旋转位置编码）

让模型知道词的位置

亦作、亦称：Rotary Position Embedding，旋转位置编码 · 旋转位置编码 · Rotary Embedding · RoFormer · Rotary Position Embedding

Su Jianlin 等人于 2021 年提出的 Transformer 位置编码方法，通过将每对维度视为复数并乘以旋转角度 e^{imθ}，将绝对位置信息编码为旋转操作，使注意力分数的内积自然包含相对位置依赖。截至 2026 年，RoPE 是开源大模型中使用最广泛的位置编码方案，覆盖 LLaMA 1/2/3、Mistral、Qwen、DeepSeek、Yi 等 70%+ 的主流模型。

数学原理

RoPE 的数学基础建立在复数旋转之上。对于位置 m 处的向量 x_m = (x_m^(1), x_m^(2))，RoPE 编码为：

RoPE(x_m, m) = R_m · x_m，其中 R_m = [[cos mθ, -sin mθ], [sin mθ, cos mθ]]

在复数表示下（z_m = x_m^(1) + i·x_m^(2)），这等价于 z_m → e^{imθ} · z_m。对于 d 维向量，RoPE 定义一组频率 θ^(1), ..., θ^(d/2)，对每对维度独立施加旋转。

关键定理：内积 ⟨RoPE(q,m), RoPE(k,n)⟩ = q^T W_q^T R_{n-m} W_k k，仅依赖于相对位置 n-m。证明思路：旋转矩阵的乘积 R_m^T R_n = R_{n-m}，这是旋转群的基本性质。

频率 θ 的选择遵循类似 NTK（Neural Tangent Kernel）的思路：θ_i = 10000^{-2i/d}，使不同维度对捕获不同尺度的位置关系（低频维度捕获远距离关系，高频维度捕获近距离关系）。

与其他位置编码的对比

vs 正弦位置编码（Vaswani 2017）：正弦编码是绝对位置编码，通过不同频率的正弦/余弦函数为每个位置生成唯一向量。优点是无需学习，缺点是缺乏显式的相对位置建模能力。RoPE 通过旋转操作将绝对编码转化为相对依赖，数学上更优雅。

vs 可学习位置编码（GPT-2/3）：可学习位置嵌入通过训练学习每个位置的向量表示。优点是灵活，缺点是外推性差——无法处理超过训练长度的序列。RoPE 的旋转操作天然支持外推（通过调整频率）。

vs ALiBi（Press 2022）：ALiBi 通过在注意力分数上加线性偏置（-m·slope）实现相对位置编码，无需显式位置向量。优点是简单高效，缺点是偏置是固定的线性函数，表达能力有限。RoPE 通过旋转角度编码，表达能力更强。

2026 年产业选型：RoPE 覆盖 70%+ 开源大模型（LLaMA、Mistral、Qwen、DeepSeek）；ALiBi 用于 BLOOM、MPT 系列；可学习位置用于 GPT-2/3 和 BERT。

外推方案：从 4K 到 1M 上下文

RoPE 的原始训练长度通常是 4K 或 8K Token，但 2026 年的大模型普遍需要支持 128K 甚至 1M 上下文。外推（Extrapolation）的核心挑战是：模型在训练时未见过长位置，直接推理时注意力模式会崩溃。

主要外推方案：

(1) YaRN（Yet another RoPE extensioN, 2023）：通过缩放因子 s 调整所有频率，θ_i → θ_i / s。当 s = 16 时，4K 训练长度可扩展到 64K。YaRN 还引入了注意力温度缩放（attention temperature scaling）补偿长距离注意力的衰减。

(2) Dynamic NTK（2023）：根据实际推理长度动态调整 NTK 混合因子，在短距离保持原始频率，在长距离使用缩放频率。相比静态缩放，Dynamic NTK 在短上下文任务上性能损失更小。

(3) LongRoPE（Microsoft, 2024）：通过非均匀频率缩放（short-to-long extension ratio up to 32x），结合位置插值和频率搜索，将 8K 训练长度扩展到 256K。

(4) 位置插值（PI, 2023）：最简单的外推方法——将位置索引从 [0, L) 线性映射到 [0, L/s)，等效于降低旋转频率。性能损失较大但实现简单。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「让模型知道词的位置」
「LLaMA 用的位置编码」
「比绝对位置编码更灵活」

延伸阅读

从知识库精选 3 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「RoPE」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。

RoPE（Rotary Position Embedding，旋转位置编码）

数学原理

与其他位置编码的对比

外推方案：从 4K 到 1M 上下文

常见误解

相关术语

延伸阅读

LLM 上下文窗口扩展：RoPE、ALiBi 与长文本建模技术

LLM 推理优化：量化、剪枝、蒸馏与推理加速实战

注意力机制与 Transformer 架构

外部参考

觉得内容有帮助？请站长喝杯咖啡 ☕