RoPE(旋转位置编码)

「让模型知道词的位置」

亦作、亦称:旋转位置编码 · Rotary Position Embedding

Rotary Position Embedding,用旋转变换将相对位置信息注入 Attention,支持一定程度的外推长度扩展,是 LLaMA 等模型的标配。 RoPE 用几何旋转编码 token 相对位置,兼顾外推潜力与实现简洁,是开源 LLM 栈的事实标准。

工作原理

对 Query/Key 向量按维度两两分组,乘以与位置相关的旋转角,使内积仅依赖相对位置差。相比绝对位置编码,更自然地表达相对距离;配合 NTK-aware 插值、YaRN 等可在推理时扩展超过训练长度的上下文。

应用场景

LLaMA、Qwen、DeepSeek 等 Decoder-only 模型的默认位置方案;长文档 RAG、代码库问答等需扩展上下文的场景常在此调参。

局限与误区

外推并非免费午餐:超过训练长度后性能仍可能衰减。不同模型的 base 频率与缩放策略需与 checkpoint 匹配,盲目拉长 context 窗口可能适得其反。

发展脉络

2021 年 Su 等提出 RoPE;2023 年随 LLaMA 开源普及;2024 年长上下文竞赛推动 NTK/YaRN 等外推技术成熟。

人们怎么说

日常交流里常听到的说法——未必准确,但有助于理解误解从哪来。

  • 「让模型知道词的位置」
  • 「LLaMA 用的位置编码」
  • 「比绝对位置编码更灵活」

参见

延伸阅读

从知识库精选 3 篇文章,帮助深入理解该术语。

  1. 1

    LLM 上下文窗口扩展:RoPE、ALiBi 与长文本建模技术

    大语言模型的上下文窗口大小决定了它能处理多长的输入和生成多长的输出。本文系统讲解上下文窗口扩展的核心技术——旋转位置编码 RoPE、注意力线性偏置 ALiBi、NTK 插值、YaRN 外推等方案,从原理到实战,帮助读者深入理解如何让模型突破训练时的长度限制,实现长文本的可靠建模。

  2. 2

    LLM 推理优化:量化、剪枝、蒸馏与推理加速实战

    系统讲解大语言模型推理优化的四大核心技术——量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)和推理引擎加速,覆盖从原理到实战的完整链路

  3. 3

    注意力机制与 Transformer 架构

    详解 Self-Attention、Multi-Head Attention 和 Transformer 的编码器-解码器结构