Position Interpolation（位置编码插值）

就是把超长文本的位置号码等比例缩小，让模型以为它还在熟悉的长度范围内，所以不会『懵』

亦作、亦称：位置编码插值 · PI · RoPE position interpolation · 线性位置插值

Position Interpolation 是一种以极低微调成本将 RoPE 大语言模型上下文窗口扩展数倍的位置编码技巧。它通过线性压缩位置索引，让模型在处理超长文本时依然保持稳定的注意力行为。

概述

Position Interpolation（PI）是解决 RoPE 模型上下文长度受限问题的代表性方法之一。

核心目标：在无需从头预训练的前提下，将模型可处理的序列长度从原始训练长度（如 2048）扩展到更长范围（如 32768）。
提出背景：2023 年 6 月，Meta AI 研究团队在 LLaMA 系列模型基础上发现，直接让模型处理超出训练长度的位置会导致注意力分数剧烈异常，性能严重下降。
解决思路：通过线性插值而非外推，将位置索引压缩到训练范围内，仅需约 1000 步微调即可生效。
影响范围：PI 奠定了后续 YaRN、NTK-Aware Scaled RoPE、LongRoPE 等方法的研究基础，成为 RoPE 上下文扩展的标准参照。

PI 的数学原理基于对 RoPE 旋转角度的线性缩放。

PI 作为基础方法，衍生出多个改进变体以弥补线性插值的局限。

NTK-Aware Scaled RoPE：对高频维度外推、低频维度插值，缓解短距离位置分辨率下降问题，无需微调即可使用。
YaRN（Yet another RoPE extensioN）：2023 年提出，结合 NTK 插值与注意力温度缩放，在长上下文任务中优于线性 PI，已被 Mistral 等模型采用。
LongRoPE：2024 年提出，对不同频率维度使用非均匀插值因子，进一步提升超长上下文（如 2M token）场景下的性能。
动态 NTK（Dynamic-NTK）：推理时根据实际输入长度动态调整缩放系数，无需重新微调。

PI 及其变体广泛应用于需要处理超长输入的 LLM 部署场景。

PI 常与其他上下文扩展技术混淆，需注意以下区别。

PI vs. 直接外推：外推将模型暴露于训练时未见的位置角度，性能急剧下降；PI 通过压缩位置索引规避这一问题，代价是相邻位置分辨率略降。
PI vs. ALiBi：ALiBi 是另一种位置编码方案，通过对注意力分数添加线性偏置实现长度泛化，天然支持外推，但与 RoPE 架构不兼容，无法直接迁移到已有 RoPE 模型。
PI vs. YaRN：YaRN 是 PI 的改进版，对不同频率维度分别处理，高频外推低频插值，通常效果优于纯线性 PI，但实现略复杂。
PI vs. 滑动窗口注意力：滑动窗口注意力（如 Longformer）通过限制注意力范围降低复杂度，PI 则不改变注意力结构，仅修改位置编码。

PI 方法虽然简单高效，但存在若干重要局限需要了解。

位置编码插值技术随 LLM 上下文需求增长迅速演进。

2021 年：RoPE 由苏剑林提出并应用于 RoFormer，成为旋转位置编码的基础。
2023 年 2 月：LLaMA 发布，采用 RoPE，训练上下文长度 2048，长上下文扩展需求凸显。
2023 年 6 月：Meta AI 提出 PI（arXiv:2306.15595），以 1000 步微调将 LLaMA 扩展至 32768，引发广泛关注。
2023 年 8 月：YaRN 发布，改进 PI 的频率处理策略，被 Mistral 7B 等模型采用。
2023 年 9 月：NTK-Aware 及 Dynamic-NTK 方法相继出现，支持无微调推理时上下文扩展。
2024 年：LongRoPE、CLEX 等方法将可扩展上下文进一步推至百万 token 量级，PI 作为基础方法持续被引用与比较。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。