如何扩展 LLM 的上下文窗口？

Question 1

如何扩展 LLM 的上下文窗口？

Accepted Answer

扩展有效上下文一般从四个层面入手： 训练扩展：在长文档上继续预训练或微调，让模型真正见过长依赖，而非只改推理配置。 位置编码外推：RoPE 通过 Position Interpolation 把超长位置线性压回训练区间，NTK-aware 缩放调整 base 频率，YaRN 分频段处理，可外推到 128K+，通常配少量长文本微调更稳。 Attention 优化：Flash Attention 分块在线 softmax 省显存；Ring Attention 跨卡切分序列；稀疏/线性 Attention 把 O(n²) 降到近线性。 架构与记忆：滑动窗口 + 全局 token（如 Longformer）、递归摘要压缩历史；超长资料用 RAG 检索相关片段，而非全部塞进窗口。 选型：需全文交叉推理用长上下文；FAQ、知识库问答用 RAG 更省成本与延迟，二者常互补。

Question 2

Lost in the Middle 现象？

Accepted Answer

长上下文中，模型对开头与结尾信息利用更好，中间段落易被忽略。缓解：重排把关键块放首尾、摘要压缩、分块检索只喂相关段、用支持长上下文的模型并做探测评测。

Question 3

128K 上下文的实际瓶颈？

Accepted Answer

不只为参数量：Prefill 算力 O(n²)、KV Cache 显存随 n 线性涨、检索噪声增多；中间遗忘、延迟与成本上升。需 RAG/压缩/分层记忆，而非无脑塞满窗口。

如何扩展 LLM 的上下文窗口？

核心要点

简要回答

标准回答

常见误区

追问

延伸学习