上下文窗口

模型能记多少字

上下文窗口是大型语言模型在单次推理中能够接收和处理的最大 token 数量，决定了模型「一次能看多少内容」。窗口越大，模型能同时考虑的信息越多，但计算代价也随序列长度呈平方级增长。

概述

上下文窗口是大型语言模型在单次推理中能够接收和处理的最大 token 数量，决定了模型「一次能看多少内容」。窗口越大，模型能同时考虑的信息越多，但计算代价也随序列长度呈平方级增长。

核心定义

上下文窗口限定了模型在一次推理中能「看到」的全部信息范围。

token 是模型处理的最小单位，英文约 3/4 个单词对应一个 token，中文通常 1-2 个字对应一个 token
所有输入内容（系统提示、对话历史、用户消息、检索文档）均计入同一窗口
超出上限的内容模型完全不可见，必须截断或通过外部机制补充
窗口大小由模型训练时固定，不同模型差异悬殊（千级至百万级 token）

技术基础

上下文窗口的约束根源在于 Transformer 自注意力机制的计算复杂度。

自注意力让每个 token 与窗口内所有其他 token 互相计算关联权重
计算与内存开销均以序列长度的平方增长（O(n²)），上下文翻倍则算力需求约增至四倍
位置编码（如 RoPE、ALiBi）决定模型如何理解各 token 的位置，也影响最大可支持长度
KV 缓存将已计算的键值对存储在显存中，长上下文会大量消耗 GPU 内存

发展脉络

上下文窗口从最初的数百 token 扩展至百万级，是近年模型能力提升的重要方向。

2017：Transformer 提出，原始模型支持 512 token
2019–2020：GPT-2 支持 1024 token，GPT-3 提升至 2048 token
2022：FlashAttention 发布，将注意力显存从二次方降至线性，为长上下文铺路
2023：Claude 1 率先将上下文推至 100K token；GPT-4 Turbo 达 128K；「迷失在中间」论文引发关注
2024：Gemini 1.5 Pro 发布 100 万 token 实验版；Claude 3 系列支持 200K token
2025–2026：超长窗口成为旗舰模型标配，多家主流模型正式支持 100 万以上 token

迷失在中间现象

窗口变大并不意味着模型能均匀利用全部内容，斯坦福 / UC Berkeley 团队 2023 年论文揭示了这一关键局限。

模型对上下文开头和结尾的信息记忆更可靠，中段内容容易被忽略
该现象被命名为「Lost in the Middle」（迷失在中间），准确率曲线呈 U 型
与人类记忆中的「首因效应」和「近因效应」在形态上高度相似
RoPE 位置编码的长程衰减特性被认为是原因之一
实际工程中须将关键信息放置在提示的首部或尾部以提升效果

管理策略

当任务所需信息超出单次上下文容量时，常见工程应对手段包括以下几类。

RAG（检索增强生成）：仅将与当前问题相关的文本片段检索进窗口，而非塞入全部文档
滑动窗口 / 分块处理：将超长文档分段处理，逐段推理后合并结果
摘要压缩：对历史对话或文档进行递归摘要，以更少 token 保留核心信息
FlashAttention / PagedAttention：通过分块计算和 KV 缓存复用降低超长序列的显存开销

上下文窗口与记忆的区别

上下文窗口是模型的「工作台」，而非持久记忆，两者有本质区别。

会话结束后，窗口内容完全清除，模型不保留任何跨会话信息
参数记忆是训练后固化在权重里的知识，与上下文窗口相互独立
外部记忆（向量数据库、文件存储）需要显式检索才能进入下次会话
更长的上下文窗口可减少对外部记忆的依赖，但无法完全替代持久化存储

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「模型能记多少字」
「记忆长度上限」
「能塞进 Prompt 的总量」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

🎯 考点练习

含该术语的高频面试题，含标准答案与追问。

浏览全部面试题 →

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。

外部参考

维基百科：查看「上下文窗口」词条

本页内容为本站原创撰写；维基百科链接仅作延伸参考。