In-Context Learning

不改权重也能学新任务

上下文学习（In-Context Learning，ICL）是大型语言模型在推理阶段无需更新任何参数、仅凭 Prompt 中嵌入的示例或指令便能适应新任务的能力。这一能力被视为 LLM 规模涌现的标志性特征，深刻改变了 AI 应用的开发范式。

概述

ICL 让模型「读懂例子」后直接完成类似任务，是 LLM 区别于传统机器学习模型的核心特征之一。

ICL 的内部机制至今仍是活跃研究课题，多种假说并存。

归纳头（Induction Heads）机制：Olsson 等人（2022，Anthropic）发现 Transformer 中存在专门的注意力头对，能在前向传播中执行「匹配-复制」操作，被认为是 ICL 最核心的电路级机制；屏蔽少量归纳头可使 ICL 效果几乎归零。
隐式贝叶斯推断假说：模型在预训练中学习到任务结构的先验分布，推理时相当于对任务分布做后验更新。
梯度下降的隐式模拟：部分研究（Akyürek et al., 2022）表明，ICL 的动态与在 Prompt token 上执行微型梯度下降在数学上存在对应关系。
示例标签并非关键：实验发现（Min et al., 2022），将示例中的标签随机替换后 ICL 仍有效，说明模型更依赖示例的格式与分布信息，而非精确的标签监督。

ICL 衍生出多种增强策略，大幅提升了基础少样本学习的效果上限。

Chain-of-Thought（CoT）：在示例中加入逐步推理过程，显著提升复杂推理任务准确率（Wei et al., 2022）。
Zero-Shot CoT：仅用「Let's think step by step」等提示词触发推理链，无需手写示例（Kojima et al., 2022）。
自洽性（Self-Consistency）：多次采样推理路径后投票取最高频答案，进一步提升鲁棒性。
检索增强 ICL：动态从外部知识库检索与当前输入最相关的示例注入 Prompt，缓解上下文长度限制。
自动示例选择：用嵌入相似度或强化学习自动筛选最优示例组合，替代手工选例。

ICL 因无需训练数据标注与模型微调，在多个领域显著降低了 AI 应用的落地门槛。

ICL 常与微调、提示工程等概念混淆，以下对比厘清核心边界。

ICL vs 微调（Fine-Tuning）：微调更新权重、需要标注数据和算力，效果上限更高；ICL 零训练成本但受模型规模制约，且每次推理都需在上下文中携带示例（增加 token 成本）。
ICL vs 提示工程（Prompt Engineering）：提示工程是更宽泛的工程实践，ICL 是其中专指含示例的子集；纯指令提示不含示例，不属于 ICL。
ICL vs 元学习（Meta-Learning）：元学习在训练阶段显式优化「快速适应」目标；ICL 是预训练后自发涌现的副产品，并非被显式训练出来。
ICL vs RAG：RAG 侧重从外部检索知识注入上下文；ICL 关注示例驱动的任务适配，两者机制目标不同但经常协同使用。

ICL 并非万能，以下局限需在工程实践中重点关注。

ICL 从 GPT-3 的惊鸿一现到如今被系统性研究，经历了快速演进。

2020：OpenAI 发布 GPT-3（Brown et al.，NeurIPS 2020），首次在 175B 模型上系统展示少样本 ICL，引发学界广泛关注。
2022 年初：Wei et al. 提出 Chain-of-Thought Prompting，将 ICL 扩展到复杂推理任务，成为最具影响力的 ICL 变体。
2022 年中：Olsson et al.（Anthropic）发表《In-Context Learning and Induction Heads》，提出归纳头作为 ICL 核心机制的电路级解释；Kojima et al. 同年提出 Zero-Shot CoT。
2022 年末：Min et al.《Rethinking the Role of Demonstrations》深入剖析示例标签的真实作用，纠正了早期对 ICL 机制的误解。
2023：随着 GPT-4、LLaMA 2 等更强基座模型普及，ICL 成为生产级 AI 应用的标配范式；检索增强 ICL 与自动示例选择研究大量涌现。
2024-2025：长上下文窗口（百万 token 级）普及使 ICL 能容纳更多示例，「In-Context Reinforcement Learning」等前沿方向开始探索 ICL 能力边界。

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

从知识库精选 2 篇文章，帮助深入理解该术语。

本页内容为本站原创撰写；维基百科链接仅作延伸参考。