涌现能力

模型变大突然会了

涌现能力（Emergent Ability）指大型语言模型在参数规模突破某一阈值后，无需针对性训练便能自发具备的新能力，如多步推理、思维链等。该现象因其「不可外推」的突变特性，成为 scaling law 研究中争议最多的核心议题之一。

概述

涌现能力（Emergent Ability）指大型语言模型在参数规模突破某一阈值后，无需针对性训练便能自发具备的新能力，如多步推理、思维链等。该现象因其「不可外推」的突变特性，成为 scaling law 研究中争议最多的核心议题之一。

核心定义

涌现能力的本质是规模引发的质变，而非量变的平滑延伸。

不可预测性：仅通过小模型的性能曲线，无法预测该能力在何种规模下出现。
突变性：在阈值以下，模型表现接近随机；越过阈值后，能力骤然显现。
未显式训练：能力并非通过针对该任务的专项数据训练获得，而是随规模「涌现」。
典型示例：思维链推理（Chain-of-Thought）、多步算术、多语言翻译、上下文学习等。

发展脉络

该概念从物理学复杂系统理论借鉴而来，逐步进入 NLP 主流视野。

1972：物理学家 Philip Anderson 发表「More is Different」，奠定「涌现」的复杂系统理论基础。
2020：OpenAI 发布 GPT-3（175B），首次大规模展示少样本能力，为涌现讨论奠定基础。
2022 年 6 月：Jason Wei、Yi Tay 等人发表 arXiv:2206.07682，正式提出大型语言模型涌现能力概念，列举多个实验证据。
2023 年 4 月：Schaeffer、Miranda 与 Koyejo 发表「Are Emergent Abilities of Large Language Models a Mirage?」（arXiv:2304.15004），提出涌现可能是度量指标选择造成的幻觉。
2023 年至今：学界持续争论，多项研究尝试用连续指标或微调手段提前预测涌现时间点。

产生机制假说

目前学界对涌现能力的成因尚无定论，主要存在以下假说。

规模阈值假说：模型参数量或训练量超过临界点后，内部表征发生结构性跃迁，从而解锁新能力。
组合能力假说：涌现能力是多个基础子能力在规模增大后自发组合的结果，并非单一机制的简单放大。
度量幻觉假说（Schaeffer 2023）：以「完全匹配」等非线性指标衡量时，平滑的性能提升会被人为转化为「突变」；换用连续指标后，涌现往往消失。
数据稀疏假说：小模型测试集样本量不足，导致统计波动掩盖了实际的渐进提升。

典型涌现能力示例

以下能力被 Wei et al. 2022 及后续研究列为涌现能力的代表性案例。

思维链推理（Chain-of-Thought）：约 100B 参数以上的模型，在给出中间推理步骤提示后，数学与逻辑推理准确率大幅提升。
少样本上下文学习：仅凭 prompt 中的少量示例，即可完成此前未训练的任务类型。
多步算术推理：多位数加减乘除、GSM8K 类题目的解题能力在特定规模出现跃升。
指令跟随：模型通过阅读任务描述即可执行新任务，无需额外微调。
跨语言迁移：仅用英文数据预训练的模型，涌现出对其他语言的理解与生成能力。

学术争议：真实涌现还是度量幻觉

2023 年以来，「涌现能力是否真实存在」成为 AI 领域最热门的方法论争论之一。

质疑方（Schaeffer 2023）：认为「完全匹配」等非连续指标会人为制造突变假象；改用对数概率等连续指标后，能力提升呈现平滑曲线，不存在真正的阈值跃变。
支持方：指出部分涌现能力（如思维链推理）在换用连续指标后依然保持突变特征，难以被度量幻觉假说完全解释。
实践影响：争议促使研究者在评测中同时报告多种指标，而非单一的离散准确率。
工程共识：无论理论争议如何，工程上确实观察到规模带来的能力跃升，是模型选型与资源规划的重要依据。

对 AI 研究与工程的影响

涌现能力的发现深刻改变了大模型研究的方向与资源分配逻辑。

推动 scaling 投入：「更大模型可能解锁新能力」的预期，促使头部机构持续加大算力投入。
挑战评测体系：传统基准测试难以捕捉突变性能力，推动了更细粒度、多维度评测方法的发展。
安全隐患：涌现能力的不可预测性意味着模型可能在未预期场景下表现出有害行为，这是 AI 对齐研究的重要挑战。
影响模型选型：工程师需在部署前测试目标任务是否处于涌现阈值之上，避免小模型「假性失效」的误判。

与 Scaling Law 的关系

涌现能力与 Scaling Law 密切相关，但两者关注的层面不同。

Scaling Law 描述的是损失函数等连续指标随规模的平滑幂律变化，适合预测预训练成本与通用性能。
涌现能力关注的是特定任务上的突变跃升，恰好是 Scaling Law 所无法预测的部分。
两者的张力推动了「可预测涌现」研究方向，即通过微调小模型或换用连续代理指标来提前估计涌现时间点。
理解两者关系有助于更合理地规划模型训练规模与评测策略。

常见误解

日常交流中容易听到的简化说法，未必准确，但能帮助理解误解从何而来。

「模型变大突然会了」
「大模型圈高频词」
「跟涌现能力是一回事吗」

相关术语

和本术语关联紧密的其他词条，便于串联理解。

🎯 考点练习

含该术语的高频面试题，含标准答案与追问。

浏览全部面试题 →

延伸阅读

从知识库精选 2 篇文章，帮助深入理解该术语。