大模型的「涌现能力」指什么？存在哪些争议？

Question 1

Accepted Answer

什么是涌现能力 涌现能力指那些在小模型上几乎为零、当模型规模跨过某个阈值后突然显著出现的能力，且无法从小模型的表现平滑外推预测。常被举例的有多步算术、思维链推理、复杂指令遵循等。它与 Scaling Law 相关，但 Scaling Law 描述的是平滑的幂律提升，涌现强调的是「非连续的跃升」。 主要争议 争议焦点在于：所谓「突变」很可能是评测指标造成的假象。如果用 exact-match、全题全对这类非线性、全有全无的指标，模型从「差一点」到「刚好对」会被放大成陡峭跳变；而换用连续、平滑的指标（如目标序列的对数概率）后，同一能力的提升曲线往往是渐进的。 平衡结论 因此「涌现是否真实存在」很大程度上取决于如何度量。回答时应承认现象上的观察，同时指出度量方式的混淆作用，避免把它当成不可解释的「魔法」，相关讨论见 LLM 系统性泛化。

Question 2

为什么非连续的评测指标会「制造」涌现？

Accepted Answer

像 exact-match、accuracy 这类指标只在输出完全正确时才计分。模型每个 token 概率随规模平滑提升，但只有当所有关键 token 同时跨过正确阈值时整题才得分，于是平滑的底层改进被映射成分数上的陡峭跳变，看起来像突然涌现。

Question 3

涌现能力和 Scaling Law 有什么区别与联系？

Accepted Answer

Scaling Law 描述损失/性能随规模呈可预测的平滑幂律下降，可用于外推。涌现强调某些任务在跨过规模阈值前几乎无表现、之后突然可用，难以外推。联系是两者都源于规模扩大，区别在于一个连续可预测、一个被观察为非连续。

Question 4

如果涌现可能是度量假象，研究它还有意义吗？

Accepted Answer

有意义。即便突变是指标造成的，「某能力在何种规模/数据下变得实际可用」对能力规划和安全评估仍很重要。关键是用更稳健、连续的度量去刻画能力增长，而非依赖单一全有全无的基准分数。

大模型的「涌现能力」指什么？存在哪些争议？

核心要点

标准回答

常见误区

追问

延伸学习