核心要点

  • 能下定义:涌现能力指小模型几乎不具备、模型规模(参数/数据/算力)跨过某阈值后性能突然大幅跃升的能力,难以从小模型平滑外推

  • 能举例:多步算术、思维链推理、指令遵循等被认为在一定规模后才「涌现」

  • 能讲清核心争议:突变可能是评测指标的假象——用 exact-match 等非连续/全有全无指标会放大跳变,换成连续指标(如逐 token 概率)后曲线可能是平滑的

  • 能给出平衡结论:是否「真涌现」取决于度量方式,应谨慎区分能力本身与测量方式

标准回答

什么是涌现能力

涌现能力指那些在小模型上几乎为零、当模型规模跨过某个阈值后突然显著出现的能力,且无法从小模型的表现平滑外推预测。常被举例的有多步算术、思维链推理、复杂指令遵循等。它与 Scaling Law 相关,但 Scaling Law 描述的是平滑的幂律提升,涌现强调的是「非连续的跃升」。

主要争议

争议焦点在于:所谓「突变」很可能是评测指标造成的假象。如果用 exact-match、全题全对这类非线性、全有全无的指标,模型从「差一点」到「刚好对」会被放大成陡峭跳变;而换用连续、平滑的指标(如目标序列的对数概率)后,同一能力的提升曲线往往是渐进的。

平衡结论

因此「涌现是否真实存在」很大程度上取决于如何度量。回答时应承认现象上的观察,同时指出度量方式的混淆作用,避免把它当成不可解释的「魔法」,相关讨论见 LLM 系统性泛化

常见误区

⚠️ 常见踩坑

别把涌现当成已被定论的「客观物理规律」——它高度依赖评测指标的选择,许多所谓涌现在连续指标下会消失;也别把涌现与 Scaling Law 划等号,后者描述平滑提升,前者强调的是非连续跳变。

追问

追问 1为什么非连续的评测指标会「制造」涌现?

像 exact-match、accuracy 这类指标只在输出完全正确时才计分。模型每个 token 概率随规模平滑提升,但只有当所有关键 token 同时跨过正确阈值时整题才得分,于是平滑的底层改进被映射成分数上的陡峭跳变,看起来像突然涌现。

追问 2涌现能力和 Scaling Law 有什么区别与联系?

Scaling Law 描述损失/性能随规模呈可预测的平滑幂律下降,可用于外推。涌现强调某些任务在跨过规模阈值前几乎无表现、之后突然可用,难以外推。联系是两者都源于规模扩大,区别在于一个连续可预测、一个被观察为非连续。

追问 3如果涌现可能是度量假象,研究它还有意义吗?

有意义。即便突变是指标造成的,「某能力在何种规模/数据下变得实际可用」对能力规划和安全评估仍很重要。关键是用更稳健、连续的度量去刻画能力增长,而非依赖单一全有全无的基准分数。

延伸学习

与本题相关的知识库文章、术语、工具与行业资讯。