标准回答
什么是涌现能力
涌现能力指那些在小模型上几乎为零、当模型规模跨过某个阈值后突然显著出现的能力,且无法从小模型的表现平滑外推预测。常被举例的有多步算术、思维链推理、复杂指令遵循等。它与 Scaling Law 相关,但 Scaling Law 描述的是平滑的幂律提升,涌现强调的是「非连续的跃升」。
主要争议
争议焦点在于:所谓「突变」很可能是评测指标造成的假象。如果用 exact-match、全题全对这类非线性、全有全无的指标,模型从「差一点」到「刚好对」会被放大成陡峭跳变;而换用连续、平滑的指标(如目标序列的对数概率)后,同一能力的提升曲线往往是渐进的。
平衡结论
因此「涌现是否真实存在」很大程度上取决于如何度量。回答时应承认现象上的观察,同时指出度量方式的混淆作用,避免把它当成不可解释的「魔法」,相关讨论见 LLM 系统性泛化。
常见误区
⚠️ 常见踩坑
别把涌现当成已被定论的「客观物理规律」——它高度依赖评测指标的选择,许多所谓涌现在连续指标下会消失;也别把涌现与 Scaling Law 划等号,后者描述平滑提升,前者强调的是非连续跳变。
追问
追问 1:为什么非连续的评测指标会「制造」涌现?
像 exact-match、accuracy 这类指标只在输出完全正确时才计分。模型每个 token 概率随规模平滑提升,但只有当所有关键 token 同时跨过正确阈值时整题才得分,于是平滑的底层改进被映射成分数上的陡峭跳变,看起来像突然涌现。
追问 2:涌现能力和 Scaling Law 有什么区别与联系?
Scaling Law 描述损失/性能随规模呈可预测的平滑幂律下降,可用于外推。涌现强调某些任务在跨过规模阈值前几乎无表现、之后突然可用,难以外推。联系是两者都源于规模扩大,区别在于一个连续可预测、一个被观察为非连续。
追问 3:如果涌现可能是度量假象,研究它还有意义吗?
有意义。即便突变是指标造成的,「某能力在何种规模/数据下变得实际可用」对能力规划和安全评估仍很重要。关键是用更稳健、连续的度量去刻画能力增长,而非依赖单一全有全无的基准分数。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。