1核心问题:LLM 到底能不能「真正理解」?
大语言模型能否系统性泛化(Systematic Generalization),是 AI 领域最根本的问题之一。这个问题背后是一个更朴素的追问:模型学到的到底是「规则」还是「统计模式」?
系统性泛化的定义很直接:模型能否将学到的组成部分(components)和组合规则(composition rules)应用到训练时未见过的组合上?比如模型学过「加法」和「乘法」,能否在没见过的嵌套表达式「(a + b) × (c + d)」上正确推理?
这个问题之所以重要,是因为它直接关系到 AI 系统的可靠性边界。如果模型只是记住了训练数据的统计模式,那它在分布外的场景就会不可预测地失败——这在医疗、法律、自动驾驶等高风险领域是不可接受的。
然而,系统性泛化的实证研究面临一个严重的方法论挑战:模型的实际表现同时受到训练数据、训练范式、推理策略等多个因素的共同影响。当模型在某个任务上失败时,我们很难判断——是因为模型缺乏泛化能力?还是训练数据不够?还是推理策略不当?
2026 年 4 月,一篇来自 arXiv 的重磅论文(2604.15306)解决了这个难题。研究者构建了一个受控的合成环境——基于最短路径规划(Shortest Path Planning)——能够干净地分离上述所有因素,并沿着两个正交的泛化轴进行评估:空间迁移和长度缩放。
这篇论文的结论出人意料,也令人警醒。
2实验设计:用最短路径问题拆解泛化之谜
研究者选择了最短路径规划(Shortest Path Planning)作为研究载体。这是一个经典的组合式序列优化问题,具有以下理想属性:
为什么选择最短路径?
- 组合性:最优路径由多个中间决策(边选择)组合而成,每个决策影响后续选择
- 可验证性:答案是对是错可以精确判定,不存在模糊地带
- 可控复杂度:通过改变地图大小和路径长度,可以精确控制问题难度
- 正交泛化轴:可以在同一框架下独立测试空间迁移(新地图)和长度缩放(更长路径)
两个泛化轴的定义:
空间迁移(Spatial Transfer):模型在某种拓扑结构的地图上训练,测试时换用完全不同结构的地图。这衡量模型是否学到了「最短路径算法」本身,还是仅仅记住了特定地图的答案。
长度缩放(Length Scaling):模型在短路径(比如 5-10 步)上训练,测试时要求解决更长的路径(比如 20-50 步)。这衡量模型能否将学到的推理模式线性外推到更长的推理链上。
这两个维度之所以关键,是因为它们对应了现实中不同的泛化需求:空间迁移对应「同一类问题的新实例」,长度缩放对应「更复杂的同一类问题」。
实验设置:
- 地图表示:将网格地图编码为邻接矩阵,输入模型
- 路径规划:模型需要输出从起点到终点的最优路径
- 训练集:固定范围的地图和路径长度
- 测试集:系统性地改变地图结构和路径长度
这种受控设计的价值在于:当模型失败时,我们可以精确地知道它为什么失败——这在真实世界的 NLP 任务中几乎不可能做到。
理解实验设计的关键:研究者不是在测试模型「能不能做最短路径」,而是在测试模型「以什么方式学会做最短路径」。前者是能力测试,后者是机制测试。
3核心发现一:空间迁移成功——模型确实学到了「算法」
研究者的第一个重要发现令人鼓舞:模型在空间迁移任务上表现优异。
具体来说,当测试地图的拓扑结构与训练地图完全不同时(比如从网格图变为随机图、从小世界图变为无标度图),模型仍然能够准确地找到最短路径。这表明模型确实学到了某种泛化的路径规划策略,而不是简单地记住了训练地图的答案。
这个发现的意义:
它反驳了一种悲观的观点——即 LLM 纯粹是在做「模式匹配」,没有学到任何可迁移的抽象规则。至少在最短路径问题上,模型展现了将学到的策略应用到全新结构上的能力。
类比理解:
- 想象你学会了开车。空间迁移相当于:你在城市道路上学会了开车,现在换到乡村土路上也能开。虽然路面不同、路况不同,但「开车」这个核心技能是可以迁移的。
- 模型的表现为:「我学会了最短路径规划的逻辑,换一种地图我也知道怎么找。」
但故事并没有这么简单。当研究者沿着第二个泛化轴——长度缩放——进行测试时,情况急转直下。
4核心发现二:长度缩放一致失败——递归不稳定性的幽灵
这是论文最核心、也最令人不安的发现:所有测试的模型在长度缩放任务上一致失败。
无论模型的规模大小、训练方式如何、推理策略怎样,当要求解决比训练时更长的路径规划问题时,模型的性能都会急剧下降。而且这种下降不是渐进的——一旦路径长度超过某个临界点,模型的正确率几乎直接跌到随机水平。
根本原因:递归不稳定性(Recursive Instability)
研究者发现,长度缩放失败的根源在于误差的递归放大。在最短路径问题中,每一个中间决策都依赖于之前所有决策的正确性。如果第一步就选错了边,后续所有基于这个错误选择的推理都会偏离正确路径。
用数学语言描述:设 f 是模型的单步推理函数,x₀ 是初始状态,x₁ = f(x₀),x₂ = f(x₁),...,xₙ = f(xₙ₋₁)。如果 f 在每一步都有一个小的误差 ε,那么经过 n 步推理后,累积误差大约是 O(ε × n) 或者在某些情况下 O(εⁿ)——误差随推理长度线性甚至指数级增长。
这就是「递归不稳定性」——模型的推理过程在短链上看起来没问题,但当推理链变长时,微小的错误会被指数级放大,最终导致完全错误的输出。
类比理解:
- 想象你在传话游戏中传递信息。每个人都会有一点小小的误解。经过 5 个人的传递,信息可能还基本正确。但经过 50 个人的传递?最终的结果可能和原始信息完全无关。
- LLM 的多步推理就是这样一个传话游戏——每一步的微小错误,在推理链中被不断放大。
这个发现的深层含义:
它揭示了一个关于 LLM 推理能力的结构性限制——即使模型学到了正确的推理规则(空间迁移成功),它也无法可靠地将这个规则应用到更长的推理链上(长度缩放失败)。这不是「训练不够」或「数据不足」的问题,而是模型推理机制本身的内在不稳定性。
5训练流水线的各阶段:谁能改变什么?
论文最系统的贡献之一是,它沿着完整的训练流水线——预训练 → 监督微调 → 强化学习 → 推理时缩放——逐一分析了每个阶段对系统性泛化的影响。
5.1 预训练:数据覆盖设定能力上限
预训练阶段学到的知识范围,直接决定了模型的能力天花板。如果训练数据中没有覆盖足够多样化的路径规划场景,模型在推理时就不可能展现出超出数据范围的泛化能力。
关键结论:数据覆盖是必要但不充分条件。即使训练数据覆盖了足够多的场景,模型仍然可能在长度缩放任务上失败——因为数据覆盖不能解决递归不稳定性的问题。
5.2 强化学习:改善训练稳定性,但不扩展能力边界
研究者测试了使用强化学习(RL)来优化模型的路径规划能力。结果发现:
- RL 确实提高了模型在训练范围内的稳定性——模型在熟悉的路径长度上表现更加一致
- 但 RL 没有扩展模型的能力边界——在长度缩放任务上,RL 训练的模型和 SFT 训练的模型表现相同
- 这说明 RL 主要是在「优化已知能力的可靠性」,而非「创造新的泛化能力」
5.3 推理时缩放(Inference-Time Scaling):提升性能但无法拯救长度缩放
推理时缩放(比如增加生成样本数、使用 majority voting 或 self-consistency)可以在固定长度的任务上提升模型性能——更多的推理样本意味着更高的正确率。
但研究发现:推理时缩放无法拯救长度缩放失败。即使让模型生成 100 个候选答案并投票,当路径长度超过临界点时,100 个答案中的大多数仍然是错的。因为递归不稳定性影响的是推理的系统性偏差,而非随机噪声——增加样本量无法消除系统性偏差。
5.4 训练流水线的完整图景:
| 阶段 | 作用 | 能否解决长度缩放失败? |
|---|---|---|
| 预训练(数据覆盖) | 设定能力上限 | ❌ 不能 |
| 监督微调 | 学习特定任务格式 | ❌ 不能 |
| 强化学习 | 提高训练范围内稳定性 | ❌ 不能 |
| 推理时缩放 | 提升固定长度任务性能 | ❌ 不能 |
这个表格令人不安——它表明当前的训练范式没有任何一个阶段能够解决递归不稳定性问题。这不是某个阶段做得不够好,而是整个范式都存在一个结构性盲点。
| 训练阶段 | 核心作用 | 对空间迁移的影响 | 对长度缩放的影响 |
|---|---|---|---|
预训练 | 设定能力上限 | 决定能否学到泛化策略 | 数据覆盖不足会导致完全失败 |
SFT | 学习任务格式 | 提高空间迁移的准确率 | 无法克服递归不稳定性 |
RL | 提高训练稳定性 | 在训练范围内更一致 | 不扩展能力边界 |
推理时缩放 | 提升固定长度性能 | 对已能解决的问题锦上添花 | 无法拯救长度缩放失败 |
6递归不稳定性与 LLM 推理的深层矛盾
递归不稳定性的发现,揭示了 LLM 推理能力的一个深层矛盾。
矛盾的核心:
LLM 的自回归生成机制本质上是马尔可夫的——每一步生成只基于当前的上下文表示,而不显式地维护一个「推理状态」。这意味着,如果模型在某一步的表示中丢失了关键信息(或者引入了微小误差),后续步骤无法「回溯」或「纠正」——因为每一步都只依赖当前状态,而不依赖完整的推理历史。
与传统算法的对比:
经典的最短路径算法(如 Dijkstra、Bellman-Ford)之所以能处理任意长度的路径,是因为它们显式地维护了全局状态:
- Dijkstra 维护一个距离数组和一个已确定最短路径的节点集合
- 每一步都基于完整的全局状态做出决策
- 即使某一步的计算有舍入误差,后续步骤可以通过重新计算来纠正
LLM 的推理过程则完全不同:
- 每一步的「状态」是隐式的,编码在 Transformer 的 hidden state 中
- 这个隐式状态是有损压缩——它不可能完美地保留所有中间推理信息
- 信息丢失是逐步骤累积的,导致推理链越长,累积误差越大
这对 AI 意味着什么?
这个发现指向了一个可能的结论:纯自回归生成可能不是实现可靠多步推理的正确范式。如果我们需要模型在长推理链上保持稳定,可能需要:
- 显式推理状态:让模型显式地维护和更新一个结构化的推理状态,而非依赖隐式的 hidden state
- 纠错机制:在推理过程中引入自我检查和纠错步骤,类似于人类在复杂推理中的「验算」
- 非自回归推理:允许模型在生成完整推理链后进行全局优化,而非逐 token 生成
- 外部记忆:使用外部工具(如代码执行器、定理证明器)来保证中间步骤的正确性
这些方向正在成为 2026 年 AI 推理研究的前沿。
7延伸阅读:LLM 自我评估能力的新突破
与递归不稳定性问题相关但角度不同的另一项 2026 年研究(arXiv: 2604.12634)发现:小模型可以在回答之前,预测大模型会给自己生成的答案打多少分。
这项研究提出了两种新范式:
PA 范式(Predict-Answer/Act):模型在生成答案之前,先预测一个强大的 LLM 评委会给自己的答案打多少分。如果预测分数低,模型可以选择求助大模型而非独立回答。
RPRA 范式(Reason-Predict-Reason-Answer/Act):更复杂的流程——先推理,再预测评分,再基于评分调整推理,最后生成答案。
关键发现:
- 大型推理模型(如 o3 级别)零样本就能准确预测 LLM-Judge 的评分
- 小模型通过上下文评分卡(contextual scorecard)可以将预测准确率提升高达 55%
- 小模型通过监督微调可以将预测准确率提升高达 52%
- 模型可以学会识别自身能力的边界
与递归不稳定性的关联:
这项研究提供了一种实用主义的解决方案来应对递归不稳定性——不是试图让模型在长推理链上不犯错,而是让模型知道自己什么时候可能会犯错,然后求助于更强大的模型。
这就像是一个「自知之明」系统:小模型独立处理它能胜任的简单问题,当问题超出能力范围(比如需要很长的推理链)时,它知道自己可能会失败,于是将问题转交给大模型。
这种「端侧部署 + 云端兜底」的混合架构,可能是当前技术条件下最务实的推理优化策略。
技术栈:
- 端侧:小模型(如 7B 级别),处理简单推理任务,低延迟、低成本
- 云端:大模型(如 70B+ 级别),处理复杂推理任务,兜底保障
- 路由机制:基于自我评估的动态路由,自动决定何时升级到大模型
PA 范式和 RPRA 范式的核心思想可以概括为:让 AI 系统拥有「元认知」能力——知道自己知道什么,也知道自己不知道什么。这是迈向可靠 AI 系统的关键一步。
8实践启示:对 AI 工程和应用的指导意义
递归不稳定性的发现不仅仅是一个学术结论,它对实际的 AI 工程和应用开发有直接的指导意义。
8.1 什么时候可以信任 LLM 的多步推理?
- ✅ 短推理链(< 10 步):递归不稳定性影响较小,模型表现可靠
- ⚠️ 中等推理链(10-20 步):需要引入自我检查和纠错机制
- ❌ 长推理链(> 20 步):纯自回归推理不可靠,需要外部工具辅助
8.2 如何缓解递归不稳定性?
策略一:分解任务
将长推理链分解为多个短推理链,每个子任务独立求解,最后汇总结果。这类似于 MapReduce 的思想。
策略二:引入验证步骤
在推理过程中定期插入「验算」步骤——让模型重新检查之前的推理是否正确。如果发现不一致,回溯并修正。
策略三:使用工具
对于需要严格正确性的任务(如数学计算、逻辑推理),使用外部工具(Python 解释器、定理证明器、约束求解器)来保证中间步骤的正确性。这也是 ReAct、Toolformer 等框架的核心思路。
策略四:混合架构
结合小模型的效率和大模型的准确性。小模型负责初步推理和路由决策,大模型负责复杂步骤和最终验证。
8.3 对 AI 产品设计的启示
- 透明化推理过程:让用户看到模型的中间推理步骤,而非仅给出最终答案。这有助于用户判断答案的可靠性。
- 置信度标注:模型应该输出对自己答案的置信度,帮助用户判断是否需要人工审核。
- 渐进式复杂度:产品设计上应限制单个任务的推理复杂度,避免将过于复杂的问题交给模型一次性解决。
8.4 对模型选择的指导
| 场景 | 推荐策略 | 原因 |
|---|---|---|
| 简单问答 | 小模型独立处理 | 推理链短,递归不稳定性影响小 |
| 中等复杂度分析 | 小模型 + 自我检查 | 需要验证中间推理步骤 |
| 复杂逻辑推理 | 大模型或混合架构 | 推理链长,需要强推理能力 |
| 严格正确性要求 | 工具辅助推理 | 纯 LLM 推理不可靠,需要外部验证 |
9未来展望:通往可靠推理的道路
递归不稳定性的发现不是终点,而是新的起点。它告诉我们纯自回归推理的边界在哪里,也指明了超越这个边界的方向。
方向一:显式推理引擎
将 LLM 的推理过程从隐式的 hidden state 中解放出来,使用显式的数据结构和算法来维护推理状态。类似于 Neuro-Symbolic AI 的思路——神经网络负责感知和理解,符号系统负责推理和验证。
方向二:过程监督(Process Supervision)
当前的 RLHF 只监督最终结果(Outcome Reward),而不监督推理过程。过程监督(Process Reward Model)对每一步推理都给出反馈,可以帮助模型学会更稳定的推理策略。这正是 IG-Search(arXiv: 2604.15148)等最新研究的方向。
方向三:自修正机制(Self-Correction)
让模型在生成推理链后,主动检查其中的逻辑不一致性并进行修正。类似于人类的「反思」能力。2026 年的多项研究表明,自修正可以将复杂推理任务的准确率提升 15-30%。
方向四:多智能体协作推理
多个模型各自独立推理,然后相互审查和辩论。这种「群体智慧」的方式可以显著降低单个模型的递归不稳定性影响。
方向五:训练范式的根本变革
也许最终的答案是:我们需要一种全新的训练范式,不是基于 next-token prediction 的自回归训练,而是基于推理结构本身的训练。这可能是实现真正的系统性泛化的唯一途径。
总结
LLM 的系统性泛化能力呈现出一幅有趣的图景:它们在空间迁移上展现了令人印象深刻的泛化能力——确实学到了可迁移的策略;但在长度缩放上一致失败——递归不稳定性暴露了自回归推理的结构性限制。
当前的训练流水线(预训练 → SFT → RL → 推理时缩放)没有任何一个阶段能够解决这个问题。这不是某个方法不够好,而是整个范式都存在一个结构性盲点。
但这不意味着悲观。自我评估、过程监督、工具辅助、多智能体协作等新方向正在蓬勃发展。AI 推理正在从「黑箱生成」走向「可审计的推理过程」——这不仅是技术的进步,也是信任的基础。
递归不稳定性的发现提醒我们:不要盲目信任 LLM 的长推理链。在关键应用中,始终需要引入验证机制或人工审核。AI 的「思考」过程和人类的思考过程有本质不同——它的「直觉」可能很准,但它的「推理」需要格外小心。