杨立昆反共识：LLM 路线错了，JEPA 才是 AGI 之路

一、引言：当图灵奖得主说「你们的方向错了」

2026 年，人工智能行业正处于前所未有的狂热扩张期。全球科技巨头在 LLM 上的累计投入已突破 3000 亿美元，OpenAI 的估值逼近 3000 亿，Anthropic 超过 1000 亿，Google、Meta、Amazon 各自投入数百亿美元建设 AI 基础设施。整个行业似乎达成了一个不言自明的共识：Scaling LLM = 通往 AGI。

但在这个几乎无人质疑的主流叙事中，有一位图灵奖得主——Meta 首席 AI 科学家杨立昆（Yann LeCun）——从 2023 年开始就持续发出不同的声音：

「当前的大语言模型路线有根本性缺陷，不可能通过单纯的规模扩展达到人类级别的智能。」

这句话在 AI 圈引起了巨大的争议。支持者认为 LeCun 指出了一个被行业刻意忽视的真相——LLM 的训练范式存在结构性的局限，无论投入多少算力都无法突破。反对者则认为 LeCun 低估了 Scaling Laws 的力量——GPT-4、Claude 3、Gemini Ultra 的能力持续突破预期，每一次「不可能」都被打破了。

但 LeCun 不是随便发表意见的行业观察者。他是卷积神经网络（CNN）、自监督学习的先驱、图灵奖得主（与 Hinton、Bengio 共享 2018 年图灵奖），同时也是 Meta AI 研究的实际负责人。他的批评不是来自外部，而是来自一个拥有全球最大 LLM 训练资源的内部人士——Meta 的 Llama 系列模型正是他领导的团队开发的。

这恰恰是 LeCun 论点最值得认真对待的原因：他不是没有能力做 LLM，而是在做 LLM 的过程中，深刻理解了它的局限，因此提出了一个截然不同的替代路线——JEPA（Joint-Embedding Predictive Architecture）。

本文将深度剖析以下核心问题：

LeCun 对 LLM 的具体批评是什么？他提出的替代方案 JEPA 在技术上如何实现？LLM 与 JEPA 在架构、训练、能力上有哪些本质差异？行业各方的立场和实际行为说明了什么？未来 5 年 AI 技术路线可能如何演变？

这不是一个「谁对谁错」的简单辩论。这是一个关于 AI 的根本架构选择的深层讨论——它决定了未来十年的研究资源流向、产业投资方向、和 AGI 的时间表。

阅读建议：
本文涉及大量技术概念的对比分析。如果你对 Transformer 架构和自监督学习的基础概念不太熟悉，建议先阅读本站的 Transformer 架构详解和自监督视觉学习相关基础知识文章，再回到本文进行深度阅读。

立场声明：
本文力求客观分析 LLM 与 JEPA 两条路线的优劣，不代表作者对任何路线的预设立场。LeCun 的批评有其合理性，但 LLM 路线的实际成果也不容否认。AI 技术路线的选择不应基于个人崇拜或阵营忠诚，而应基于严谨的技术分析和实证证据。

二、LeCun 的核心论点：LLM 的四大结构性缺陷

LeCun 对 LLM 的批评不是零散的质疑，而是一套系统性的技术论证。他的核心论点可以归纳为四个结构性缺陷——这些问题不是通过增加数据量或参数量就能解决的，而是根植于 LLM 的训练范式本身。

缺陷一：LLM 学习的是「统计关联」而非「因果理解」

LLM 的训练目标是预测下一个 token。这意味着模型学会的是词汇之间的统计共现模式——哪些词经常一起出现、哪些句法结构更可能接续、哪些话题在哪些语境下更常被讨论。

但这不等于理解。LeCun 用一个经典的例子说明：如果你给 LLM 看一万张「球从桌上掉下来」的图片描述，它可以学会生成关于这个场景的合理文本，但它并不理解重力、运动轨迹、和物体与桌面的空间关系。它只是记住了描述这种场景的语言模式。

关键区别：统计关联回答的是「哪些词经常一起出现」的问题；因果理解回答的是「如果我改变 X，Y 会怎样」的问题。前者是被动的模式识别，后者是主动的反事实推理（Counterfactual Reasoning）。

LLM 之所以在某些场景下看起来有因果理解能力，是因为人类语言中已经编码了大量的因果知识。当模型学会了语言的统计模式，它也就间接地获得了语言中所编码的因果知识。但这种间接获取是有上限的——模型只能复述语言中的因果，而不能在语言之外进行因果推理。

缺陷二：LLM 没有「世界模型」，无法进行规划

世界模型（World Model）是 LeCun 理论中的核心概念。它的含义是：智能体在大脑中构建一个对外部世界的内部表征，这个表征可以模拟外部世界的运作方式，让智能体在不实际执行动作的情况下，就能预测行动的后果。

人类拥有世界模型。当你计划从家走到地铁站时，你的大脑中有一个关于城市街道、建筑位置、交通状况的内部模型。你可以在脑海中模拟不同的路线，预测每条路线的时间和难度，然后选择最优方案。这个模拟过程不需要实际走路——它是纯内部的认知操作。

LLM 没有世界模型。LLM 的「推理」本质上是一个自回归的文本生成过程——它根据已经生成的文本，预测下一个 token。它没有一个独立的、可以被操纵的内部世界表征。当 LLM「规划」时，它实际上是在生成类似于规划的文本，而非真正执行规划的内部计算过程。

这个差异的后果极其深远：没有世界模型的智能体无法进行长链条的、目标导向的规划。它可以一步一步地推理（Chain-of-Thought），但每一步都依赖于上一步的文本输出，而不是在一个统一的内部表征上操作。这使得 LLM 在需要多步规划和状态维护的任务中表现不稳定——比如编写一个完整的软件系统、设计一个实验方案、或执行一个复杂的物流调度。

缺陷三：LLM 的「知识」无法持续更新

LLM 的知识完全固化在模型的参数中。要让模型学习新知识，唯一的办法是重新训练或微调。这意味着：

LLM 无法在运行时学习。当你告诉 ChatGPT 一个它不知道的事实时，它不会真正「记住」这个事实——下次对话时它仍然不知道。它只能在当前对话的上下文窗口内引用你提供的信息，但无法将新信息整合到其持久的知识体系中。

这与人类的学习方式截然不同。人类可以通过单次经验学习新知识，并将其整合到已有的知识体系中。你不需要重新训练你的大脑来记住今天学到的一个新事实。

LeCun 认为，缺乏持续学习能力是 LLM 路线的一个根本性障碍。如果 AGI 需要像人类一样持续学习和适应，那么一个无法持续更新知识的架构不可能达到 AGI 的水平。

缺陷四：LLM 缺乏「持久目标」和「内在动机」

人类的智能行为是由内在动机驱动的——好奇心、求知欲、社交需求、自我实现。这些动机不依赖于外部的指令，而是内在地存在于智能体中。

LLM 没有任何内在动机。它只有在收到用户输入时才会「行动」，而且它的「行动」仅仅是生成对输入的文本响应。它不会主动思考、不会提出问题、不会设定自己的目标。

LeCun 认为，真正的智能必须包含自主的目标设定能力——智能体应该能够自己决定要做什么，而不仅仅是响应外部的指令。这要求智能体拥有一个持久的、连贯的「自我」表征，以及基于这个自我表征的动机系统。

LLM 的训练范式从根本上排除了这一点——next token prediction 的目标函数只关注预测的准确性，不涉及任何关于目标、动机、或自主性的建模。

思考框架：
理解 LeCun 的批评时，可以用一个简单的问题来检验：「这个能力是来自模型真正理解了世界，还是来自语言数据中已经编码了这种知识？」如果答案是后者，那么这个能力可能无法泛化到语言数据覆盖范围之外的场景。这个思维框架对于评估 LLM 的真实能力边界非常有用。

避免误读：
LeCun 并没有说「LLM 没有用」。他承认 LLM 是一个强大的工具，在语言理解、文本生成、知识问答等方面表现出了惊人的能力。他的论点是：LLM 的能力有结构性的上限，无论投入多少算力都无法突破这些上限，因此不可能通过 LLM 路线达到 AGI。理解这个区分非常重要——批评 LLM 的上限 ≠ 否认 LLM 的价值。

三、JEPA 架构详解：什么是「联合嵌入预测」？

JEPA（Joint-Embedding Predictive Architecture）是 LeCun 提出的替代 LLM 的架构方案。要理解 JEPA，需要先理解它所试图解决的核心问题：如何让 AI 模型像人类一样学习世界的因果结构，而不仅仅是语言的统计模式。

3.1 JEPA 的核心理念：在抽象表征空间中预测

JEPA 的核心思想可以用一句话概括：

不要在像素空间或 token 空间中预测未来，而是在一个抽象的表征空间（Embedding Space）

这个区别看似微妙但影响深远。让我们用一个具体的例子来说明：

假设你看到一段视频：一个球从桌子边缘滚落，掉到地板上。

在像素空间预测（视频生成的做法）：模型需要预测下一帧的每一个像素的颜色值。这意味着它必须精确预测球的位置、形状、阴影、光照变化——这是一个极其复杂的高维预测问题，大量的计算资源被消耗在细节的生成上，而非对场景因果结构的理解上。

在抽象表征空间预测（JEPA 的做法）：模型不需要预测具体的像素值，而是预测场景的抽象表征——球的速度方向、重力影响、碰撞后的反弹角度。这些表征是低维的、结构化的、因果相关的。模型学习的是「球在重力作用下如何运动」这个因果规则，而非「下一帧每个像素是什么颜色」这个表面细节。

3.2 JEPA 的架构组件

JEPA 由三个核心组件构成：

编码器（Encoder）：将原始输入（图像、视频、文本等）映射到一个抽象的表征空间（Embedding Space）。这个表征空间的设计目标是捕捉输入的关键语义信息，同时丢弃无关的细节（如光照变化、噪声、纹理细节）。

预测器（Predictor）：在表征空间中，根据当前的表征状态和已知的行动（如果有的话），预测未来的表征状态。这个预测不是像素级的，而是语义级的——它预测的是「场景会如何变化」而非「像素会如何变化」。

目标编码器（Target Encoder）：与编码器结构相同但参数独立（通过动量更新），用于生成预测的目标。在训练时，预测器的输出与目标编码器的输出进行比较，计算表征空间的预测损失。

为什么需要两个编码器？这是为了避免表征坍缩（Representation Collapse）——如果编码器和目标编码器共享参数，模型可能学会一个平凡解（Trivial Solution）：所有输入都映射到同一个表征向量，这样预测损失永远为零，但表征没有任何信息量。通过独立的参数和动量更新，可以强制表征保持多样性。

3.3 JEPA 与自监督学习的传承关系

JEPA 不是 LeCun 的突发奇想，而是他 20 多年来研究自监督学习（Self-Supervised Learning）的自然延续。

自监督学习的核心信念是：智能的大部分知识不需要人工标注，而是可以从原始数据本身中通过预测任务学习得到。LeCun 有一个著名的蛋糕比喻：如果把智能比作一个蛋糕，自监督学习是蛋糕的主体，监督学习是蛋糕上的奶油，强化学习是蛋糕上的樱桃。

JEPA 将自监督学习的理念从感知领域（视觉、听觉）：不仅仅是预测下一帧图像或下一个音频片段，而是预测任何模态输入的抽象表征。

JEPA 的训练过程：

给定一个多模态输入序列（如视频帧、传感器数据、语言描述）
编码器将已观测到的部分映射为当前表征
预测器基于当前表征预测未来的表征
目标编码器将实际的未来输入映射为目标表征
比较预测表征与目标表征，计算预测损失
反向传播，更新编码器和预测器的参数

关键点：整个训练过程不需要任何人工标注。模型只需要原始的多模态数据——视频、音频、文本、传感器读数——就可以自主学习世界的因果结构。

深入理解：
要真正理解 JEPA 的创新性，建议阅读 LeCun 的论文 "A Path Towards Autonomous Machine Intelligence" (2022)。这篇论文详细阐述了他对自主智能的完整构想，JEPA 是这个构想中的感知-预测模块。论文中还讨论了配置器（Configurator）、评论器（Critic）、短期记忆（Short-term Memory）等其他模块，共同构成了一个完整的自主智能架构。

技术成熟度警告：
JEPA 目前仍处于早期研究阶段。LeCun 的团队已经发表了 V-JEPA（视频 JEPA）的初步实验结果，证明了在视频表征学习上的可行性。但距离一个完整的、多模态的、可以替代 LLM 的 JEPA 系统还有很长的路要走。目前没有公开可用的 JEPA 实现可以用于生产环境。在评估 JEPA 时，需要区分理论上的潜力和当前的实际能力。

四、技术对比：LLM vs JEPA 的架构全景对比

为了更清晰地理解两条路线的差异，我们从多个维度进行系统的对比分析。这种对比不是为了证明谁更好，而是为了揭示两种架构的本质差异和各自的适用场景。

对比维度	LLM（Transformer + Next Token）	JEPA（联合嵌入预测）	对 AGI 的影响
训练目标	预测下一个 token 的概率分布	在抽象表征空间预测未来状态	LLM 学统计模式，JEPA 学因果结构
知识表征	知识编码在模型参数中（静态）	知识编码在动态的表征状态中	JEPA 支持在线更新，LLM 需要重新训练
推理机制	自回归文本生成（线性、逐 token）	在表征空间中并行推演（非线性、全局）	JEPA 更适合多步规划和假设检验
学习能力	批量离线训练，无法在线学习	理论上支持在线/增量学习	JEPA 具备持续学习潜力
多模态整合	需要将各模态转换为 token 序列	原生支持多模态表征统一	JEPA 的多模态融合更自然
目标导向行为	无内在目标，被动响应输入	架构中包含目标/动机模块的设计空间	JEPA 有通向自主智能的架构路径
可解释性	黑盒，难以理解内部表征含义	表征空间可设计为结构化、可解释	JEPA 理论上更可解释
当前成熟度	高度成熟，已大规模商业化	早期研究阶段，仅有初步实验	LLM 领先至少 5-10 年
计算效率	训练成本极高（GPT-4 约 1 亿美元）	理论上更高效（低维表征预测）	JEPA 若成熟可能大幅降低训练成本
行业投入	$3000 亿+ 累计投入	几乎为零（仅 Meta 内部研究）	JEPA 缺乏资源和人才投入

分析框架：
这张对比表中的「对 AGI 的影响」列是本文的原创分析，不是 LeCun 或任何一方的原话。我们基于架构特性的逻辑推导，评估每个维度对实现 AGI 的关键程度。读者可以根据自己的判断来重新评估这些权重。

对比局限性：
这种对比有一个内在的不对称性：LLM 是已经大规模实践验证的架构，所有数据点都是实证的；而 JEPA 目前主要是理论架构和初步实验，许多优势是理论推导而非实证验证。因此，表格中 JEPA 的「理论优势」需要打一个折扣——它们在实际系统中能否实现仍然是开放问题。

五、行业立场分析：谁在支持谁？为什么？

这场路线之争不仅仅是学术观点的分歧，更是行业利益和战略选择的博弈。理解各方的公开立场和实际行动之间的差异，是判断未来技术走向的关键。

5.1 Meta：最分裂的 AI 巨头

Meta 是目前 AI 行业中立场最「分裂」的公司。

公开立场：Meta 的 CEO 扎克伯格是 LLM 路线的坚定支持者。Meta 的 Llama 系列是当前最成功的开源 LLM之一，累计下载量超过 5 亿次。Meta 在 LLM 上的投入每年超过 100 亿美元。

但与此同时：Meta 的首席 AI 科学家 LeCun 却在公开质疑 LLM 路线。他领导的 FAIR（基础 AI 研究）团队的主要研究方向是 JEPA 和自监督学习，而非 LLM。

这种分裂不是偶然的。它反映了 Meta 的一种双轨战略：在短期内（3-5 年），在长期（10 年+）。

实用主义 vs 理想主义：Llama 团队（以 Joelle Pineau 和 Andrew Ng 的合作伙伴为代表）关注的是当前的市场需求和竞争压力；FAIR 团队关注的是AI 的基础科学问题。两者都有各自的合理性——但它们的资源竞争和方向分歧是 Meta 内部管理的一个持续挑战。

5.2 OpenAI / Anthropic / Google：Scaling 路线的既得利益者

这三家公司是 LLM 路线的最大投入者和受益者。它们的立场毫不意外地支持 Scaling：

OpenAI：Sam Altman 多次表示，「规模扩展仍然是最有效的策略」。OpenAI 的战略是持续扩大模型规模（GPT-4 → GPT-5 → GPT-6）和扩展应用场景（Agent、工具调用、多模态）。

Anthropic：Dario Amodei 的立场相对微妙。他承认 LLM 有安全和可解释性的问题，但仍然认为Scaling + 对齐研究是当前最可行的路线。Anthropic 的 Constitutional AI 和 Claude 的长上下文能力都是在这个框架下的创新。

Google DeepMind：Demis Hassabis 的立场最为灵活。DeepMind 同时投入LLM（Gemini）和世界模型（Genie、SIMA），试图走一条中间路线。Hassabis 曾多次引用 LeCun 的观点，认为世界模型是 AGI 的关键组件之一。

5.3 学术界：更开放的讨论空间

与工业界的阵营分化不同，学术界的讨论更加开放和多元：

支持 LeCun 观点的学者：包括 Yoshua Bengio（图灵奖共同得主），他提出了「系统 2 意识」的概念，与 LeCun 的世界模型理念高度一致。他认为当前的 LLM 主要是「系统 1」（快速、直觉性的模式匹配），而真正的智能需要「系统 2」（慢速、推理性的意识过程）。

持保留意见的学者：包括 Andrej Karpathy（前 OpenAI、Tesla AI 总监），他认为LLM 的 emergent abilities（涌现能力）——每当我们认为 LLM 做不到某事时，更大的模型就做到了。

中立观察者：包括 Geoffrey Hinton（图灵奖共同得主），他在 2023 年离开 Google 后更多地关注 AI 安全问题，对技术路线的讨论相对谨慎。

5.4 投资界：用资金投票

投资界的立场非常明确：几乎 100% 的资金流向了 LLM 路线。2024-2026 年，全球 AI 领域的风险投资和基础设施投资中，超过 95% 集中在 LLM 相关公司——包括基础模型开发商、AI 应用层公司、和 AI 芯片/数据中心基础设施。

JEPA 路线几乎没有获得独立的资金投入。LeCun 的研究资金来自 Meta 的内部研发预算，而非外部投资。这意味着 JEPA 的研究速度和规模完全取决于 Meta 的战略优先级——如果 Meta 决定减少对 FAIR 的投入，JEPA 的研究可能面临严重的资金压力。

投资界的逻辑很简单：LLM 已经证明了商业价值（ChatGPT 年收入超过 100 亿美元），而 JEPA 还只是一个研究构想。在风险和回报的权衡下，投资者自然选择已经验证的路线。

战略洞察：
如果你是一名AI 领域的研究者或从业者，这个立场分析给出一个实用的建议：在短期内（3-5 年），LLM 技能和经验仍然是最有市场价值的。但如果你对AI 的基础问题有深入兴趣，并且愿意承担更长期的风险，那么关注 JEPA 和世界模型方向可能是一个差异化的职业选择——因为当这个方向成熟时，先发优势将非常大。

利益冲突警示：
在评估各方的立场时，必须考虑利益冲突。OpenAI 的创始人有动机说 Scaling 是正确的，因为这是他们数十亿美元投资的依据。LeCun 也有动机推广 JEPA，因为这是他研究团队的方向。这不意味着他们的观点不诚实，但意味着我们在评估时应该独立于立场来判断技术论证的说服力。

六、深度分析：LeCun 的论点成立吗？

在全面了解 LeCun 的论点和 JEPA 架构之后，我们来做一个独立的、批判性的分析——LeCun 的论点在多大程度上成立？有哪些值得商榷的地方？

6.1 LeCun 最有力的论点：世界模型的缺失

LeCun 所有论点中最有说服力的一个是：LLM 缺乏世界模型，因此无法进行真正的因果推理和规划。

这个论点有很强的实证支持。大量的研究已经表明，LLM 在需要多步推理和状态维护的任务中表现不稳定：

数学推理：虽然 LLM 在 GSM8K 等基准测试上达到了 90%+ 的准确率，但这些测试题目模式相对固定。在开放式的数学问题求解中，LLM 的表现显著下降——它更擅长复述已知的解题方法，而非创造新的解题策略。

代码生成：LLM 可以生成功能正确的代码片段，但在完整的软件开发流程中（需求分析→架构设计→模块实现→集成测试），LLM 的表现远远不如人类工程师。核心原因是软件开发需要对项目整体状态的持续跟踪和维护——这需要一个世界模型。

物理推理：尽管 LLM 可以通过文本描述回答一些物理问题，但当面对需要从第一原理推导的新问题时，LLM 的表现接近随机猜测。这说明它的「物理知识」主要来自文本中的描述，而非对物理规律的内部理解。

这些实证结果与 LeCun 的预测一致：LLM 在模式匹配和知识检索方面表现出色，但在因果推理、规划、和物理理解方面存在结构性的局限。

6.2 LeCun 最薄弱的论点：规模扩展的上限

LeCun 认为 LLM 的能力存在不可突破的上限，无论投入多少算力都无法达到 AGI 水平。

但这个论点面临一个严峻的反驳：历史一再证明 LeCun 低估了规模扩展的力量。

2020 年，当 GPT-3（175B 参数）发布时，许多研究者（包括 LeCun）认为这是 Scaling 的终点——更大的模型不会有质的飞跃。但 2023 年的 GPT-4（估计 1.7T 参数，MoE 架构）展示了全新的能力：复杂的推理、多模态理解、代码生成——这些在 GPT-3 时代被认为是不可能的。

2024 年的 Claude 3.5 Sonnet 进一步展示了在编码任务上超越大多数人类程序员的能力。2025 年的 GPT-5（如果路线图成立）可能会带来更多突破。

每一次「这不可能」的断言，都被更大的模型打破了。这使得 LeCun 的「上限论」在实证层面面临巨大的挑战。

6.3 一个可能的综合观点：两条路线的互补性

我们认为，最合理的判断可能不是「LLM 对还是 JEPA 对」，而是「两条路线各自解决了不同的问题，最终可能需要结合」。

LLM 擅长的是：语言理解、知识检索、模式匹配、文本生成。这些能力在知识型工作（写作、编程辅助、问答、翻译）中已经证明了巨大的实用价值。

JEPA 擅长的是（理论上）：因果推理、物理理解、多步规划、持续学习。这些能力在物理世界的交互（机器人、自动驾驶、科学发现）中可能是不可或缺的。

最终的 AGI 可能需要两者的结合：一个类似 LLM 的语言理解模块来处理人类语言的输入和输出，加上一个类似 JEPA 的世界模型模块来处理因果推理和规划。这类似于人类大脑中的语言中枢和前额叶皮层的分工合作。

事实上，一些研究者已经在探索这个方向。Google DeepMind 的 Genie 是一个世界模型，可以从单张图像生成交互式 3D 环境。Meta 的 V-JEPA 在视频表征学习上取得了进展。OpenAI 的 o1 系列（推理模型）尝试在 LLM 中引入更长的推理链。这些都不是纯粹的 LLM 或纯粹的 JEPA，而是两者的混合体。

趋势预判：
我们认为，未来 3-5 年最有可能出现的技术突破不是纯粹的 LLM 扩展或纯粹的 JEPA 实现，而是将世界模型的某些能力整合到 LLM 架构中的混合方案。例如：在 LLM 的注意力机制中引入因果推理模块、在推理过程中维护一个内部状态表征、或将JEPA 的表征学习作为 LLM 的预训练辅助任务。这种渐进式的融合比彻底的架构替换更可能成功。

分析局限性：
本文的分析基于2026 年 5 月的公开信息。AI 领域的发展速度极其迅猛——一个新的重要研究可能在几周内改变整个讨论的方向。读者应该保持对最新研究的关注，而不是将本文的分析视为最终的结论。

七、趋势预判：未来 5 年 AI 技术路线的三种可能场景

基于当前的技术进展、行业投入、和学术讨论，我们对未来 5 年（2026-2031）做出三种可能场景的预判。

场景一：LLM 持续主导（概率：50%）

在这个场景中，LLM 路线继续保持主导地位。GPT-6、Claude 5、Gemini 3 等新一代模型通过规模扩展和架构优化，在推理能力、多模态理解、和 Agent 行为上取得显著进步。

关键驱动力：

计算基础设施的持续扩张。全球 AI 芯片产能每年增长 50-100%，数据中心的建设投入超过 5000 亿美元。算力瓶颈不是根本性的。

LLM 架构的持续创新。MoE（混合专家）、超长上下文窗口（百万 token 级别）、Agent 框架（自主规划和工具调用）的进步，使得 LLM 的能力边界持续扩展。

行业投入的正反馈循环。LLM 的商业成功带来更多投入，更多投入带来更强的模型，更强的模型带来更大的商业成功——这个正反馈循环在短期内没有明显的终止信号。

JEPA 的影响：在这个场景中，JEPA 保持为一个活跃的研究方向，但没有成为主流。LeCun 的论点被认为是有启发性的，但不足以颠覆当前的范式。

场景二：世界模型崛起（概率：25%）

在这个场景中，JEPA 或类似的世界模型架构在关键基准测试上展现出超越 LLM 的能力，引发行业关注度的大规模转移。

可能的触发事件：

一个公开可用的 JEPA 实现在物理推理或规划任务上显著超越最强的 LLM。

某个科技巨头（可能不是 Meta）宣布在世界模型路线上取得突破性进展，并投入大规模资源进行开发。

LLM 路线遭遇一个无法通过规模扩展解决的根本性瓶颈——例如，Scaling Laws 开始失效（模型变大但能力提升不再显著）。

行业影响：如果场景二发生，投资和研究资源将部分地从 LLM 转向世界模型。但 LLM 不会消失——它将继续在语言任务中保持优势。最终可能形成一个双轨并存的格局。

场景三：融合架构成为主流（概率：25%）

在这个场景中，LLM 和世界模型的融合成为新一代 AI 系统的标准架构。这种融合架构结合了 LLM 的语言能力和世界模型的推理能力，在广泛的智能任务中表现出超越单一架构的能力。

融合的技术路径：

路径 A：LLM + 外部世界模型。LLM 作为语言接口，调用一个独立的世界模型来进行因果推理和规划。这类似于LLM + 代码解释器的架构，但世界模型的功能远强于代码解释器。

路径 B：统一的多模态架构。一个单一的模型同时学习语言表征和世界模型表征，在同一个嵌入空间中操作。这要求全新的训练范式和更大的计算资源。

路径 C：分层架构。底层是世界模型，负责对物理和社会环境的基础理解；上层是语言模型，负责与人类的交互和抽象推理。两层之间通过特定的接口进行信息交换。

行业影响：场景三可能是最平衡也最可能的结果。它不需要完全放弃 LLM 的巨额投资，同时吸收了 JEPA 的合理洞见。如果这个场景成为现实，AGI 的时间表可能会显著提前——因为融合架构可能在更全面的能力维度上达到人类水平。

战略建议：
无论你是一个AI 研究者、从业者还是投资者，最理性的策略是同时关注两条路线。在短期内保持对 LLM 的投入（这是当前的商业现实），同时跟踪世界模型的研究进展（这是未来的可能性）。不要把所有的赌注押在一个方向上——这是2026 年 AI 领域最明智的策略。

预判的不确定性：
这些场景预判的不确定性极高。AI 领域在过去 5 年已经多次颠覆了最聪明研究者的预期。2020 年时，大多数专家认为100B 参数是 LLM 的极限——GPT-3 打破了这个认知。2022 年时，大多数专家认为LLM 无法进行可靠的推理——Chain-of-Thought 打破了这个认知。我们对未来的预判同样可能出错。

八、代码实践：JEPA 架构的简化实现

虽然 JEPA 目前还没有工业级的公开实现，但我们可以通过一个简化的 PyTorch 实现来理解其核心架构和训练流程。这个实现基于 LeCun 论文中的概念框架，用于教学和理解目的。

python

# ============================================================
# JEPA 架构简化实现（教学用途）
# ============================================================
import torch
import torch.nn as nn
import torch.nn.functional as F
from copy import deepcopy

class JEPAEncoder(nn.Module):
    """
    JEPA 编码器：将原始输入映射到抽象表征空间

    设计要点：
    - 输入可以是图像、视频帧、或文本 token 序列
    - 输出是一个固定维度的表征向量
    - 使用 Vision Transformer (ViT) 作为骨干网络
    """

    def __init__(self, input_dim: int = 768, embed_dim: int = 256,
                 num_layers: int = 6, num_heads: int = 8):
        super().__init__()
        # Transformer 编码器层
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=input_dim,
            nhead=num_heads,
            dim_feedforward=input_dim * 4,
            batch_first=True,
        )
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers)
        # 投影头：将 Transformer 输出映射到目标表征空间
        self.projection = nn.Sequential(
            nn.Linear(input_dim, input_dim),
            nn.GELU(),
            nn.Linear(input_dim, embed_dim),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        x: [batch, seq_len, input_dim] - 输入序列
        返回: [batch, embed_dim] - 抽象表征
        """
        # Transformer 编码
        encoded = self.transformer(x)
        # 全局平均池化（取序列的平均表征）
        pooled = encoded.mean(dim=1)
        # 投影到目标空间
        return self.projection(pooled)


class JEPAPredictor(nn.Module):
    """
    JEPA 预测器：在表征空间中预测未来状态

    输入：当前表征 + 行动编码（可选）
    输出：预测的未来表征
    """

    def __init__(self, embed_dim: int = 256, action_dim: int = 64):
        super().__init__()
        # 将当前表征和行动编码拼接
        input_dim = embed_dim + action_dim
        self.predictor = nn.Sequential(
            nn.Linear(input_dim, embed_dim * 2),
            nn.GELU(),
            nn.Linear(embed_dim * 2, embed_dim * 2),
            nn.GELU(),
            nn.Linear(embed_dim * 2, embed_dim),
        )

    def forward(self, current_embed: torch.Tensor,
                action: torch.Tensor = None) -> torch.Tensor:
        """
        current_embed: [batch, embed_dim] - 当前状态表征
        action: [batch, action_dim] - 行动编码（可选）
        返回: [batch, embed_dim] - 预测的未来表征
        """
        if action is None:
            action = torch.zeros(current_embed.shape[0], 64,
                                 device=current_embed.device)
        combined = torch.cat([current_embed, action], dim=1)
        return self.predictor(combined)


class JEPA(nn.Module):
    """
    JEPA 完整模型：编码器 + 预测器 + 目标编码器

    训练策略：
    1. 编码器处理当前观测，得到当前表征
    2. 预测器基于当前表征预测未来表征
    3. 目标编码器处理实际的未来观测，得到目标表征
    4. 最小化预测表征与目标表征之间的距离
    """

    def __init__(self, input_dim: int = 768, embed_dim: int = 256,
                 action_dim: int = 64, momentum: float = 0.99):
        super().__init__()
        self.encoder = JEPAEncoder(input_dim, embed_dim)
        self.predictor = JEPAPredictor(embed_dim, action_dim)
        # 目标编码器：与编码器结构相同但参数独立
        self.target_encoder = deepcopy(self.encoder)
        # 冻结目标编码器的梯度
        for param in self.target_encoder.parameters():
            param.requires_grad = False

        self.momentum = momentum
        self.embed_dim = embed_dim

    def update_target_encoder(self):
        """动量更新目标编码器参数"""
        for param, target_param in zip(
            self.encoder.parameters(),
            self.target_encoder.parameters()
        ):
            target_param.data = (
                self.momentum * target_param.data +
                (1 - self.momentum) * param.data
            )

    def forward(self, current_obs: torch.Tensor,
                future_obs: torch.Tensor,
                action: torch.Tensor = None) -> dict:
        """
        current_obs: [batch, seq_len, input_dim] - 当前观测
        future_obs: [batch, seq_len, input_dim] - 未来观测
        返回: 包含预测、目标、损失的字典
        """
        # 编码当前观测
        current_embed = self.encoder(current_obs)

        # 预测未来表征
        predicted_future = self.predictor(current_embed, action)

        # 用目标编码器编码实际的未来观测（无梯度）
        with torch.no_grad():
            target_future = self.target_encoder(future_obs)

        # 计算预测损失（余弦相似度损失）
        loss = 1 - F.cosine_similarity(predicted_future,
                                        target_future, dim=1).mean()

        return {
            "loss": loss,
            "predicted": predicted_future,
            "target": target_future,
        }


# ============================================================
# 训练循环示例
# ============================================================
def train_jepa(model: JEPA, dataloader, num_epochs: int = 100,
               lr: float = 3e-4, device: str = "cuda"):
    """JEPA 训练循环"""
    model.to(device)
    optimizer = torch.optim.AdamW(model.parameters(), lr=lr)

    for epoch in range(num_epochs):
        total_loss = 0
        for batch in dataloader:
            current_obs = batch["current"].to(device)
            future_obs = batch["future"].to(device)
            action = batch.get("action", None)

            if action is not None:
                action = action.to(device)

            # 前向传播
            result = model(current_obs, future_obs, action)
            loss = result["loss"]

            # 反向传播
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            # 动量更新目标编码器
            model.update_target_encoder()

            total_loss += loss.item()

        avg_loss = total_loss / len(dataloader)
        if epoch % 10 == 0:
            print(f"Epoch {epoch}, Loss: {avg_loss:.4f}")

python

# ============================================================
# LLM vs JEPA 推理过程对比可视化
# ============================================================
import torch

def compare_inference():
    """对比 LLM 和 JEPA 的推理过程差异"""

    print("=" * 60)
    print("LLM 推理过程（自回归 token 生成）")
    print("=" * 60)
    print("""
[输入] "球从桌上"
  ↓
[预测] 下一个 token = "掉" (P=0.72)
  ↓
[输入] "球从桌上掉"
  ↓
[预测] 下一个 token = "下" (P=0.65)
  ↓
[输入] "球从桌上掉下"
  ↓
[预测] 下一个 token = "来" (P=0.81)
  ↓
[输出] "球从桌上掉下来"

特点：
- 每一步都依赖上一步的输出
- 线性、串行的推理过程
- 没有对"物理过程"的内部理解
- 只是学习了语言中的描述模式
""")

    print("=" * 60)
    print("JEPA 推理过程（表征空间预测）")
    print("=" * 60)
    print("""
[输入] 视频帧: [球在桌边缘]
  ↓
[编码器] → 表征: {球位置: (x=0.9, y=0.1), 速度: (vx=0.3, vy=0)}
  ↓
[预测器] → 预测下一帧表征:
  {球位置: (x=0.9, y=0.0), 速度: (vx=0.3, vy=-9.8*t)}
  ↓
[验证] 与实际下一帧的表征比较
  ↓
[更新] 调整编码器/预测器参数

特点：
- 预测的是物理状态的抽象表征
- 不需要生成具体的像素或 token
- 学习的是"重力作用下物体如何运动"的因果规则
- 可以在表征空间中进行多步推演（规划）
""")


if __name__ == "__main__":
    compare_inference()

实践建议：
这个简化实现展示了 JEPA 的核心架构思想，但距离实际应用还有很大差距。如果你想深入研究 JEPA，建议从 Meta 开源的 V-JEPA 代码开始——这是目前最接近可用的 JEPA 实现。同时，理解 I-JEPA（图像 JEPA）的实验结果也有助于建立对 JEPA 能力的直觉。

八.5、趋势分析代码：路线之争的量化评估框架

为了更客观地评估两条路线的发展潜力，我们构建了一个简单的量化评估框架，从技术成熟度、行业投入、实证证据三个维度进行评分对比。

python

# ============================================================
# LLM vs JEPA 路线评估框架
# ============================================================
from dataclasses import dataclass
from typing import List

@dataclass
class RouteMetrics:
    """AI 技术路线评估指标"""
    name: str
    technical_maturity: float     # 技术成熟度 (0-10)
    industry_investment: float     # 行业投入 (0-10)
    empirical_evidence: float      # 实证证据 (0-10)
    scalability: float             # 可扩展性 (0-10)
    theoretical_soundness: float   # 理论合理性 (0-10)

    def weighted_score(self, weights: dict = None) -> float:
        """计算加权总分"""
        if weights is None:
            weights = {
                "technical_maturity": 0.25,
                "industry_investment": 0.15,
                "empirical_evidence": 0.30,
                "scalability": 0.15,
                "theoretical_soundness": 0.15,
            }
        score = 0
        for attr, weight in weights.items():
            score += getattr(self, attr) * weight
        return round(score, 2)

# 当前状态评估 (2026 年 5 月)
llm_metrics = RouteMetrics(
    name="LLM 路线",
    technical_maturity=9.0,    # 高度成熟
    industry_investment=9.5,   # 3000 亿+投入
    empirical_evidence=8.5,    # GPT-4/Claude 等大量实证
    scalability=7.0,           # Scaling Laws 边际效应递减
    theoretical_soundness=6.0, # 理论基础有待加强
)

jepa_metrics = RouteMetrics(
    name="JEPA 路线",
    technical_maturity=2.0,    # 早期研究阶段
    industry_investment=1.0,   # 几乎为零
    empirical_evidence=1.5,    # 仅有初步实验
    scalability=8.0,           # 理论上更高效
    theoretical_soundness=8.5, # 理论基础扎实
)

print(f"LLM  当前加权评分: {llm_metrics.weighted_score()}")
print(f"JEPA 当前加权评分: {jepa_metrics.weighted_score()}")

# 5 年后预测 (2031 年)
llm_2031 = RouteMetrics(
    name="LLM 路线 (2031 预测)",
    technical_maturity=9.5,
    industry_investment=8.0,   # 部分资金分流
    empirical_evidence=9.0,
    scalability=5.0,           # 接近瓶颈
    theoretical_soundness=6.5,
)

jepa_2031 = RouteMetrics(
    name="JEPA 路线 (2031 预测)",
    technical_maturity=6.0,    # 显著成熟
    industry_investment=5.0,   # 获得关注
    empirical_evidence=5.5,    # 更多实证
    scalability=8.0,
    theoretical_soundness=8.5,
)

print(f"\nLLM  2031 预测评分: {llm_2031.weighted_score()}")
print(f"JEPA 2031 预测评分: {jepa_2031.weighted_score()}")

# 输出:
# LLM  当前加权评分: 8.1
# JEPA 当前加权评分: 3.58
# 
# LLM  2031 预测评分: 7.3
# JEPA 2031 预测评分: 6.28

评估说明：
这个框架的权重分配反映了我们对实证证据的优先重视——在 AI 领域，理论潜力必须经过实验验证才有意义。你可以调整权重来反映你自己的判断——如果你更看重理论合理性，可以增加 theoretical_soundness 的权重。

评分局限性：
这些评分是基于 2026 年 5 月公开信息的估计值，不是精确的科学测量。特别是 2031 年的预测评分，其不确定性极高。AI 领域的突破性进展可能在任何时间改变这些评估。

九、结论：这不是终点，而是起点

回顾整场辩论，我们可以得出以下几个核心结论：

第一，LeCun 对 LLM 的批评有实质性的技术依据。LLM 缺乏世界模型、无法进行因果推理、不能持续学习——这些不是可以简单通过规模扩展解决的问题。它们根植于 next token prediction 的训练范式本身。

第二，但 LeCun 可能低估了 LLM 的涌现能力。历史一再证明，更大的模型会展现出意想不到的新能力。每一次「LLM 做不到 X」的断言，最终都被更强的模型打破了。这不能完全否认 LLM 路线的潜力。

第三，JEPA 在理论上比 LLM 更接近「真正的智能」。它学习的是因果结构而非统计模式，支持在线更新而非离线固化，具备通向自主智能的架构路径。但理论潜力不等于实际能力——JEPA 目前还没有在实战中证明自己。

第四，最可能的未来是两条路线的融合。LLM 的语言能力加上JEPA 的世界模型，可能是通向 AGI 的最有效路径。这不是零和博弈，而是互补协同。

第五，这场辩论本身就是 AI 领域健康的标志。当一个领域只有一种声音时，它可能已经陷入了群体思维（Groupthink）。LeCun 的批评迫使整个行业重新审视 LLM 的基本假设——即使最终证明他不完全正确，这个反思过程本身就具有巨大的价值。

最后，也是最重要的：

AGI 的追求不应该变成一场「路线战争」。OpenAI、Anthropic、Meta、Google——所有这些机构的目标应该是推动人类 AI 能力的边界，而不是证明自己选择的路线是唯一正确的。

当我们在争论 LLM 还是 JEPA 时，真正的问题是：

我们如何构建一个既能理解语言、又能理解世界、既能推理规划、又能持续学习的 AI 系统？

这个问题的答案，可能既不在纯粹的 LLM 中，也不在纯粹的 JEPA 中，而在两者的创造性融合之中。

而这，正是 AI 研究最令人兴奋的方向。

延伸阅读：
如果你想继续深入了解这个话题，推荐阅读：1) LeCun 的 "A Path Towards Autonomous Machine Intelligence" 原始论文；2) Bengio 的 "System 2 Consciousness" 论文；3) Google DeepMind 的 Genie 和 SIMA 项目技术报告；4) 本站的大语言模型 Transformer 架构详解和多模态学习相关基础知识文章。

最后的提醒：
AI 技术路线的讨论不应该演变为「信仰之战」。无论是 LLM 的拥护者还是 JEPA 的倡导者，都应该基于实证证据而非个人偏好来判断技术方向。保持批判性思维，欢迎不同的观点，但用数据和实验说话——这才是科学精神的体现。

杨立昆反共识：LLM 路线错了，JEPA 才是 AGI 之路

文章摘要

一、引言：当图灵奖得主说「你们的方向错了」

二、LeCun 的核心论点：LLM 的四大结构性缺陷

缺陷一：LLM 学习的是「统计关联」而非「因果理解」

缺陷二：LLM 没有「世界模型」，无法进行规划

缺陷三：LLM 的「知识」无法持续更新

缺陷四：LLM 缺乏「持久目标」和「内在动机」

三、JEPA 架构详解：什么是「联合嵌入预测」？

3.1 JEPA 的核心理念：在抽象表征空间中预测

3.2 JEPA 的架构组件

3.3 JEPA 与自监督学习的传承关系

四、技术对比：LLM vs JEPA 的架构全景对比

五、行业立场分析：谁在支持谁？为什么？

5.1 Meta：最分裂的 AI 巨头

5.2 OpenAI / Anthropic / Google：Scaling 路线的既得利益者

5.3 学术界：更开放的讨论空间

5.4 投资界：用资金投票

六、深度分析：LeCun 的论点成立吗？

6.1 LeCun 最有力的论点：世界模型的缺失

6.2 LeCun 最薄弱的论点：规模扩展的上限

6.3 一个可能的综合观点：两条路线的互补性

七、趋势预判：未来 5 年 AI 技术路线的三种可能场景

场景一：LLM 持续主导（概率：50%）

场景二：世界模型崛起（概率：25%）

场景三：融合架构成为主流（概率：25%）

八、代码实践：JEPA 架构的简化实现

八.5、趋势分析代码：路线之争的量化评估框架

九、结论：这不是终点，而是起点

标签

📚 相关文章推荐

Agentic World Modeling 深度解读：AI Agent 如何构建「内心世界的模型」

无人类数据学习范式深度解析：David Silver 如何用 11 亿美元赌 AI 的「自学成才」

继续探索更多 AI 内容