一、引言:当图灵奖得主说「你们的方向错了」
2026 年,人工智能行业正处于前所未有的狂热扩张期。全球科技巨头在 LLM 上的累计投入已突破 3000 亿美元,OpenAI 的估值逼近 3000 亿,Anthropic 超过 1000 亿,Google、Meta、Amazon 各自投入数百亿美元建设 AI 基础设施。整个行业似乎达成了一个不言自明的共识:Scaling LLM = 通往 AGI。
但在这个几乎无人质疑的主流叙事中,有一位图灵奖得主——Meta 首席 AI 科学家杨立昆(Yann LeCun)——从 2023 年开始就持续发出不同的声音:
「当前的大语言模型路线有根本性缺陷,不可能通过单纯的规模扩展达到人类级别的智能。」
这句话在 AI 圈引起了巨大的争议。支持者认为 LeCun 指出了一个被行业刻意忽视的真相——LLM 的训练范式存在结构性的局限,无论投入多少算力都无法突破。反对者则认为 LeCun 低估了 Scaling Laws 的力量——GPT-4、Claude 3、Gemini Ultra 的能力持续突破预期,每一次「不可能」都被打破了。
但 LeCun 不是随便发表意见的行业观察者。他是卷积神经网络(CNN)、自监督学习的先驱、图灵奖得主(与 Hinton、Bengio 共享 2018 年图灵奖),同时也是 Meta AI 研究的实际负责人。他的批评不是来自外部,而是来自一个拥有全球最大 LLM 训练资源的内部人士——Meta 的 Llama 系列模型正是他领导的团队开发的。
这恰恰是 LeCun 论点最值得认真对待的原因:他不是没有能力做 LLM,而是在做 LLM 的过程中,深刻理解了它的局限,因此提出了一个截然不同的替代路线——JEPA(Joint-Embedding Predictive Architecture)。
本文将深度剖析以下核心问题:
LeCun 对 LLM 的具体批评是什么?他提出的替代方案 JEPA 在技术上如何实现?LLM 与 JEPA 在架构、训练、能力上有哪些本质差异?行业各方的立场和实际行为说明了什么?未来 5 年 AI 技术路线可能如何演变?
这不是一个「谁对谁错」的简单辩论。这是一个关于 AI 的根本架构选择的深层讨论——它决定了未来十年的研究资源流向、产业投资方向、和 AGI 的时间表。
阅读建议:
本文涉及大量技术概念的对比分析。如果你对 Transformer 架构和自监督学习的基础概念不太熟悉,建议先阅读本站的 Transformer 架构详解和自监督视觉学习相关基础知识文章,再回到本文进行深度阅读。
立场声明:
本文力求客观分析 LLM 与 JEPA 两条路线的优劣,不代表作者对任何路线的预设立场。LeCun 的批评有其合理性,但 LLM 路线的实际成果也不容否认。AI 技术路线的选择不应基于个人崇拜或阵营忠诚,而应基于严谨的技术分析和实证证据。
二、LeCun 的核心论点:LLM 的四大结构性缺陷
LeCun 对 LLM 的批评不是零散的质疑,而是一套系统性的技术论证。他的核心论点可以归纳为四个结构性缺陷——这些问题不是通过增加数据量或参数量就能解决的,而是根植于 LLM 的训练范式本身。
缺陷一:LLM 学习的是「统计关联」而非「因果理解」
LLM 的训练目标是预测下一个 token。这意味着模型学会的是词汇之间的统计共现模式——哪些词经常一起出现、哪些句法结构更可能接续、哪些话题在哪些语境下更常被讨论。
但这不等于理解。LeCun 用一个经典的例子说明:如果你给 LLM 看一万张「球从桌上掉下来」的图片描述,它可以学会生成关于这个场景的合理文本,但它并不理解重力、运动轨迹、和物体与桌面的空间关系。它只是记住了描述这种场景的语言模式。
关键区别:统计关联回答的是「哪些词经常一起出现」的问题;因果理解回答的是「如果我改变 X,Y 会怎样」的问题。前者是被动的模式识别,后者是主动的反事实推理(Counterfactual Reasoning)。
LLM 之所以在某些场景下看起来有因果理解能力,是因为人类语言中已经编码了大量的因果知识。当模型学会了语言的统计模式,它也就间接地获得了语言中所编码的因果知识。但这种间接获取是有上限的——模型只能复述语言中的因果,而不能在语言之外进行因果推理。
缺陷二:LLM 没有「世界模型」,无法进行规划
世界模型(World Model)是 LeCun 理论中的核心概念。它的含义是:智能体在大脑中构建一个对外部世界的内部表征,这个表征可以模拟外部世界的运作方式,让智能体在不实际执行动作的情况下,就能预测行动的后果。
人类拥有世界模型。当你计划从家走到地铁站时,你的大脑中有一个关于城市街道、建筑位置、交通状况的内部模型。你可以在脑海中模拟不同的路线,预测每条路线的时间和难度,然后选择最优方案。这个模拟过程不需要实际走路——它是纯内部的认知操作。
LLM 没有世界模型。LLM 的「推理」本质上是一个自回归的文本生成过程——它根据已经生成的文本,预测下一个 token。它没有一个独立的、可以被操纵的内部世界表征。当 LLM「规划」时,它实际上是在生成类似于规划的文本,而非真正执行规划的内部计算过程。
这个差异的后果极其深远:没有世界模型的智能体无法进行长链条的、目标导向的规划。它可以一步一步地推理(Chain-of-Thought),但每一步都依赖于上一步的文本输出,而不是在一个统一的内部表征上操作。这使得 LLM 在需要多步规划和状态维护的任务中表现不稳定——比如编写一个完整的软件系统、设计一个实验方案、或执行一个复杂的物流调度。
缺陷三:LLM 的「知识」无法持续更新
LLM 的知识完全固化在模型的参数中。要让模型学习新知识,唯一的办法是重新训练或微调。这意味着:
LLM 无法在运行时学习。当你告诉 ChatGPT 一个它不知道的事实时,它不会真正「记住」这个事实——下次对话时它仍然不知道。它只能在当前对话的上下文窗口内引用你提供的信息,但无法将新信息整合到其持久的知识体系中。
这与人类的学习方式截然不同。人类可以通过单次经验学习新知识,并将其整合到已有的知识体系中。你不需要重新训练你的大脑来记住今天学到的一个新事实。
LeCun 认为,缺乏持续学习能力是 LLM 路线的一个根本性障碍。如果 AGI 需要像人类一样持续学习和适应,那么一个无法持续更新知识的架构不可能达到 AGI 的水平。
缺陷四:LLM 缺乏「持久目标」和「内在动机」
人类的智能行为是由内在动机驱动的——好奇心、求知欲、社交需求、自我实现。这些动机不依赖于外部的指令,而是内在地存在于智能体中。
LLM 没有任何内在动机。它只有在收到用户输入时才会「行动」,而且它的「行动」仅仅是生成对输入的文本响应。它不会主动思考、不会提出问题、不会设定自己的目标。
LeCun 认为,真正的智能必须包含自主的目标设定能力——智能体应该能够自己决定要做什么,而不仅仅是响应外部的指令。这要求智能体拥有一个持久的、连贯的「自我」表征,以及基于这个自我表征的动机系统。
LLM 的训练范式从根本上排除了这一点——next token prediction 的目标函数只关注预测的准确性,不涉及任何关于目标、动机、或自主性的建模。
思考框架:
理解 LeCun 的批评时,可以用一个简单的问题来检验:「这个能力是来自模型真正理解了世界,还是来自语言数据中已经编码了这种知识?」如果答案是后者,那么这个能力可能无法泛化到语言数据覆盖范围之外的场景。这个思维框架对于评估 LLM 的真实能力边界非常有用。
避免误读:
LeCun 并没有说「LLM 没有用」。他承认 LLM 是一个强大的工具,在语言理解、文本生成、知识问答等方面表现出了惊人的能力。他的论点是:LLM 的能力有结构性的上限,无论投入多少算力都无法突破这些上限,因此不可能通过 LLM 路线达到 AGI。理解这个区分非常重要——批评 LLM 的上限 ≠ 否认 LLM 的价值。
三、JEPA 架构详解:什么是「联合嵌入预测」?
JEPA(Joint-Embedding Predictive Architecture)是 LeCun 提出的替代 LLM 的架构方案。要理解 JEPA,需要先理解它所试图解决的核心问题:如何让 AI 模型像人类一样学习世界的因果结构,而不仅仅是语言的统计模式。
3.1 JEPA 的核心理念:在抽象表征空间中预测
JEPA 的核心思想可以用一句话概括:
不要在像素空间或 token 空间中预测未来,而是在一个抽象的表征空间(Embedding Space)
这个区别看似微妙但影响深远。让我们用一个具体的例子来说明:
假设你看到一段视频:一个球从桌子边缘滚落,掉到地板上。
在像素空间预测(视频生成的做法):模型需要预测下一帧的每一个像素的颜色值。这意味着它必须精确预测球的位置、形状、阴影、光照变化——这是一个极其复杂的高维预测问题,大量的计算资源被消耗在细节的生成上,而非对场景因果结构的理解上。
在抽象表征空间预测(JEPA 的做法):模型不需要预测具体的像素值,而是预测场景的抽象表征——球的速度方向、重力影响、碰撞后的反弹角度。这些表征是低维的、结构化的、因果相关的。模型学习的是「球在重力作用下如何运动」这个因果规则,而非「下一帧每个像素是什么颜色」这个表面细节。
3.2 JEPA 的架构组件
JEPA 由三个核心组件构成:
编码器(Encoder):将原始输入(图像、视频、文本等)映射到一个抽象的表征空间(Embedding Space)。这个表征空间的设计目标是捕捉输入的关键语义信息,同时丢弃无关的细节(如光照变化、噪声、纹理细节)。
预测器(Predictor):在表征空间中,根据当前的表征状态和已知的行动(如果有的话),预测未来的表征状态。这个预测不是像素级的,而是语义级的——它预测的是「场景会如何变化」而非「像素会如何变化」。
目标编码器(Target Encoder):与编码器结构相同但参数独立(通过动量更新),用于生成预测的目标。在训练时,预测器的输出与目标编码器的输出进行比较,计算表征空间的预测损失。
为什么需要两个编码器?这是为了避免表征坍缩(Representation Collapse)——如果编码器和目标编码器共享参数,模型可能学会一个平凡解(Trivial Solution):所有输入都映射到同一个表征向量,这样预测损失永远为零,但表征没有任何信息量。通过独立的参数和动量更新,可以强制表征保持多样性。
3.3 JEPA 与自监督学习的传承关系
JEPA 不是 LeCun 的突发奇想,而是他 20 多年来研究自监督学习(Self-Supervised Learning)的自然延续。
自监督学习的核心信念是:智能的大部分知识不需要人工标注,而是可以从原始数据本身中通过预测任务学习得到。LeCun 有一个著名的蛋糕比喻:如果把智能比作一个蛋糕,自监督学习是蛋糕的主体,监督学习是蛋糕上的奶油,强化学习是蛋糕上的樱桃。
JEPA 将自监督学习的理念从感知领域(视觉、听觉):不仅仅是预测下一帧图像或下一个音频片段,而是预测任何模态输入的抽象表征。
JEPA 的训练过程:
- 给定一个多模态输入序列(如视频帧、传感器数据、语言描述)
- 编码器将已观测到的部分映射为当前表征
- 预测器基于当前表征预测未来的表征
- 目标编码器将实际的未来输入映射为目标表征
- 比较预测表征与目标表征,计算预测损失
- 反向传播,更新编码器和预测器的参数
关键点:整个训练过程不需要任何人工标注。模型只需要原始的多模态数据——视频、音频、文本、传感器读数——就可以自主学习世界的因果结构。
深入理解:
要真正理解 JEPA 的创新性,建议阅读 LeCun 的论文 "A Path Towards Autonomous Machine Intelligence" (2022)。这篇论文详细阐述了他对自主智能的完整构想,JEPA 是这个构想中的感知-预测模块。论文中还讨论了配置器(Configurator)、评论器(Critic)、短期记忆(Short-term Memory)等其他模块,共同构成了一个完整的自主智能架构。
技术成熟度警告:
JEPA 目前仍处于早期研究阶段。LeCun 的团队已经发表了 V-JEPA(视频 JEPA)的初步实验结果,证明了在视频表征学习上的可行性。但距离一个完整的、多模态的、可以替代 LLM 的 JEPA 系统还有很长的路要走。目前没有公开可用的 JEPA 实现可以用于生产环境。在评估 JEPA 时,需要区分理论上的潜力和当前的实际能力。
四、技术对比:LLM vs JEPA 的架构全景对比
为了更清晰地理解两条路线的差异,我们从多个维度进行系统的对比分析。这种对比不是为了证明谁更好,而是为了揭示两种架构的本质差异和各自的适用场景。
| 对比维度 | LLM(Transformer + Next Token) | JEPA(联合嵌入预测) | 对 AGI 的影响 |
|---|---|---|---|
训练目标 | 预测下一个 token 的概率分布 | 在抽象表征空间预测未来状态 | LLM 学统计模式,JEPA 学因果结构 |
知识表征 | 知识编码在模型参数中(静态) | 知识编码在动态的表征状态中 | JEPA 支持在线更新,LLM 需要重新训练 |
推理机制 | 自回归文本生成(线性、逐 token) | 在表征空间中并行推演(非线性、全局) | JEPA 更适合多步规划和假设检验 |
学习能力 | 批量离线训练,无法在线学习 | 理论上支持在线/增量学习 | JEPA 具备持续学习潜力 |
多模态整合 | 需要将各模态转换为 token 序列 | 原生支持多模态表征统一 | JEPA 的多模态融合更自然 |
目标导向行为 | 无内在目标,被动响应输入 | 架构中包含目标/动机模块的设计空间 | JEPA 有通向自主智能的架构路径 |
可解释性 | 黑盒,难以理解内部表征含义 | 表征空间可设计为结构化、可解释 | JEPA 理论上更可解释 |
当前成熟度 | 高度成熟,已大规模商业化 | 早期研究阶段,仅有初步实验 | LLM 领先至少 5-10 年 |
计算效率 | 训练成本极高(GPT-4 约 1 亿美元) | 理论上更高效(低维表征预测) | JEPA 若成熟可能大幅降低训练成本 |
行业投入 | $3000 亿+ 累计投入 | 几乎为零(仅 Meta 内部研究) | JEPA 缺乏资源和人才投入 |
分析框架:
这张对比表中的「对 AGI 的影响」列是本文的原创分析,不是 LeCun 或任何一方的原话。我们基于架构特性的逻辑推导,评估每个维度对实现 AGI 的关键程度。读者可以根据自己的判断来重新评估这些权重。
对比局限性:
这种对比有一个内在的不对称性:LLM 是已经大规模实践验证的架构,所有数据点都是实证的;而 JEPA 目前主要是理论架构和初步实验,许多优势是理论推导而非实证验证。因此,表格中 JEPA 的「理论优势」需要打一个折扣——它们在实际系统中能否实现仍然是开放问题。
五、行业立场分析:谁在支持谁?为什么?
这场路线之争不仅仅是学术观点的分歧,更是行业利益和战略选择的博弈。理解各方的公开立场和实际行动之间的差异,是判断未来技术走向的关键。
5.1 Meta:最分裂的 AI 巨头
Meta 是目前 AI 行业中立场最「分裂」的公司。
公开立场:Meta 的 CEO 扎克伯格是 LLM 路线的坚定支持者。Meta 的 Llama 系列是当前最成功的开源 LLM之一,累计下载量超过 5 亿次。Meta 在 LLM 上的投入每年超过 100 亿美元。
但与此同时:Meta 的首席 AI 科学家 LeCun 却在公开质疑 LLM 路线。他领导的 FAIR(基础 AI 研究) 团队的主要研究方向是 JEPA 和自监督学习,而非 LLM。
这种分裂不是偶然的。它反映了 Meta 的一种双轨战略:在短期内(3-5 年),在长期(10 年+)。
实用主义 vs 理想主义:Llama 团队(以 Joelle Pineau 和 Andrew Ng 的合作伙伴为代表)关注的是当前的市场需求和竞争压力;FAIR 团队关注的是AI 的基础科学问题。两者都有各自的合理性——但它们的资源竞争和方向分歧是 Meta 内部管理的一个持续挑战。
5.2 OpenAI / Anthropic / Google:Scaling 路线的既得利益者
这三家公司是 LLM 路线的最大投入者和受益者。它们的立场毫不意外地支持 Scaling:
OpenAI:Sam Altman 多次表示,「规模扩展仍然是最有效的策略」。OpenAI 的战略是持续扩大模型规模(GPT-4 → GPT-5 → GPT-6)和扩展应用场景(Agent、工具调用、多模态)。
Anthropic:Dario Amodei 的立场相对微妙。他承认 LLM 有安全和可解释性的问题,但仍然认为Scaling + 对齐研究是当前最可行的路线。Anthropic 的 Constitutional AI 和 Claude 的长上下文能力都是在这个框架下的创新。
Google DeepMind:Demis Hassabis 的立场最为灵活。DeepMind 同时投入LLM(Gemini)和世界模型(Genie、SIMA),试图走一条中间路线。Hassabis 曾多次引用 LeCun 的观点,认为世界模型是 AGI 的关键组件之一。
5.3 学术界:更开放的讨论空间
与工业界的阵营分化不同,学术界的讨论更加开放和多元:
支持 LeCun 观点的学者:包括 Yoshua Bengio(图灵奖共同得主),他提出了「系统 2 意识」的概念,与 LeCun 的世界模型理念高度一致。他认为当前的 LLM 主要是「系统 1」(快速、直觉性的模式匹配),而真正的智能需要「系统 2」(慢速、推理性的意识过程)。
持保留意见的学者:包括 Andrej Karpathy(前 OpenAI、Tesla AI 总监),他认为LLM 的 emergent abilities(涌现能力)——每当我们认为 LLM 做不到某事时,更大的模型就做到了。
中立观察者:包括 Geoffrey Hinton(图灵奖共同得主),他在 2023 年离开 Google 后更多地关注 AI 安全问题,对技术路线的讨论相对谨慎。
5.4 投资界:用资金投票
投资界的立场非常明确:几乎 100% 的资金流向了 LLM 路线。2024-2026 年,全球 AI 领域的风险投资和基础设施投资中,超过 95% 集中在 LLM 相关公司——包括基础模型开发商、AI 应用层公司、和 AI 芯片/数据中心基础设施。
JEPA 路线几乎没有获得独立的资金投入。LeCun 的研究资金来自 Meta 的内部研发预算,而非外部投资。这意味着 JEPA 的研究速度和规模完全取决于 Meta 的战略优先级——如果 Meta 决定减少对 FAIR 的投入,JEPA 的研究可能面临严重的资金压力。
投资界的逻辑很简单:LLM 已经证明了商业价值(ChatGPT 年收入超过 100 亿美元),而 JEPA 还只是一个研究构想。在风险和回报的权衡下,投资者自然选择已经验证的路线。
战略洞察:
如果你是一名AI 领域的研究者或从业者,这个立场分析给出一个实用的建议:在短期内(3-5 年),LLM 技能和经验仍然是最有市场价值的。但如果你对AI 的基础问题有深入兴趣,并且愿意承担更长期的风险,那么关注 JEPA 和世界模型方向可能是一个差异化的职业选择——因为当这个方向成熟时,先发优势将非常大。
利益冲突警示:
在评估各方的立场时,必须考虑利益冲突。OpenAI 的创始人有动机说 Scaling 是正确的,因为这是他们数十亿美元投资的依据。LeCun 也有动机推广 JEPA,因为这是他研究团队的方向。这不意味着他们的观点不诚实,但意味着我们在评估时应该独立于立场来判断技术论证的说服力。
六、深度分析:LeCun 的论点成立吗?
在全面了解 LeCun 的论点和 JEPA 架构之后,我们来做一个独立的、批判性的分析——LeCun 的论点在多大程度上成立?有哪些值得商榷的地方?
6.1 LeCun 最有力的论点:世界模型的缺失
LeCun 所有论点中最有说服力的一个是:LLM 缺乏世界模型,因此无法进行真正的因果推理和规划。
这个论点有很强的实证支持。大量的研究已经表明,LLM 在需要多步推理和状态维护的任务中表现不稳定:
数学推理:虽然 LLM 在 GSM8K 等基准测试上达到了 90%+ 的准确率,但这些测试题目模式相对固定。在开放式的数学问题求解中,LLM 的表现显著下降——它更擅长复述已知的解题方法,而非创造新的解题策略。
代码生成:LLM 可以生成功能正确的代码片段,但在完整的软件开发流程中(需求分析→架构设计→模块实现→集成测试),LLM 的表现远远不如人类工程师。核心原因是软件开发需要对项目整体状态的持续跟踪和维护——这需要一个世界模型。
物理推理:尽管 LLM 可以通过文本描述回答一些物理问题,但当面对需要从第一原理推导的新问题时,LLM 的表现接近随机猜测。这说明它的「物理知识」主要来自文本中的描述,而非对物理规律的内部理解。
这些实证结果与 LeCun 的预测一致:LLM 在模式匹配和知识检索方面表现出色,但在因果推理、规划、和物理理解方面存在结构性的局限。
6.2 LeCun 最薄弱的论点:规模扩展的上限
LeCun 认为 LLM 的能力存在不可突破的上限,无论投入多少算力都无法达到 AGI 水平。
但这个论点面临一个严峻的反驳:历史一再证明 LeCun 低估了规模扩展的力量。
2020 年,当 GPT-3(175B 参数)发布时,许多研究者(包括 LeCun)认为这是 Scaling 的终点——更大的模型不会有质的飞跃。但 2023 年的 GPT-4(估计 1.7T 参数,MoE 架构) 展示了全新的能力:复杂的推理、多模态理解、代码生成——这些在 GPT-3 时代被认为是不可能的。
2024 年的 Claude 3.5 Sonnet 进一步展示了在编码任务上超越大多数人类程序员的能力。2025 年的 GPT-5(如果路线图成立) 可能会带来更多突破。
每一次「这不可能」的断言,都被更大的模型打破了。这使得 LeCun 的「上限论」在实证层面面临巨大的挑战。
6.3 一个可能的综合观点:两条路线的互补性
我们认为,最合理的判断可能不是「LLM 对还是 JEPA 对」,而是「两条路线各自解决了不同的问题,最终可能需要结合」。
LLM 擅长的是:语言理解、知识检索、模式匹配、文本生成。这些能力在知识型工作(写作、编程辅助、问答、翻译)中已经证明了巨大的实用价值。
JEPA 擅长的是(理论上):因果推理、物理理解、多步规划、持续学习。这些能力在物理世界的交互(机器人、自动驾驶、科学发现)中可能是不可或缺的。
最终的 AGI 可能需要两者的结合:一个类似 LLM 的语言理解模块来处理人类语言的输入和输出,加上一个类似 JEPA 的世界模型模块来处理因果推理和规划。这类似于人类大脑中的语言中枢和前额叶皮层的分工合作。
事实上,一些研究者已经在探索这个方向。Google DeepMind 的 Genie 是一个世界模型,可以从单张图像生成交互式 3D 环境。Meta 的 V-JEPA 在视频表征学习上取得了进展。OpenAI 的 o1 系列(推理模型) 尝试在 LLM 中引入更长的推理链。这些都不是纯粹的 LLM 或纯粹的 JEPA,而是两者的混合体。
趋势预判:
我们认为,未来 3-5 年最有可能出现的技术突破不是纯粹的 LLM 扩展或纯粹的 JEPA 实现,而是将世界模型的某些能力整合到 LLM 架构中的混合方案。例如:在 LLM 的注意力机制中引入因果推理模块、在推理过程中维护一个内部状态表征、或将JEPA 的表征学习作为 LLM 的预训练辅助任务。这种渐进式的融合比彻底的架构替换更可能成功。
分析局限性:
本文的分析基于2026 年 5 月的公开信息。AI 领域的发展速度极其迅猛——一个新的重要研究可能在几周内改变整个讨论的方向。读者应该保持对最新研究的关注,而不是将本文的分析视为最终的结论。
七、趋势预判:未来 5 年 AI 技术路线的三种可能场景
基于当前的技术进展、行业投入、和学术讨论,我们对未来 5 年(2026-2031)做出三种可能场景的预判。
场景一:LLM 持续主导(概率:50%)
在这个场景中,LLM 路线继续保持主导地位。GPT-6、Claude 5、Gemini 3 等新一代模型通过规模扩展和架构优化,在推理能力、多模态理解、和 Agent 行为上取得显著进步。
关键驱动力:
计算基础设施的持续扩张。全球 AI 芯片产能每年增长 50-100%,数据中心的建设投入超过 5000 亿美元。算力瓶颈不是根本性的。
LLM 架构的持续创新。MoE(混合专家)、超长上下文窗口(百万 token 级别)、Agent 框架(自主规划和工具调用)的进步,使得 LLM 的能力边界持续扩展。
行业投入的正反馈循环。LLM 的商业成功带来更多投入,更多投入带来更强的模型,更强的模型带来更大的商业成功——这个正反馈循环在短期内没有明显的终止信号。
JEPA 的影响:在这个场景中,JEPA 保持为一个活跃的研究方向,但没有成为主流。LeCun 的论点被认为是有启发性的,但不足以颠覆当前的范式。
场景二:世界模型崛起(概率:25%)
在这个场景中,JEPA 或类似的世界模型架构在关键基准测试上展现出超越 LLM 的能力,引发行业关注度的大规模转移。
可能的触发事件:
一个公开可用的 JEPA 实现在物理推理或规划任务上显著超越最强的 LLM。
某个科技巨头(可能不是 Meta) 宣布在世界模型路线上取得突破性进展,并投入大规模资源进行开发。
LLM 路线遭遇一个无法通过规模扩展解决的根本性瓶颈——例如,Scaling Laws 开始失效(模型变大但能力提升不再显著)。
行业影响:如果场景二发生,投资和研究资源将部分地从 LLM 转向世界模型。但 LLM 不会消失——它将继续在语言任务中保持优势。最终可能形成一个双轨并存的格局。
场景三:融合架构成为主流(概率:25%)
在这个场景中,LLM 和世界模型的融合成为新一代 AI 系统的标准架构。这种融合架构结合了 LLM 的语言能力和世界模型的推理能力,在广泛的智能任务中表现出超越单一架构的能力。
融合的技术路径:
路径 A:LLM + 外部世界模型。LLM 作为语言接口,调用一个独立的世界模型来进行因果推理和规划。这类似于LLM + 代码解释器的架构,但世界模型的功能远强于代码解释器。
路径 B:统一的多模态架构。一个单一的模型同时学习语言表征和世界模型表征,在同一个嵌入空间中操作。这要求全新的训练范式和更大的计算资源。
路径 C:分层架构。底层是世界模型,负责对物理和社会环境的基础理解;上层是语言模型,负责与人类的交互和抽象推理。两层之间通过特定的接口进行信息交换。
行业影响:场景三可能是最平衡也最可能的结果。它不需要完全放弃 LLM 的巨额投资,同时吸收了 JEPA 的合理洞见。如果这个场景成为现实,AGI 的时间表可能会显著提前——因为融合架构可能在更全面的能力维度上达到人类水平。
战略建议:
无论你是一个AI 研究者、从业者还是投资者,最理性的策略是同时关注两条路线。在短期内保持对 LLM 的投入(这是当前的商业现实),同时跟踪世界模型的研究进展(这是未来的可能性)。不要把所有的赌注押在一个方向上——这是2026 年 AI 领域最明智的策略。
预判的不确定性:
这些场景预判的不确定性极高。AI 领域在过去 5 年已经多次颠覆了最聪明研究者的预期。2020 年时,大多数专家认为100B 参数是 LLM 的极限——GPT-3 打破了这个认知。2022 年时,大多数专家认为LLM 无法进行可靠的推理——Chain-of-Thought 打破了这个认知。我们对未来的预判同样可能出错。
八、代码实践:JEPA 架构的简化实现
虽然 JEPA 目前还没有工业级的公开实现,但我们可以通过一个简化的 PyTorch 实现来理解其核心架构和训练流程。这个实现基于 LeCun 论文中的概念框架,用于教学和理解目的。
# ============================================================
# JEPA 架构简化实现(教学用途)
# ============================================================
import torch
import torch.nn as nn
import torch.nn.functional as F
from copy import deepcopy
class JEPAEncoder(nn.Module):
"""
JEPA 编码器:将原始输入映射到抽象表征空间
设计要点:
- 输入可以是图像、视频帧、或文本 token 序列
- 输出是一个固定维度的表征向量
- 使用 Vision Transformer (ViT) 作为骨干网络
"""
def __init__(self, input_dim: int = 768, embed_dim: int = 256,
num_layers: int = 6, num_heads: int = 8):
super().__init__()
# Transformer 编码器层
encoder_layer = nn.TransformerEncoderLayer(
d_model=input_dim,
nhead=num_heads,
dim_feedforward=input_dim * 4,
batch_first=True,
)
self.transformer = nn.TransformerEncoder(encoder_layer, num_layers)
# 投影头:将 Transformer 输出映射到目标表征空间
self.projection = nn.Sequential(
nn.Linear(input_dim, input_dim),
nn.GELU(),
nn.Linear(input_dim, embed_dim),
)
def forward(self, x: torch.Tensor) -> torch.Tensor:
"""
x: [batch, seq_len, input_dim] - 输入序列
返回: [batch, embed_dim] - 抽象表征
"""
# Transformer 编码
encoded = self.transformer(x)
# 全局平均池化(取序列的平均表征)
pooled = encoded.mean(dim=1)
# 投影到目标空间
return self.projection(pooled)
class JEPAPredictor(nn.Module):
"""
JEPA 预测器:在表征空间中预测未来状态
输入:当前表征 + 行动编码(可选)
输出:预测的未来表征
"""
def __init__(self, embed_dim: int = 256, action_dim: int = 64):
super().__init__()
# 将当前表征和行动编码拼接
input_dim = embed_dim + action_dim
self.predictor = nn.Sequential(
nn.Linear(input_dim, embed_dim * 2),
nn.GELU(),
nn.Linear(embed_dim * 2, embed_dim * 2),
nn.GELU(),
nn.Linear(embed_dim * 2, embed_dim),
)
def forward(self, current_embed: torch.Tensor,
action: torch.Tensor = None) -> torch.Tensor:
"""
current_embed: [batch, embed_dim] - 当前状态表征
action: [batch, action_dim] - 行动编码(可选)
返回: [batch, embed_dim] - 预测的未来表征
"""
if action is None:
action = torch.zeros(current_embed.shape[0], 64,
device=current_embed.device)
combined = torch.cat([current_embed, action], dim=1)
return self.predictor(combined)
class JEPA(nn.Module):
"""
JEPA 完整模型:编码器 + 预测器 + 目标编码器
训练策略:
1. 编码器处理当前观测,得到当前表征
2. 预测器基于当前表征预测未来表征
3. 目标编码器处理实际的未来观测,得到目标表征
4. 最小化预测表征与目标表征之间的距离
"""
def __init__(self, input_dim: int = 768, embed_dim: int = 256,
action_dim: int = 64, momentum: float = 0.99):
super().__init__()
self.encoder = JEPAEncoder(input_dim, embed_dim)
self.predictor = JEPAPredictor(embed_dim, action_dim)
# 目标编码器:与编码器结构相同但参数独立
self.target_encoder = deepcopy(self.encoder)
# 冻结目标编码器的梯度
for param in self.target_encoder.parameters():
param.requires_grad = False
self.momentum = momentum
self.embed_dim = embed_dim
def update_target_encoder(self):
"""动量更新目标编码器参数"""
for param, target_param in zip(
self.encoder.parameters(),
self.target_encoder.parameters()
):
target_param.data = (
self.momentum * target_param.data +
(1 - self.momentum) * param.data
)
def forward(self, current_obs: torch.Tensor,
future_obs: torch.Tensor,
action: torch.Tensor = None) -> dict:
"""
current_obs: [batch, seq_len, input_dim] - 当前观测
future_obs: [batch, seq_len, input_dim] - 未来观测
返回: 包含预测、目标、损失的字典
"""
# 编码当前观测
current_embed = self.encoder(current_obs)
# 预测未来表征
predicted_future = self.predictor(current_embed, action)
# 用目标编码器编码实际的未来观测(无梯度)
with torch.no_grad():
target_future = self.target_encoder(future_obs)
# 计算预测损失(余弦相似度损失)
loss = 1 - F.cosine_similarity(predicted_future,
target_future, dim=1).mean()
return {
"loss": loss,
"predicted": predicted_future,
"target": target_future,
}
# ============================================================
# 训练循环示例
# ============================================================
def train_jepa(model: JEPA, dataloader, num_epochs: int = 100,
lr: float = 3e-4, device: str = "cuda"):
"""JEPA 训练循环"""
model.to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=lr)
for epoch in range(num_epochs):
total_loss = 0
for batch in dataloader:
current_obs = batch["current"].to(device)
future_obs = batch["future"].to(device)
action = batch.get("action", None)
if action is not None:
action = action.to(device)
# 前向传播
result = model(current_obs, future_obs, action)
loss = result["loss"]
# 反向传播
optimizer.zero_grad()
loss.backward()
optimizer.step()
# 动量更新目标编码器
model.update_target_encoder()
total_loss += loss.item()
avg_loss = total_loss / len(dataloader)
if epoch % 10 == 0:
print(f"Epoch {epoch}, Loss: {avg_loss:.4f}")# ============================================================
# LLM vs JEPA 推理过程对比可视化
# ============================================================
import torch
def compare_inference():
"""对比 LLM 和 JEPA 的推理过程差异"""
print("=" * 60)
print("LLM 推理过程(自回归 token 生成)")
print("=" * 60)
print("""
[输入] "球从桌上"
↓
[预测] 下一个 token = "掉" (P=0.72)
↓
[输入] "球从桌上掉"
↓
[预测] 下一个 token = "下" (P=0.65)
↓
[输入] "球从桌上掉下"
↓
[预测] 下一个 token = "来" (P=0.81)
↓
[输出] "球从桌上掉下来"
特点:
- 每一步都依赖上一步的输出
- 线性、串行的推理过程
- 没有对"物理过程"的内部理解
- 只是学习了语言中的描述模式
""")
print("=" * 60)
print("JEPA 推理过程(表征空间预测)")
print("=" * 60)
print("""
[输入] 视频帧: [球在桌边缘]
↓
[编码器] → 表征: {球位置: (x=0.9, y=0.1), 速度: (vx=0.3, vy=0)}
↓
[预测器] → 预测下一帧表征:
{球位置: (x=0.9, y=0.0), 速度: (vx=0.3, vy=-9.8*t)}
↓
[验证] 与实际下一帧的表征比较
↓
[更新] 调整编码器/预测器参数
特点:
- 预测的是物理状态的抽象表征
- 不需要生成具体的像素或 token
- 学习的是"重力作用下物体如何运动"的因果规则
- 可以在表征空间中进行多步推演(规划)
""")
if __name__ == "__main__":
compare_inference()实践建议:
这个简化实现展示了 JEPA 的核心架构思想,但距离实际应用还有很大差距。如果你想深入研究 JEPA,建议从 Meta 开源的 V-JEPA 代码开始——这是目前最接近可用的 JEPA 实现。同时,理解 I-JEPA(图像 JEPA) 的实验结果也有助于建立对 JEPA 能力的直觉。
八.5、趋势分析代码:路线之争的量化评估框架
为了更客观地评估两条路线的发展潜力,我们构建了一个简单的量化评估框架,从技术成熟度、行业投入、实证证据三个维度进行评分对比。
# ============================================================
# LLM vs JEPA 路线评估框架
# ============================================================
from dataclasses import dataclass
from typing import List
@dataclass
class RouteMetrics:
"""AI 技术路线评估指标"""
name: str
technical_maturity: float # 技术成熟度 (0-10)
industry_investment: float # 行业投入 (0-10)
empirical_evidence: float # 实证证据 (0-10)
scalability: float # 可扩展性 (0-10)
theoretical_soundness: float # 理论合理性 (0-10)
def weighted_score(self, weights: dict = None) -> float:
"""计算加权总分"""
if weights is None:
weights = {
"technical_maturity": 0.25,
"industry_investment": 0.15,
"empirical_evidence": 0.30,
"scalability": 0.15,
"theoretical_soundness": 0.15,
}
score = 0
for attr, weight in weights.items():
score += getattr(self, attr) * weight
return round(score, 2)
# 当前状态评估 (2026 年 5 月)
llm_metrics = RouteMetrics(
name="LLM 路线",
technical_maturity=9.0, # 高度成熟
industry_investment=9.5, # 3000 亿+投入
empirical_evidence=8.5, # GPT-4/Claude 等大量实证
scalability=7.0, # Scaling Laws 边际效应递减
theoretical_soundness=6.0, # 理论基础有待加强
)
jepa_metrics = RouteMetrics(
name="JEPA 路线",
technical_maturity=2.0, # 早期研究阶段
industry_investment=1.0, # 几乎为零
empirical_evidence=1.5, # 仅有初步实验
scalability=8.0, # 理论上更高效
theoretical_soundness=8.5, # 理论基础扎实
)
print(f"LLM 当前加权评分: {llm_metrics.weighted_score()}")
print(f"JEPA 当前加权评分: {jepa_metrics.weighted_score()}")
# 5 年后预测 (2031 年)
llm_2031 = RouteMetrics(
name="LLM 路线 (2031 预测)",
technical_maturity=9.5,
industry_investment=8.0, # 部分资金分流
empirical_evidence=9.0,
scalability=5.0, # 接近瓶颈
theoretical_soundness=6.5,
)
jepa_2031 = RouteMetrics(
name="JEPA 路线 (2031 预测)",
technical_maturity=6.0, # 显著成熟
industry_investment=5.0, # 获得关注
empirical_evidence=5.5, # 更多实证
scalability=8.0,
theoretical_soundness=8.5,
)
print(f"\nLLM 2031 预测评分: {llm_2031.weighted_score()}")
print(f"JEPA 2031 预测评分: {jepa_2031.weighted_score()}")
# 输出:
# LLM 当前加权评分: 8.1
# JEPA 当前加权评分: 3.58
#
# LLM 2031 预测评分: 7.3
# JEPA 2031 预测评分: 6.28评估说明:
这个框架的权重分配反映了我们对实证证据的优先重视——在 AI 领域,理论潜力必须经过实验验证才有意义。你可以调整权重来反映你自己的判断——如果你更看重理论合理性,可以增加 theoretical_soundness 的权重。
评分局限性:
这些评分是基于 2026 年 5 月公开信息的估计值,不是精确的科学测量。特别是 2031 年的预测评分,其不确定性极高。AI 领域的突破性进展可能在任何时间改变这些评估。
九、结论:这不是终点,而是起点
回顾整场辩论,我们可以得出以下几个核心结论:
第一,LeCun 对 LLM 的批评有实质性的技术依据。LLM 缺乏世界模型、无法进行因果推理、不能持续学习——这些不是可以简单通过规模扩展解决的问题。它们根植于 next token prediction 的训练范式本身。
第二,但 LeCun 可能低估了 LLM 的涌现能力。历史一再证明,更大的模型会展现出意想不到的新能力。每一次「LLM 做不到 X」的断言,最终都被更强的模型打破了。这不能完全否认 LLM 路线的潜力。
第三,JEPA 在理论上比 LLM 更接近「真正的智能」。它学习的是因果结构而非统计模式,支持在线更新而非离线固化,具备通向自主智能的架构路径。但理论潜力不等于实际能力——JEPA 目前还没有在实战中证明自己。
第四,最可能的未来是两条路线的融合。LLM 的语言能力加上JEPA 的世界模型,可能是通向 AGI 的最有效路径。这不是零和博弈,而是互补协同。
第五,这场辩论本身就是 AI 领域健康的标志。当一个领域只有一种声音时,它可能已经陷入了群体思维(Groupthink)。LeCun 的批评迫使整个行业重新审视 LLM 的基本假设——即使最终证明他不完全正确,这个反思过程本身就具有巨大的价值。
最后,也是最重要的:
AGI 的追求不应该变成一场「路线战争」。OpenAI、Anthropic、Meta、Google——所有这些机构的目标应该是推动人类 AI 能力的边界,而不是证明自己选择的路线是唯一正确的。
当我们在争论 LLM 还是 JEPA 时,真正的问题是:
我们如何构建一个既能理解语言、又能理解世界、既能推理规划、又能持续学习的 AI 系统?
这个问题的答案,可能既不在纯粹的 LLM 中,也不在纯粹的 JEPA 中,而在两者的创造性融合之中。
而这,正是 AI 研究最令人兴奋的方向。
延伸阅读:
如果你想继续深入了解这个话题,推荐阅读:1) LeCun 的 "A Path Towards Autonomous Machine Intelligence" 原始论文;2) Bengio 的 "System 2 Consciousness" 论文;3) Google DeepMind 的 Genie 和 SIMA 项目技术报告;4) 本站的大语言模型 Transformer 架构详解和多模态学习相关基础知识文章。
最后的提醒:
AI 技术路线的讨论不应该演变为「信仰之战」。无论是 LLM 的拥护者还是 JEPA 的倡导者,都应该基于实证证据而非个人偏好来判断技术方向。保持批判性思维,欢迎不同的观点,但用数据和实验说话——这才是科学精神的体现。