Meta 研究员揭密 World Model 五大门派：杨立昆、李飞飞押注的 AI 是什么？

鏈新聞abmedia

2026-03-13 08:46:32

在图灵奖得主、前 Meta AI 首席科学家 Yann LeCun 创办的新创 Advanced Machine Intelligence（AMI）近期完成 10.3 亿美元超大型种子轮融资后，“World Model（世界模型）”再次成为人工智能领域的热门关键词。不过，即便 AI 社群频繁讨论 world models，不同研究者所指的概念其实差异极大。

(深度解析：LLM 存在缺陷？为何杨立昆的 AMI 押注 World Model 路线)

Meta AI 研究科学家 Zhuokai Zhao 近日在社群平台发表长文指出，目前 AI 领域所谓的 world model，至少可以分为五种不同技术路线。他认为，这些方法其实并非直接竞争，而是在解决不同层面的问题。

JEPA：压缩物理理解

Spatial Intelligence：重建 3D 世界

Learned Simulation：在模拟世界训练 AI

NVIDIA Cosmos：提供基础设施

Active Inference：提出新的智能理论

他预期它们之间的界线很快就会变得模糊。

路线一：LeCun 的 JEPA，在抽象空间理解世界

Zhao 认为，第一类 world model 是 Joint Embedding Predictive Architecture（JEPA），代表人物正是 Yann LeCun。

JEPA 的核心思想是：AI 不应该尝试预测每个像素，而应该在抽象表示空间中预测未来。

在真实世界中，很多细节本来就不可预测，例如光线变化、叶子的具体位置、表面纹理。如果模型必须生成所有像素，就会被迫处理大量无意义的细节。

JEPA 的做法是先用编码器将影像或影片转换为抽象表示，再在这个表示空间中预测被遮蔽的部分。如此一来，模型可以学到像是：“球会从桌上掉下来”，而不必生成每一帧画面。

Meta 的 V-JEPA 2 已是目前最具代表性的实验成果之一。该模型使用 100 万小时影片资料进行自监督训练，之后只用 62 小时机器人资料，就足以产生一个支持零样本规划的动作条件世界模型。机器人产生候选动作序列，将其输入世界模型，并选择预测结果与目标影像最匹配的序列。这种方法适用于训练过程中从未见过的物体和环境。

这种极高的数据效率，也正是 AMI 押注 JEPA 架构的重要原因。如果你的表征足够好，就不需要从头开始穷举每个任务。AMI Labs 是 LeCun 将这项技术从研究领域推向应用领域的尝试。他们首先瞄准医疗保健和机器人领域。但这是一项长期投资，他们的执行长曾公开表示，商业产品可能还需要数年才能问世。

路线二：李飞飞的「空间智慧」

另一条知名路线来自李飞飞创办的 World Labs。

(AI 教母李飞飞是谁？新创独角兽 World Labs 融资获辉达、AMD 支持)

与 JEPA 的「预测未来」不同，李飞飞的核心问题是：「世界在三维空间中长什么样？」她提出的概念被称为 Spatial Intelligence（空间智慧）。这个论点认为，真正的理解需要明确的空间结构：几何形状、深度、持久性以及从新的角度重新观察场景的能力——而不仅仅是时间预测。这与 JEPA 的理念不同：你学习的不是抽象的动力学，而是环境的结构化 3D 表示，你可以直接对其进行操作。

World Labs 的产品 Marble 可以从影像、文字、影片来生成可持续存在的 3D 世界。与传统影片生成模型不同，Marble 生成的是真正的 3D 场景。可以自由移动视角、可以修改物件、可以输出 3D 模型。这使它更接近 3D 创作引擎，而不是单纯的生成模型。

路线三：DeepMind 的「学习型模拟世界」

第三类 world model 是学习型模拟（Learned Simulation）。

代表研究包括：

DeepMind Genie 3

Dreamer 系列

Runway GWM-1

这类模型试图建立可互动的模拟世界，让 AI 在其中学习。

路线四：NVIDIA 的 Physical AI 基础设施

第四种 world model 路线并不是直接建立模型，而是打造整个生态系平台。代表公司是 NVIDIA，推出的 Cosmos 平台提供完整基础设施：

影片资料处理

视觉 tokenizer

模型训练

部署服务

Cosmos 的世界基础模型 (World foundation models) 已使用 2000 万小时真实世界影片训练，总 token 规模达 9000 兆。

(辉达 Alpamayo 生态系登场：让 AI 自动驾驶具推理能力，还能说明决策原因)

NVIDIA 的策略很明确：不一定要做世界模型，而是提供所有人建立世界模型的工具。

路线五：Active Inference（神经科学派）

最后一条路线来自神经科学理论。代表人物是神经科学家 Karl Friston，提出著名的 Free Energy Principle（自由能原理）。与传统强化学习不同，Active Inference 认为 AI 就像一个不断尝试理解世界的生物。它会采取行动，目的让自己对环境的预测更准确，减少「事情跟预期不一样」的情况。

公司 VERSES AI 的 AXIOM 系统采用对象导向模型，每个物体都是独立实体，系统用贝叶斯推理更新信念，不依赖深度神经网络梯度训练。这种架构具有可解释性、组合性、极高资料效率。AXIOM 在 2025 年 4 月发布了商业产品（Genius），AXIOM 基准测试在标准控制任务上与 RL 基线相比具有竞争力，同时使用的数据量却少几个数量级。

AI 下一战场：理解世界

Zhao 最后指出，这五种 world model 路线其实并不互相排斥，而是分别解决不同问题：

JEPA：压缩物理理解

Spatial Intelligence：重建 3D 世界

Learned Simulation：在模拟世界训练 AI

NVIDIA Cosmos：提供基础设施

Active Inference：提出新的智能理论

随着 AI 逐渐走向机器人、自动驾驶与实体 AI（Physical AI），这些技术很可能在未来快速融合。

这篇文章 Meta 研究员揭密 World Model 五大门派：杨立昆、李飞飞押注的 AI 是什么？最早出现在链新闻 ABMedia。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论