Meta 研究员揭密 World Model 五大门派:杨立昆、李飞飞押注的 AI 是什么?

鏈新聞abmedia

在图灵奖得主、前 Meta AI 首席科学家 Yann LeCun 创办的新创 Advanced Machine Intelligence(AMI) 近期完成 10.3 亿美元超大型种子轮融资后,“World Model(世界模型)”再次成为人工智能领域的热门关键词。不过,即便 AI 社群频繁讨论 world models,不同研究者所指的概念其实差异极大。

(深度解析:LLM 存在缺陷?为何杨立昆的 AMI 押注 World Model 路线)

Meta AI 研究科学家 Zhuokai Zhao 近日在社群平台发表长文指出,目前 AI 领域所谓的 world model,至少可以分为五种不同技术路线。他认为,这些方法其实并非直接竞争,而是在解决不同层面的问题。

JEPA:压缩物理理解

Spatial Intelligence:重建 3D 世界

Learned Simulation:在模拟世界训练 AI

NVIDIA Cosmos:提供基础设施

Active Inference:提出新的智能理论

他预期它们之间的界线很快就会变得模糊。

路线一:LeCun 的 JEPA,在抽象空间理解世界

Zhao 认为,第一类 world model 是 Joint Embedding Predictive Architecture(JEPA),代表人物正是 Yann LeCun。

JEPA 的核心思想是:AI 不应该尝试预测每个像素,而应该在抽象表示空间中预测未来。

在真实世界中,很多细节本来就不可预测,例如光线变化、叶子的具体位置、表面纹理。如果模型必须生成所有像素,就会被迫处理大量无意义的细节。

JEPA 的做法是先用编码器将影像或影片转换为抽象表示,再在这个表示空间中预测被遮蔽的部分。如此一来,模型可以学到像是:“球会从桌上掉下来”,而不必生成每一帧画面。

Meta 的 V-JEPA 2 已是目前最具代表性的实验成果之一。该模型使用 100 万小时影片资料进行自监督训练,之后只用 62 小时机器人资料,就足以产生一个支持零样本规划的动作条件世界模型。机器人产生候选动作序列,将其输入世界模型,并选择预测结果与目标影像最匹配的序列。这种方法适用于训练过程中从未见过的物体和环境。

这种极高的数据效率,也正是 AMI 押注 JEPA 架构的重要原因。如果你的表征足够好,就不需要从头开始穷举每个任务。AMI Labs 是 LeCun 将这项技术从研究领域推向应用领域的尝试。他们首先瞄准医疗保健和机器人领域。但这是一项长期投资,他们的执行长曾公开表示,商业产品可能还需要数年才能问世。

路线二:李飞飞的「空间智慧」

另一条知名路线来自李飞飞创办的 World Labs。

(AI 教母李飞飞是谁?新创独角兽 World Labs 融资获辉达、AMD 支持)

与 JEPA 的「预测未来」不同,李飞飞的核心问题是:「世界在三维空间中长什么样?」她提出的概念被称为 Spatial Intelligence(空间智慧)。这个论点认为,真正的理解需要明确的空间结构:几何形状、深度、持久性以及从新的角度重新观察场景的能力——而不仅仅是时间预测。这与 JEPA 的理念不同:你学习的不是抽象的动力学,而是环境的结构化 3D 表示,你可以直接对其进行操作。

World Labs 的产品 Marble 可以从影像、文字、影片来生成可持续存在的 3D 世界。与传统影片生成模型不同,Marble 生成的是真正的 3D 场景。可以自由移动视角、可以修改物件、可以输出 3D 模型。这使它更接近 3D 创作引擎,而不是单纯的生成模型。

路线三:DeepMind 的「学习型模拟世界」

第三类 world model 是学习型模拟(Learned Simulation)。

代表研究包括:

DeepMind Genie 3

Dreamer 系列

Runway GWM-1

这类模型试图建立可互动的模拟世界,让 AI 在其中学习。

路线四:NVIDIA 的 Physical AI 基础设施

第四种 world model 路线并不是直接建立模型,而是打造整个生态系平台。代表公司是 NVIDIA,推出的 Cosmos 平台提供完整基础设施:

影片资料处理

视觉 tokenizer

模型训练

部署服务

Cosmos 的世界基础模型 (World foundation models) 已使用 2000 万小时真实世界影片训练,总 token 规模达 9000 兆。

(辉达 Alpamayo 生态系登场:让 AI 自动驾驶具推理能力,还能说明决策原因)

NVIDIA 的策略很明确:不一定要做世界模型,而是提供所有人建立世界模型的工具。

路线五:Active Inference(神经科学派)

最后一条路线来自神经科学理论。代表人物是神经科学家 Karl Friston,提出著名的 Free Energy Principle(自由能原理)。与传统强化学习不同,Active Inference 认为 AI 就像一个不断尝试理解世界的生物。它会采取行动,目的让自己对环境的预测更准确,减少「事情跟预期不一样」的情况。

公司 VERSES AI 的 AXIOM 系统采用对象导向模型,每个物体都是独立实体,系统用贝叶斯推理更新信念,不依赖深度神经网络梯度训练。这种架构具有可解释性、组合性、极高资料效率。AXIOM 在 2025 年 4 月发布了商业产品(Genius),AXIOM 基准测试在标准控制任务上与 RL 基线相比具有竞争力,同时使用的数据量却少几个数量级。

AI 下一战场:理解世界

Zhao 最后指出,这五种 world model 路线其实并不互相排斥,而是分别解决不同问题:

JEPA:压缩物理理解

Spatial Intelligence:重建 3D 世界

Learned Simulation:在模拟世界训练 AI

NVIDIA Cosmos:提供基础设施

Active Inference:提出新的智能理论

随着 AI 逐渐走向机器人、自动驾驶与实体 AI(Physical AI),这些技术很可能在未来快速融合。

这篇文章 Meta 研究员揭密 World Model 五大门派:杨立昆、李飞飞押注的 AI 是什么? 最早出现在 链新闻 ABMedia。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论