在图灵奖得主、前 Meta AI 首席科学家 Yann LeCun 创办的新创 Advanced Machine Intelligence(AMI) 近期完成 10.3 亿美元超大型种子轮融资后,“World Model(世界模型)”再次成为人工智能领域的热门关键词。不过,即便 AI 社群频繁讨论 world models,不同研究者所指的概念其实差异极大。
(深度解析:LLM 存在缺陷?为何杨立昆的 AMI 押注 World Model 路线)
Meta AI 研究科学家 Zhuokai Zhao 近日在社群平台发表长文指出,目前 AI 领域所谓的 world model,至少可以分为五种不同技术路线。他认为,这些方法其实并非直接竞争,而是在解决不同层面的问题。
JEPA:压缩物理理解
Spatial Intelligence:重建 3D 世界
Learned Simulation:在模拟世界训练 AI
NVIDIA Cosmos:提供基础设施
Active Inference:提出新的智能理论
他预期它们之间的界线很快就会变得模糊。
路线一:LeCun 的 JEPA,在抽象空间理解世界
Zhao 认为,第一类 world model 是 Joint Embedding Predictive Architecture(JEPA),代表人物正是 Yann LeCun。
JEPA 的核心思想是:AI 不应该尝试预测每个像素,而应该在抽象表示空间中预测未来。
在真实世界中,很多细节本来就不可预测,例如光线变化、叶子的具体位置、表面纹理。如果模型必须生成所有像素,就会被迫处理大量无意义的细节。
JEPA 的做法是先用编码器将影像或影片转换为抽象表示,再在这个表示空间中预测被遮蔽的部分。如此一来,模型可以学到像是:“球会从桌上掉下来”,而不必生成每一帧画面。
Meta 的 V-JEPA 2 已是目前最具代表性的实验成果之一。该模型使用 100 万小时影片资料进行自监督训练,之后只用 62 小时机器人资料,就足以产生一个支持零样本规划的动作条件世界模型。机器人产生候选动作序列,将其输入世界模型,并选择预测结果与目标影像最匹配的序列。这种方法适用于训练过程中从未见过的物体和环境。
这种极高的数据效率,也正是 AMI 押注 JEPA 架构的重要原因。如果你的表征足够好,就不需要从头开始穷举每个任务。AMI Labs 是 LeCun 将这项技术从研究领域推向应用领域的尝试。他们首先瞄准医疗保健和机器人领域。但这是一项长期投资,他们的执行长曾公开表示,商业产品可能还需要数年才能问世。
路线二:李飞飞的「空间智慧」
另一条知名路线来自李飞飞创办的 World Labs。
(AI 教母李飞飞是谁?新创独角兽 World Labs 融资获辉达、AMD 支持)
与 JEPA 的「预测未来」不同,李飞飞的核心问题是:「世界在三维空间中长什么样?」她提出的概念被称为 Spatial Intelligence(空间智慧)。这个论点认为,真正的理解需要明确的空间结构:几何形状、深度、持久性以及从新的角度重新观察场景的能力——而不仅仅是时间预测。这与 JEPA 的理念不同:你学习的不是抽象的动力学,而是环境的结构化 3D 表示,你可以直接对其进行操作。
World Labs 的产品 Marble 可以从影像、文字、影片来生成可持续存在的 3D 世界。与传统影片生成模型不同,Marble 生成的是真正的 3D 场景。可以自由移动视角、可以修改物件、可以输出 3D 模型。这使它更接近 3D 创作引擎,而不是单纯的生成模型。
路线三:DeepMind 的「学习型模拟世界」
第三类 world model 是学习型模拟(Learned Simulation)。
代表研究包括:
DeepMind Genie 3
Dreamer 系列
Runway GWM-1
这类模型试图建立可互动的模拟世界,让 AI 在其中学习。
路线四:NVIDIA 的 Physical AI 基础设施
第四种 world model 路线并不是直接建立模型,而是打造整个生态系平台。代表公司是 NVIDIA,推出的 Cosmos 平台提供完整基础设施:
影片资料处理
视觉 tokenizer
模型训练
部署服务
Cosmos 的世界基础模型 (World foundation models) 已使用 2000 万小时真实世界影片训练,总 token 规模达 9000 兆。
(辉达 Alpamayo 生态系登场:让 AI 自动驾驶具推理能力,还能说明决策原因)
NVIDIA 的策略很明确:不一定要做世界模型,而是提供所有人建立世界模型的工具。
路线五:Active Inference(神经科学派)
最后一条路线来自神经科学理论。代表人物是神经科学家 Karl Friston,提出著名的 Free Energy Principle(自由能原理)。与传统强化学习不同,Active Inference 认为 AI 就像一个不断尝试理解世界的生物。它会采取行动,目的让自己对环境的预测更准确,减少「事情跟预期不一样」的情况。
公司 VERSES AI 的 AXIOM 系统采用对象导向模型,每个物体都是独立实体,系统用贝叶斯推理更新信念,不依赖深度神经网络梯度训练。这种架构具有可解释性、组合性、极高资料效率。AXIOM 在 2025 年 4 月发布了商业产品(Genius),AXIOM 基准测试在标准控制任务上与 RL 基线相比具有竞争力,同时使用的数据量却少几个数量级。
AI 下一战场:理解世界
Zhao 最后指出,这五种 world model 路线其实并不互相排斥,而是分别解决不同问题:
JEPA:压缩物理理解
Spatial Intelligence:重建 3D 世界
Learned Simulation:在模拟世界训练 AI
NVIDIA Cosmos:提供基础设施
Active Inference:提出新的智能理论
随着 AI 逐渐走向机器人、自动驾驶与实体 AI(Physical AI),这些技术很可能在未来快速融合。
这篇文章 Meta 研究员揭密 World Model 五大门派:杨立昆、李飞飞押注的 AI 是什么? 最早出现在 链新闻 ABMedia。