Meta研究員が明かすWorld Model五大派閥:楊立昆、李飛飛が賭けるAIとは?

ChainNewsAbmedia

トゥリング賞受賞者であり、元Meta AI最高科学者のヤン・ルカン(Yann LeCun)が設立したスタートアップ、Advanced Machine Intelligence(AMI)は、最近10億3千万ドルの超大型シードラウンド資金調達を完了し、「World Model(世界モデル)」が再び人工知能分野のホットなキーワードとなっています。しかし、AIコミュニティで頻繁に議論されるworld modelsの概念は、研究者によって大きく異なる場合があります。

(深掘り解説:LLMの欠点?なぜ楊立昆のAMIはWorld Model路線に賭けるのか)

Meta AIの研究者、Zhuokai Zhaoは最近、ソーシャルプラットフォーム上で、現在のAI分野におけるいわゆるworld modelは少なくとも五つの異なる技術路線に分かれると指摘しています。彼は、これらの方法は直接競合するものではなく、異なる側面の問題を解決していると考えています。

JEPA:物理理解の圧縮

Spatial Intelligence:3D世界の再構築

Learned Simulation:模擬世界でのAI訓練

NVIDIA Cosmos:インフラ提供

Active Inference:新たな知能理論の提案

彼は、これらの境界線はやがて曖昧になっていくと予測しています。

路線1:LeCunのJEPA、抽象空間で世界を理解

Zhaoは、第一のworld modelはJoint Embedding Predictive Architecture(JEPA)であり、その代表者はヤン・ルカン(Yann LeCun)であると考えています。

JEPAの核心思想は、AIはすべてのピクセルを予測しようとすべきではなく、抽象的な表現空間の中で未来を予測すべきだということです。

実世界では、多くの詳細は予測不可能です。例えば、光の変化、葉の位置、表面の質感などです。モデルがすべてのピクセルを生成しようとすると、多くの無意味な詳細を処理しなければなりません。

JEPAのアプローチは、まずエンコーダーを用いて画像や映像を抽象表現に変換し、その表現空間内で隠された部分を予測することです。こうして、モデルは「ボールがテーブルから落ちる」といったことを学習し、各フレームを生成する必要はありません。

MetaのV-JEPA 2は、最も代表的な実験成果の一つです。このモデルは100万時間の映像データを用いて自己教師あり学習を行い、その後わずか62時間のロボットデータだけで、ゼロショット計画をサポートする動作条件付き世界モデルを生成できるようになっています。ロボットは候補動作列を生成し、それを世界モデルに入力して、予測結果と目標映像が最も一致する列を選択します。この方法は、訓練中に見たことのない物体や環境にも適用可能です。

この高いデータ効率性こそ、AMIがJEPAアーキテクチャに賭ける重要な理由です。表現が十分に良ければ、すべてのタスクをゼロから列挙する必要はありません。AMI Labsは、LeCunがこの技術を研究から実用へと推し進める試みです。彼らはまず医療やロボット分野をターゲットにしていますが、これは長期的な投資であり、CEOは商業製品の登場には数年かかる可能性があると公言しています。

路線2:李飛飛の「空間知能」

もう一つの有名な路線は、李飛飛が創設したWorld Labsによるものです。

(AIの母李飛飛は誰?新興ユニコーン企業World Labsが輝達、AMDの支援を受けて資金調達)

JEPAの「未来予測」とは異なり、李飛飛の核心問題は「世界は三次元空間の中でどのように見えるのか?」です。彼女が提唱する概念はSpatial Intelligence(空間知能)と呼ばれ、真の理解には明確な空間構造:幾何学的形状、深度、持続性、そして新しい視点からシーンを再観察する能力が必要だと考えています。これは、単なる時間予測とは異なります。JEPAが抽象的な動力学を学習するのに対し、空間知能は環境の構造化された3D表現を学び、それに直接操作を加えることができる点が異なります。

World Labsの製品Marbleは、画像、テキスト、映像から持続可能な3D世界を生成します。従来の映像生成モデルと異なり、Marbleは真の3Dシーンを生成し、視点の自由な移動、物体の修正、3Dモデルの出力が可能です。これにより、単なる生成モデルではなく、3Dクリエーションエンジンに近づいています。

路線3:DeepMindの「学習型模擬世界」

三つ目のworld modelは、学習型シミュレーション(Learned Simulation)です。

代表的な研究例は:

DeepMind Genie 3

Dreamerシリーズ

Runway GWM-1

これらのモデルは、インタラクティブな模擬世界を構築し、その中でAIが学習できることを目指しています。

路線4:NVIDIAのPhysical AIインフラ

四つ目のworld modelは、直接モデルを構築するのではなく、エコシステム全体をプラットフォーム化することです。代表的な企業はNVIDIAで、彼らのCosmosプラットフォームは以下のインフラを提供します。

映像データ処理

ビジュアルトークナイザー

モデル訓練

展開サービス

Cosmosの世界基盤モデル(World foundation models)は、2000万時間の実映像データを用いて訓練され、トークン規模は900兆に達します。

(NVIDIAのAlpamayoエコシステム登場:AI自動運転に推論能力を付与し、意思決定の理由も説明可能に)

NVIDIAの戦略は明確です:世界モデルを作ることにこだわらず、誰もが世界モデルを構築できるツールを提供することです。

路線5:Active Inference(神経科学派)

最後の路線は神経科学理論に基づきます。代表者は神経科学者のKarl Fristonで、彼が提唱した有名なFree Energy Principle(自由エネルギー原理)です。従来の強化学習と異なり、Active InferenceはAIを絶えず世界理解を試みる生物のように捉えます。行動を取りながら、環境の予測をより正確にし、「予想と違うこと」を減らすことを目的としています。

会社VERSES AIのAXIOMシステムは、オブジェクト指向モデルを採用し、各物体は独立した実体として扱われ、ベイズ推論によって信念を更新します。深層ニューラルネットの勾配学習に依存しません。この構造は、説明性、組み合わせ性、非常に高いデータ効率性を持ちます。AXIOMは2025年4月に商用製品(Genius)をリリースし、標準的な制御タスクにおいてRLのベースラインと競合できる性能を示しながらも、使用データ量は数桁少ないことが特徴です。

AIの次の戦場:世界理解

Zhaoは最後に、これら五つのworld model路線は互いに排他的ではなく、それぞれ異なる問題を解決していると指摘しています。

JEPA:物理理解の圧縮

Spatial Intelligence:3D世界の再構築

Learned Simulation:模擬世界でのAI訓練

NVIDIA Cosmos:インフラ提供

Active Inference:新たな知能理論の提案

AIがロボット、自動運転、物理AI(Physical AI)へと進化するにつれ、これらの技術は今後急速に融合していく可能性があります。

この記事は、Meta研究員が明かすWorld Model五大派閥:楊立昆、李飛飛が賭けるAIとは何か?として、ABMediaに最初に掲載されました。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし