На недавно завершившемся раунде посевного финансирования в размере 1,03 миллиарда долларов, основанная Яном Лекуном, лауреатом премии Тьюринга и бывшим главным ученым Meta AI, компания Advanced Machine Intelligence (AMI) вновь сделала “модель мира” (World Model) одним из горячих ключевых слов в области искусственного интеллекта. Однако, несмотря на частое обсуждение world models в AI-сообществе, понятия, которые под этим подразумеваются, значительно различаются.
(Глубокий анализ: Недостатки LLM? Почему AMI Яна Лекуна делает ставку на путь World Model)
Недавно исследователь Meta AI Zhuokai Zhao опубликовал длинный пост в соцсетях, в котором указал, что в настоящее время в области AI так называемые world models можно разделить как минимум на пять различных технических направлений. Он считает, что эти подходы на самом деле не конкурируют напрямую, а решают разные уровни задач.
JEPA: сжатое физическое понимание
Spatial Intelligence: восстановление 3D мира
Learned Simulation: обучение AI в симулированном мире
NVIDIA Cosmos: предоставление инфраструктуры
Active Inference: выдвижение новой теории интеллекта
Он ожидает, что границы между ними скоро станут размытыми.
Направление 1: JEPA Лекуна, понимание мира в абстрактном пространстве
Zhao считает, что первый тип world model — это Joint Embedding Predictive Architecture (JEPA), основным представителем которого является Янг Лекун.
Основная идея JEPA — AI не должен пытаться предсказать каждый пиксель, а должен предсказывать будущее в абстрактном пространстве представлений.
В реальном мире многие детали изначально непредсказуемы, например, изменение освещения, точное расположение листьев, текстуры поверхности. Если модель должна генерировать все пиксели, она будет вынуждена обрабатывать огромное количество бессмысленных деталей.
Подход JEPA заключается в том, чтобы сначала с помощью кодировщика преобразовать изображение или видео в абстрактное представление, а затем в этом пространстве предсказать скрытые части. Таким образом, модель может научиться, например: “мяч упадет со стола”, не генерируя каждое отдельное изображение.
Meta’s V-JEPA 2 — один из наиболее ярких экспериментальных результатов. Эта модель использовала 1 миллион часов видеоданных для самонаблюдательного обучения, а затем всего за 62 часа данных о роботах смогла создать модель мира, поддерживающую планирование с нулевым обучением. Робот генерирует кандидатные последовательности движений, вводит их в модель мира и выбирает ту, которая наиболее точно предсказывает целевое изображение. Такой подход подходит для объектов и окружения, которые модель ранее не видела.
Эта высокая эффективность использования данных — важная причина, почему AMI делает ставку на архитектуру JEPA. Если ваши представления достаточно хороши, то не нужно начинать с нуля и перебирать все задачи. Labs AMI — это попытка Лекуна вывести эту технологию из исследовательской области в практическое применение. Они сначала ориентируются на здравоохранение и робототехнику. Но это долгосрочные инвестиции: их генеральный директор публично заявил, что коммерческие продукты могут появиться только через несколько лет.
Направление 2: “Пространственный интеллект” Ли Фейфей
Другое известное направление связано с Ли Фейфей, основательницей World Labs.
(Кто такая Ли Фейфей — “крестная мать” AI? Стартап-единорог World Labs привлек финансирование от NVIDIA, AMD)
В отличие от JEPA, который фокусируется на “предсказании будущего”, Ли Фейфей ставит вопрос: “Как выглядит мир в трехмерном пространстве?” Ее концепция называется Spatial Intelligence (пространственный интеллект). Она считает, что настоящее понимание требует четкой структурированной 3D-структуры: геометрии, глубины, постоянства и способности переосмыслить сцену с новой точки зрения — а не только предсказания во времени. Это отличается от идеи JEPA: здесь изучается не абстрактная динамика, а структурированное 3D-представление окружающей среды, с которым можно напрямую взаимодействовать.
Продукт Marble от World Labs способен генерировать устойчивое 3D-окружение из изображений, текста или видео. В отличие от традиционных моделей генерации видео, Marble создает полноценные 3D-сцены. Можно свободно менять точку обзора, редактировать объекты, экспортировать 3D-модели. Это ближе к 3D-редакторам, чем к простым моделям генерации.
Направление 3: DeepMind — “обучаемый симулятор мира”
Третий тип world model — это обучаемый симулятор (Learned Simulation).
Представители исследований:
DeepMind Genie 3
Dreamer серия
Runway GWM-1
Эти модели пытаются создать интерактивный симуляционный мир, в котором AI может учиться.
Направление 4: Инфраструктура NVIDIA для Physical AI
Четвертое направление — создание всей экосистемы платформы. Представитель — NVIDIA, которая запустила платформу Cosmos, предоставляющую полный набор инфраструктурных решений:
Обработка видеоданных
Визуальный токенизатор
Обучение моделей
Деплоймент сервисов
Модель базового мира (World foundation models) Cosmos обучалась на 20 миллионах часов реальных видеоданных, общий объем токенов достиг 900 триллионов.
(NVIDIA: запуск экосистемы Alpamayo — дать AI возможности для автономных автомобилей с объяснением решений)
Стратегия NVIDIA ясна: не обязательно создавать собственные world models, а предоставлять инструменты для их построения.
Направление 5: Active Inference (нейронаучная школа)
Последнее направление — теория, основанная на нейронауке. Ее представитель — нейроученый Карл Фристон, предложивший знаменитый принцип свободной энергии (Free Energy Principle). В отличие от традиционного обучения с подкреплением, Active Inference считает, что AI — это как живое существо, постоянно пытающееся понять окружающий мир. Оно предпринимает действия, чтобы сделать свои предсказания о среде более точными и снизить вероятность “непредвиденных событий”.
Компания VERSES AI разработала систему AXIOM, основанную на объектно-ориентированной модели, где каждый объект — отдельная сущность. Система использует байесовское обновление верований и не зависит от градиентного обучения глубоких нейросетей. Такая архитектура обладает объяснимостью, модульностью и высокой эффективностью использования данных. В апреле 2025 года AXIOM выпустила коммерческий продукт (Genius). Базовые тесты AXIOM показывают конкурентоспособность по сравнению с RL-базовыми системами при использовании значительно меньших объемов данных.
Следующий главный фронт AI: понимание мира
Zhao в заключение отметил, что эти пять направлений world models на самом деле не исключают друг друга, а скорее решают разные задачи:
JEPA: сжатое физическое понимание
Spatial Intelligence: восстановление 3D мира
Learned Simulation: обучение AI в симуляции
NVIDIA Cosmos: предоставление инфраструктуры
Active Inference: новые теории интеллекта
По мере развития AI в области робототехники, автономных автомобилей и физического AI эти технологии, скорее всего, будут быстро интегрироваться.
Эта статья — “Пять школ world model”: что такое AI, на которое делают ставку Янг Лекун и Ли Фейфей? — впервые опубликована на ABMedia.