Совместное исследование пяти университетов показало, что цифровые люди могут самостоятельно ориентироваться в 3D-сцене по визуальным данным, уровень успеха превышает оптимальную базовую линию примерно на 30 процентных пунктов

robot
Генерация тезисов в процессе

МЕ Новости, 14 апреля (UTC+8), по данным мониторинга 1M AI News, совместная команда Пекинского университета, Карнеги-Меллон, Тонгджи университет, Университета Калифорнии в Лос-Анджелесе и Мичиганского университета опубликовала на arXiv VGHuman — рамочную структуру для телесных ИИ, которая позволяет цифровому человеку самостоятельно действовать в незнакомых 3D-сценах, полагаясь только на визуальное восприятие. Ранее системы цифровых людей в основном зависели от предустановленных сценариев или привилегированных статусов, а стартовая идея VGHuman — дать цифровому человеку настоящие глаза, чтобы он сам видел дорогу, планировал и действовал. Рамочная структура состоит из двух уровней. Уровень мира (World Layer) восстанавливает из однокамерного видео 3D-камеру с семантическими метками и сетками столкновений, а дизайн восприятия препятствий позволяет ему распознавать скрытые мелкие объекты даже в сложных уличных условиях. Уровень агента (Agent Layer) оснащает цифрового человека RGB-D (цвет + глубина) восприятием с первого лица, генерирует планы через визуальные подсказки пространственного восприятия и итеративное рассуждение, а в конечном итоге диффузионная модель преобразует их в последовательность движений всего тела, управляя движением персонажа. В навигационном бенчмарке из 200 тестовых сцен, по трем уровням сложности — простая маршрутизация, обход препятствий и динамичные пешеходы, уровень успеха VGHuman превзошел самые сильные базовые модели NaVILA, NaVid, Uni-NaVid примерно на 30 процентных пунктов, а уровень столкновений был равен или ниже. Рамочная структура также поддерживает бег, прыжки и другие стили движений, а также долгосрочное планирование для последовательного достижения нескольких целей. Планируется открытие кода и моделей, репозиторий на GitHub уже создан. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить