VGHuman — это совместная команда из Пекинского университета, CMU, Тонги, UCLA и Мичигана, выпустившая на arXiv фреймворк для телесного ИИ, основанный на визуальных данных для автономных действий в незнакомых 3D-сценах. Фреймворк состоит из слоя мира (World Layer — однокамерная видеоструктура с семантическими и коллизионными сетками для 3D-гауссовых полей, учитывающих скрытие) и слоя агента (Agent Layer — восприятие RGB-D с первого лица, итеративное рассуждение и генерация планов, преобразование диффузионной модели в полные движения). На 200 тестовых сценах уровень успеха примерно на 30 процентных пунктов выше, чем у базовых моделей NaVILA и подобных, при этом уровень столкновений ниже или равен. Поддерживаются прыжки и бег, а также дальние планы, планируется открытый исходный код, репозиторий на GitHub уже создан.

MeNews

2026-05-01 04:33:33

Генерация тезисов в процессе

МЕ Новости, 14 апреля (UTC+8), по данным мониторинга 1M AI News, совместная команда Пекинского университета, Карнеги-Меллон, Тонгджи университет, Университета Калифорнии в Лос-Анджелесе и Мичиганского университета опубликовала на arXiv VGHuman — рамочную структуру для телесных ИИ, которая позволяет цифровому человеку самостоятельно действовать в незнакомых 3D-сценах, полагаясь только на визуальное восприятие. Ранее системы цифровых людей в основном зависели от предустановленных сценариев или привилегированных статусов, а стартовая идея VGHuman — дать цифровому человеку настоящие глаза, чтобы он сам видел дорогу, планировал и действовал. Рамочная структура состоит из двух уровней. Уровень мира (World Layer) восстанавливает из однокамерного видео 3D-камеру с семантическими метками и сетками столкновений, а дизайн восприятия препятствий позволяет ему распознавать скрытые мелкие объекты даже в сложных уличных условиях. Уровень агента (Agent Layer) оснащает цифрового человека RGB-D (цвет + глубина) восприятием с первого лица, генерирует планы через визуальные подсказки пространственного восприятия и итеративное рассуждение, а в конечном итоге диффузионная модель преобразует их в последовательность движений всего тела, управляя движением персонажа. В навигационном бенчмарке из 200 тестовых сцен, по трем уровням сложности — простая маршрутизация, обход препятствий и динамичные пешеходы, уровень успеха VGHuman превзошел самые сильные базовые модели NaVILA, NaVid, Uni-NaVid примерно на 30 процентных пунктов, а уровень столкновений был равен или ниже. Рамочная структура также поддерживает бег, прыжки и другие стили движений, а также долгосрочное планирование для последовательного достижения нескольких целей. Планируется открытие кода и моделей, репозиторий на GitHub уже создан. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
423.94K Популярность
#
USSeeksStrategicBitcoinReserve
58.67M Популярность
#
IsraelStrikesIranBTCPlunges
37.05K Популярность
#
BitcoinETFOptionLimitQuadruples
970.11K Популярность
#
#FedHoldsRateButDividesDeepen
29.1K Популярность

Закрепить

Карта сайта

Популярные темы

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закрепить