
Хуан Сюньхун объявил на CES о приближении «момента ChatGPT для Physical AI». NVIDIA выпустила платформу Vera Rubin с 5-кратным увеличением вычислительной мощности, открыла исходный код для Alpamayo в области автономного вождения, модели мировых процессов Cosmos и робота Groot. Подчеркнула, что одновременно происходят два сдвига платформ: AI переделывает приложения, Physical AI переделывает реальность.
Хуан Сюньхун начал речь на CES со слов: «У нас есть 15 килограммов контента, которые нужно втиснуть в сегодняшнюю лекцию, 3000 человек сидят в зале, 2000 еще смотрят во дворе, люди смотрят с четвертого этажа, миллионы людей смотрят по всему миру». Но он быстро вернулся к аппаратному обеспечению и объявил, что Vera Rubin полностью запущена в производство.
Название Vera Rubin происходит от астронома XX века, которая заметила, что скорость вращения галактик на краях примерно такая же, как в центре, что не объяснялось ньютоновской физикой, если не предположить наличие невидимого вещества — темной материи. NVIDIA назвала свою платформу вычисления следующего поколения Vera Rubin, потому что «невидимое» нечто, с которым они сталкиваются, тоже растет: потребность в вычислениях.
Хуан Сюньхун описал безумный рост потребностей в вычислительной мощности. Размер модели растет в 10 раз в год, после o1 рассуждение становится «процессом мышления», постобучение вводит усиленное обучение с взрывным ростом объемов вычислений; масштабирование на этапе тестирования увеличивает объем токенов при каждом логическом выводе в 5 раз; каждый раз, достигая новой границы, стоимость токена предыдущего поколения падает в 10 раз ежегодно. Это, в свою очередь, указывает на крайне жесткую конкуренцию и необходимость для NVIDIA «передвигать границу вычислительного уровня техники каждый год, ни на один год нельзя отставать».
Пользовательский CPU Vera: производительность удвоена, обеспечивает двусторонний консистентный обмен данными с Rubin GPU с самого начала
Rubin GPU: одна вычислительная плата может достичь 100 PFLOPS вычислительной мощности AI, что в 5 раз больше, чем предыдущее поколение
Сеть и безопасность: ConnectX-9 обеспечивает 1,6 Tbps пропускной способности по горизонтали, BlueField-4 DPU разгружает хранилище и безопасность
На одной вычислительной плате 17000 компонентов, лоток для вычисления переработан в конфигурацию «без проводов, без труб, без вентиляторов». Шестое поколение коммутатора NVLink объединяет 18 узлов в единое целое, затем расширяется до 200G с совместно упакованной оптикой, объединяя тысячи стоек в «AI фабрику». При задачах обучения с 10 мегапараметрами и 100 мегатокенами Rubin требует только четверти системного размера Blackwell для обучения в том же месячном окне.
Хуан Сюньхун также упомянул практические отраслевые проблемы. NVIDIA имела внутреннее правило: новое поколение продуктов максимум заменяет один-два чипа, чтобы не разрушить цепь поставок. Но после замедления закона Мура рост transistor не поспевает за 10-кратным ростом моделей, 5-кратным и 10-кратным падением стоимости токенов без «co-design» невозможно идти в ногу со временем, поэтому на этом поколении пришлось полностью переработать каждый чип. Производительность с плавающей точкой Rubin GPU в 5 раз больше, чем Blackwell, но transistor всего в 1,6 раза больше, это означает, что простое увеличение transistor через процесс уже достигло потолка, необходимо полагаться на архитектурный и системный уровень со-дизайна для обеспечения производительности.
За прошлый год то, что действительно возбуждало Хуана Сюньхуна, было не прогрессом какой-либо одной закрытой модели, а коллективным скачком открытых моделей. Хуан Сюньхун сказал, что открытые модели сейчас отстают от передовых моделей примерно на «полгода», но каждые полгода появляются более умные новые модели, поэтому загрузки взлетели, потому что стартапы хотят участвовать, крупные компании хотят участвовать, исследователи хотят участвовать, студенты хотят участвовать, почти каждая страна хочет участвовать.
Многие люди неправильно понимают NVIDIA, говоря, что она просто «продает GPU», а Хуан Сюньхун на сцене CES неоднократно подчеркивал, что NVIDIA становится конструктором передовых открытых моделей и совершенно открытым образом. Он перечислил кучу открытых моделей NVIDIA: от смешанного Nemotron с Transformer-SSM, модели мировых процессов Cosmos, до человекоподобного робота Groot. Даже в области автономного вождения Alpamayo не только открыла исходный код модели, но и открыла обучающие данные.
Хуан Сюньхун объявил, что Alpamayo — это «первый в мире AI для автономного вождения, который может думать и рассуждать». От конца к концу, от камеры к исполнительному механизму, он выучил большое количество «человеческих демонстраций» реальных миль, а также мили, сгенерированные Cosmos, плюс «сотни тысяч» чрезвычайно тщательно аннотированных образцов. Ключ в том, что он выводит не только рулевое управление и тормозной газ, но и скажет вам, какое действие он предпримет, почему он это сделает, какая траектория.
Хуан Сюньхун сказал, что они начали заниматься автономным вождением восемь лет назад, потому что рано пришли к выводу, что глубокое обучение переделает весь стек вычислений. Alpamayo объявляет об «открытом исходном коде сегодня», масштаб этой инженерии огромен, Хуан Сюньхун сказал, что их команда AV имеет «тысячи человек», и Mercedes-Benz сотрудничает с ними уже пять лет. Он предсказывает, что в будущем может быть 10 миллиардов автомобилей с автономным вождением, «каждый автомобиль будет иметь способность мыслить, каждый автомобиль будет приводиться в движение AI».
Хуан Сюньхун потратил огромное количество времени на одну вещь: заставить AI понять здравый смысл мира намного сложнее, чем язык. Постоянство объекта, причинно-следственная связь, инерция, трение, гравитация — интуитивна для человеческих младенцев, но совершенно незнакома для AI. И данных реального мира всегда недостаточно. Он сказал, что для создания physical AI нужны «три компьютера»: для тренировки модели, для логического вывода на краю в машине/роботе/фабрике, и для симуляции.
Omniverse — это цифровой мир-двойник для симуляции, Cosmos — это фундаментальная модель мира, модели роботов включают Groot и Alpamayo. Откуда берутся обучающие данные? Языковые модели имеют большое количество текста, в физическом мире много реальных видео, но недостаточно для покрытия разнообразных взаимодействий. Так что они используют синтетические данные, соответствующие физическим законам, выборочно создают обучающие образцы.
Cosmos может генерировать реалистичные видео из одного изображения, связные движения из описания 3D сцены, панорамные видео из журналов датчиков, создавать «краевые случаи» из подсказок сцены. Может также закрывать цикл симуляции, действие выполняется, мир реагирует, Cosmos затем выводит следующий шаг. Хуан Сюньхун определяет автономное вождение как первый «массовый рынок» для physical AI и утверждает, что «точка поворота находится прямо сейчас», в течение следующего десятилетия большая часть автомобилей в мире будет высокоавтоматизирована.
Хуан Сюньхун считает, что будущий AI будет не просто мультимодальным, но «мультимодельным». Самые умные системы должны вызывать наиболее подходящие модели для разных задач, самые реальные системы по природе мультиоблачные, гибридные облачные, граничные вычисления. Это означает, что суть AI приложения — это наборор архитектуры планирования и логического вывода, интеллектуальный агент, который может определить намерение, выбрать модель, вызвать инструменты, составить результаты. Хуан Сюньхун считает, что такие интеллектуальные агенты становятся новым «пользовательским интерфейсом», больше не Excel, больше не формы, больше не командная строка.
NVIDIA переживает противоречивый момент. Выглядит как самая опасная в нарративах обо всех пузырях, рыночная капитализация достигла беспрецедентных высот. Но одновременно выглядит как самая сильная среди всех акций, связанных с AI, ежеквартальный доход и чистая прибыль в сотни миллиардов долларов, валовая маржа может достигать 70%. Когда компания одновременно контролирует технологический нарратив, важную позицию в цепи поставок и внимание финансовых рынков, она становится тотемом. Преимущество тотема в том, что вера приносит премию, недостаток в том, что премия означает, что вы не можете совершать ошибки.