黃仁勳 en CES anunció que «el momento de ChatGPT para AI física está llegando». Nvidia lanzó Vera Rubin, una plataforma de computación con un aumento de 5 veces en capacidad, además de abrir al código Alpamayo para conducción autónoma, Cosmos como modelo del mundo y Groot como robot. Enfatizó que dos migraciones de plataforma ocurrieron simultáneamente: la reingeniería de aplicaciones de IA y la reingeniería de la realidad con Physical AI.
Las tres grandes innovaciones en hardware de Vera Rubin
Al inicio de su discurso en CES, Huang dijo: «Tenemos 15 kilos de contenido que meter en esta charla, con 3,000 personas en el auditorio, 2,000 en el patio exterior, y otros en línea en el cuarto piso, millones en todo el mundo viendo». Pero rápidamente volvió a centrarse en hardware, anunciando que Vera Rubin ya está en producción a gran escala.
El nombre Vera Rubin proviene de la astrónoma del siglo XX, quien observó que la velocidad de rotación en los bordes de las galaxias era similar a la del centro, lo cual no encajaba con la física newtoniana, a menos que existiera materia invisible: la materia oscura. Nvidia nombró su próxima plataforma de computación Vera Rubin porque también enfrentan una «cosa invisible» en expansión: la demanda de cálculo.
Huang describió la locura en la demanda de capacidad de cómputo. La escala de modelos crece 10 veces cada año, y después de o1, la inferencia se vuelve un «proceso de pensamiento», con el entrenamiento posterior que introduce aprendizaje reforzado y un aumento explosivo en cálculo; el escalado en tiempo de prueba hace que cada token de inferencia aumente 5 veces; además, en cada frontera nueva, el costo por token de la generación anterior cae a razón de 10 veces por año. Esto demuestra una competencia extremadamente feroz: Nvidia debe «avanzar una vez al año en el estado del arte del cálculo, sin fallar un solo año».
Arquitectura de colaboración de seis núcleos de Vera Rubin
CPU personalizada Vera: rendimiento duplicado, compartiendo datos bidireccionalmente con la GPU Rubin desde el inicio
GPU Rubin: una tarjeta de cálculo con hasta 100 PFLOPS de potencia de IA, 5 veces más que la generación anterior
Red y seguridad: ConnectX-9 ofrece 1.6 Tbps de ancho de banda lateral, BlueField-4 DPU descarga almacenamiento y seguridad
Una tarjeta de cálculo tiene 17,000 componentes, y el chasis de cómputo ha sido rediseñado para ser «sin cables, sin tuberías, sin ventiladores». La conmutación NVLink de sexta generación conecta 18 nodos en una sola unidad, y se expande a 200G con encapsulado óptico, formando «fábricas de IA» con miles de racks. En tareas de entrenamiento con 10 billones de parámetros y 100 billones de tokens, Rubin necesita solo una cuarta parte del sistema de Blackwell para entrenar en el mismo período de un mes.
Huang también mencionó los desafíos reales de la industria. Nvidia tenía reglas internas: como máximo cambiar uno o dos chips en una nueva generación para no complicar la cadena de suministro. Pero con la desaceleración de la ley de Moore, el crecimiento de los transistores no sigue el ritmo de modelos 10 veces más grandes, tokens 5 veces más, y costos 10 veces menores. Sin un «co-diseño» (diseño conjunto), no se puede alcanzar esa escala, por lo que en esta generación cada chip ha sido rediseñado desde cero. La potencia en punto flotante de la GPU Rubin es 5 veces la de Blackwell, pero los transistores solo 1.6 veces más, lo que indica que solo con proceso de fabricación no se puede seguir mejorando; se requiere un diseño arquitectónico y de sistema colaborativo para lograr mayor rendimiento.
Estrategia de migración colectiva a modelos de código abierto
En el último año, lo que realmente ha emocionado a Huang no es el avance de modelos cerrados, sino la migración colectiva en modo abierto. Huang dice que los modelos abiertos están aproximadamente «seis meses atrás de los modelos de vanguardia», pero cada seis meses aparecen modelos más inteligentes, con una explosión en descargas, porque startups quieren participar, grandes empresas quieren participar, investigadores quieren participar, estudiantes quieren participar, casi todos los países quieren participar.
Muchos malinterpretan a Nvidia, diciendo que solo «vende GPU», pero Huang en CES reiteró que Nvidia está convirtiéndose en un creador de modelos de código abierto de vanguardia, y completamente abierto. Enumeró varios modelos de Nvidia de código abierto: desde Nemotron, que combina Transformer y SSM, el modelo del mundo Cosmos, hasta el robot Groot. Incluso Alpamayo, en conducción autónoma, no solo es un modelo abierto, sino que también comparte datos de entrenamiento.
Huang anunció que Alpamayo es «el primer AI de conducción autónoma que piensa y razona». Desde la cámara hasta el actuador, aprende tanto de millones de kilómetros reales con «demostraciones humanas» como de los datos generados por Cosmos, además de «cientos de miles» de muestras anotadas con extrema precisión. La clave es que no solo produce direcciones y aceleración, sino que también indica qué acciones tomará, por qué, y cuál será la trayectoria.
Huang afirma que comenzaron a trabajar en conducción autónoma hace ocho años, porque desde temprano predijeron que el aprendizaje profundo rehacería toda la pila de cálculo. Alpamayo se «abrió hoy», y este proyecto es enorme: Huang dice que su equipo de AV tiene «varios miles de personas», y Mercedes-Benz ya colaboró con ellos hace cinco años. Predice que en el futuro habrá 1,000 millones de autos autónomos, «cada uno con capacidad de pensar, cada uno impulsado por IA».
Las tres arquitecturas de computadoras para AI física
Huang dedicó mucho tiempo a explicar que hacer que la IA entienda el conocimiento común del mundo es mucho más difícil que el lenguaje. La conservación de objetos, causalidad, inercia, fricción, gravedad, son intuiciones para los niños, pero para la IA son completamente desconocidas. Y los datos del mundo real nunca son suficientes. Para hacer AI física, se necesitan «tres computadoras»: una para entrenar modelos, otra para inferir en el borde en autos/robots/fábricas, y otra para simulaciones.
Omniverse es un mundo digital simulado, Cosmos es un modelo fundamental del mundo, y los modelos de robots incluyen Groot y Alpamayo. ¿De dónde vienen los datos de entrenamiento? Los modelos de lenguaje tienen mucho texto, y hay muchos videos reales del mundo físico, pero aún así no cubren toda la variedad de interacciones. Por eso generan datos sintéticos que cumplen con leyes físicas, creando muestras de entrenamiento selectivamente.
Cosmos puede generar videos realistas a partir de una sola imagen, crear movimientos coherentes a partir de descripciones en 3D, generar vistas panorámicas a partir de registros de sensores, y crear «casos límite» a partir de indicaciones de escena. También puede hacer simulación en ciclo cerrado: una acción, el mundo responde, y Cosmos razona el siguiente paso. Huang define la conducción autónoma como el «primer mercado masivo de AI física», y afirma que «el punto de inflexión está ahora mismo», y que en diez años, una gran proporción de los autos en el mundo serán altamente automatizados.
Huang cree que el futuro de la IA no será solo multimodal, sino «multi-modelo». El sistema más inteligente debería llamar al modelo más adecuado para cada tarea, y el sistema más realista será naturalmente multi-nube, híbrido y en el borde. Esto significa que la esencia de las aplicaciones de IA será una arquitectura de orquestación y razonamiento, un agente inteligente que pueda entender intenciones, seleccionar modelos, llamar a herramientas y combinar resultados. Huang piensa que estos agentes se convertirán en la nueva «interfaz de usuario», dejando atrás Excel, formularios y línea de comandos.
Nvidia está en un momento contradictorio. Parece la narrativa más peligrosa de todas las burbujas: su valor de mercado ha alcanzado niveles sin precedentes. Pero también es la más fuerte entre las acciones de IA, con ingresos y beneficios de cientos de miles de millones de dólares en un trimestre, y un margen bruto que puede llegar al 70%. Cuando una empresa domina tanto la narrativa tecnológica, la cadena de suministro y la atención del mercado financiero, se convierte en un ícono. La ventaja de un ícono es que la fe en él genera sobrevaloración, pero esa sobrevaloración también significa que no puedes cometer errores.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
黄仁勋 CES anuncia con impacto: el momento de ChatGPT de IA física está cerca
黃仁勳 en CES anunció que «el momento de ChatGPT para AI física está llegando». Nvidia lanzó Vera Rubin, una plataforma de computación con un aumento de 5 veces en capacidad, además de abrir al código Alpamayo para conducción autónoma, Cosmos como modelo del mundo y Groot como robot. Enfatizó que dos migraciones de plataforma ocurrieron simultáneamente: la reingeniería de aplicaciones de IA y la reingeniería de la realidad con Physical AI.
Las tres grandes innovaciones en hardware de Vera Rubin
Al inicio de su discurso en CES, Huang dijo: «Tenemos 15 kilos de contenido que meter en esta charla, con 3,000 personas en el auditorio, 2,000 en el patio exterior, y otros en línea en el cuarto piso, millones en todo el mundo viendo». Pero rápidamente volvió a centrarse en hardware, anunciando que Vera Rubin ya está en producción a gran escala.
El nombre Vera Rubin proviene de la astrónoma del siglo XX, quien observó que la velocidad de rotación en los bordes de las galaxias era similar a la del centro, lo cual no encajaba con la física newtoniana, a menos que existiera materia invisible: la materia oscura. Nvidia nombró su próxima plataforma de computación Vera Rubin porque también enfrentan una «cosa invisible» en expansión: la demanda de cálculo.
Huang describió la locura en la demanda de capacidad de cómputo. La escala de modelos crece 10 veces cada año, y después de o1, la inferencia se vuelve un «proceso de pensamiento», con el entrenamiento posterior que introduce aprendizaje reforzado y un aumento explosivo en cálculo; el escalado en tiempo de prueba hace que cada token de inferencia aumente 5 veces; además, en cada frontera nueva, el costo por token de la generación anterior cae a razón de 10 veces por año. Esto demuestra una competencia extremadamente feroz: Nvidia debe «avanzar una vez al año en el estado del arte del cálculo, sin fallar un solo año».
Arquitectura de colaboración de seis núcleos de Vera Rubin
CPU personalizada Vera: rendimiento duplicado, compartiendo datos bidireccionalmente con la GPU Rubin desde el inicio
GPU Rubin: una tarjeta de cálculo con hasta 100 PFLOPS de potencia de IA, 5 veces más que la generación anterior
Red y seguridad: ConnectX-9 ofrece 1.6 Tbps de ancho de banda lateral, BlueField-4 DPU descarga almacenamiento y seguridad
Una tarjeta de cálculo tiene 17,000 componentes, y el chasis de cómputo ha sido rediseñado para ser «sin cables, sin tuberías, sin ventiladores». La conmutación NVLink de sexta generación conecta 18 nodos en una sola unidad, y se expande a 200G con encapsulado óptico, formando «fábricas de IA» con miles de racks. En tareas de entrenamiento con 10 billones de parámetros y 100 billones de tokens, Rubin necesita solo una cuarta parte del sistema de Blackwell para entrenar en el mismo período de un mes.
Huang también mencionó los desafíos reales de la industria. Nvidia tenía reglas internas: como máximo cambiar uno o dos chips en una nueva generación para no complicar la cadena de suministro. Pero con la desaceleración de la ley de Moore, el crecimiento de los transistores no sigue el ritmo de modelos 10 veces más grandes, tokens 5 veces más, y costos 10 veces menores. Sin un «co-diseño» (diseño conjunto), no se puede alcanzar esa escala, por lo que en esta generación cada chip ha sido rediseñado desde cero. La potencia en punto flotante de la GPU Rubin es 5 veces la de Blackwell, pero los transistores solo 1.6 veces más, lo que indica que solo con proceso de fabricación no se puede seguir mejorando; se requiere un diseño arquitectónico y de sistema colaborativo para lograr mayor rendimiento.
Estrategia de migración colectiva a modelos de código abierto
En el último año, lo que realmente ha emocionado a Huang no es el avance de modelos cerrados, sino la migración colectiva en modo abierto. Huang dice que los modelos abiertos están aproximadamente «seis meses atrás de los modelos de vanguardia», pero cada seis meses aparecen modelos más inteligentes, con una explosión en descargas, porque startups quieren participar, grandes empresas quieren participar, investigadores quieren participar, estudiantes quieren participar, casi todos los países quieren participar.
Muchos malinterpretan a Nvidia, diciendo que solo «vende GPU», pero Huang en CES reiteró que Nvidia está convirtiéndose en un creador de modelos de código abierto de vanguardia, y completamente abierto. Enumeró varios modelos de Nvidia de código abierto: desde Nemotron, que combina Transformer y SSM, el modelo del mundo Cosmos, hasta el robot Groot. Incluso Alpamayo, en conducción autónoma, no solo es un modelo abierto, sino que también comparte datos de entrenamiento.
Huang anunció que Alpamayo es «el primer AI de conducción autónoma que piensa y razona». Desde la cámara hasta el actuador, aprende tanto de millones de kilómetros reales con «demostraciones humanas» como de los datos generados por Cosmos, además de «cientos de miles» de muestras anotadas con extrema precisión. La clave es que no solo produce direcciones y aceleración, sino que también indica qué acciones tomará, por qué, y cuál será la trayectoria.
Huang afirma que comenzaron a trabajar en conducción autónoma hace ocho años, porque desde temprano predijeron que el aprendizaje profundo rehacería toda la pila de cálculo. Alpamayo se «abrió hoy», y este proyecto es enorme: Huang dice que su equipo de AV tiene «varios miles de personas», y Mercedes-Benz ya colaboró con ellos hace cinco años. Predice que en el futuro habrá 1,000 millones de autos autónomos, «cada uno con capacidad de pensar, cada uno impulsado por IA».
Las tres arquitecturas de computadoras para AI física
Huang dedicó mucho tiempo a explicar que hacer que la IA entienda el conocimiento común del mundo es mucho más difícil que el lenguaje. La conservación de objetos, causalidad, inercia, fricción, gravedad, son intuiciones para los niños, pero para la IA son completamente desconocidas. Y los datos del mundo real nunca son suficientes. Para hacer AI física, se necesitan «tres computadoras»: una para entrenar modelos, otra para inferir en el borde en autos/robots/fábricas, y otra para simulaciones.
Omniverse es un mundo digital simulado, Cosmos es un modelo fundamental del mundo, y los modelos de robots incluyen Groot y Alpamayo. ¿De dónde vienen los datos de entrenamiento? Los modelos de lenguaje tienen mucho texto, y hay muchos videos reales del mundo físico, pero aún así no cubren toda la variedad de interacciones. Por eso generan datos sintéticos que cumplen con leyes físicas, creando muestras de entrenamiento selectivamente.
Cosmos puede generar videos realistas a partir de una sola imagen, crear movimientos coherentes a partir de descripciones en 3D, generar vistas panorámicas a partir de registros de sensores, y crear «casos límite» a partir de indicaciones de escena. También puede hacer simulación en ciclo cerrado: una acción, el mundo responde, y Cosmos razona el siguiente paso. Huang define la conducción autónoma como el «primer mercado masivo de AI física», y afirma que «el punto de inflexión está ahora mismo», y que en diez años, una gran proporción de los autos en el mundo serán altamente automatizados.
Huang cree que el futuro de la IA no será solo multimodal, sino «multi-modelo». El sistema más inteligente debería llamar al modelo más adecuado para cada tarea, y el sistema más realista será naturalmente multi-nube, híbrido y en el borde. Esto significa que la esencia de las aplicaciones de IA será una arquitectura de orquestación y razonamiento, un agente inteligente que pueda entender intenciones, seleccionar modelos, llamar a herramientas y combinar resultados. Huang piensa que estos agentes se convertirán en la nueva «interfaz de usuario», dejando atrás Excel, formularios y línea de comandos.
Nvidia está en un momento contradictorio. Parece la narrativa más peligrosa de todas las burbujas: su valor de mercado ha alcanzado niveles sin precedentes. Pero también es la más fuerte entre las acciones de IA, con ingresos y beneficios de cientos de miles de millones de dólares en un trimestre, y un margen bruto que puede llegar al 70%. Cuando una empresa domina tanto la narrativa tecnológica, la cadena de suministro y la atención del mercado financiero, se convierte en un ícono. La ventaja de un ícono es que la fe en él genera sobrevaloración, pero esa sobrevaloración también significa que no puedes cometer errores.