NVIDIA GTC 2026｜Analyse de la stratégie d'acquisition de 10 milliards de dollars de Groq par Nvidia, comment LPX change le processus d'inférence

ChainNewsAbmedia

2026-03-18 18:34:01

Lors du GTC 2026 de NVIDIA, ce qui a attiré le plus l’attention n’est pas seulement Vera Rubin NVL72, mais aussi le nouveau mode d’inférence formé en association avec Groq 3 LPX. L’infrastructure AI évolue d’un mode de calcul dominé par une seule GPU vers une architecture hétérogène basée sur la division du travail.

Groq 3 LPX est positionné comme un accélérateur spécialisé dans l’inférence à faible latence, complétant la GPU Rubin. Dans l’architecture traditionnelle, la GPU doit gérer à la fois l’entrée de contexte longue et la génération token par token. Avec l’augmentation rapide de la taille des modèles et de la longueur du contexte, cette conception intégrée commence à montrer ses limites en termes d’efficacité.

NVIDIA a donc décomposé le processus d’inférence, permettant à la GPU Rubin de se concentrer sur le traitement en haute capacité et le calcul d’attention, tandis que LPX prend en charge la phase de décodage, particulièrement sensible à la réactivité immédiate, comme les réseaux de neurones feedforward et le calcul des experts MoE. L’année dernière, NVIDIA a acquis Groq pour environ 20 milliards de dollars en cash, pour cette raison. Groq se distingue par sa architecture LPU (Language Processing Unit), spécialement conçue pour l’inférence AI, offrant une latence extrêmement faible, une réponse stable et une haute efficacité énergétique, idéale pour les scénarios de dialogue en temps réel, d’assistants vocaux, etc.

(La plus grande acquisition de NVIDIA : 640 milliards de dollars pour acquérir la technologie Groq et le père du TPU de Google)

GPU collaborant avec LPU pour décomposer l’inférence

Ce concept, appelé « Disaggregated Inference », consiste à ne plus réaliser l’inférence sur un seul processeur, mais à la répartir entre GPU et LPU, en coopération.

En pratique, le modèle construit d’abord le contexte et le cache KV sur le GPU. Ensuite, dans la boucle de génération de chaque token, le GPU gère l’attention, puis transmet les résultats intermédiaires à LPX pour le calcul FFN, et enfin le GPU combine les sorties. Ce mode de division du travail permet à chaque unité de traitement de se concentrer sur ce qu’elle fait de mieux, augmentant considérablement l’efficacité globale.

NVIDIA a acquis Groq pour appliquer son LPU à LPX

Le cœur de LPX réside dans son architecture LPU. Contrairement au GPU, qui dépend de la planification dynamique et de la mémoire externe à haute bande passante, le LPU privilégie la prévisibilité, contrôlant directement le flux de calcul et de données via le compilateur, ce qui réduit la variabilité de la latence. Son architecture SRAM-first maintient les données critiques à l’intérieur de la puce, minimisant l’incertitude liée à l’accès mémoire, rendant la génération de chaque token plus stable. Cette caractéristique est essentielle pour les applications d’IA interactives en temps réel, où la latence influence directement l’expérience utilisateur.

Spécifications du rack LPX dévoilées : composé de 256 LPU

En termes de taille matérielle, un rack LPX comprend 256 LPU, offrant une bande passante mémoire sur puce et une communication inter-puces extrêmement élevées, conçu pour une inférence à faible latence. En contraste avec la haute puissance FLOPS et la grande mémoire de la GPU Rubin, LPX ressemble davantage à un moteur optimisé pour le « dernier kilomètre », chargé de transformer la sortie du modèle en résultats utilisables en temps réel.

Cet article NVIDIA GTC 2026｜Analyse de la stratégie d’acquisition de Groq par NVIDIA, comment LPX va transformer le processus d’inférence, est initialement publié sur Chain News ABMedia.

Voir l'original

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.

Commentaire

0/400

Aucun commentaire