Gate News notícia, 12 de março, a NVIDIA lançou o grande modelo de linguagem de código aberto Nemotron 3 Super, projetado para aplicações multiagente. O modelo possui um total de 120 bilhões de parâmetros, usando uma arquitetura híbrida Mamba-Transformer MoE, ativando apenas 12 bilhões de parâmetros por token durante a inferência. Sua tecnologia central, “Latent MoE” (MoE Latente), comprime o embedding do token em um espaço latente de baixa classificação antes de roteá-lo para a rede de especialistas, permitindo ativar até 4 especialistas com o custo computacional de um único especialista, aumentando a taxa de processamento de inferência em até 5 vezes em relação à geração anterior, Nemotron Super. O modelo suporta nativamente uma janela de contexto de 1 milhão de tokens, ideal para agentes autônomos que precisam manter o estado do fluxo de trabalho por longos períodos. Na avaliação de carga de trabalho de agentes com o benchmark PinchBench, o Nemotron 3 Super obteve uma pontuação de 85,6%, a mais alta entre modelos de código aberto similares. A NVIDIA também lançou um conjunto de dados de treinamento com mais de 10 trilhões de tokens, 15 ambientes de treinamento de reforço e planos de avaliação, sob a licença NVIDIA Nemotron Open Model License. O modelo já está disponível nas plataformas Hugging Face, build.nvidia.com, Perplexity, OpenRouter, entre outras, e pode ser implantado via Google Cloud, Oracle, AWS Bedrock, Azure e outros provedores de nuvem. Empresas como Perplexity, CodeRabbit, Cadence, Dassault Systèmes e Siemens já adotaram o modelo.