Google lança o sétimo guia de treino para desenvolvedores do TPU Ironwood, detalhando a otimização de desempenho a nível de sistema

MeNews · 2026-04-10T07:05:25+00:00

A Google lançou um guia de treino para desenvolvedores para a sétima geração de TPU Ironwood, com o objetivo de ajudar os desenvolvedores a treinar e implementar modelos de IA de forma eficiente. O guia apresenta várias estratégias de otimização essenciais, como treino FP8, biblioteca de núcleo JAX otimizada para TPU, descarregamento de comunicação de núcleos esparsos, ajuste de alocação de memória, entre outros, para melhorar o desempenho do sistema do TPU Ironwood.

MeNews

2026-04-10 07:05:25

Geração de resumo em curso

Notícias ME, 2 de abril (UTC+8), a Google anunciou recentemente um guia de treinamento para desenvolvedores voltado ao 7º geração do TPU Ironwood.
Este guia tem como objetivo ajudar os desenvolvedores a aproveitarem ao máximo o desempenho em nível de sistema do TPU Ironwood, para treinar e implantar modelos de IA de ponta de forma eficiente.
O TPU Ironwood é uma infraestrutura de IA personalizada, projetada para atender às demandas de poder computacional de modelos com trilhões de parâmetros, construído com tecnologias como interconexão entre chips (ICI), comutador de luz (OCS), rede de data center (DCN) e memória de alta largura de banda agregada (HBM), formando um sistema completo que suporta até 9.216 chips.
O artigo detalha várias estratégias de otimização essenciais para esse hardware, incluindo: usar sua unidade de multiplicação de matrizes (MXU) com suporte nativo para treinamento em FP8 para aumentar o throughput; adotar a biblioteca de núcleos JAX otimizada para TPU, Tokamax, que processa tensores irregulares em modelos de contexto longo e modelos de especialistas mistos usando “atenção de respingo” e “multiplicação de matriz em blocos Megablox”; usar o núcleo esparso de quarta geração (SparseCore) para descarregar operações de comunicação coletiva e esconder latências; ajustar finamente a alocação de SRAM rápida no chip (VMEM) do TPU para reduzir paradas de memória; e escolher a melhor estratégia de particionamento (como FSDP, TP, EP) com base na escala do modelo, arquitetura e comprimento da sequência. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.