Recentemente, o novo queridinho dos chips de IA que submitou IPO, Cerebras, conquistou o Vale do Silício.


Seu chip, em cenários de modelos pequenos, pode atingir uma velocidade de inferência até 20 vezes maior que a H100; enquanto modelos de escala ultra grande (como 400 bilhões de parâmetros), a velocidade de resposta do sistema Cerebras CS-3 para um único usuário é aproximadamente 2,4 vezes maior que a B200.
Então, como exatamente a Cerebras conseguiu isso?
Ela se tornará uma ameaça à Nvidia?
Devemos começar pela essência da evolução do poder de computação.
A evolução do poder de IA está mudando de “poder de computação em si” para “comunicação e estrutura do sistema”.
Nesse caminho de evolução, a Cerebras Systems oferece uma resposta completamente diferente: não otimizar a distribuição, mas eliminar ao máximo a necessidade de distribuição.
I. Duas rotas: eliminar comunicação vs otimizar comunicação
Atualmente, a essência do poder de IA se divide em duas filosofias arquitetônicas: uma representada pela Nvidia:
Múltiplos chips (GPU), interconexão de alta velocidade (NVLink / CPO), escalonamento horizontal (scale-out)
Outra é a rota da Cerebras: alcançar o limite com um único chip (wafer-scale)
Rede interna no chip substitui comunicação entre nós, escalonamento vertical (scale-up)
A principal diferença é: uma resolve “como conectar mais chips”, a outra resolve “como não precisar conectar”.
II. Por que essa abordagem só agora se tornou viável
Wafer-scale não é um conceito novo; nos anos 80, alguém tentou, mas fracassou na comercialização nos anos 90.
Razões:
Taxa de fabricação insuficiente
Ausência de mecanismos de tolerância a falhas
Software incapaz de suportar
A indústria, portanto, formou um consenso: die pequeno + alta taxa de sucesso + distribuição.
A inovação da Cerebras reside em três fatores que se concretizaram simultaneamente:
1) Engenharia de mecanismos de tolerância a falhas
2) Rede no chip madura
3) Compatibilidade com cargas de trabalho de IA (alta paralelização, forte sincronismo, comunicação dominante)
A mudança essencial é: de “hardware perfeito” para “sistema tolerante a falhas”.
III. Comparação de desempenho: limite de ponto único vs expansão do sistema
No nível de comunicação, as duas rotas têm vantagens e desvantagens muito claras:
1) Comunicação interna no chip
Cerebras: totalmente intra-chip → menor latência, menor consumo de energia
CPO: ainda há conversão óptico-eletrônica → eficiência de ponto único: Cerebras é melhor
2) Expansão do sistema
Cerebras: uma vez que ultrapassa o chip → volta ao problema de comunicação
CPO: largura de banda pode ser expandida de forma sustentável → capacidade do sistema: CPO é melhor
3) Estrutura de consumo de energia
Cerebras: consumo de energia extremamente alto por máquina, mas comunicação muito eficiente
GPU+CPO: consumo de energia controlado por ponto, eficiência do sistema mais equilibrada
A conclusão é clara:
Cerebras vence no “limite de máquina única”,
CPO vence na “escala do sistema”.
IV. Cenários de aplicação: quem deve usar Cerebras
Os critérios de decisão podem ser simplificados em três perguntas:
1) Comunicação é o gargalo?
2) A tarefa pode ser centralizada?
3) A estrutura é regular?
Portanto, é altamente adequado para treinamento de modelos grandes (modelos densos), contextos de longo alcance, e parte de HPC (PDE, fluidos, etc.)
Essas tarefas compartilham: forte acoplamento + alta sincronização + alta largura de banda.
Algumas aplicações também incluem inferência de modelos grandes (com baixa concorrência), cálculo de grafos (quando a estrutura é complexa, a vantagem diminui).
Não é adequado para CPU (cálculo geral), inferência de alta concorrência, chips móveis/edge, sistemas em tempo real.
As características desses sistemas são: estruturas irregulares / alta concorrência / baixa latência.
V. Será que se tornará a tendência dominante?
Embora a Cerebras seja extremamente forte em cenários específicos, ela não se tornará a principal via, pelos motivos:
1) Restrições físicas: densidade de potência; latência de sinal → mecanismos de tolerância a falhas não resolvem esses problemas
2) Economia: die menor com maior taxa de sucesso; chiplet mais flexível
3) Caminho da indústria: TSMC e outros focam em modularidade, reutilização por múltiplos clientes, não em monólitos ultra grandes
4) Mudanças na demanda: inferência representa uma proporção muito maior que treinamento; multitarefa e alta concorrência se tornam a norma
VI. O significado da Cerebras
Ao invés de a dimensão wafer-scale ser uma tendência importante, é mais preciso dizer que o design tolerante a falhas será amplamente adotado como filosofia.
No futuro, podem surgir tolerâncias a falhas em nível de chiplet, com encapsulamento de nível intermediário.
A mudança central é que o hardware individual não precisa mais ser perfeito; o sistema assume a responsabilidade de compensar.
Voltando à questão inicial: a Cerebras se tornará o “assassino” da Nvidia?
A resposta já está bastante clara.
Ela realmente atingiu uma fraqueza do sistema GPU — a comunicação.
Mas a escolha da indústria não é entre um ou outro, e sim a adoção de múltiplas inovações tecnológicas simultaneamente: conexões mais fortes, menor consumo de energia na comunicação, maior eficiência em nível de sistema.
Portanto, uma avaliação mais precisa é que a Cerebras não é o “assassino” da Nvidia, mas uma prática recomendada que Nvidia e todas as demais empresas de chips podem aprender.
Aviso: Eu possuo os ativos mencionados neste texto; minhas opiniões podem ser tendenciosas.
Não é uma recomendação de investimento.
Risco de investimento elevado. Entre com extrema cautela.
(Foto: um chip Cerebras)
Ver original
post-image
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar