A mudança da Coinbase para operações lideradas por IA não está indo muito bem

Coinbase (Nasdaq: COIN) mais uma vez mostrou aos traders de criptomoedas como hardware em nuvem lento pode prejudicar até uma troca rápida. Parece que a estratégia de pivô de operações alimentadas por IA da empresa pode ter sido seu pior movimento até agora.

Na sexta-feira, a empresa informou que uma falha de resfriamento dentro da Amazon Web Services (Nasdaq: AMZN), ajudou a desencadear uma interrupção de várias horas que afetou negociações, acesso à troca e atualizações de saldo em toda a sua plataforma.

O problema começou por volta das 23h50 UTC de 7 de maio, quando monitores internos detectaram uma propagação generalizada de falhas de cota dentro dos sistemas da empresa.

Naquele momento, vários incidentes Sev1 foram criados pelos engenheiros, e os clientes já estavam impactados em termos de serviços como negociação spot, Coinbase Prime, Internacional, derivativos, Varejo, Avançado e trocas Institucionais.

Brian Armstrong, que é o CEO da Coinbase, escreveu no X que sua empresa “experimentou uma interrupção” e que tal ocorrência foi “nunca aceitável”. Segundo ele, a razão por trás disso foi “um superaquecimento em uma sala de um data center da AWS devido à falha de vários chillers”.

De acordo com Brian, a empresa garante que todos os seus serviços são projetados de forma que não fiquem offline caso uma zona de disponibilidade da AWS falhe. A maioria dos serviços é estruturada dessa forma, exceto pela troca, que usa uma infraestrutura diferente devido às suas altas demandas de latência.

Coinbase culpa chillers da AWS que falharam enquanto sistemas de cotação começam a quebrar antes da meia-noite UTC

Foi reportado pelo Cryptopolitan anteriormente que a Coinbase planeja demitir 700 funcionários, o que constitui aproximadamente 14% da força de trabalho total. E isso é feito com a intenção de substituir processos manuais por IA.

Rob Witoff, que lidera a Plataforma da Coinbase, forneceu detalhes técnicos do assunto. Segundo ele, a interrupção durou bastante tempo e afetou “negociação, acesso à troca e atualizações de saldo”.

O aviso inicial ocorreu por volta das 23h50 UTC devido a falhas de cotação originadas dos sistemas internos. Uma análise imediata de Sev1 foi realizada. Segundo Rob, a causa desse desafio foi um “evento térmico” em uma pequena porcentagem de racks em uma das instalações da AWS us-east-1.

Essa estrutura para a infraestrutura da troca foi útil. Rob disse que a Coinbase mantém sua infraestrutura de troca em uma zona de disponibilidade, pois a indústria valoriza a velocidade.

Além disso, a empresa possui uma cópia de backup distribuída dessa infraestrutura de troca, em caso de cenários como esse. Mas a falha de uma parte da infraestrutura da troca no momento não permaneceu dentro de seus limites, prolongando o processo de correção da situação.

Duas componentes falharam. Houve uma falha no hardware abaixo do motor de correspondência. Portanto, antes de qualquer coisa, foi necessário realizar operações de recuperação e failover.

Além disso, o cluster Kafka distribuído, responsável por compartilhar informações por todos os sistemas da organização, também caiu. Foi necessário recuperar as partições do Kafka em um novo hardware, contendo TiBs de informações.

Engenheiros reconstruíram o quórum e trouxeram os mercados da Coinbase de volta por meio de modos de cancelamento único e leilão

O motor de correspondência foi responsável pela maior paralisação nas negociações. O motor de correspondência processa ordens e mantém livros de ordens. O sistema funciona em um cluster distribuído e requer quórum antes de escolher um líder e realizar negociações de forma segura.

Como nem todos os nós permaneceram saudáveis devido às restrições no data center durante a interrupção, o quórum não pôde ser alcançado, impedindo atividades de negociação nas trocas Varejo, Avançado e Institucional.

Rob mencionou que as equipes de suporte em plantão e de engenharia tiveram que executar os procedimentos de recuperação de desastre da empresa, estabelecer o quórum e avaliar a saúde do sistema sob condições difíceis de infraestrutura.

Segundo ele, a equipe teve que desenvolver, testar, implantar e validar uma solução enquanto gerenciava a interrupção mais ampla. O Kafka teria exigido uma recuperação manual extensa porque sua arquitetura particionada gerencia milhares de terabytes diariamente.

Houve alguns problemas com fluxos de saldo atrasados porque o Kafka estava defasado. Rob afirmou que esses problemas com saldos desapareceram após a replicação se sincronizar. Segundo a Coinbase, nenhum dado foi perdido.

Quando o motor de correspondência voltou a funcionar, os mercados não foram reativados simultaneamente. Primeiro, a Coinbase mudou todos os produtos para modo de cancelamento único, verificou os status dos produtos, mudou todos os mercados para modo de leilão e, por fim, habilitou as negociações na Coinbase Exchange.

Além disso, Rob enfatizou que os clientes não devem ficar temporariamente bloqueados de suas contas. A Coinbase garantiu a todos que a empresa fornecerá uma explicação detalhada sobre esse incidente dentro de algumas semanas.

No entanto, Josh Ellithorpe contestou os rumores após ler a postagem de Rob no Twitter. Como ele colocou, “ninguém codificou algo que falhou. Um ‘não engenheiro’ não enviou código de produção e derrubou o motor de negociação. Não foi intencional. Não foi porque a Coinbase deixou de projetar um sistema de failover. Coisas acontecem em escala, não deixe os quarterbacks de poltrona contarem histórias altas para vocês.”

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar