quarta-feira , 12 de novembro de 2025 @ 17:34

todo tempo 3 970x250px
amazon
Bruno Peres/Agência Brasil)

Como um bug “apagou” o banco de dados da nuvem da Amazon e parou tudo

A Amazon detalhou nesta sexta-feira (24) o que causou a pane no provedor de nuvem Amazon Web Service (AWS) que derrubou dezenas de serviços e sites no mundo todo nos dias 19 e 20 de outubro. Em uma longa autópsia técnica, tudo começou com um bug e terminou num efeito dominó catastrófico.

Problema central foi no Amazon DynamoDB, um serviço de banco de dados exclusivo da AWS. Segundo a análise técnica, um sistema automatizado que gerenciava os registros de DNS do DynamoDB sofreu um bug raro conhecido como “condição de corrida”, onde dois processos tentam fazer coisas ao mesmo tempo e acabam se atrapalhando.

Para o sistema, o banco de dados simplesmente deixou de existir. Como consequência desse bug, o sistema de automação apagou o registro DNS principal do DynamoDB, fazendo com que o aplicativo não conseguisse acessar o banco de dados. A Amazon explicou que uma equipe técnica precisou intervir para reencontrar o banco.

O efeito cascata começou quando ninguém conseguiu encontrar o principal banco de dados da Amazon. Isso fez com que todos os serviços que dependiam dele parassem imediatamente, como foi o que aconteceu com o sistema que gerenciava os servidores. Quando o endereço foi corrigido, esse sistema ficou tão sobrecarregado tentando se recuperar que “atolou”. Isso gerou o próximo problema: os poucos servidores em funcionamento ficaram sem conexão de rede. E os balanceadores de carga (que direcionam o tráfego dos clientes), quando viram esses servidores “sem rede”, pensaram que estavam quebrados e falharam também, derrubando de vez os aplicativos dos clientes.

A falha inicial do DynamoDB quebrou praticamente tudo. Serviços como o de telefonia em nuvem (Amazon Connect), análise de dados (Redshift), execução de código (Kubernetes), e até o sistema que gerencia o login da Amazon, pararam de funcionar. Clientes não conseguiram acessar contas, receber ligações e processar consultas, por exemplo.

A Amazon desativou a automação de DNS que deu origem à falha. Segundo a empresa, o robô permanecerá desligado até que o bug seja corrigido e mais proteções sejam adicionadas.

Serviços que falharam receberão melhorias. Serão adicionados “freios” nos servidores EC2 e nos balanceadores de carga (NLB), para que eles não entrem em colapso tão facilmente se algo parecido acontecer de novo. (Folhapress)

todo tempo 1 970x150px
todo tempo 1 970x250px