O que a enorme interrupção da AWS revela sobre a Internet

Uma enorme nuvem interrupção decorrente de Serviços Web da Amazon’ A principal região US-EAST-1, seu centro no norte da Virgínia, perto do Capitólio dos EUA, causou interrupções generalizadas de sites e plataformas em todo o mundo na manhã de segunda-feira. A principal plataforma de comércio eletrônico da Amazon e outras propriedades, incluindo Tocar campainhas e o Assistente inteligente Alexasofreu interrupções e interrupções ao longo da manhã, assim como a plataforma de comunicação da Meta WhatsApp, AAIP da Opic, Venmo do PayPal plataforma de pagamento, vários serviços web da Epic Games, vários sites do governo britânico e muitos outros.

As interrupções resultaram das interfaces de programação de aplicativos de banco de dados DynamoDB da Amazon no US-EAST-1, e a AWS disse em atualizações de status que o problema estava especificamente relacionado a problemas de resolução de DNS. O “sistema de nomes de domínio” é um serviço fundamental da Internet que atua essencialmente como uma pesquisa automática na lista telefônica para traduzir URLs da web como www.wired.com em endereços IP de servidores numéricos para que os navegadores da web mostrem aos usuários o conteúdo correto. Problemas de resolução de DNS ocorrem quando os servidores DNS não conectam esses pontos com precisão e, para manter a analogia da lista telefônica, fornecem os números errados para um determinado nome ou vice-versa.

“Com base em nossa investigação, o problema parece estar relacionado à resolução de DNS do endpoint da API DynamoDB em US-EAST-1”, escreveu a AWS em atualizações de status na segunda-feira. Pouco depois, a empresa acrescentou: “Se você ainda estiver enfrentando problemas para resolver os endpoints de serviço DynamoDB no US-EAST-1, recomendamos limpar seus caches DNS”.

Um porta-voz da AWS não respondeu imediatamente quando questionado sobre detalhes sobre a natureza da falha. Problemas de resolução de DNS pode ser malicioso– conhecido como Sequestro de DNS– mas não há indicação de que as interrupções da AWS na segunda-feira tenham sido nefastas.

“Quando o sistema não conseguia resolver corretamente a qual servidor se conectar, falhas em cascata derrubaram serviços na Internet”, diz Davi Ottenheimer, gerente de conformidade e operações de segurança de longa data e vice-presidente da empresa de infraestrutura de dados Inrupt. “A interrupção atual da AWS é um problema clássico de disponibilidade e precisamos começar a vê-la mais como uma falha na integridade dos dados.”

Os problemas começaram por volta das 3h ET. Às 5h22, a AWS havia aplicado “mitigações iniciais” que estavam começando a entrar em vigor. Às 6h35, a Amazon disse que havia resolvido totalmente os problemas técnicos subjacentes, mas que “alguns serviços terão um acúmulo de trabalho para resolver, o que pode levar mais tempo para ser totalmente processado”.

AWS sofreu outros interrupções em grande escalaincluindo um incidente grave em 2023. A dependência de serviços centrais de nuvem de gigantes como AWS, Microsoft Azure e Google Cloud Services melhorou, de muitas maneiras, a segurança cibernética e a estabilidade em todo o mundo, criando uma linha de base de proteções e práticas recomendadas para todos os clientes. Mas esta padronização traz consigo grandes compensações, porque as plataformas tornam-se um ponto único de falha para grandes áreas de serviços críticos.

“As falhas são cada vez mais atribuídas à integridade”, diz Ottenheimer. “Dados corrompidos, falha na validação ou, neste caso, resolução de nomes quebrada que envenenou todas as dependências downstream. Até que entendamos e protejamos melhor a integridade, nosso foco total no tempo de atividade é uma ilusão.”

Source link