Por dentro da interrupção da AWS: como uma falha repercutiu na economia global

Em 20 de outubro, uma grande parte da Internet simplesmente… parou. Os principais sites de comércio eletrônico foram desativados. Os aplicativos bancários congelaram. Serviços de streaming armazenados em buffer no esquecimento. Para milhões, mesmo Tocar campainhas parou de funcionar. Mas como nós relatado na Dataconomy, esses sites não falharam individualmente. Eles eram dominós. O problema era a base invisível sobre a qual todos se apoiavam: Amazon Web Services (AWS). Mas poucas pessoas compreendem a verdadeira natureza destes acontecimentos. Esta interrupção foi um estudo de caso crítico na profunda – e precária – dependência da economia moderna de um punhado de fornecedores de nuvem de “hiperescala”. Revela um risco sistémico escondido dentro da “nuvem”, um termo interessante para designar o punhado de grandes empresas centralizadas que agora gerem o mundo. Vamos desconstruir essa interrupção para explorar três temas centrais: a matemática multimilionária do tempo de inatividade digital, o risco sistémico de uma Internet “demasiado grande para falir” e as estratégias que separam as empresas resilientes das vulneráveis.

1. A nova matemática do tempo de inatividade

O custo à primeira vista de uma interrupção é o mais óbvio: vendas perdidas. Mas isso é apenas a ponta de um enorme iceberg económico. O verdadeiro custo é impressionante. Para quase metade de todas as grandes empresas (48%), uma única hora de inatividade de TI custa mais US$ 1 milhão. Para 93%, acabou US$ 300.000. Este não é apenas um problema do setor tecnológico; é físico. Para um fabricante automóvel moderno, uma hora silenciosa na linha de produção, com a sua complexa logística congelada pela nuvem, pode custar US$ 2,3 milhões. Mas o verdadeiro dano está abaixo da superfície. É a perda de produtividade de toda uma força de trabalho, ociosa. É o custo multimilionário de recuperação de desviar engenheiros bem pagos da inovação para o “combate a incêndios”. E é o custo mais insidioso: a erosão da confiança. Numa pesquisa, 40% das empresas relataram que o tempo de inatividade prejudicou a reputação de sua marca– uma ferida que dura mais que qualquer solução técnica. Quando você diminui o zoom, a imagem fica ainda mais nítida. O tempo de inatividade não programado é um obstáculo à economia global. Isso esgota uma estimativa US$ 1,4 trilhão anualmente das 500 maiores empresas do mundo – um imposto silencioso equivalente a 11% da sua receita total.

2. A infraestrutura “grande demais para falir”

Então, por que o tropeço de uma empresa derruba um terço da web? Porque a Internet, apesar da sua promessa inicial de descentralização, é agora gerida por um punhado de “hipersscaladores”. Eles são os novos proprietários da web. O mercado de nuvem pública é um oligopólio funcional. Apenas três empresas – Amazon (AWS), Microsoft (Azure) e Google (GCP) – controlam um número impressionante de 68% de todo o mercado global. A Amazon é a líder indiscutível, detendo um 30-32% de participação de mercadoque é maior do que seus próximos concorrentes combinados. Quando um único fornecedor sustenta as finanças, os cuidados de saúde e os meios de comunicação globais, torna-se um risco sistêmicotal como acontece com a rede eléctrica ou com o sistema bancário global. Criámos um ponto único de falha para a economia digital. Como alertaram especialistas em O Guardião após um evento semelhante, esta dependência deixa os usuários da Internet “‘à mercê’ de poucos fornecedores.”

3. Anatomia de uma interrupção: o que acontecerealmente dá errado?

Embora seja tentador imaginar uma conspiração sombria de hackers, a grande maioria das interrupções em grande escala são autoinfligidas. Não são ataques externos, mas falhas internas em cascata. O principal culpado é deprimentemente simples: erro humano. Pesquisa do Uptime Institute indica que aproximadamente 40% das grandes interrupções são causadas por pessoas. Um estudo de caso clássico é o infame Interrupção do Facebook em 2021. O apagão global de 6 horas e 79 milhões de dólares não foi um ataque cibernético. Foi causado por um engenheiro configuração incorreta durante uma atualização de rotina em seus roteadores BGP – o “roteiro” digital da Internet. As nuvens de hiperescala são construídas com “serviços principais” – ferramentas básicas para armazenamento, bancos de dados e redes das quais todos os outros serviços dependem. Esta recente interrupção da AWS, por exemplo, foi supostamente atribuída a um Problema de DNS com DynamoDBum serviço de banco de dados crítico. Quando esse bloco “central” oscilou, desencadeou uma reação em cadeia, derrubando inúmeros serviços que dependiam dele.

Arquitetando para um mundo que falha

A primeira mudança mental para qualquer empresa moderna é parar de planejar 100% de disponibilidade. Isso não existe. O objetivo não é evitar fracasso, mas para sobreviver isto. Esta é a nova ciência da “resiliência” e tem três níveis principais:

Camada 1 – Zona de multidisponibilidade: Este é o padrão. Significa distribuir seus recursos por vários data centers na mesma cidade ou região. Ele protege você contra um desastre local, como um incêndio em um data center. Mas como esta interrupção provou, ela não protege você de uma falha de serviço regional, que derruba todas as “zonas de disponibilidade” naquela região de uma só vez.
Camada 2 – Multirregião: Isto é o que a interrupção nos ensinou que agora é necessário. Significa executar uma cópia redundante e ativa do seu aplicativo em uma região geográfica completamente diferente (por exemplo, uma nos EUA e outra na Europa). Se toda a região Leste dos EUA falhar, o tráfego será automaticamente encaminhado para a região saudável da UE. A desvantagem é, obviamente, o custo mais elevado e a complexidade técnica significativa para manter os dados sincronizados entre continentes.
Camada 3 – Multinuvem: Esta é a “opção nuclear” para a resiliência: usar dois ou mais provedores de nuvem concorrentes diferentes (por exemplo, AWS e Google Cloud). É a única defesa verdadeira contra uma falha de todo o fornecedor ou contra o risco sistêmico do problema do “oligopólio”. É fantasticamente complexo, mas é a direcção que muitas empresas de escala global estão agora a ser forçadas a considerar.

Durante uma interrupção, uma empresa tem dois incêndios para apagar: a falha técnica e o vácuo de informação. A falha em gerenciar o segundo destrói a confiança mais rapidamente do que o primeiro. Todos nós já vimos páginas de status vagas e inúteis: “Estamos investigando um problema”. Esse vácuo é imediatamente preenchido pela raiva dos clientes nas redes sociais. O melhor manual de comunicação de incidentes da categoria trata de transparência radical. A primeira prioridade, de acordo com líderes de resposta a incidentes como Atlassianoé um “única fonte de verdade”—uma página de status pública atualizada proativamente. A chave é comunicar-se em intervalos regulares e previsíveis. Como PagerDuty avisa, as atualizações devem vir a cada 30-60 minutos, mesmo que a atualização seja “nenhuma informação nova, ainda estamos trabalhando”. Isso sinaliza para uma base de clientes em pânico que a situação está sob controle. Após o incêndio ser extinto, o passo mais crítico é a “post-mortem irrepreensível.” Este é um relatório público e detalhado que explica exatamente o que deu errado, como foi corrigido e quais medidas estão sendo tomadas para garantir que isso aconteça. nunca mais acontece. Este ato de transparência é a forma mais eficaz de reconstruir a confiança.

A recente interrupção da AWS não foi uma anomalia. Foi um teste de estresse previsível do nosso mundo digital hiperconcentrado.

Os custos não são medidos em milhares, mas em trilhões. Os riscos não são apenas técnicos, mas sistémicos. As causas não são hackers obscuros, mas falhas internas em cascata que são muitas vezes humano.

Crédito da imagem em destaque