All Rights ReservedView Non-AMP Version
Preprod IT Forum
  • Homepage
  • Plataformas
Notícias

Google explica falha global no Google Cloud

Imagem: Shutterstock

Depois de um apagão global que deixou fora do ar serviços como Spotify, Discord, Cloudflare e até ferramentas do próprio Google, como Gmail, Drive e Docs, a big tech explicou o que aconteceu. E, como destacou a TechRadar, o motivo é, no mínimo, constrangedor para uma gigante da nuvem.

De acordo com o relatório divulgado pela empresa, o problema começou com uma atualização no Service Control, sistema responsável por gerenciar políticas e cotas de uso das APIs do Google Cloud. A mudança introduziu um erro de código que não tinha os devidos controles para tratar falhas e teria sido implementada sem qualquer proteção de feature flag – mecanismo que permite ativar ou desativar funcionalidades rapidamente em caso de erro.

As melhores notícias de tecnologia B2B
Acompanhe todas as novidades diretamente na sua caixa de entrada

Leia mais: Impacto ambiental desafia data centers na ‘era da IA’

O resultado foi um efeito dominó que espalhou erros 503 (serviço indisponível) globalmente, não só dentro do próprio Google Cloud, mas também em qualquer serviço que dependa das APIs da empresa, como foi o caso do Spotify, que hoje soma mais de 678 milhões de usuários no mundo, além de partes da infraestrutura da Cloudflare e do Discord.

Resposta rápida, mas impacto pesado

O Google afirma que seu time de engenharia de confiabilidade (SRE) começou a atuar no problema apenas dois minutos após o início da pane, e identificou a causa raiz em 10 minutos. Segundo o relatório, o famoso “botão vermelho”, que desativa rapidamente uma rota de serviço, estava pronto para ser acionado 25 minutos após o início da falha e foi totalmente implementado em 40 minutos.

Ainda assim, o impacto foi significativo. Enquanto regiões menores se recuperaram relativamente rápido, data centers maiores, como o us-central-1 (um dos principais dos Estados Unidos), ficaram fora do ar por cerca de duas horas e 40 minutos, como reportou a TechRadar.

E agora?

No primeiro comunicado, emitido ainda no dia da falha, o Google se limitou a dizer que precisava “fazer melhor”. No relatório mais detalhado, a empresa prometeu uma série de medidas para evitar que algo semelhante volte a acontecer.

Entre elas melhorias nos testes e na análise de código antes da implantação; revisão na arquitetura do Service Control, tornando-o mais modular e menos propenso a gerar efeitos cascata; e reforço na comunicação externa, para garantir que clientes sejam informados com mais rapidez e clareza, inclusive mantendo os canais de comunicação on-line, mesmo durante apagões.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Next Nvidia retira China de suas projeções de receita e lucro »
Previous « Agentes guardiões terão até 15% do mercado de IA agêntica até 2030
Share
Published by
Isabella Winckler
Tags: apagãoCloudflareDiscordfalhas no sistemaGoogleGoogle CloudService ControlSpotify
12 meses ago

    Related Post

  • Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais
  • Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati
  • CBYK nomeia Maurício Matsuda como novo CEO

Recent Posts

  • Notícias

83% dos CIOs já adiaram projetos estratégicos por restrições de orçamento

A pressão por controle de custos vem alterando a dinâmica das áreas de tecnologia nas…

6 dias ago
  • Estudos

Fintechs brasileiras captam US$ 2,77 bi em 2025 e entram em nova fase de maturidade

O mercado brasileiro de fintechs passou por uma transformação no perfil dos investimentos em 2025.…

6 dias ago
  • Notícias

Sioux aposta em IA e dados para nova fase de experiências digitais e expande atuação para a Europa

O avanço da inteligência artificial e o uso estratégico de dados vêm transformando a forma…

6 dias ago
  • Artigos

Qual é o risco do desenvolvimento de software com IA?

Por Ramon Ribeiro Quase metade do código produzido por assistentes de inteligência artificial contém vulnerabilidades…

6 dias ago
  • Notícias

Se o Brasil não organizar seus dados culturais, outro fará isso por nós, alerta Jorge Brivilati

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem…

6 dias ago
  • Notícias

Novos executivos da semana: Uncover, Tech for Humans, Diebold Nixdorf, Unico e mais

O IT Forum apresenta, semanalmente, os novos executivos e os principais anúncios de contratações, promoções e mudanças…

6 dias ago
All Rights ReservedView Non-AMP Version
  • L