De uitval van Microsoft Azure laat de harde realiteit van cloudstoringen zien

Het Azure-cloudplatform van Microsoft , de veelgebruikte 365-diensten , Xbox en Minecraft kampten woensdag rond het middaguur Eastern Time met storingen, wat volgens Microsoft het gevolg was van "een onbedoelde configuratiewijziging". Het incident – de tweede grote storing bij een cloudprovider in minder dan twee weken – onderstreept de instabiliteit van een internet dat grotendeels is gebouwd op infrastructuur die wordt beheerd door een handvol techgiganten.
De problemen van Microsoft kwamen specifiek voort uit Azure's Front Door content delivery network en kwamen slechts enkele uren voor de geplande winstaankondiging aan het licht. De website van het bedrijf, inclusief de pagina met investeerdersrelaties, was woensdagmiddag nog steeds niet beschikbaar, en ook de Azure-statuspagina waar Microsoft updates plaatst, ondervond af en toe problemen.
Microsoft beschreef woensdag in statusupdates dat het een proces doorliep waarbij het sequentieel recente versies van zijn omgeving terugdraaide totdat het de "laatste bekende goede" configuratie kon identificeren. Om 15:01 uur ET meldde het bedrijf dat het deze stabiele configuratie had geïdentificeerd en gepusht en dat "klanten mogelijk de eerste tekenen van herstel beginnen te zien. We zijn momenteel bezig met het herstellen van knooppunten en het routeren van verkeer via gezonde knooppunten."
Een woordvoerder van Microsoft zei in een verklaring: "We werken aan een oplossing voor een probleem met Azure Front Door dat de beschikbaarheid van sommige services beïnvloedt. Klanten moeten hun Service Health Alerts blijven controleren." Het bedrijf reageerde niet direct op vragen van WIRED over de aard van de configuratiewijziging die de storing veroorzaakte.
De storing vond niet alleen plaats op de dag van de winstcijfers van Microsoft, maar ook negen dagen nadat Azure-concurrent Amazon Web Services te maken kreeg met een enorme storing die websites en diensten wereldwijd trof . Grote cloudproviders, vaak "hyperscalers" genoemd, standaardiseren en verbeteren vaak de basisbeveiliging en betrouwbaarheid voor hun klanten, maar problemen en storingen kunnen ertoe leiden dat ze single points of failure worden voor grote groepen kritieke digitale diensten.
"Zelfs de pagina met de uitvalstatus van Azure is offline", zegt Davi Ottenheimer, al jarenlang manager beveiligingsoperaties en compliance en vicepresident bij data-infrastructuurbedrijf Inrupt. "Nog een fout in de configuratiewijziging – we leven nu meer dan ooit in een tijdperk van integriteitsschendingen."
Azure blokkeerde de configuratiewijzigingen van klanten in hun instances terwijl er werd gewerkt aan een oplossing voor het probleem. Het bedrijf meldde in een statusupdate om 15:22 uur ET dat het verwacht dat de situatie uiterlijk om 19:20 uur ET "volledig is verholpen".
"Organisaties denken misschien dat ze beschermd zijn door hun keuze voor een cloudprovider, maar de afhankelijkheden zijn groter", zegt Munish Walther-Puri, adjunct-docent bij IANS Research en voormalig directeur cyberrisico's voor de stad New York. "Wanneer belangrijke partners afhankelijk zijn van andere hyperscalers, neemt de blootstelling toe. Nu AI de volgende laag van kritieke infrastructuur wordt, tonen deze uitval de kwetsbaarheid van onze digitale backbone aan."
wired


