Amazon a declarat că o defectare majoră a sistemului de DNS a fost cauza unei imense pană de curent a AWS (Amazon Web Services) care a afectat numeroase site-uri web și servicii online luni.
Conform raportului BleepinComputer din această săptămână, acest incident a afectat un centru de date critic din Northern Virginia în regiunea US-EAST-1, afectând utilizatorii din întreaga lume, inclusiv Statele Unite și Europa, timp de peste 14 ore.
Potrivit unei post-mortem publicate joi, o condiție de cursă a cauzat o defectare majoră a DNS-ului în infrastructura Amazon DynamoDB, în mod specific în sistemul său de gestionare a DNS-ului care controlează modul în care cererile utilizatorilor sunt rutate către servere sănătoase, ceea ce a condus la ștergerea accidentală a tuturor adreselor IP pentru punctul final regional al serviciului de bază de date.
„Cauza principală a acestei probleme a fost o condiție de cursă latentă în sistemul de gestionare a DNS-ului DynamoDB care a condus la o înregistrare DNS goală incorectă pentru punctul final regional al serviciului (dynamodb.us-east-1.amazonaws.com) pe care automatizarea a eșuat să o repare,” a declarat Amazon.
„Când această problemă a apărut la 11:48 PM PDT, toate sistemele care trebuiau să se conecteze la serviciul DynamoDB în regiunea N. Virginia (us-east-1) prin punctul final public au început imediat să experimenteze eșecuri de DNS și au eșuat să se conecteze la DynamoDB. Acest lucru includea traficul clienților precum și traficul de la serviciile interne AWS care depind de DynamoDB.”
Defectarea DynamoDB a declanșat probleme cascador în infrastructura AWS, lăsând sistemul de DNS al DynamoDB într-o stare inconsistentă pe care recuperarea automată nu a putut-o repara, necesitând intervenție manuală din partea operatorilor.
Amazon a dezactivat de atunci automatizarea defectuoasă a DNS-ului la nivel global și a luat măsuri pentru a evita probleme similare, inclusiv adăugarea de verificări de protecție, îmbunătățirea mecanismelor de throttling și construirea unei suite de teste suplimentare pentru a ajuta la detectarea unor bug-uri similare în viitor.
„Ne cerem scuze pentru impactul pe care acest eveniment l-a avut asupra clienților noștri. Deși avem un istoric solid de operare a serviciilor noastre cu cele mai ridicate niveluri de disponibilitate, știm cât de critice sunt serviciile noastre pentru clienții noștri, aplicațiile lor și utilizatorii finali și afacerile lor,” a adăugat Amazon.
„Știm că acest eveniment a afectat mulți clienți în moduri semnificative. Vom face tot ce ne stă în putință pentru a învăța din acest eveniment și pentru a folosi aceste învățăminte pentru a îmbunătăți și mai mult disponibilitatea noastră.”
46% dintre mediile de lucru au avut parole sparte, aproape dublându-se față de 25% anul trecut.
Obțineți acum Raportul Picus Blue 2025 pentru o privire cuprinzătoare asupra altor constatări privind tendințele de prevenire, detectare și exfiltrare a datelor.
Ce a dus la căderea AWS care a afectat Amazon, Prime Video, Fortnite, Perplexity și altele
Amazon perturbă hackerii ruși APT29 care vizează Microsoft 365
Serviciul privat de DNS DNS0.EU se închide din cauza problemelor de sustenabilitate
Microsoft rezolvă problemele de căutare și eșecurile Outlook pe web
YouTube este indisponibil la nivel mondial cu eroare de redare

Leave a Reply