Un errore umano la causa del blackout di AWS

Il problema, afferma il provider, è stato causato da un rallentamento della procedura di recovery conseguente lo spegnimento accidentale di alcuni server

Cloud

Il blackout AWS di martedì scorso che ha interessato la regione Us-East-1 con data center localizzati nella parte settentrionale della Virginia? in buona sostanza sembra si sia trattato di un "banale" errore umano dovuto allo “spegnimento” temporaneo di una serie sbagliata di server. Come illustrato da Aws, martedì 28 febbraio il team di S3 stava effettuando il debugging di un errore che stava rallentando in modo inaspettato il sistema di fatturazione del servizio di storage sulla nuvola. Alle 9.37 del mattino, un membro autorizzato del team ha lanciato un comando per scollegare un piccolo numero di server da uno dei sottosistemi S3 utilizzati nel processo di fatturazione.

Per usare le parole di Aws, “sfortunatamente” uno dei comandi è stato inserito in modo scorretto, causando la rimozione di un numero ben più consistente di server, i quali supportavano altri due sottosistemi S3. Uno di questi, incaricato di gestire l’indice, processava i metadati e le informazioni di localizzazione di tutti gli oggetti S3 presenti nella regione Us-East-1, elaborando tutte le richieste Get, List, Put e Delete. Il secondo cluster, invece, gestiva l’allocazione di nuovo storage e si appoggiava all’infrastruttura di indicizzazione per funzionare correttamente.

“Rimuovere una porzione significativa della capacità ha richiesto un riavvio completo dei sistemi”, ha scritto Amazon Web Services nella nota. Ovviamente, durante l’inattività dei server, S3 non è riuscito a processare le richieste, bloccando di fatto anche altri servizi dipendenti dallo storage cloud di Aws, tra cui Ec2, Ebs, Lambda e, cosa ancora più importante, la stessa dashboard della piattaforma. Per questo, nei primi istanti del disservizio (e prima che Aws ne desse conferma), il cruscotto del provider non segnalava alcun problema. Per concludere, a rallentare le operazioni di ripristino è stato proprio il riavvio del sottosistema indice, che non avveniva da tempo e ne ha quindi richiesto molto più “del previsto”. Come anticipato già nella giornata di martedì dall’azienda di Seattle, l’interruzione non è stata quindi causata da attacchi hacker.

Per evitare problemi analoghi in futuro, il provider ha deciso di modificare i parametri dello strumento che serve e rimuovere capacità di storage, rallentandone la velocità di esecuzione. Inoltre, il gruppo ha aggiunto un elemento di salvaguardia per evitare che la capacità di elaborazione scenda al di sotto di un certo livello. Infine, Aws è intervenuta sulla velocità di recupero dei sottosistemi S3, teoricamente già oggi ottimizzata per “spezzettare” i servizi di storage in “celle” più piccole, su cui lavorare più agilmente. Ma, come sottolineato dall’azienda, quanto implementato non si è rivelato all’altezza di un evento così importante. Una vicenda che farà sicuramente riflettere il provider, ma che sottolinea ancora una volta come sia fondamentale adottare strategie multicloud, che permettono in casi come questo di limitare fortemente i danni.

Notizie correlate

Avaya, un portafoglio di soluzioni tutto nuovo

Commvault, più cyber resilienza con Appranix

Nutanix, la forza del multicloud anche per l'AI

Le grandi aziende europee vogliono un forte cloud locale

Nutanix: l’hybrid cloud arranca in Italia

Con Kyndryl l’ERP di Sirman arriva sul cloud di AWS

La spesa per l'IT infrastrutturale è spinta dal cloud

Il caso mondiale del Polo Strategico Nazionale all'Oracle CloudWorld

Speciali Tutti gli speciali

Speciale

L’Ecommerce B2B in azione

Speciale

Speciale Mobile World Congress 2024

Webinar

Dopo CentOS, tutto quello che serve sapere sull’evoluzione del sistema operativo enterprise

Speciale

Speciale Digitale e PA

Reportage

Red Hat Summit Connect 2023

Calendario Tutto

Mag 07

Huawei Italy Enterprise Roadshow 2024 - Roma

Mag 08

Road to NIS2 - Padova

Mag 09

IDC Future of Digital Infrastructure Forum 2024

Mag 09

Huawei Italy Enterprise Roadshow 2024 - Caserta

Mag 14

Huawei Italy Enterprise Roadshow 2024 - Aci Castello

Mag 16

Road to NIS2 - Roma

Mag 23

AWS Summit 2024 - Milano

Mag 30

Be Connected Day

Mag 30

Fortinet Security Day - Milano

Magazine Tutti i numeri

Leggi il Magazine

G11 Media Networks

ImpresaCity e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.

Un errore umano la causa del blackout di AWS

Notizie correlate

Speciali Tutti gli speciali

Calendario Tutto

Magazine Tutti i numeri

Iscriviti alla nostra newsletter

G11 Media Networks