Facebook "scompare" da Internet per un errore di configurazione del routing BGP. Avviso ai network manager, ma anche a tutti noi.
A seconda del vostro punto di vista, lunedì 4 ottobre può essere stato un giorno quasi digitalmente perfetto oppure un inferno. Per diverse ore
tutta la rete di Facebook e delle sue altre "property", quindi anche Instagram e WhatsApp,
è risultata irraggiungibile. Ma, secondo quanto è stato riportato anche
da Facebook stessa, il disservizio ha colpito anche alcune componenti dell'infrastruttura di Facebook che c'entrano poco con Internet, come il sistema per il riconoscimento dei badge o le piattaforme interne di collaborazione. Niente attacchi di hacker ostili, però. Si è trattato semplicemente di
un errore di riconfigurazione della rete.
In effetti l'ipotesi era circolata sin dalle prime fasi dell'accaduto, semplicemente
perché in questi casi è la più ovvia. Spesso intere reti "scompaiono" dalla mappa di Internet per errori nella configurazione dei sistemi DNS. In questo caso specifico, però, si è intuito rapidamente che la causa più probabile era una
malfunzionamento nella configurazione del routing BGP. Facebook parla genericamente di "modifiche alla configurazione dei router di backbone che coordinano il traffico tra i nostri data center". Il che rimanda indirettamente proprio alle configurazioni BGP.
Internet è progettata sin dai suoi albori per la massima resilienza, da decenni prima che "resilienza" diventasse una parola di moda. Opera come una rete di reti, in modo che se una di queste reti cade, le altre non ne vengono impattate. In estrema sintesi e semplificando molto, il
Border Gateway Protocol (BGP, appunto) è il protocollo attraverso cui una rete comunica alle altre reti
i percorsi possibili da seguire per essere raggiunta. Se consideriamo ogni rete come un'isola, in un arcipelago Internet di isole connesse da ponti, ciascuna isola usa il BGP per indicare quali ponti seguire per raggiungerla. Una mappa, in sintesi. E
se una mappa è sbagliata, la destinazione non si può raggiungere.
È normale che la "mappa BGP"
cambi costantemente, perché Internet è una rete di reti in continua evoluzione. Così spesso una rete complessa - e quella di Facebook certamente lo è - deve comunicare dove si trova (digitalmente) e come raggiungerla. A quanto
racconta Cloudflare, prima di scomparire la rete di Facebook ha inviato su Internet
una massa rilevante di aggiornamenti BGP. In condizioni normali, con questi aggiornamenti Facebook indica che ha in qualche modo cambiato l'organizzazione delle sue reti e indica le nuove strade migliori per raggiungerle. Stavolta qualcosa nella configurazione è andato storto ed è
come se la rete di Facebook si fosse autoeliminata da Internet.Le altre reti - in gergo tecnico meglio dire Autonomous System - hanno recepito fedelmente queste indicazioni e nella gestione del loro traffico in uscita
hanno trattato la rete di Facebook come se non ci fosse. Per questo qualsiasi collegamento ai domini che fanno capo a Facebook è andata a sbattere contro un metaforico muro digitale. Tra l'altro, la scomparsa di WhatsApp in particolare ha generato un picco di
traffico verso le altre piattaforme di messaging, come Signal. E tutti si sono riversati su Twitter per capire cosa stesse succedendo e per usarlo come social "di riserva".
La fragilità digitale
La dinamica operativa dell'incidente di Facebook non la sapremo mai. Ma tutto indica che l'errore sia legato a una
configurazione non validata. Recuperare un errore di configurazione in routing non è certo immediato, ma il lungo tempo necessario per risolvere l'outage di Facebook indica che probabilmente - è una ipotesi, non di più - non erano operativi sistemi automatici
né per validare il cambio della configurazione, né per risolvere eventuali errori. Un bello spot per i sostenitori non solo dell'automazione nelle operations in generale ma
di AIops in particolare. Un sistema basato su machine learning avrebbe lasciato passare una configurazione sbagliata? Difficile dirlo, secondo i fautori dell'intelligenza artificiale nella gestione IT certamente no.
Il caso Facebook è anche uno stimolo - l'ennesimo - a ricordare che i servizi digitali, sempre più critici, si basano su infrastrutture
che all'atto pratico possono smettere di funzionare in un attimo. Basta che qualcuno faccia un clic di troppo, sia pure con le migliori intenzioni e
in perfetta buona fede. Internet in sé è affidabile, ma le singole infrastrutture delle aziende a cui ci affidiamo non lo sono altrettanto. E non ci vogliono attacchi terroristici o cyber warfare - due temi comunque da tenere presenti - per mettere offline un gigante come Facebook. Figuriamoci gli altri. Meglio
pensarci prima, no?