E4 e Xinnor forniscono all'Università di Pisa uno storage avanzato, basato sul clustering di BeeGFS, per carichi di lavoro AI
L'Università di Pisa, in collaborazione con E4 Computer Engineering e Xinnor, ha implementato un'innovativa soluzione di storage ad alte prestazioni per supportare i suoi carichi di lavoro avanzati di AI. Integrando la soluzione software xiRAID di Xinnor con il file system BeeGFS, entrambi sviluppate per il calcolo ad alte prestazioni, l'Università è riuscita a soddisfare gli sfidanti requisiti dei suoi sistemi NVIDIA DGX, fondamentali per la ricerca sull'intelligenza artificiale.
I sistemi Nvidia DGX, progettati per attività di AI all'avanguardia, pongono secondo le imprese che hanno partecipato al progetto requisiti sfidanti in ambito storage, tra cui elevate richieste di banda, bassa latenza e supporto di dataset massicci con pattern di I/O casuali. Per vincere queste sfide, l'Università di Pisa ha collaborato con E4 e Xinnor per realizzare un sistema di storage di nuova generazione. La soluzione comprende due nodi di storage, ciascuno alimentato da xiRAID di Xinnor in configurazione RAID 6, che garantiscono un ambiente a prova di guasti per operazioni di AI su larga scala.
“La collaborazione tra Xinnor, E4 e l'Università di Pisa è un esempio di innovazione in azione”, ha dichiarato Davide Villa, Chief Revenue Officer di Xinnor. “Integrando xiRAID, abbiamo affrontato le complesse sfide di storage dell'AI dell'università, fornendo una soluzione tanto affidabile quanto performante”.
Per la soluzione vengono utilizzati due server identici con la stessa configurazione hardware e software. I target dei metadati sono in mirroring, mentre i target di storage formano due pool di storage separati. Ciò consente un livello più elevato di ridondanza, riducendo il dominio dei guasti, e permette anche l’isolamento del carico di lavoro, poiché i client che si collegano sono “solo” due DGX. Ogni nodo client accede a un pool di storage diverso formato da target di storage appartenenti a uno solo dei nodi di storage Beegfs.
Con il server di gestione in esecuzione su un’infrastruttura hypervisor esterna, se uno dei due nodi si guasta, le operazioni possono continuare sul punto di montaggio servito dal pool di storage appartenente al nodo che rimane operativo. Nel caso in cui un client mantenga la connessione attraverso il server dei metadati ospitato sul nodo inattivo, è sufficiente riavviare il servizio beegfs-client per ristabilire una nuova connessione.
L'infrastruttura implementata ha offerto velocità di lettura di 29,2 GB/s e velocità di scrittura di 25,8 GB/s in test che hanno coinvolto fino a 128 processi per nodo. Queste solide prestazioni assicurano all'Università di Pisa la possibilità di gestire in modo efficiente le attività di intelligenza artificiale ad alta intensità di dati, mantenendo così il suo vantaggio competitivo in ricerca e sviluppo.
Maurizio Davini, Chief Technology Officer dell'Università di Pisa, ha sottolineato l'impatto del nuovo sistema: “L'integrazione di xiRAID con BeeGFS ha trasformato la nostra infrastruttura di storage, permettendoci di spingerci oltre i confini della ricerca sull'intelligenza artificiale. Le prestazioni e l'affidabilità del sistema hanno superato le nostre aspettative, consentendo ai nostri ricercatori di concentrarsi sull'innovazione senza essere ostacolati da limitazioni dello storage. La collaborazione con E4 e Xinnor è stata fondamentale per mantenere la nostra leadership nell’ambito della ricerca computazionale”.
In qualità di storico partner dell'Università di Pisa, E4 Computer Engineering ha svolto un ruolo fondamentale nella progettazione e nell'implementazione della soluzione. Grazie alla combinazione tra la consolidata esperienza di E4 nell'HPC e nell'AI con l'avanzata tecnologia di storage di Xinnor, il progetto ha raggiunto sia l'eccellenza delle prestazioni sia l'affidabilità operativa. “Questo progetto evidenzia l'importanza delle soluzioni studiate e realizzate su misura”, ha dichiarato Cosimo Damiano Gianfreda, CEO di E4. “La sinergia tra xiRAID di Xinnor e BeeGFS, insieme agli strumenti di monitoraggio personalizzati sviluppati da E4, garantisce all'Università di Pisa un'infrastruttura di storage a prova di futuro, in grado di soddisfare le sue esigenze in continua evoluzione”.