Crescono di reputazione i layer aggiuntivi per la gestione degli switch in presenza di cluster GPU. Sono le soluzioni di gestione delle reti di AI Fabric.
Rientra nella (troppo) generica categoria delle soluzioni di network management, ma è evidente che la classificazione le va stretta. Sebbene si utilizzi l’inflazionatissimo “AI” per non perdere l’occasione di crescere di reputazione nei trend di ricerca, l’“AI network management” è qualcosa di più di una soluzione che usa l’AI per la gestione della rete aziendale.
Più corretta è la definizione di soluzione pensata per l’AI Fabric: un livello applicativo intelligente pensato per l'integrazione, la gestione, la governance e la distribuzione dei dati circolanti in rete e generati da modelli AI. Il motivo per cui non siamo nell’ambito della classica soluzione applicativa per l’ottimizzazione del traffico di rete è il nuovo contesto, governato opportunamente dalla parolina magica di cui sopra.
Siamo nel campo dell’elaborazione parallela ad alte prestazioni, in cui ci troviamo a governare hardware con GPU e CPU ad alte prestazioni che lavorano contemporaneamente. A causa della diffusione dei modelli AI, la comunicazione tra cluster GPU è insieme croce e delizia dei carichi di lavoro ad alta intensità. D’altronde, se l’architettura è parallela, la buona intercomunicazione tra i cluser diventa basilare.
È in questo contesto che entra in gioco il vecchio caro switch, utilizzato proprio per risolvere i colli di bottiglia della comunicazione e garantire un flusso di dati tra GPU senza interruzioni. E se la tecnologia RoCE (RDMA su Ethernet convergente) permetteva già a enormi quantità di dati di spostarsi in modo efficiente tra i server, per evitare blocchi e malfunzionamento di flussi su AI Fabric c’è bisogno di una soluzione applicativa specifica e più accurata.
In particolare, se gli switch aziendali sono governati dal sistema operativo open source SONiC, è tutto più semplice. SONiC nasce già con l’obiettivo di garantire priorità al traffico di dati critici ma, di nuovo, in contesti AI un ulteriore livello applicativo - come Ones di Aviz Networks giunto ora alla versione 3.0 - sembra essere necessario.
Aviz Networks, uno dei contributor più attivi del progetto SONiC, propone una soluzione totalmente agnostica, e abbastanza esclusiva, che non solo semplifica l'orchestrazione, ma garantisce anche un monitoraggio completo e una gestione proattiva delle operazioni di rete degli AI Fabric. Progettata per reti open source e integrabile in infrastrutture di rete esistenti, la Open Networking Enterprise Suite (Ones) garantisce la transizione dei dati da una GPU all’altra senza soluzione di continuità.
Aviz Networks, americana con contaminazioni indiane, è stata fondata nel 2019 e in 5 anni ha raccolto circa 31 milioni di dollari, di cui 17 a novembre 2024, grazie alla partecipazione ai round di investimento di aziende come Cisco Investments, Moment Ventures, Wistron, Accton Technology, Celestica e Qualcomm Ventures.
Recentemente Aviz ha stretto un accordo con il colosso americano della system integrator WWT e ha lanciato un programma di canale. Finora Aviz non sembra essere particolarmente interessata al mercato europeo, anzi a un qualsiasi mercato che non sia il Nord America, ma le ultime mosse potrebbero preludere a un timido tentativo di espansione. E, per come è stata creata, è facile che presto diventi preda di un qualche vendor.
Come detto, l’ambiente tecnologico è l’AI Fabric e la criticità primaria è il congestionamento dei dati. Aviz, allora, introduce la funzione PFC (Priority Flow Control). Quando viene rilevata una congestione nella coda di dati, un indicazione di pausa viene inviato al dispositivo che sta inviando i dati, segnalandogli di interrompere temporaneamente l'invio del traffico. In questo modo si impedisce la perdita di pacchetti, garantendo una trasmissione senza perdite per il traffico prioritario.
Oltre al PFC, esiste un altro livello di gestione della congestione: la notifica esplicita della congestione (ECN). Con l'ECN si definiscono le soglie del buffer che, se superate, rinviano al mittente i pacchetti di Congestion Notification (ECN-CNP), spingendolo a ridurre la velocità di trasmissione ed evitando in modo proattivo la congestione. Inoltre, è possibile configurare un “Watchdog PFC” per garantire il buon funzionamento del PFC con ripristino, tempi di rilevamento e azioni da intraprendere in caso di malfunzionamento.
Successivamente, nella fase di uscita dei dati si possono migliorare ulteriormente le prestazioni dettando le priorità al traffico, anche in condizioni di congestione. L’integrazione naturale con le funzionalità già presenti in SONiC, il sistema garantisce che il traffico con priorità più alta venga trasmesso per primo, in modo ponderato o con priorità assoluta.
Inoltre, Aviz tiene a sottolineare la facilità di impostazione delle configurazioni QOS (Quality of Service) di SONiC con poche righe di codice YAML e sollevando gli amministratori di rete dal lavoro manuale.
L'orchestrazione inizia con il mapping del traffico in classi e code appropriate, specificando i valori di mappatura per le classi di traffico, le code e i gruppi di priorità. Dopo aver specificato questi valori di mapping, si creano i profili e vengono associati alle interfacce di orchestrazione. Questa configurazione garantisce che ogni tipo di traffico venga instradato alla coda appropriata e gestito correttamente.
Una delle caratteristiche distintive di ONES 3.0, infine, è l’adeguamento all’evoluzione della rete e al cambiamento dei flussi di traffico. In questo modo si garantisce che la rete sia sempre ottimizzata per offrire le prestazioni richieste dai carichi di lavoro, in particolare di quelli vincolati ai modelli di AI.