Per gli ambienti AI ci vuole un nuovo network management

Crescono di reputazione i layer aggiuntivi per la gestione degli switch in presenza di cluster GPU. Sono le soluzioni di gestione delle reti di AI Fabric.

Tecnologie

Rientra nella (troppo) generica categoria delle soluzioni di network management, ma è evidente che la classificazione le va stretta. Sebbene si utilizzi l’inflazionatissimo “AI” per non perdere l’occasione di crescere di reputazione nei trend di ricerca, l’“AI network management” è qualcosa di più di una soluzione che usa l’AI per la gestione della rete aziendale.

Più corretta è la definizione di soluzione pensata per l’AI Fabric: un livello applicativo intelligente pensato per l'integrazione, la gestione, la governance e la distribuzione dei dati circolanti in rete e generati da modelli AI. Il motivo per cui non siamo nell’ambito della classica soluzione applicativa per l’ottimizzazione del traffico di rete è il nuovo contesto, governato opportunamente dalla parolina magica di cui sopra.

Siamo nel campo dell’elaborazione parallela ad alte prestazioni, in cui ci troviamo a governare hardware con GPU e CPU ad alte prestazioni che lavorano contemporaneamente. A causa della diffusione dei modelli AI, la comunicazione tra cluster GPU è insieme croce e delizia dei carichi di lavoro ad alta intensità. D’altronde, se l’architettura è parallela, la buona intercomunicazione tra i cluser diventa basilare.

Soluzioni trasparenti per reti SONiC

È in questo contesto che entra in gioco il vecchio caro switch, utilizzato proprio per risolvere i colli di bottiglia della comunicazione e garantire un flusso di dati tra GPU senza interruzioni. E se la tecnologia RoCE (RDMA su Ethernet convergente) permetteva già a enormi quantità di dati di spostarsi in modo efficiente tra i server, per evitare blocchi e malfunzionamento di flussi su AI Fabric c’è bisogno di una soluzione applicativa specifica e più accurata.

In particolare, se gli switch aziendali sono governati dal sistema operativo open source SONiC, è tutto più semplice. SONiC nasce già con l’obiettivo di garantire priorità al traffico di dati critici ma, di nuovo, in contesti AI un ulteriore livello applicativo - come Ones di Aviz Networks giunto ora alla versione 3.0 - sembra essere necessario.

Il cammino verso l’acquisizione

Aviz Networks, uno dei contributor più attivi del progetto SONiC, propone una soluzione totalmente agnostica, e abbastanza esclusiva, che non solo semplifica l'orchestrazione, ma garantisce anche un monitoraggio completo e una gestione proattiva delle operazioni di rete degli AI Fabric. Progettata per reti open source e integrabile in infrastrutture di rete esistenti, la Open Networking Enterprise Suite (Ones) garantisce la transizione dei dati da una GPU all’altra senza soluzione di continuità.

Aviz Networks, americana con contaminazioni indiane, è stata fondata nel 2019 e in 5 anni ha raccolto circa 31 milioni di dollari, di cui 17 a novembre 2024, grazie alla partecipazione ai round di investimento di aziende come Cisco Investments, Moment Ventures, Wistron, Accton Technology, Celestica e Qualcomm Ventures.

Recentemente Aviz ha stretto un accordo con il colosso americano della system integrator WWT e ha lanciato un programma di canale. Finora Aviz non sembra essere particolarmente interessata al mercato europeo, anzi a un qualsiasi mercato che non sia il Nord America, ma le ultime mosse potrebbero preludere a un timido tentativo di espansione. E, per come è stata creata, è facile che presto diventi preda di un qualche vendor.

Come funziona Ones di Aviz Networks

Come detto, l’ambiente tecnologico è l’AI Fabric e la criticità primaria è il congestionamento dei dati. Aviz, allora, introduce la funzione PFC (Priority Flow Control). Quando viene rilevata una congestione nella coda di dati, un indicazione di pausa viene inviato al dispositivo che sta inviando i dati, segnalandogli di interrompere temporaneamente l'invio del traffico. In questo modo si impedisce la perdita di pacchetti, garantendo una trasmissione senza perdite per il traffico prioritario.

Oltre al PFC, esiste un altro livello di gestione della congestione: la notifica esplicita della congestione (ECN). Con l'ECN si definiscono le soglie del buffer che, se superate, rinviano al mittente i pacchetti di Congestion Notification (ECN-CNP), spingendolo a ridurre la velocità di trasmissione ed evitando in modo proattivo la congestione. Inoltre, è possibile configurare un “Watchdog PFC” per garantire il buon funzionamento del PFC con ripristino, tempi di rilevamento e azioni da intraprendere in caso di malfunzionamento.

Successivamente, nella fase di uscita dei dati si possono migliorare ulteriormente le prestazioni dettando le priorità al traffico, anche in condizioni di congestione. L’integrazione naturale con le funzionalità già presenti in SONiC, il sistema garantisce che il traffico con priorità più alta venga trasmesso per primo, in modo ponderato o con priorità assoluta.

Inoltre, Aviz tiene a sottolineare la facilità di impostazione delle configurazioni QOS (Quality of Service) di SONiC con poche righe di codice YAML e sollevando gli amministratori di rete dal lavoro manuale.

L'orchestrazione inizia con il mapping del traffico in classi e code appropriate, specificando i valori di mappatura per le classi di traffico, le code e i gruppi di priorità. Dopo aver specificato questi valori di mapping, si creano i profili e vengono associati alle interfacce di orchestrazione. Questa configurazione garantisce che ogni tipo di traffico venga instradato alla coda appropriata e gestito correttamente.

Una delle caratteristiche distintive di ONES 3.0, infine, è l’adeguamento all’evoluzione della rete e al cambiamento dei flussi di traffico. In questo modo si garantisce che la rete sia sempre ottimizzata per offrire le prestazioni richieste dai carichi di lavoro, in particolare di quelli vincolati ai modelli di AI.

Abbonati alla rivista ImpresaCity Magazine e ricevi la tua copia.

Tags:

Notizie correlate

HPE Aruba, nuove opzioni VPC e on-premise per Networking Central

Arriva in Italia SumUp Bookings, soluzione gratuita per la gestione degli appuntamenti dedicata ai piccoli business

Cubbit, un nuovo approccio al cloud storage con DS3 Composer

Capgemini: per le grandi aziende è l’ora della reindustrializzazione

Non chiamatelo CRM, è l’Engagement Banking

IDC: l’infrastruttura digitale è una priorità IT anche nel 2025

Dynatrace, arriva l'osservabilità per gli sviluppatori

D-Link: “Più investimenti in Europa per proporre l'offerta business”

Speciali Tutti gli speciali

Speciale

Speciale System Integrator

Speciali

L’AI per le imprese: a che punto siamo?

Speciale

Speciale Tecnologie 2025

Reportage

L'observability a supporto dell'innovazione digitale

Reportage

Red Hat Summit Connect 2024

Calendario Tutto

Apr 22

Webinar Docuware - Gestire al meglio le richieste di acquisto.

Mag 08

RedHotCyber Conference 2025

Mag 08

Westcon - NIS2, DORA & AI Il futuro della Cybersecurity in Italia continua!

Mag 15

IDC Digital Infrastructure Summit 2025 - Milano

Mag 20

IT’S ALL BANKING & INSURANCE 2025

Mag 20

OVHcloud Summit 2025

Mag 30

R1 GROUP BET FORUM 2025 - Milano

Giu 12

Google Cloud Summit 2025 - Milano

Giu 18

AWS Summit 2025 - Milano

Magazine Tutti i numeri

Leggi il Magazine

G11 Media Networks

ImpresaCity e' un canale di BitCity, testata giornalistica registrata presso il tribunale di Como ,
n. 21/2007 del 11/10/2007- Iscrizione ROC n. 15698

G11 MEDIA S.R.L. Sede Legale Via NUOVA VALASSINA, 4 22046 MERONE (CO) - P.IVA/C.F.03062910132 Registro imprese di Como n. 03062910132 - REA n. 293834 CAPITALE SOCIALE Euro 30.000 i.v.