AIOps: cos'è e come cambia il volto delle IT operations

AIOps promette di portare intelligenza alla gestione IT di ambienti che si stanno facendo troppo complessi per l'approccio tradizionale

Autore: f.p.

Chiedete a qualsiasi responsabile IT quali siano le sue maggiori preoccupazioni legate all'infrastruttura. Tra le prime ci sarà quasi certamente la difficoltà di gestire ambienti IT che si fanno sempre più complessi. Spaziando dall'on-premise al multicloud. Non sono problemi nuovi in assoluto, però si sono certamente amplificati. Come sempre quando ci si trova davanti ad ambienti troppo complessi, la soluzione si cerca anche nelle potenzialità dell'intelligenza artificiale. Da qui la nascita del mondo cosiddetto AIOps.

AIOps è l'ennesimo acronimo che nasce dalla progressiva "evoluzione" delle operations IT. Come DevOps o SecOps. L'idea di fondo è che le attività di gestione dell'infrastruttura IT debbano essere potenziate. Per adeguarle alla (presunta) maggiore modernità digitale di altre parti dell'Information Technology. Come lascia ampiamente intuire l'acronimo, in questo specifico caso si tratta di migliorare le operations grazie a elementi di intelligenza artificiale. In particolare, del machine learning. Artificial Intelligence for IT Operations, appunto.

Il ruolo del machine learning applicato all'IT è in generale "estrarre" significato da una grande mole di dati. Talmente grande e diversificata che il personale umano non ha assolutamente le capacità di esaminarla. Men che meno di correlarne i dati e di derivarne indicazioni pratiche. Nel mondo AIOps la mole di dati è quella delle informazioni di IT e service management. Ossia delle informazioni sulle componenti hardware e software della propria IT.
Parliamo di server, applicazioni, microservizi, storage, networking, cluster virtualizzati, endpoint, dispositivi di cyber security e via dicendo. Componenti delle quali possiamo e vogliamo sapere configurazioni, stato, performance, uptime, capacità, traffico gestito... e mille altri parametri. Davvero troppi dati. Che inoltre sono spesso gestiti sì, ma a silos. Con piattaforme che "vedono" certe risorse e non altre. O certi tipi di parametri e non altri. AIOps ha in questo senso anche una valenza unificante. Almeno nel suo modello ideale.

AIOps: com'è fatta una piattaforma trasversale

Esistono varie piattaforme che si definiscono di AIOps, in realtà però la definizione è inevitabilmente vaga. Come quando una piattaforma si definisce di IT management, bisogna poi scendere in dettaglio per identificare quali funzioni effettivamente offra. Cosa davvero può gestire. Ed è molto utile partire dalla fine. Ossia dai problemi che una piattaforma AIOps dovrebbe risolvere.

Lo scenario tipico per cui sono nate le soluzioni AIOps vede una infrastruttura IT articolata ed eterogenea che supporta un insieme di applicazioni e servizi. Che idealmente devono essere sempre operativi e garantire determinate performance minime. Anche se questa descrizione può identificare molti scenari dell'IT, si adatta al meglio alle infrastrutture e applicazioni cloud-native. O parzialmente tali. In cui comunque non è semplice seguire le correlazioni causa-effetto tra i vari componenti.
Ad esempio, un rallentamento in una app per il mobile banking potrebbe derivare da un malfunzionamento in un cluster di container che realizzano un microservizio collegato all'app. O magari da tutt'altro: il degrado delle performance di un dispositivo di rete che si trova nel percorso dati da e verso il datacenter principale della banca, con le sue applicazioni legacy. Dotato degli opportuni strumenti di IT management, anche tradizionali, lo staff delle operations arriverebbe alla causa del problema. Ma troppo tardi per le attuali esigenze delle imprese. AIOps promette di farlo molto più rapidamente. Anzi, in maniera preventiva.

Lo schema astratto di funzionamento di una piattaforma AIOps è concettualmente semplice. Da un lato deve raccogliere in tempo (ragionevolmente) reale tutti i dati di funzionamento dell'infrastruttura. Quindi ha una componente di monitoraggio e performance management. Dall'altro deve raccogliere le informazioni tipiche del mondo ITSM: eventi, ticket, anomalie, incidenti e via dicendo. Queste due classi di informazioni vengono fatte convergere in una unica piattaforma di Big Data analytics.

Le funzioni di analisi, in particolare quelle di machine learning, esaminano i dati eterogenei raccolti. Li correlano, ne ricavano andamenti di baseline nel comportamento dell'infrastruttura, ne estraggono in tempo reale informazioni utili alle IT operations. E mettono in pratica queste indicazioni. In questo senso una piattaforma AIOps ha una fondamentale parte di "azione", o meglio di automazione della gestione IT. Così il ciclo osservazione-analisi-azione si chiude. Ed è costantemente in moto.

AIOps, un puzzle complicato

Le previsioni per la diffusione del modello AIOps sono aggressive. Ma si stima che al momento solo il 5-6% delle imprese lo abbia in qualche modo adottato. Lo scarto tra realtà e aspirazioni di AIOps deriva prima di tutto dalla complessità del modello ideale di AI applicata alle IT operations. Fare bene tutto quello che abbiamo descritto nei paragrafi precedenti non è affatto facile.

In primis, un tool AIOps deve avere accesso alla massima quantità di informazioni di monitoring, performance e management possibile. Quindi deve essere in grado di interfacciarsi con un gran numero di tool mirati, se le sue proprie funzioni di "osservazione" sono limitate.
Il webinar che ImpresaCity ha organizzato con Red Hat, Dynatrace, Par-Tec e TIM sul tema del performance management negli ambienti cloud-nativi
Il secondo elemento chiave è che una piattaforma AIOps deve avere una base di vera Big Data analytics e di vero machine learning. Soprattutto perché in questo campo non servono analisi ex-post di cosa abbia causato un determinato problema. Serve individuare subito il problema, anche prima che si verifichi grazie alle funzioni predittive del machine learning. E dopo averlo individuato, serve anche risolverlo intervenendo direttamente con funzioni di IT automation.

Tutte le soluzioni AIOps sul mercato hanno tutte queste funzioni? Decisamente no. Così per le imprese il problema è quello tipico dei settori dell'IT in forte evoluzione: sono davanti ad un mercato frammentato. Tra le soluzioni papabili, la gran parte è sbilanciata verso una funzione particolare. ITSM, Application Performance Monitoring, analisi dei log, infrastructure management, Network Performance Monitoring, eccetera. Perché i vendor che si muovono verso un approccio AIOps sono molti. Ma tutti vi arrivano da strade e competenze diverse. Alle aziende utenti, talvolta, il ruolo di fare da ponte fra le loro soluzioni e il resto della IT.
Non è solo questo a rendere accidentato il cammino verso un modello AIOps completo. È anche la stratificazione dell'IT della gran parte delle aziende utenti. Certamente in quelle più grandi, che sono anche le più interessate a migliorare le IT operations. Un requisito chiave di AIOps è la possibilità di connettersi a tutta l'IT per ricavarne informazioni e per apportare azioni correttive. Se questi collegamenti sono difficili - perché l'infrastruttura IT è particolarmente complessa e frammentata o perché ha componenti che "dialogano" poco, come i sistemi legacy - l'efficacia di qualsiasi soluzione AIOps si riduce notevolmente.

AIOps: come muoversi

Anche Gartner, che è tra i più ottimisti su AIOps, indica che davanti a questo scenario occorre muoversi per gradi. Come per ogni nuova tecnologia, occorre adottare AIOps prima di tutto là dove mostra i ritorni più concreti e più veloci. Questo tra l'altro significa toccare per prime le IT operations collegate alle applicazioni e ai servizi più importanti.

L'approccio per gradi riguarda anche le potenzialità di AIOps in generale. Prima implementare quelle di baselining per ridurre i falsi allarmi nella gestione IT, che sono un importante problema. Poi lavorare sulla ottimizzazione progressiva dell'infrastruttura, grazie alle funzioni di machine learning che rilevano pattern stabili nel suo funzionamento. Il passo successivo può essere l'individuazione proattiva e predittiva delle anomalie, per scalare poi verso la Root Cause Analysis e ridurre i tempi di intervento. Da qui si può passare alla parte propriamente di automazione, remediation e ITSM.

Visualizza la versione completa sul sito

Informativa
Questo sito o gli strumenti terzi da questo utilizzati si avvalgono di cookie necessari al funzionamento ed utili alle finalità illustrate nella cookie policy. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie, consulta la cookie policy. Chiudendo questo banner, acconsenti all’uso dei cookie.