Machine learning, intelligenza artificiale e in generale le
tecnologie cognitive sono considerate elementi sempre più chiave per l'evoluzione delle imprese
di qualsiasi settore. Ma non sono semplici da implementare e da gestire: anche le aziende che hanno al loro interno le competenze tecniche necessarie devono tenere conto di
un lavoro di "gestione" che non va sottovalutato.
I modelli di deep e machine learning non sono, infatti,
creati e addestrati una tantum. Esiste un vero e proprio flusso che segue il
ciclo di vita dei modelli di machine learning, che periodicamente vanno ri-addestrati e ottimizzati per tenere conto di
come cambiano nel tempo i fenomeni che intendono descrivere.
Secondo Hitachi Vantara
mancano gli strumenti per gestire al meglio e in particolare automatizzare questo flusso. Non esiste cioè una
orchestration del machine learning che copra le fasi di monitoraggio, test, ri-addestramento e re-implementazione in produzione dei modelli di apprendimento. O meglio non esisteva, nel senso che proprio Vantara ha presentato una prima versione di una
collezione di strumenti del genere che, insieme, realizzano quello che definisce "machine learning model management".
Questi strumenti sono al momento disponibili all'interno del Pentaho Marketplace ma
solo per attività di test, senza essere supportati. In versioni future dovrebbero far parte di
Pentaho Data Integration, ma non è stato indicato quando questo potrebbe accadere.
L'obiettivo di Vantara è
ridurre drasticamente la componente manuale nella gestione del ciclo di vita dei modelli di machine learning. Questo perché tale componente manuale è tanto pesante che di fatto il ciclo di vita dei modelli viene seguito molto meno di quanto si dovrebbe, con la conseguenza che l'accuratezza dei modelli
cala drasticamente nel tempo.
Le funzioni di orchestration introdotte dai nuovi tool di Vantara agiscono in
tre direzioni specifiche: implementazione dei modelli, accuratezza delle previsioni e trasparenza delle decisioni algoritmiche. La fase di
deployment dei modelli viene velocizzata grazie al fatto che i tool automatizzano la fase di preparazione e pulizia dei dati che addestrano gli algoritmi, ottimizzando questi ultimi e mettendoli "alla prova" su dati di produzione.
L'
accuratezza delle previsioni dei modelli viene massimizzata adottando alcune funzioni di controllo costante dei modelli stessi, in modo da evidenziare il prima possibile quando questi si sono degradati. In caso di modifiche ai modelli, i tool possono eseguire automaticamente
operazioni di A/B testing per valutare velocemente l'accuratezza dei nuovi algoritmi rispetto a quelli precedenti.
Infine, la
trasparenza. Secondo Vantara nelle imprese non tutti hanno sempre chiaro
perché un algoritmo ha preso e prende determinate decisioni. Questo
crea una frattura in particolare fra chi i modelli di machine learning li crea e chi ne "subisce" le decisioni, frattura che porta a una
poca collaborazione interna.
I tool sviluppati per Pentaho mostrano invece
in base a quali dati e con che criteri un modello di machine learning ha preso certe decisioni. Questa maggiore comprensione permette anche una
standardizzazione dello sviluppo dei modelli e, conseguentemente, delle applicazioni aziendali che si basano su di essi.