Iuscapto: grazie all'IA la ricerca documentale diventa facile e veloce

Iuscapto è una startup che ha applicato l'AI e il machine learning alla ricerca documentale. Per trovare quello che serve basta una richiesta in linguaggio naturale.

Prendere un'esigenza concreta e trasformarla in una startup. È la genesi di Iuscapto, startup che prende forma dalle notti insonni di Cesare Bruzzone, avvocato e socio fondatore, alla ricerca di sentenze della Corte di Cassazione. Possibile che non esistesse un modo per rendere intelligenti le ricerche giurisprudenziali? Una domanda che probabilmente si sono posti in molti. Bruzzone, al contrario di altri, l'ha rivolta alla persona giusta: Luca Canevello, CEO e Co-Founder Iuscapto.

Con il supporto tecnico di Roberto Lucignani, è arrivata la risposta che mancava: usare l'Intelligenza Artificiale e il machine learning per sviluppare una piattaforma in grado di interpretare i testi e le immagini e ricercare analogie rispetto a set documentali di riferimento. Una soluzione che non solo funziona, ma che consente di ottimizzare e velocizzare le ricerche.

Con l'ulteriore vantaggio che i risultati forniti non sono centinaia, ma pochi, selezionati e centrati sulla richiesta. Arrivare al risultato finale non è stato semplice, tant'è vero che i lavori sono ancora in corso per via dei rallentamenti da ascrivere alla pandemia. Ma la strada ormai è tracciata e il grosso del lavoro è fatto, grazie anche agli investimenti di LCA Ventures e 4ward.

Luca Canevello, CEO e Co-Founder Iuscapto

Un motore all'avanguardia

Il valore intrinseco del lavoro sviluppato da Iuscapto è evidente: all'interno delle aziende i documenti (ovviamente in digitale) sono spesso in disordine, e pur avendo la consapevolezza che una data informazione esiste, occorre molto tempo per trovarla. Soprattutto nel momento in cui l'archivio fisico in azienda è affiancato da quelli in cloud.

Con il prodotto realizzato da Iuscapto non solo è possibile trovare qualsiasi file ovunque sia archiviato, ma si può farlo mediante una frase in linguaggio naturale. Siamo abituati con Google a usare una successione di chiavi di ricerca, in questo caso si compie il passo avanti del linguaggio naturale: la ricerca non viene fatta in modalità full text.

Altro passaggio chiave nell'ottica dello sviluppo è stata l'adozione di un set documentale dinamico, anziché statico. La differenza è sostanziale, dato che oggi le aziende, lavorando con i dati, li movimentano, li ampliano e li modificano in continuazione. Usare un set statico sarebbe poco produttivo.

Il lavoro fatto sul set è interessantissimo, perché consiste nell'addestramento di una rete neurale in cui i termini non hanno un significato univoco. L'esempio banale per far comprendere il concetto è quello di Roma: una stringa che identifica il nome proprio di una città, ma anche un capoluogo di provincia, un capoluogo di regione, la capitale d'Italia. In quanto tale Roma entra in una lunghissima serie di correlazioni, con le capitali europee, con gli scali aeroportuali. Roma però può essere anche il nome di un'attività commerciale, di una via, eccetera.

Per riuscire a trattare Roma nel modo corretto, il motore di Iuscapto analizza tutti i documenti nel momento in cui vengono caricati sul sistema. Per ciascun documento estrae tutte le stringhe a cui viene associato un significato, e tutte queste informazioni vengono correlate al documento. Ecco perché quando si avvia una ricerca questa non viene fatta in modo testuale ma sulle stringhe, che all'interno di documenti diversi (quindi di contesti diversi) saranno state classificate in maniera differente.

Dalla giurisprudenza ad altri settori

Una volta terminato il duro compito di istruire il motore di ricerca automatizzato entrerà in gioco la seconda fase, già prevista. Ossia l'applicazione dello stesso motore ad ambiti differenti da quello giurisprudenziale. L'unica differenza è nel set documentale di riferimento. Nel momento in cui è disponibile un algoritmo capace di analizzare una frase e di individuare il medesimo concetto in altre frasi, si apre un mondo. Poco importa se la frase è inserita in un concetto giurisprudenziale o sanitario.

Si potrebbero quindi avviare ricerche altrettanto precise nelle cartelle cliniche, nella contrattualistica: il potenziale è talmente ampio che si parla già della domanda per brevettare questo mastodontico lavoro.

L'architettura di base resta la stessa, cambia la verticalizzazione in funzione dell'ambito applicativo. E all'interno dello stesso ambito applicativo si può addestrare la rete neurale a riconoscere automaticamente una certa tipologia di documenti, grazie al machine learning. Questo fa sì che quando si inseriranno nuovi documenti verranno classificati automaticamente nella maniera corretta, così da semplificarne la ricerca.

Qualcuno si starà chiedendo se questo motore funzionerà solo con i documenti in lingua italiana. Roberto Lucignani ci spiega che il programma di base è in inglese, ma in alcuni ambiti è necessaria una verticalizzazione molto spinta in una lingua. Per esempio, tornando all'ambito legale, la Prima Sezione e la Seconda Sezione della Cassazione in italiano hanno un significato preciso, in americano no perché il sistema processuale statunitense è differente. Detto questo, il programma di base supporta 36 lingue differenti, l'esportazione del motore all'estero richiederà del lavoro sulla parte di riconoscimento di base.

Chiudiamo con le tempistiche di rilascio: sono iniziati i test massivi sui documenti reali, e l'azienda sta raccogliendo i feedback che saranno preziosi per migliorare ulteriormente l'algoritmo.