Nasce in Italia un progetto di applicazione degli
algoritmi di machine learning per l'analisi del testo, focalizzato sulla compliance al
GDPR delle condizioni contrattuali che, spesso implicitamente, vengono accettate dagli utenti quando si iscrivono a qualche servizio online. Il
progetto si chiama
Claudette (quasi-acronimo di "clause detecter") e deriva dalla collaborazione dello European University Institute di
Firenze con le Università di
Bologna e di
Modena e Reggio Emilia.
Il punto di partenza del progetto Claudette è la constatazione che le policy legate alla gestione dei dati personali, come anche più genericamente i termini e le condizioni contrattuali, dei servizi online
sono quasi sempre poco chiare e non aiutano a capire cosa fare per tutelare i propri diritti. Il GDPR
impone invece a tutte le aziende di presentare questo tipo di infomazioni in maniera
comprensibile.
I principali attori del web in queste settimane hanno modificato le loro pagine informative, ma ora sono davvero compliant al GDPR? Capirlo non è banale perché richiede di
analizzare testi lunghi e volutamente complessi, con elementi di ambiguità talvolta difficili da chiarire. Un ambito ideale per il machine learning, secondo i ricercatori, ed è proprio ad algoritmi di analisi testuale che sono state date in pasto
le privacy policy di 14 grandi nomi del web: Google, Facebook (compreso Instagram), Amazon, Apple, Microsoft, WhatsApp, Twitter, Uber, AirBnB, Booking, Skyscanner, Netflix, Steam ed Epic Games.
Questo "corpus" di
oltre ottantamila parole è stato valutato dagli algoritmi di machine learning secondo tre dimensioni:
completezza delle informazioni presentate (dovevano essere presenti tutte quelle richieste dagli articoli 13 e 14 del GDPR),
compliance sostanziale (i trattamenti dei dati previsti dovevano essere solo quelli permessi dal GDPR) e
chiarezza espressiva (l'utilizzo di un linguaggio preciso e comprensibile).
Il progetto Claudette ha prodotto risultati interessanti nell'analisi delle privacy policy, ma va considerato che il suo scopo principale non è solo definire la compliance delle aziende sul web. È anche capire se gli algoritmi di machine learning possono essere
applicati con successo nell'analisi delle condizioni contrattuali, un campo in cui i consumatori possono sicuramente trovare aiuto in tool automatici basati sull'intelligenza artificiale.
Da questo punto di vista Claudette ha dato risultati giudicati
promettenti e i ricercatori indicano, nel loro
report dettagliato, che si può tranquillamente andare avanti sulla strada della "legal informatics".
Molto meno positive sono state le valutazioni sulle policy esaminate: il 34 percento circa delle frasi analizzate è stato catalogato come "potenzialmente problematico" e l'11 percento conteneva un linguaggio non chiaro.