In un precedente articolo abbiamo parlato delle misure cautelari adottate dal Garante Privacy italiano contro OpenAI a causa della violazione di alcune norme del regolamento europeo per la protezione dei dati personali (“GDPR”) e consistenti nella sospensione temporanea del servizio e nella diffusione di una campagna informativa su larga scala per informare i cittadini del possibile trattamento dei loro dati personali per la realizzazione del prodotto ChatGPT. Oggi, un nuovo capitolo si aggiunge alla saga “Garante Privacy vs OpenAI”, iniziata il 20 marzo 2023.Dopo aver condotto una lunga istruttoria, l’autorità pubblica ha finalizzato le proprie considerazioni in una sanzione da € 15 milioni ai danni della società americana.
Il provvedimento sanzionatorio del Garante risponde senz’altro a condotte lesive degli interessi tutelati dal GDPR, ma ciò che preoccupa maggiormente è che la compliance con le procedure da esso disposte imponga agli sviluppatori di Large Language Models (“LLMs”, o “Modelli”) degli obblighi irrealistici, incentivandoli così ad emigrare alla ricerca di giurisdizioni più amichevoli. Si ripropone dunque lo scontro tra le istanze regolatorie europee da un lato, e la necessità di un ambiente più favorevole all’innovazione dall’altro. L’articolo si concluderà infine con una domanda: il GDPR è idoneo a rispondere alle problematiche evidenziate dall’intelligenza artificiale generativa?
Il funzionamento di ChatGPT
A questo punto riteniamo necessario affrontare due questioni tecniche centrali per la comprensione del problema.
In primo luogo, è fondamentale distinguere fra il trattamento dei dati nella fase di addestramento del Modello (“training”), e il trattamento dei dati degli utenti del servizio offerto, per attività diverse dall’addestramento. L’attività di addestramento, infatti, consiste nel raccogliere grandi quantità di dati dal web (“web scraping”) sottoforma di testo, e darli in pasto al Modello, cosicché esso possa “imparare” la struttura del linguaggio sottostante e memorizzarne le informazioni, registrando tutto sotto forma di parametri. Saranno questi parametri a determinare la formulazione dell’output, in maniera simile a come funziona la memoria per gli esseri umani. I dati personali dei soggetti interessati, dunque, non vengono raccolti direttamente da loro, ma si trovano casualmente nelle varie pagine internet raccolte (si immagini, come esempio, un articolo di cronaca nera che contiene le generalità degli imputati.) Oltre a questi dati però, OpenAI raccoglie altri dati: quelli dei propri utenti. Ciò avviene in due momenti distinti. Prima nella fase di registrazione alla piattaforma, e dopo durante la conversazione con ChatGPT. Questi dati saranno poi riutilizzati in fasi di affinamento del modello in uso (“fine-tuning”) o di addestramento di modelli futuri.
In secondo luogo, deve tenersi presente che i Modelli non sono mere compilazioni di dati, che possono essere modificate a piacere dai loro programmatori; essi sono reti neurali, che una volta allenate non possono più dimenticare ciò che hanno appreso. Il massimo che si può fare è tentare di modificare ex post i loro parametri, nella speranza che un certo output non venga più prodotto. In altre parole, si può tentare di insegnare al modello di non fare qualcosa, e non di cancellare la sua “memoria”.
Infine, si noti che qualsiasi LLM è soggetto alle cc.dd “allucinazioni”, e cioè alla generazione di output non contenenti informazioni veritiere. Purtroppo, questo fenomeno non è controllabile. E così come il modello potrebbe riprodurre informazioni false, potrebbe anche riprodurre informazioni memorizzate nei suoi parametri ma che secondo i programmatori non dovrebbero essere rivelate, come ad esempio, appunto, i dati personali usati per il training.
Le violazioni contestate
Sgomberato il campo da queste doverose precisazioni, si può passare ora all’analisi delle contestazioni del Garante. Il provvedimento, quindi, contesta ad OpenAI la violazione delle seguenti norme:
- l’art. 33 per omessa notifica dell’evento di violazione dei dati avvenuto il 20 marzo 2023;
- gli Artt. 5, par. 2 e 6 per non aver correttamente individuato una base giuridica del trattamento dei dati personali degli interessati;
- gli artt. 5, par 1, let. a), 12 e 13 per omissioni e carenze nella informativa privacy fornita agli utenti del servizio;
- gli artt. 8, 24 e 25, par. 1 per omessa predisposizione di idonei sistemi di verifica dell’età degli utenti;
- l’art. 83, par. 5, let. e), per non aver adeguatamente coinvolto il Garante nella formulazione della campagna informativa .
Non tutte queste violazioni però rilevano ai fini dell’analisi degli ostacoli legali all’innovazione, pertanto, solo alcune di esse verranno analizzate.
Si noti, comunque, che il potere sanzionatorio dell’Autorità Garante si regge sul presupposto che il GDPR fosse applicabile ad OpenAI già antecedentemente al 30 marzo 2023, quando ormai era chiaro che molti utenti europei stavano usando il servizio e avrebbero attirato le attenzioni delle autorità pubbliche. Assunto non banale, perché OpenAI non è una società europea, ma americana, e all’epoca dell’incidente non aveva ancora una sede legale in UE. Nelle sue memorie difensive, infatti, la difesa argomenta di non aver indicato la base giuridica del trattamento dei dati personali dei soggetti interessati nella fase di training e di non aver fornito loro una informativa privacy adeguata perché convinta di trovarsi al di fuori dell’applicazione territoriale del GDPR. Questo perché è vero che il GDPR si applica anche a soggetti non europei, ma sotto la doppia condizione che il titolare del trattamento tratti i dati personali di persone fisiche che si trovano in Europa, e lì offra i suoi servizi. Quest’ultimo punto è stato perciò molto dibattuto tra il Garante e OpenAI, poiché dalla sua interpretazione ne dipende l’applicazione delle sanzioni. La società americana, infatti, ritiene di non aver mai voluto fornire i propri servizi al mercato europeo. La versione rilasciata sul web nel novembre 2022 era una versione preliminare, diffusa gratuitamente a fini di ricerca, e non un servizio commercializzato in Europa. Solo in un momento successivo OpenAI, resasi conto della popolarità di ChatGPT anche tra i cittadini comuni, si sarebbe adoperata per dar seguito agli obblighi europei (individuazione di una base giuridica per il trattamento e redazione di una informativa privacy in primis), poiché convinta di esservi assoggettata. La posizione del Garante Privacy è invece opposta: l’aver rilasciato ChatGPT gratuitamente e con interfacce user friendly doveva far presumere il suo largo utilizzo anche da cittadini europei fin dal primo momento. Sarebbero così state soddisfatte entrambe le condizioni applicative del GDPR a soggetti non europei, già dal novembre 2022. OpenAI, a partire da quel momento, si troverebbe dunque in violazione della legge.
Le difficoltà applicative
La contestazione centrale del Garante ad OpenAI è di non aver individuato una base giuridica adeguata al trattamento dei dati degli interessati e di non aver redatto una informativa sufficientemente completa, impedendo così agli interessati l’esercizio dei propri diritti. L’informativa fornita – e l’indicazione del legittimo interesse come base giuridica del trattamento lì contenuta – non garantirebbe agli interessati di comprendere né il fine del trattamento, né i motivi per i quali esso fosse lecito. Per quanto apprezzabile sia lo sforzo del legislatore europeo, c’è da chiedersi se nella pratica sarebbe cambiato qualcosa. I soggetti interessati al trattamento sono sconosciuti da OpenAI stessa, e non avrebbero potuto essere avvisati singolarmente (come invece, almeno in linea teorica, avviene per chi utilizza servizi web tradizionali al momento della registrazione o dell’accesso alla piattaforma).
A questo punto però ci concediamo di dar voce ad alcuni dubbi che emergono dalla vicenda. Davvero sarebbe stato efficace pubblicare sul sito web di OpenAI un documento contenente informazioni del tipo richiesto dal Garante, tenuto conto che i dati ad oggetto del trattamento erano afferibili anche a soggetti non utenti? E quali diritti avrebbero potuto esercitare gli interessati? Il diritto all’oblio, ad esempio, non avrebbe potuto essere garantito con certezza, poiché, come visto sopra, esso avrebbe obbligato gli sviluppatori ad una nuova fase di allenamento dei Modelli (la quale è estremamente lunga e costosa) e dovrebbe essere ripetuta per ciascuna richiesta di opt-out.[1] L’impianto teorico del GDPR si basa sull’idea che il soggetto interessato abbia controllo sui propri dati personali. Ma quando è estremamente difficile, se non impossibile, esercitare tale controllo, come nel caso degli LLM per quanto attiene al loro addestramento, questo impianto non appare idoneo a perseguire gli obbiettivi di tutela dei cittadini. Nei fatti il GDPR si risolve in una serie di documenti da redigere secondo le indicazioni del Garante Privacy, senza che ciò si traduca in una reale diminuzione del danno. Ed in effetti i danni prodotti ai cittadini nella vicenda ad oggetto sono scaturiti essenzialmente da un difetto di programmazione che ha portato all’incidente del 20 marzo 2023, e dalle allucinazioni ricorrenti di ChatGPT, che rivelava agli utenti dati personali di terzi, senza il loro consenso. Le procedure contenute agli artt. 5, 6 12 e 13 del GDPR non avrebbero potuto in alcun modo prevenire che ciò accadesse. Il massimo che la normativa europea può ottenere consiste nel legittimare le autorità garanti a sanzionare OpenAI per la violazione dei principi di data protection by design nello sviluppo di ChatGPT. Ma a questo punto fuori legge sarebbero tutti i LLM. E dunque la domanda finale: davvero riteniamo che i LLM siano una tecnologia che non vale la pena utilizzare per le violazioni sistematiche della privacy dei cittadini europei? Una risposta negativa impone il ripensamento dei concetti su cui si fonda la data protection, e l’abbandono del modello fondato sul controllo del dato.[2]
[1] Discorso opposto vale per il diritto all’oblio esercitato per evitare che i dati personali degli utenti vengano utilizzati per il fine tuning o l’addestramento di nuovi modelli, questione che sembra essere stata adottata di default da OpenAI.
[2] Come argomentato da I. Cofone in The Privacy Fallacy: Harm and Power in the Information Economy.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link