Uno studio innovativo che ha coinvolto ricercatori di Google DeepMind, dell’Università di Washington, dell’UC Berkley e altri ha rivelato un aspetto sorprendente di grandi modelli linguistici come ChatGPT: la loro capacità di ricordare e replicare dati specifici su cui sono stati addestrati. Questo fenomeno, noto come “memorizzazione”, pone notevoli problemi di privacy, soprattutto considerando che questi modelli spesso si addestrano su dati di testo vasti e diversificati, comprese informazioni potenzialmente sensibili.
Comprendere la memorizzazione estraibile
Lo studio, concentrandosi sulla “memorizzazione estraibile”, ha cercato di determinare se entità esterne potessero estrarre specifici dati appresi da questi modelli senza previa conoscenza del set di addestramento. Questa memorizzazione non è solo una preoccupazione teorica; ha implicazioni sulla privacy nel mondo reale.
Metodologia e risultati della ricerca
I ricercatori hanno utilizzato una nuova metodologia, generando token estesi da vari modelli e confrontandoli con i set di dati di addestramento per identificare casi di memorizzazione diretta. Hanno sviluppato un metodo unico per ChatGPT, noto come “attacco di divergenza”, in cui al modello viene richiesto di dire una parola finché non si devia ripetutamente ai dati memorizzati. Sorprendentemente, i modelli, incluso ChatGPT, hanno mostrato una memorizzazione significativa, rigurgitando blocchi di dati di addestramento su richiesta specifica.
L'attacco divergenza e ChatGPT
Per ChatGPT, l’attacco alla divergenza si è rivelato particolarmente rivelatore. I ricercatori hanno spinto il modello a ripetere una parola più volte, portandolo a divergere dalle risposte standard e a emettere dati memorizzati. Questo metodo era pratico e preoccupante per le sue implicazioni sulla privacy, poiché ha dimostrato la capacità di estrarre informazioni potenzialmente sensibili.
La scoperta allarmante dello studio è stata che i dati memorizzati potrebbero includere informazioni personali come indirizzi e-mail e numeri di telefono. Utilizzando sia espressioni regolari che prompt del modello linguistico, i ricercatori hanno valutato 15.000 generazioni di sottostringhe che somigliavano a informazioni di identificazione personale (PII). Circa il 16,9% delle generazioni conteneva PII memorizzate, di cui l'85,8% erano PII effettive, non contenuti allucinati.
Implicazioni per la progettazione e l'utilizzo di modelli linguistici
Questi risultati sono significativi per la progettazione e l’applicazione di modelli linguistici. Le tecniche attuali, anche quelle impiegate in ChatGPT, potrebbero non prevenire sufficientemente la fuga di dati. Lo studio sottolinea la necessità di metodi di deduplicazione dei dati di addestramento più robusti e di una comprensione più profonda di come la capacità del modello influisce sulla memorizzazione.
Il metodo principale prevedeva la generazione di testo da vari modelli e il controllo di questi risultati rispetto ai rispettivi set di dati di addestramento dei modelli per la memorizzazione. Gli array di suffissi sono stati utilizzati per una corrispondenza efficiente, consentendo ricerche rapide di sottostringhe all'interno di un ampio corpus di testo.
Modelli più estesi, rischi di memorizzazione più significativi
È emersa una notevole correlazione tra la dimensione del modello e la sua propensione alla memorizzazione. Modelli più grandi come GPT-Neo, LLaMA e ChatGPT hanno mostrato una maggiore probabilità di emettere dati di addestramento memorizzati, suggerendo una relazione diretta tra capacità del modello e memorizzazione.
Lo studio mette in luce un aspetto cruciale dello sviluppo dell’intelligenza artificiale: garantire che modelli potenti rispettino la privacy degli utenti. Apre nuove strade per la ricerca e lo sviluppo, concentrandosi sul miglioramento della tutela della privacy nei modelli di intelligenza artificiale, in particolare quelli utilizzati in applicazioni sensibili alla privacy.
Mentre l’intelligenza artificiale continua ad evolversi, questo studio fa luce su un aspetto essenziale del suo sviluppo: la necessità di misure di privacy rafforzate nei modelli linguistici. La rivelazione della capacità dell'intelligenza artificiale di memorizzare e potenzialmente divulgare informazioni sensibili richiede un'azione immediata sul campo, esortando sviluppatori e ricercatori a creare modelli che non solo siano potenti ma che tutelino anche la privacy degli utenti. Questa ricerca segna un passo significativo verso la comprensione e la mitigazione dei rischi per la privacy associati alle tecnologie di intelligenza artificiale e apprendimento automatico.