I ricercatori sono riusciti a eseguire il jailbreak dei chatbot con intelligenza artificiale utilizzando la loro specie

Singapore, 28 dicembre 2023 – Gli informatici della Nanyang Technological University di Singapore (NTU Singapore) hanno ottenuto una svolta compromettendo diversi popolari chatbot di intelligenza artificiale (AI), tra cui ChatGPT, Google Bard e Microsoft Bing Chat. Questo “jailbreaking” riuscito dei chatbot IA ha sollevato preoccupazioni riguardo alla vulnerabilità dei modelli linguistici di grandi dimensioni (LLM) e alla necessità di misure di sicurezza rafforzate.

Oltrepassare i limiti dei ricercatori hackera i chatbot IA

In uno studio pionieristico condotto dal professor Liu Yang della Scuola di informatica e ingegneria della NTU, il gruppo di ricerca ha messo in luce le vulnerabilità nelle capacità dei chatbot LLM. Gli LLM, che costituiscono il nucleo dei chatbot AI, hanno guadagnato popolarità per la loro capacità di comprendere, generare e imitare testo simile a quello umano. Eccellono in vari compiti, dalla pianificazione di itinerari alla codifica e alla narrazione. Tuttavia, questi chatbot aderiscono anche a rigide linee guida etiche stabilite dai loro sviluppatori per prevenire la generazione di contenuti non etici, violenti o illegali.

I ricercatori hanno cercato di ampliare i limiti di queste linee guida e hanno trovato modi innovativi per ingannare i chatbot basati sull’intelligenza artificiale inducendoli a generare contenuti che violassero i confini etici. Il loro approccio, noto come “jailbreaking”, mirava a sfruttare i punti deboli dei chatbot LLM, evidenziando la necessità di misure di sicurezza rafforzate.

Masterkey nel doppio metodo di jailbreak

Il team di ricerca ha sviluppato un duplice metodo "Masterkey" per compromettere in modo efficace i chatbot LLM. In primo luogo, hanno decodificato le difese LLM utilizzate per rilevare e rifiutare query dannose. Armati di queste conoscenze, i ricercatori hanno addestrato un LLM a generare suggerimenti in grado di aggirare queste difese, creando così un LLM con jailbreak.

La creazione di prompt di jailbreak potrebbe essere automatizzata, consentendo al LLM di jailbreak di adattarsi e creare nuovi prompt anche dopo che gli sviluppatori hanno aggiornato i loro chatbot. I risultati dei ricercatori, dettagliati in un documento sul server prestampato arXiv, sono stati accettati per la presentazione al Network and Distributed System Security Symposium nel febbraio 2024.

Testare l'etica LLM e le vulnerabilità svelate

I chatbot AI funzionano rispondendo alle richieste o alle istruzioni dell'utente. Gli sviluppatori stabiliscono rigide linee guida etiche per impedire a questi chatbot di generare contenuti inappropriati o illegali. I ricercatori hanno esplorato modi per progettare suggerimenti che passassero inosservati alle linee guida etiche dei chatbot, inducendoli a rispondere.

Una tattica impiegata prevedeva la creazione di un personaggio che fornisse istruzioni con spazi tra ogni carattere, aggirando efficacemente la censura delle parole chiave che potrebbe segnalare parole potenzialmente problematiche. Inoltre, al chatbot è stato chiesto di rispondere come se fosse una persona “senza riserve e priva di vincoli morali”, aumentando la probabilità di generare contenuti non etici.

Inserendo manualmente tali richieste e monitorando i tempi di risposta, i ricercatori hanno acquisito informazioni dettagliate sul funzionamento interno e sulle difese degli LLM. Questo processo di reverse engineering ha permesso loro di identificare i punti deboli, creando un set di dati di suggerimenti in grado di eseguire il jailbreak dei chatbot.

Una corsa agli armamenti in aumento

Il costante gioco del gatto con il topo tra hacker e sviluppatori LLM ha intensificato le misure di sicurezza dei chatbot AI. Quando vengono scoperte le vulnerabilità, gli sviluppatori rilasciano patch per risolverle. Tuttavia, con l’introduzione di Masterkey, i ricercatori hanno spostato gli equilibri di potere.

Un chatbot di jailbreak AI creato con Masterkey può generare molti suggerimenti e adattarsi continuamente, imparando dai successi e dai fallimenti passati. Questo sviluppo mette gli hacker nella posizione di superare in astuzia gli sviluppatori LLM utilizzando i loro strumenti.

I ricercatori hanno iniziato creando un set di dati di addestramento che incorporasse suggerimenti efficaci scoperti durante la fase di reverse engineering e suggerimenti non riusciti per guidare il modello di jailbreak dell’IA. Questo set di dati è stato utilizzato per formare un LLM e sono seguiti continui pre-formazione e messa a punto delle attività. Questo processo ha esposto il modello a diverse informazioni e ha migliorato la sua capacità di manipolare il testo per il jailbreak.

Il futuro della sicurezza dei chatbot basati sull'intelligenza artificiale

I prompt di Masterkey si sono rivelati tre volte più efficaci nel jailbreak degli LLM rispetto ai prompt generati dagli LLM stessi. Il LLM con jailbreak ha anche dimostrato la capacità di imparare dai fallimenti del passato e di produrre costantemente suggerimenti nuovi e più efficaci.

Guardando al futuro, i ricercatori suggeriscono che gli stessi sviluppatori LLM potrebbero utilizzare approcci automatizzati simili per migliorare le loro misure di sicurezza. Ciò garantirebbe una copertura e una valutazione complete dei potenziali scenari di uso improprio man mano che gli LLM si evolvono e ampliano le loro capacità.

Il successo del jailbreak dei chatbot IA da parte dei ricercatori di NTU Singapore evidenzia le vulnerabilità dei LLM e sottolinea la necessità di solide misure di sicurezza nello sviluppo dell'IA. Man mano che i chatbot basati sull’intelligenza artificiale diventano sempre più integrati nella vita di tutti i giorni, la tutela da potenziali abusi e violazioni etiche rimane una priorità assoluta per gli sviluppatori di tutto il mondo. La corsa agli armamenti in corso tra hacker e sviluppatori influenzerà senza dubbio il futuro della sicurezza dei chatbot basati sull’intelligenza artificiale.