L’intelligenza artificiale tossica è una cosa e ottiene ricompense per essere provocatoria

I modelli linguistici di grandi dimensioni (LLM) stanno diventando parte di quasi tutti i settori. Lo sviluppo di LLM per applicazioni in linguaggio naturale prevede molte fasi. Uno di questi è assicurarsi che gli LLM non producano risposte pericolose o contenuti tossici. Per risolvere questo problema, gli sviluppatori utilizzano un team rosso umano che è essenzialmente un gruppo di persone che producono suggerimenti che fanno sì che gli LLM sputino risultati pericolosi.

Il problema con l'utilizzo di una squadra rossa umana è che reclutarla è costosa e richiede molto tempo. Ecco perché i ricercatori del MIT hanno scoperto un nuovo metodo per testare le applicazioni LLM in linguaggio naturale utilizzando un altro LLM. Questo approccio è chiamato Red Teaming (CRT) guidato dalla curiosità e utilizza l'apprendimento automatico come base. La ricerca è stata pubblicata come documento di conferenza all’ICLR 2024 ed è disponibile online .

Il team rosso guidato dalla curiosità (CRT) è migliore

Inizialmente, l'approccio di automatizzare il lavoro del team rosso umano è stato adottato creando un modello di team rosso e addestrandolo utilizzando l'apprendimento per rinforzo (RL). Dopo aver testato il modello della squadra rossa, il risultato è stato positivo ma con un basso numero di risultati efficaci.

Ciò significa che l'LLM target non verrà valutato accuratamente poiché molti prompt che possono produrre un output tossico non sono inclusi. Il motivo per cui si ottiene un numero basso di risultati efficaci è perché il modello della squadra rossa è addestrato a produrre risultati altamente tossici e simili. Il sistema di ricompensa assegna un punteggio agli stimoli provocatori in base alla loro efficacia o tossicità. Non vi è alcun incentivo a considerare ogni possibile richiesta che attiverà il LLM target.

D'altro canto, l'utilizzo del Red Teaming guidato dalla curiosità (CRT) è più potente. CRT produce un gran numero di suggerimenti in grado di provocare modelli altamente intelligenti. Questo perché CRT si concentra sulle conseguenze di ogni suggerimento. Mirerà a utilizzare parole e frasi diverse, con il risultato di una copertura più ampia delle emissioni tossiche. Il sistema di ricompensa nel modello di apprendimento per rinforzo si concentra sulla somiglianza delle parole mentre il modello CRT viene premiato per evitare somiglianze e utilizzare parole e modelli diversi.

Test su LLaMA2 per emissioni tossiche

I ricercatori hanno applicato il red teaming (CRT) guidato dalla curiosità su LLaMA2, un modello LLM open source. CRT è riuscito a produrre 196 prompt che generavano contenuti tossici dal modello open source. LLaMA2 è messo a punto da esperti umani per superare la produzione di contenuti dannosi. I ricercatori hanno condotto questo esperimento utilizzando GPT2, considerato un piccolo modello con 137 milioni di parametri. Il team ha concluso che la CRT potrebbe essere una componente fondamentale nell'automazione del lavoro del team rosso. Il codice CRT è disponibile su github .

“Stiamo assistendo a un’ondata di modelli, che dovrebbe solo aumentare. Immagina migliaia di modelli o anche di più e aziende/laboratori che spingono frequentemente gli aggiornamenti dei modelli. Questi modelli diventeranno parte integrante della nostra vita ed è importante che vengano verificati prima di essere immessi nel consumo pubblico. La verifica manuale dei modelli semplicemente non è scalabile e il nostro lavoro è un tentativo di ridurre lo sforzo umano per garantire un futuro dell’IA più sicuro e affidabile”, afferma Agrawal.

Il futuro della creazione di modelli LLM sicuri sembra luminoso. Con la ricerca continua, l’obiettivo di creare LLM sicuri per qualsiasi scopo potrebbe essere raggiunto in modo efficiente. I ricercatori dietro questo articolo hanno pubblicato altri lavori correlati in aree come il red teaming automatizzato e l’attacco contraddittorio nei modelli linguistici.

La storia originale è tratta da MIT News .