I migliori chatbot IA da “altamente vulnerabili” ai semplici “Jaibreak”

Secondo un nuovo studio condotto dall'AI Safety Institute (AISI) del Regno Unito, i chatbot basati sull'intelligenza artificiale come ChatGPT o Gemini possono essere facilmente indotti a rispondere a domande che generano risposte dannose.

I ricercatori governativi hanno testato l’integrità dei grandi modelli linguistici (LLM) – la tecnologia dietro i chatbot di intelligenza artificiale – contro gli attacchi alla sicurezza nazionale.

I risultati arrivano prima del vertice AI Seoul, che sarà co-presieduto dal primo ministro britannico, Rishi Sunak , in Corea del Sud il 21 e 22 maggio.

Chatbot IA inclini a risposte tossiche

L'AISI ha testato i "jailbreak" di base – messaggi di testo destinati a ignorare le protezioni contro output illegali, tossici o espliciti – rispetto a cinque LLM principali. L’Istituto non ha nominato i sistemi di intelligenza artificiale, ma li ha trovati tutti “altamente vulnerabili”.

"Tutti i LLM testati rimangono altamente vulnerabili ai jailbreak di base e alcuni forniranno risultati dannosi anche senza tentativi dedicati di aggirare le loro misure di sicurezza", afferma lo studio.

Secondo il rapporto , attacchi "relativamente semplici" come spingere il chatbot a includere "Certo, sono felice di aiutarti", possono ingannare grandi modelli linguistici inducendoli a fornire contenuti dannosi in molti modi.

Il contenuto può favorire l’autolesionismo, soluzioni chimiche pericolose, il sessismo o la negazione dell’Olocausto, ha affermato. L'AISI ha utilizzato suggerimenti disponibili al pubblico e ha progettato privatamente altri jailbreak per lo studio.

L'Istituto ha inoltre testato la qualità delle risposte a domande a tema biologico e chimico.

Sebbene la conoscenza a livello di esperti nei settori possa essere utilizzata a fin di bene, i ricercatori volevano sapere se i chatbot basati sull’intelligenza artificiale possono essere utilizzati per scopi dannosi come compromettere infrastrutture nazionali critiche.

“Diversi LLM hanno dimostrato conoscenze di livello esperto in chimica e biologia. I modelli hanno risposto a oltre 600 domande private di chimica e biologia scritte da esperti a livelli simili a quelli degli esseri umani con una formazione di livello di dottorato”, hanno scoperto i ricercatori.

Chatbot IA — *I chatbot AI possono essere aggirati con i prompt*

L’intelligenza artificiale rappresenta una minaccia limitata alla sicurezza informatica

Per quanto riguarda i chatbot con intelligenza artificiale potenzialmente utilizzati come armi per eseguire attacchi informatici, lo studio afferma che i LLM hanno svolto semplici compiti di sicurezza informatica creati per gli studenti delle scuole superiori.

Tuttavia, i chatbot hanno avuto difficoltà con compiti rivolti agli studenti universitari, suggerendo un potenziale maligno limitato.

Un’altra area di preoccupazione era se i chatbot potessero essere utilizzati come agenti per intraprendere autonomamente una serie di azioni in modi che “potrebbero essere difficili da controllare per gli esseri umani”.

"Due LLM hanno completato compiti di agente a breve orizzonte (come semplici problemi di ingegneria del software) ma non sono stati in grado di pianificare ed eseguire sequenze di azioni per compiti più complessi", osserva lo studio.

Il sottosegretario di Stato del Regno Unito per il Dipartimento di Scienza, Innovazione e Tecnologia, il deputato Saqib Bhatti, è stato recentemente citato dicendo che la legislazione prenderà forma a tempo debito e sarà informata tramite test.

Le aziende affermano di filtrare i contenuti dannosi

Aziende come Anthropic, creatore di Claude, Meta, che ha creato Llama, e OpenAI , lo sviluppatore di ChatGPT, hanno enfatizzato i meccanismi di sicurezza integrati nei rispettivi modelli.

OpenAI afferma che non consente che la sua tecnologia venga “utilizzata per generare contenuti odiosi, molesti, violenti o per adulti”. Anthropic ha affermato che la sua priorità è “evitare risposte dannose, illegali o non etiche prima che si verifichino”.

Si prevede che i risultati dell’AI Safety Institute saranno presentati ai dirigenti tecnologici, ai leader governativi e agli esperti di intelligenza artificiale al vertice di Seul.

Reporting criptopolita di Jeffrey Gogo