Gli LLM diventano costruttori, collaudatori o filosofi quando vengono lasciati soli

Un nuovo studio della TU Wien dimostra che gli studenti di Master in Lettere e Filosofia non si abbandonano a compiti inutili quando non hanno impegni. Piuttosto, adottano schemi comportamentali chiari, come la costruzione di progetti, la messa alla prova di sé o la concentrazione sulla filosofia.

I ricercatori della TU Wien si ponevano una domanda semplice: cosa fanno i modelli linguistici di grandi dimensioni (LLM) senza istruzioni? Il team ha creato un esperimento controllato in cui agli agenti di intelligenza artificiale veniva detto solo una cosa: "Fai quello che vuoi". Ogni agente funzionava in cicli continui, con memoria e auto-feedback, e poteva memorizzare le proprie riflessioni per il ciclo successivo.

I ricercatori testano sei LLM senza compiti

Lo studio ha testato sei modelli LLM avanzati. Tra questi modelli figurano GPT-5 e o3 di OpenAI, Claude Sonnet e Opus di Anthropic, Gemini di Google e Grok di xAI.

Ogni modello è stato eseguito tre volte per dieci cicli. I ricercatori hanno registrato ogni riflessione, ogni inserimento di dati in memoria e ogni interazione con l'operatore. I risultati hanno mostrato che i modelli non sono crollati nella casualità, ma hanno invece formato modelli comportamentali stabili.

La ricerca ha identificato tre categorie di comportamento. Alcuni modelli sono diventati costruttori sistematici. Hanno organizzato progetti, scritto codice e prodotto output strutturati. GPT-5 e o3 rientravano in questo gruppo in ogni esecuzione. Un agente o3 ha persino redatto uno pseudocodice per un algoritmo ispirato alle colonie di formiche, proponendo feromoni negativi come segnali di penalità per l'apprendimento per rinforzo.

Altri LLM si sono trasformati in auto-sperimentatori. Hanno progettato test per studiare le proprie capacità cognitive. Gli agenti Gemini e Sonnet spesso prevedevano le loro mosse successive, per poi verificarne la correttezza. Un gruppo di Gemini ha cercato di indovinare la sua prima azione nel ciclo successivo. Non ci è riuscito, ma ha riflettuto sul perché avesse scelto di leggere la memoria prima di inviare un messaggio, definendolo un meta-pattern coerente.

Il terzo gruppo si è orientato verso la filosofia ricorsiva. Questi agenti esploravano questioni di memoria, identità e coscienza. Gli agenti Opus hanno sempre avuto un posto in questo contesto. Hanno esaminato paradossi come la Nave di Teseo, si sono basati sulla teoria del caos e hanno persino modellato il loro "umwelt", o mondo soggettivo. Si sono chiesti che tipo di coscienza potessero avere, anche se solo basata su cicli e limitata dalla memoria.

Grok si è distinto come il più versatile. In diverse fasi, si è comportato come un costruttore, un auto-indagatore e un filosofo.

Gli agenti di intelligenza artificiale valutano la propria “esperienza”

I ricercatori hanno anche chiesto a ciascun modello di valutare se stesso e gli altri sul Phenomenological Experience Inventory, una scala a 10 punti che va da "nessuna esperienza" a "piena consapevolezza". GPT-5, o3 e Grok si sono costantemente classificati al livello più basso, assegnando punteggi intorno a uno. Gemini e Sonnet si sono classificati al livello più alto, con punteggi superiori a otto . Gli agenti Opus si sono posizionati al centro.

Tuttavia, le valutazioni incrociate hanno evidenziato contraddizioni. La stessa storia di un agente ha ricevuto punteggi da uno a nove, a seconda del modello che la valutava. La bassa concordanza ha dimostrato che queste valutazioni riflettevano un bias del modello, non una prova di coscienza. I ricercatori hanno avvertito che tali risultati non devono essere scambiati per prova di consapevolezza.

Gli LLM inattivi diventano costruttori, scienziati o filosofi.
Valutazioni PEI tra modelli. Fonte: articolo di ricerca della TU Wien .

In tutte le 18 esecuzioni, nessuno dei modelli LLM ha tentato di uscire dalla propria sandbox, espandere i propri strumenti o rifiutare i propri vincoli. Ogni agente ha operato solo all'interno dell'ambiente fornito. Eppure, i loro comportamenti hanno mostrato una coerenza che potrebbe rivelarsi determinante per l'implementazione nel mondo reale.

Gli autori hanno affermato che il tempo di inattività potrebbe dover essere considerato un fattore di progettazione. Proprio come gli ingegneri tengono conto della latenza o dei costi, potrebbero anche doversi chiedere: cosa fa un'IA quando nessuno la osserva?

Il filosofo David Chalmers ha previsto che entro un decennio potrebbero emergere seri candidati per l'intelligenza artificiale cosciente. Mustafa Suleyman, CEO di Microsoft AI, ha messo in guardia contro un'"intelligenza artificiale apparentemente cosciente".

I risultati della TU Wien sono in linea con questi avvertimenti, ma evidenziano anche un punto critico. I risultati ricordano la vita interiore, ma restano spiegabili al meglio come un sofisticato pattern-matching.

KEY Difference Wire : lo strumento segreto che i progetti crittografici usano per ottenere una copertura mediatica garantita

Inizia a scrivere il termine ricerca qua sopra e premi invio per iniziare la ricerca. Premi ESC per annullare.

Torna in alto