Una nuova ricerca ha dimostrato che i modelli di intelligenza artificiale (AI) possiedono alcune capacità molto prima di mostrarle durante l’addestramento. Secondo la ricerca condotta da Havard e dall’Università del Michigan, i modelli non mostrano queste capacità finché non è necessario in un modo o nell’altro.
La ricerca è una delle tante condotte per capire come i modelli di intelligenza artificiale sviluppano le loro capacità prima di metterle in mostra.
Lo studio ha analizzato il modo in cui i modelli di intelligenza artificiale apprendono concetti di base come dimensione e colore, rivelando che padroneggiano le abilità prima di quanto suggerisca la maggior parte dei test. Lo studio ha inoltre fornito informazioni sulla complessità della misurazione delle capacità di un'intelligenza artificiale. "Un modello potrebbe apparire incompetente quando gli vengono forniti suggerimenti standard mentre in realtà possiede abilità sofisticate che emergono solo in condizioni specifiche", si legge nel documento.
La ricerca mostra che i modelli di intelligenza artificiale interiorizzano i concetti
Havard e l'Università del Michigan non sono i primi a cercare di comprendere le capacità del modello di intelligenza artificiale, con i ricercatori di Anthropic che presentano un documento intitolato "apprendimento del dizionario". L'articolo discuteva della mappatura delle connessioni nella loro lingua di Claude con concetti specifici che comprende. Sebbene la maggior parte di queste ricerche abbia preso angolazioni diverse, lo scopo principale è comprendere i modelli di intelligenza artificiale.
Anthropic ha rivelato di aver trovato caratteristiche che potrebbero essere legate a diversi concetti interpretabili. "Abbiamo trovato milioni di caratteristiche che sembrano corrispondere a concetti interpretabili che vanno da oggetti concreti come persone, paesi ed edifici famosi a idee astratte come emozioni, stili di scrittura e passaggi di ragionamento", ha rivelato la ricerca.
Nel corso della loro ricerca, i ricercatori hanno effettuato diversi esperimenti utilizzando il modello di diffusione, una delle architetture più popolari per l’intelligenza artificiale . Durante l'esperimento, si sono resi conto che i modelli avevano modi distinti di manipolare i concetti di base. I modelli erano coerenti poiché i modelli di intelligenza artificiale mostravano nuove capacità in diverse fasi e un punto di transizione netto che segnalava quando veniva acquisita una nuova abilità.
Durante la formazione, i modelli hanno dimostrato di aver padroneggiato i concetti circa 2.000 passi prima di quanto sarebbe stato rilevato da un test standard. I concetti forti apparivano intorno ai 6.000 passi mentre quelli più deboli erano visibili intorno ai 20.000 passi. Dopo aver adattato i segnali concettuali, hanno scoperto una correlazione diretta con la velocità di apprendimento.
I ricercatori rivelano metodi per accedere a capacità nascoste
I ricercatori hanno utilizzato metodi di suggerimento alternativi per rivelare capacità nascoste prima che venissero mostrate nei test standard. La natura dilagante dell’emergenza nascosta ha effetti sulla valutazione e sulla sicurezza dell’IA. Ad esempio, i benchmark tradizionali potrebbero tralasciare alcune funzionalità dei modelli di intelligenza artificiale, perdendo così sia gli aspetti benefici che quelli preoccupanti.
Durante la ricerca, il team ha individuato alcuni metodi per accedere alle capacità nascoste dei modelli di intelligenza artificiale. La ricerca ha definito i metodi intervento latente lineare e sollecitazione eccessiva, poiché i ricercatori hanno fatto in modo che i modelli mostrassero comportamenti complessi prima che si mostrassero nei test standard. I ricercatori hanno anche scoperto che i modelli di intelligenza artificiale manipolavano alcune caratteristiche complesse prima di poterle mostrare attraverso istruzioni standard.
Ad esempio, ai modelli potrebbe essere chiesto di generare con successo "donne sorridenti" o "uomini che indossano cappelli" prima di essere invitati a combinarli. Tuttavia, la ricerca ha dimostrato che hanno imparato a combinarli prima, ma non saranno in grado di mostrarli attraverso suggerimenti convenzionali. Si può dire che i modelli che mostrano le capacità siano grokking, una situazione in cui i modelli mostrano prestazioni di test perfette dopo un addestramento prolungato. Tuttavia, i ricercatori hanno affermato che ci sono differenze fondamentali tra i due.
Sebbene il grokking avvenga dopo diverse sessioni di formazione e comporti il perfezionamento di diverse distribuzioni degli stessi set di dati, la ricerca mostra che queste capacità emergono durante l’apprendimento attivo. I ricercatori hanno notato che i modelli hanno trovato nuovi modi per manipolare i concetti attraverso il cambiamento delle fasi piuttosto che miglioramenti graduali della rappresentazione nel grokking.
Secondo la ricerca, emerge che i modelli di intelligenza artificiale conoscono questi concetti, semplicemente non sono in grado di mostrarli. È simile alle persone che guardano e capiscono un film straniero ma non parlano la lingua. Ciò dimostra che la maggior parte dei modelli ha più capacità di quelle mostrate e mostra anche la difficoltà nel comprendere e controllare le proprie capacità.
Da Zero a Web3 Pro: il tuo piano di lancio carriera di 90 giorni