Addestrare modelli linguistici per prevedere più token contemporaneamente si traduce in una migliore efficienza del campione, affermano i ricercatori di Meta.
I modelli linguistici di grandi dimensioni come Llama e ChatGPT vengono solitamente addestrati per la previsione del token successivo, ma con questo nuovo approccio è possibile ottenere prestazioni migliori.
Cos'è la tecnica di previsione del token singolo?
La tecnica di previsione multi-token fornisce un vantaggio significativo in alcuni scenari con una velocità tre volte superiore alle attività generative, ma non è ancora una soluzione unica per ogni tipo di modello. La tecnica ha un certo margine di miglioramento e, per alcune applicazioni LLM, può diventare uno strumento affidabile.
Per una comprensione più chiara, si può dire che il processo tradizionale per la formazione LLM utilizza un approccio chiamato “previsione del token successivo” e in questo modo un modello prevede solo il prossimo token futuro in una determinata sequenza.
In un processo automatizzato, il token previsto viene aggiunto all'input e il processo viene ripetuto più e più volte sull'intero input di testo fornito in modo che il modello impari i modelli comuni e sviluppi la capacità di produrre un output costituito da elementi logici e coerenti testo.
Questa tecnica presenta alcuni inconvenienti, poiché elaborando solo il token successivo, il modello si concentra troppo sui modelli locali nel testo e ignora le previsioni che possono essere fatte solo con il ragionamento.
Un altro problema con questa tecnica è che richiede l’inserimento di enormi quantità di set di dati nel modello per raggiungere il normale flusso di output linguistico che gli esseri umani possono ottenere con pochissimo testo.
La previsione multi token consente una velocità 3X

Nel nuovo approccio multi-token suggerito da Meta , al LLM viene chiesto di prevedere più token da posizioni diverse contemporaneamente nel processo di formazione. I ricercatori hanno utilizzato una semplice architettura di previsione per la previsione multi-token che non richiede risorse aggiuntive come tempo e elaborazione della memoria.
I ricercatori hanno utilizzato la stessa architettura Transformer già utilizzata dalla maggior parte degli LLM, ma hanno apportato alcune modifiche per soddisfare la previsione di token multipli aumentando le teste di output da singole a multiple e assegnandone una a ciascun token.
In questo modo, per trarre conclusioni e fare previsioni, il modello utilizza la stessa strategia di base di previsione successiva, ma utilizzando più teste può accelerare il processo. Lo studio di ricerca dice:
“Sebbene sia semplice e gratuita, la previsione multi-token rappresenta una modifica efficace per addestrare modelli di trasformatori più forti e più veloci”.
Fonte: Meta.
I ricercatori hanno scoperto durante lo studio che la tecnica produceva risultati inferiori alla media quando veniva utilizzata su modelli più piccoli, ma i risultati diventavano migliori della media quando applicavano lo stesso processo a modelli più grandi e i risultati continuavano a migliorare con le dimensioni del modello. Come scrive lo studio,
“Il metodo è sempre più utile per modelli di dimensioni maggiori e mantiene il suo fascino durante l’addestramento per più epoche. I guadagni sono particolarmente pronunciati su benchmark generativi come la codifica, dove i nostri modelli superano costantemente le solide linee di base di diversi punti percentuali”.
Fonte: Meta .
I ricercatori hanno anche affermato che la tecnica di previsione multi token rende il modello tre volte più veloce nel produrre risultati logici, il che è utile con il vantaggio di costi aggiuntivi nulli o minimi.