Accessibilità ed efficienza dell’hardware AI generativo

Le innovazioni nell’hardware dell’intelligenza artificiale generativa stanno facendo passi da gigante verso convenienza, accessibilità ed efficienza, sfidando i vincoli posti dalla crescita esponenziale delle dimensioni dei modelli linguistici di grandi dimensioni (LLM). In una recente tavola rotonda, i leader del settore hanno condiviso approfondimenti sulle loro strategie per affrontare queste sfide urgenti.

Marshall Choy, vicepresidente senior dei prodotti presso SambaNova Systems, ha evidenziato il ruolo fondamentale dell'architettura di memoria nel ridurre i costi di utilizzo degli LLM. Poiché i LLM vantano un numero di parametri che raggiunge i miliardi o trilioni, l’attenzione si è spostata verso la memoria come collo di bottiglia. SambaNova Systems ha adottato un'architettura di memoria a tre livelli, affrontando latenza, larghezza di banda e capacità all'interno di un unico framework. Questo approccio innovativo mira a scalare economicamente l’utilizzo degli LLM, dove l’efficienza della memoria è il fulcro.

Democratizzare i grandi modelli

La dimensione in espansione degli LLM rappresenta una sfida significativa per l’accessibilità. Una volta che un modello supera un trilione di parametri, i costi operativi e hardware associati diventano proibitivi, lasciando il loro utilizzo limitato a pochi eletti. Per rendere i modelli di grandi dimensioni accessibili a un pubblico più ampio, SambaNova Systems ha introdotto un nuovo concetto noto come “composizione di esperti”.

Questo approccio diverge dal paradigma convenzionale della “miscela di esperti”, in cui i problemi complessi di modellazione predittiva sono suddivisi in sottoattività. SambaNova addestra invece modelli di esperti di dominio in termini di precisione e pertinenza delle attività, assemblando un modello di composizione di esperti composto da trilioni di parametri. Questo modello può essere continuamente addestrato su nuovi dati senza sacrificare l'apprendimento precedente, il tutto riducendo al minimo la latenza di elaborazione e i costi associati alla formazione, alla messa a punto e all'inferenza.

Efficienza attraverso tecniche di modellizzazione

L’efficienza nell’hardware dell’intelligenza artificiale generativa va oltre l’hardware stesso; si estende alla relazione tra l'architettura del modello e l'hardware su cui viene eseguito. Matt Mattina, VP of AI Hardware and Models presso Tenstorrent, ha sottolineato l'importanza di interrompere il ciclo di feedback in cui l'architettura del modello è modellata dall'hardware su cui è addestrata.

Tenstorrent adotta tecniche come la ricerca dell'architettura di rete con l'hardware in loop, consentendo ai formatori di specificare l'hardware per l'inferenza durante la formazione. Questo cambiamento di paradigma garantisce che i modelli siano adattati non per la macchina di formazione ma per la macchina di inferenza definitiva, portando a modelli più efficienti per l’uso pratico.

Specializzazione a livello di sistema

L’intelligenza artificiale è un campo in continua evoluzione, che pone sfide nel bilanciare chip dedicati e silicio personalizzato con la flessibilità del sistema. Jeff Wittich, Chief Product Officer presso Ampere Computing, offre una prospettiva che favorisce la specializzazione a livello di sistema. Afferma che questo approccio offre la flessibilità necessaria per mescolare e abbinare i componenti, creando soluzioni versatili in grado di adattarsi al panorama hardware dell’intelligenza artificiale in rapida evoluzione.

Tradizionalmente, la creazione e la commercializzazione di nuovo hardware richiede diversi anni. La partnership di Ampere con aziende che sviluppano vari acceleratori di formazione e inferenza mira a raggiungere il giusto equilibrio. Ampere prevede un miglioramento delle prestazioni e dell'efficienza accoppiando CPU generiche con acceleratori specializzati in compiti specifici.

Vantaggi e flessibilità dell'integrazione

Wittich sottolinea l'importanza dell'integrazione, che idealmente dovrebbe migliorare le prestazioni e l'efficienza senza sacrificare la flessibilità. La fusione di CPU generiche con acceleratori specializzati è vista come una strada promettente. Nel corso del tempo, si prevede che la stretta integrazione di questi acceleratori con le CPU ottimizzerà ulteriormente i carichi di lavoro dell’intelligenza artificiale. Il principio chiave rimane: l’integrazione dovrebbe migliorare le capacità senza imporre restrizioni.