Amazon sfrutta i chip su scala wafer di Cerebras per potenziare i modelli di intelligenza artificiale su AWS.

Amazon Web Services ha annunciato venerdì che installerà processori di Cerebras nei suoi data center nell'ambito di una partnership pluriennale incentrata sull'inferenza basata sull'intelligenza artificiale.

L'accordo offre ad Amazon un nuovo modo per velocizzare i modelli di intelligenza artificiale nel rispondere ai prompt, scrivere codice e gestire le richieste degli utenti in tempo reale. AWS ha dichiarato che utilizzerà la tecnologia di Cerebras, incluso il Wafer-Scale Engine, per le attività di inferenza.

Le aziende non hanno reso noti i termini finanziari dell'accordo. L'installazione è prevista su Amazon Bedrock all'interno dei data center AWS, collocando la partnership proprio all'interno di uno dei principali prodotti di intelligenza artificiale di Amazon.

AWS ha dichiarato che il sistema combinerà server basati su Amazon Trainium, sistemi Cerebras CS-3 e la rete Amazon Elastic Fabric Adapter.

Nel corso dell'anno, AWS prevede inoltre di offrire i principali modelli linguistici open source e Amazon Nova su hardware Cerebras. David Brown, vicepresidente dei servizi di calcolo e apprendimento automatico di AWS, ha affermato che la velocità rappresenta ancora un problema importante nell'inferenza dell'IA, soprattutto per l'assistenza alla programmazione in tempo reale e le app interattive.

David ha affermato: "L'inferenza è il campo in cui l'IA offre un valore reale ai clienti, ma la velocità rimane un collo di bottiglia critico per carichi di lavoro impegnativi come l'assistenza alla programmazione in tempo reale e le applicazioni interattive."

Amazon suddivide le fasi di precaricamento e decodifica su chip separati.

AWS ha affermato che il design utilizza un metodo chiamato disaggregazione dell'inferenza. Ciò significa suddividere l'inferenza dell'IA in due parti. La prima parte è l'elaborazione preliminare, detta anche precompilazione. La seconda parte è la generazione dell'output, detta anche decodifica.

AWS ha affermato che i due processi si comportano in modo molto diverso. Il pre-riempimento è parallelo, richiede un'elevata potenza di calcolo e una larghezza di banda di memoria moderata. La decodifica è seriale, richiede un'elaborazione minore ed è molto più dipendente dalla larghezza di banda di memoria. In questi casi, la decodifica richiede anche la maggior parte del tempo perché ogni token di output deve essere prodotto singolarmente.

Ecco perché AWS assegna hardware diverso a ciascuna fase. Trainium si occuperà del precaricamento, mentre Cerebras CS-3 si occuperà della decodifica.

AWS ha affermato che la rete EFA a bassa latenza e ad alta larghezza di banda collegherà entrambe le parti, consentendo al sistema di funzionare come un unico servizio, mentre ciascun processore si concentra su un'attività separata.

David ha affermato: "Ciò che stiamo realizzando con Cerebras risolve questo problema: suddividendo il carico di lavoro di inferenza tra Trainium e CS-3 e collegandoli con l'adattatore Elastic Fabric di Amazon, ogni sistema fa ciò che sa fare meglio. Il risultato sarà un'inferenza di un ordine di grandezza più veloce e con prestazioni superiori rispetto a quanto disponibile oggi."

AWS ha inoltre affermato che il servizio verrà eseguito sul sistema AWS Nitro, che costituisce il livello base della sua infrastruttura cloud.

Ciò significa che i sistemi Cerebras CS-3 e le istanze basate su Trainium dovrebbero operare con la stessa sicurezza, isolamento e coerenza già utilizzate dai clienti AWS.

Amazon spinge con più forza su Trainium mentre Nvidia si trova ad affrontare un'altra minaccia

L' annuncio offre inoltre ad Amazon un'ulteriore opportunità per promuovere Trainium in concorrenza con i chip di Nvidia, AMD e altre grandi aziende produttrici di semiconduttori. AWS descrive Trainium come il suo chip AI proprietario, progettato per garantire prestazioni scalabili ed efficienza in termini di costi nelle fasi di addestramento e inferenza.

AWS ha dichiarato che due importanti laboratori di intelligenza artificiale hanno già aderito al servizio. Anthropic ha nominato AWS il suo principale partner per la formazione e utilizza Trainium per addestrare e implementare i modelli. OpenAI utilizzerà 2 gigawatt di capacità di Trainium attraverso l'infrastruttura AWS per l'ambiente di runtime con stato, i modelli di frontiera e altri carichi di lavoro avanzati.

AWS ha aggiunto che Trainium3 ha registrato una forte adozione sin dal suo recente rilascio, con clienti di diversi settori che hanno investito ingenti risorse.

Cerebras si occupa della fase di decodifica. AWS ha affermato che CS-3 è dedicato all'accelerazione della decodifica, il che gli consente di disporre di maggiore spazio per token di output veloci. Cerebras sostiene che CS-3 sia il sistema di inferenza AI più veloce al mondo e offra una larghezza di banda di memoria migliaia di volte superiore a quella della GPU più veloce.

L'azienda ha affermato che i modelli di ragionamento ora costituiscono una quota maggiore del lavoro di inferenza e generano più token per richiesta man mano che elaborano i problemi. Cerebras ha anche dichiarato che OpenAI, Cognition, Mistral e altri utilizzano i suoi sistemi per carichi di lavoro impegnativi, in particolare la codifica agentica.

Andrew Feldman, fondatore e amministratore delegato di Cerebras Systems, ha dichiarato: "La partnership con AWS per la creazione di una soluzione di inferenza disaggregata offrirà l'inferenza più veloce a una clientela globale".

Andrew ha aggiunto: "Ogni azienda al mondo potrà beneficiare di un'inferenza estremamente veloce all'interno del proprio ambiente AWS esistente."

L'accordo aumenta la pressione su Nvidia, che a dicembre ha firmato un accordo di licenza da 20 miliardi di dollari con Groq e prevede di presentare la prossima settimana un nuovo sistema di inferenza che utilizza la tecnologia Groq.

Esiste una via di mezzo tra lasciare i soldi in banca e tentare la fortuna con le criptovalute. Inizia con questo video gratuito sulla finanza decentralizzata .