Elon Musk ha annunciato ufficialmente l'inizio della formazione GROK 3 presso la struttura di supercomputer di Memphis, equipaggiata con le GPU H100 di NVIDIA dell'attuale generazione. La struttura, che Musk definisce "il più potente cluster di addestramento AI al mondo", ha iniziato a funzionare lunedì con l'aiuto di 100.000 GPU H100 raffreddate a liquido su un singolo tessuto RDMA.
L'allenamento era previsto alle 4:20 ora locale a Memphis. Nel suo successivo tweet, Musk ha affermato che “l'intelligenza artificiale più avanzata al mondo” potrebbe essere sviluppata entro dicembre di quest'anno. Musk ha anche twittato riguardo al risultato ottenuto su X e si è congratulato con i team di xAI, X e NVIDIA per il loro eccellente lavoro.
xAI cambia strategia e annulla il contratto del server Oracle
L'annuncio arriva sulla scia del recente annullamento di un accordo server da 10 miliardi di dollari tra xAI e Oracle. Musk ha indicato che xAI Gigafactory of Compute, inizialmente prevista per essere operativa entro l'autunno del 2025, ha iniziato le operazioni prima del previsto.
xAI aveva precedentemente esternalizzato i suoi chip AI da Oracle, ma ha deciso di disimpegnarsi per sviluppare il proprio supercomputer avanzato. Il progetto ora prevede di sfruttare il potenziale delle GPU H100 all’avanguardia che costano circa 30.000 dollari ciascuna. GROK 2 utilizzava 20.000 GPU e GROK 3 aveva bisogno di cinque volte più GPU per creare un chatbot AI più sofisticato.
Leggi anche: Elon Musk cerca l'opinione pubblica su un investimento xAI di 5 miliardi di dollari per Tesla
Ciò è abbastanza sorprendente, soprattutto perché NVIDIA ha recentemente annunciato l'imminente rilascio delle GPU H200, basate sull'architettura Hopper. La decisione di iniziare l'addestramento con le GPU H100 invece di aspettare l'H200 o le prossime GPU B100 e B200 basate su Blackwell. Le GPU H200, entrate nella produzione di massa nel secondo trimestre, promettono miglioramenti significativi delle prestazioni, ma l'attenzione immediata di xAI è quella di sfruttare l'infrastruttura H100 esistente per raggiungere i suoi obiettivi ambiziosi.
L'analista mette in dubbio l'alimentazione elettrica del Memphis Supercluster
Dylan Patel, un esperto di intelligenza artificiale e semiconduttori, inizialmente ha sollevato preoccupazioni sui problemi di potere legati alla gestione del Supercluster di Memphis. Ha sottolineato che l'attuale fornitura di rete di 7 megawatt può sostenere solo circa 4.000 GPU. La Tennessee Valley Authority (TVA) dovrebbe fornire 50 MW all'impianto secondo un accordo che dovrebbe essere firmato entro il 1° agosto. Tuttavia, la sottostazione necessaria per soddisfare l’intera domanda di energia sarà completata solo alla fine del 2024.
Analizzando le immagini satellitari, Patel ha notato che Musk ha utilizzato 14 generatori mobili VoltaGrid, che possono produrre 2,5 megawatt ciascuno. Complessivamente questi generatori producono 35 megawatt di elettricità. Oltre agli 8 MW dalla rete, si arriva a un totale di 43 MW, sufficienti per alimentare circa 32.000 GPU H100 con un certo limite di potenza.