Il colosso dei chip NVIDIA si sta preparando a presentare un nuovo e potente processore per l'intelligenza artificiale, progettato per velocizzare la generazione di risposte da parte di chatbot e altri strumenti di IA, rendendo potenzialmente lenti e poco reattivi i sistemi attuali come ChatGPT al confronto.
La nuova piattaforma, che dovrebbe debuttare alla conferenza annuale per sviluppatori GTC di NVIDIA, è ottimizzata per l'inferenza AI, ovvero la fase in cui i modelli addestrati producono risposte alle richieste dell'utente. A differenza delle GPU tradizionali, progettate per gestire sia l'addestramento che l'inferenza, il nuovo processore si concentra specificamente sulla fornitura di risposte più rapide ed efficienti.
Il prodotto, se lanciato sul mercato, rappresenterà il primo risultato concreto dell'accordo siglato a dicembre, che ha portato i fondatori di Groq a entrare a far parte dell'azienda, specializzata in hardware per l'elaborazione ad alta velocità dell'intelligenza artificiale.
Verso la fine dello scorso anno, NVIDIA avrebbe speso circa 20 miliardi di dollari per acquisire la licenza della tecnologia della startup di chip Groq e reclutare personale chiave, incluso il suo CEO. Nello stesso periodo, il CEO di NVIDIA, Jensen Huang, ha dichiarato ai dipendenti: "Prevediamo di integrare i processori a bassa latenza di Groq nell'architettura NVIDIA AI Factory, estendendo la piattaforma per supportare una gamma ancora più ampia di carichi di lavoro di inferenza AI e in tempo reale".
Secondo il Wall Street Journal, il nuovo chip di inferenza dovrebbe essere in grado di gestire query di intelligenza artificiale complesse ad alta velocità, e OpenAI e altri importanti clienti probabilmente lo adotteranno. Il report ha inoltre evidenziato che il nuovo chip potrebbe gestire quasi il 10% del carico di lavoro di inferenza di OpenAI.
Secondo alcune fonti, il chip in stile Groq utilizzerà la memoria SRAM.
Durante una recente conferenza sui risultati finanziari, il CEO di NVIDIA ha lasciato intendere che diversi nuovi prodotti saranno presentati al prossimo evento GTC, spesso descritto come il "Super Bowl dell'IA". Aveva affermato: "Ho delle ottime idee che vorrei condividere con voi al GTC".
La maggior parte degli analisti concorda sul fatto che il chip in stile Groq potrebbe far parte della gamma. Hanno anche affermato che il suo design potrebbe far luce su come NVIDIA intende affrontare i vincoli di memoria nel calcolo inferenziale. Tali piattaforme in genere si basano su memoria ad alta larghezza di banda (HBM). Tuttavia, ultimamente è diventato difficile reperire la HBM.
Fonti interne hanno affermato che l'azienda prevede di utilizzare la SRAM nel chip anziché la RAM dinamica associata alla HBM. Idealmente, la SRAM è più accessibile e può migliorare le prestazioni dei carichi di lavoro di ragionamento basati sull'intelligenza artificiale.
Se il chip venisse presentato, potrebbe rappresentare un grande passo avanti per l'azienda produttrice e per i modelli di intelligenza artificiale. Tuttavia, parlando del suo possibile lancio, Sid Sheth, fondatore e CEO di d-Matrix, ha gettato un'ombra sul suo sviluppo. Ha osservato che, mentre NVIDIA rimane il leader indiscusso nell'addestramento dell'IA, l'inferenza rappresenta un panorama ben diverso. Ha affermato: "Gli sviluppatori possono rivolgersi a concorrenti diversi da NVIDIA perché l'esecuzione di modelli di IA completi non richiede lo stesso tipo di programmazione necessario per addestrarli".
Tuttavia, anche altri giganti della tecnologia stanno portando avanti lo sviluppo del calcolo inferenziale. Questa settimana Meta ha presentato quattro processori specificamente progettati per l'inferenza, spingendo un investitore della Silicon Valley ad affermare che il settore potrebbe essere in procinto di entrare in una fase non più dominata da NVIDIA.
Tuttavia, più recentemente, June Paik, amministratore delegato di FuriosaAI, un concorrente di NVIDIA, commentando i vantaggi del calcolo inferenziale facilmente implementabile, ha avvertito che la maggior parte dei data center non è in grado di ospitare le GPU di ultima generazione con raffreddamento a liquido.
Nonostante le sue preoccupazioni, gli analisti di Bank of America prevedono che i carichi di lavoro di inferenza rappresenteranno il 75% della spesa per i data center dedicati all'IA entro il 2030, quando il mercato raggiungerà circa 1.200 miliardi di dollari, rispetto al 50% circa dell'anno scorso. Ben Bajarin, analista tecnologico di Creative Strategies, ha inoltre affermato che i data center del futuro non si conformeranno a un modello standardizzato, prevedendo che le aziende adotteranno approcci diversi allo sviluppo di chip e infrastrutture.
Si prevede che NVIDIA rilascerà i chip Vera Rubin nel corso del 2026.
NVIDIA ha recentemente lanciato anche i suoi chip AI di nuova generazione, i chip Vera Rubin AI, prevedendo che l'ascesa di piattaforme di intelligenza artificiale per il ragionamento, come DeepSeek, alimenterà una domanda di calcolo ancora maggiore. L'azienda ha affermato che i chip contribuiranno ad addestrare modelli di intelligenza artificiale più complessi e a fornire risultati più sofisticati a una base di utenti più ampia.
Secondo Huang, Rubin arriverà sul mercato nella seconda metà del 2026, mentre una versione "ultra" di fascia alta sarà disponibile nel 2027.
Ha inoltre spiegato che un singolo sistema Rubin combinerebbe 576 GPU individuali in un unico chip. Attualmente, il chip Blackwell di NVIDIA raggruppa 72 GPU nel suo sistema NVL72, il che significa che Rubin disporrà di una memoria più avanzata.
Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi unirti a loro ?