Il modello o3 di OpenAI non è all’altezza delle proprie affermazioni di riferimento

Il nuovo LLM di OpenAI, o3, è sotto esame dopo che test indipendenti hanno scoperto che ha risolto un numero molto inferiore di problemi matematici difficili rispetto a quanto affermato inizialmente dalla società.

Quando OpenAI ha presentato o3 a dicembre, i dirigenti hanno affermato che il modello potrebbe rispondere a “poco più di un quarto” dei problemi di FrontierMath, una serie notoriamente difficile di enigmi matematici di livello universitario.

Il miglior concorrente, hanno aggiunto, è rimasto fermo vicino al 2%. "Oggi, tutte le offerte disponibili rappresentano meno del 2%", ha affermato il responsabile della ricerca Mark Chen durante il mini live streaming di o3 e o3. "Abbiamo notato che, con o3 in impostazioni di calcolo aggressive per i tempi di test, siamo in grado di superare il 25%."

TechCrunch ha riferito che il risultato è stato ottenuto da OpenAI su una versione di o3 che utilizzava più potenza di calcolo rispetto al modello rilasciato dall'azienda la settimana scorsa .

Venerdì l'istituto di ricerca Epoch AI, creatore di FrontierMath, ha pubblicato il proprio punteggio per il pubblico o3.

Utilizzando un’edizione aggiornata di 290 domande del benchmark, Epoch ha fissato il modello a circa il 10%.

Il risultato corrisponde a una cifra inferiore nel documento tecnico di OpenAI di dicembre, e Epoch ha avvertito che la discrepanza potrebbe essere dovuta a vari motivi.

"La differenza tra i nostri risultati e quelli di OpenAI potrebbe essere dovuta alla valutazione di OpenAI con un'impalcatura interna più potente, all'utilizzo di più tempi di test, o al fatto che tali risultati sono stati eseguiti su un sottoinsieme diverso di FrontierMath", ha scritto Epoch.

FrontierMath è progettato per misurare i progressi verso il ragionamento matematico avanzato. Il set pubblico di dicembre 2024 conteneva 180 problemi, mentre l'aggiornamento privato di febbraio 2025 ha ampliato il pool a 290.

I cambiamenti nell'elenco delle domande e la quantità di potenza di calcolo consentita al momento del test possono causare grandi oscillazioni nelle percentuali riportate.

OpenAI ha confermato che il modello pubblico o3 utilizza meno risorse di calcolo rispetto alla versione demo

La prova che manca l'o3 commerciale è arrivata anche dai test della ARC Prize Foundation, che ha provato una versione precedente e più grande. Il rilascio pubblico "è un modello diverso… ottimizzato per l'uso tramite chat/prodotto", ha pubblicato la ARC Price Foundation su X, aggiungendo che "tutti i livelli di elaborazione o3 rilasciati sono più piccoli della versione che abbiamo confrontato".

La dipendente di OpenAI Wenda Zhou ha offerto una spiegazione simile durante un live streaming la scorsa settimana. Il sistema di produzione, ha affermato, era “più ottimizzato per i casi d’uso del mondo reale” e per la velocità. "Abbiamo effettuato [ottimizzazioni] per rendere il modello più efficiente in termini di costi [e] più utile in generale", ha affermato Zhou, pur riconoscendo possibili "disparità" nei benchmark.

Due modelli più piccoli dell'azienda, o3‑mini‑high e il nuovo o4‑mini annunciato, hanno già battuto o3 su FrontierMath, e OpenAI afferma che una variante o3‑pro migliore arriverà nelle prossime settimane.

Tuttavia, mostra come i titoli dei benchmark possano essere fuorvianti. A gennaio, Epoch è stata criticata per aver ritardato la divulgazione dei finanziamenti di OpenAI fino a dopo il debutto di o3. Più recentemente, la startup xAI di Elon Musk è stata accusata di presentare grafici che sopravvalutavano le capacità del suo modello Grok 3.

Gli osservatori del settore affermano che tali controversie sui benchmark stanno diventando un evento nel settore dell’intelligenza artificiale mentre le aziende corrono per conquistare i titoli dei giornali con nuovi modelli.

Cryptopolitan Academy: stanco delle oscillazioni del mercato? Scopri come la DeFi può aiutarti a creare un reddito passivo costante. Registrati ora

Inizia a scrivere il termine ricerca qua sopra e premi invio per iniziare la ricerca. Premi ESC per annullare.

Torna in alto