Un nuovo studio rivela che ChatGPT sta diventando più stupido

Recenti ricerche hanno scatenato un'interessante discussione sulla competenza di ChatGPT, in particolare le versioni GPT-3.5 e GPT-4. Queste due iterazioni hanno dominato il mercato come servizi di modelli linguistici di grandi dimensioni.

Tuttavia, con un mix sconcertante di alti e bassi delle prestazioni tra marzo e giugno 2023, alcuni si chiedono: "ChatGPT sta diventando più stupido?"

Gli aggiornamenti di ChatGPT non superano le versioni precedenti

Stimati studiosi della Stanford University e dell'Università della California, Berkeley, hanno esaminato la competenza di ChatGPT in vari compiti. Il punto focale di questa valutazione completa è stata la drammatica incoerenza osservata nelle sue prestazioni nell'arco di tre mesi.

L'incongruenza fa più che sollevare le sopracciglia; sottolinea la natura della tecnologia e l'imperativo di monitorarne costantemente la qualità .

"I nostri risultati mostrano che il comportamento dello" stesso "servizio LLM [modello di lingua grande] può cambiare sostanzialmente in un lasso di tempo relativamente breve", si legge nel rapporto.

Prestazioni di ChatGPT-4 rispetto a ChatGPT-3.5. Fonte: arXiv

Immergendosi nello specifico, le capacità di risoluzione dei problemi matematici di GPT-4 hanno presentato un calo scioccante nell'identificazione dei numeri primi.

In effetti, i tassi di precisione sono crollati da un encomiabile 97,6% a marzo a un allarmante 2,4% a giugno. Al contrario, il suo predecessore, GPT-3.5, ha mostrato un sostanziale miglioramento nello stesso lasso di tempo, passando dal 7,4% all'86,8%.

Leggi di più: Cosa sono i plugin ChatGPT? Controlla le nostre prime 20 scelte

I forti contrasti confondono gli esperti del settore , poiché ci si aspetterebbe che le versioni più recenti superino i loro predecessori. Ciò solleva preoccupazioni su come "aggiornamenti" e "miglioramenti" influenzino realmente le capacità dell'IA.

Mancanza di spiegazioni dettagliate e generazione di codice

Quando è stata sondata su questioni delicate, la ricerca ha rappresentato un altro punto di vista intrigante. GPT-4 ha dimostrato una significativa riduzione delle risposte dirette a domande sensibili da marzo a giugno. Questo è indicativo di uno strato di sicurezza rinforzato.

Tuttavia, si è verificato un notevole troncamento nelle spiegazioni generate quando si è rifiutato di rispondere. Ciò ha spinto a speculare sul fatto che il modello stia peccando per eccesso di cautela a scapito del coinvolgimento e della chiarezza degli utenti.

Verbosità ChatGPT-4 vs ChatGPT-3.5. Fonte: arXiv

Tuttavia, non era tutto buio. Lo studio ha individuato un'area cruciale in cui GPT-4, e in una certa misura GPT-3.5, hanno manifestato miglioramenti marginali: il ragionamento visivo. Sebbene le percentuali di successo complessive siano rimaste relativamente basse, vi sono state prove di un'evoluzione nelle loro prestazioni.

Leggi di più: Le migliori alternative a ChatGPT che puoi utilizzare nel 2023

Ciò che spicca davvero è l'imprevedibilità di questa tecnologia. La competenza nella generazione del codice di GPT-4 ha mostrato un calo nella produzione di codice eseguibile direttamente. Ciò solleva segnali d'allarme per le industrie che si affidano a questi modelli, poiché le incoerenze possono provocare il caos in ecosistemi software più grandi.

L'autocompiacimento non può essere concesso

Il punto chiave di questa analisi approfondita non sono le fluttuazioni nelle prestazioni di GPT-4 e GPT-3.5, ma la lezione generale sull'impermanenza dell'efficienza dell'IA.

Con i rapidi progressi tecnologici , c'è un presupposto implicito che i modelli più recenti supereranno i loro predecessori. Questo studio sfida proprio questa nozione.

Il messaggio per le aziende e gli sviluppatori fortemente investiti in ChatGPT è di monitorare e valutare regolarmente questi modelli. Mentre la tecnologia AI continua la sua marcia in avanti, lo studio è un duro promemoria del fatto che i progressi non sono lineari.

Leggi di più: 21 migliori prompt di ChatGPT da esplorare nel 2023

Aziende in tutto il mondo che utilizzano ChatGPT. Fonte: Statista

Il presupposto che il più recente sia invariabilmente migliore potrebbe essere una semplificazione eccessiva, un'idea che la comunità tecnologica deve affrontare frontalmente. Il comportamento irregolare di GPT-4 e GPT-3.5 nel giro di pochi mesi amplifica l'urgenza di rimanere vigili, valutare e ricalibrare, assicurando che la tecnologia serva allo scopo previsto con competenza costante.

Il post Il nuovo studio rivela che ChatGPT sta diventando più stupido è apparso per la prima volta su BeInCrypto .