Un post virale su BridgeBench afferma che Claude Opus 4.6 è stato “depotenziato”, ma i critici lo definiscono una falsa affermazione scientifica.

BridgeMind AI ha affermato che la versione 4.6 di Claude Opus di Anthropic è stata segretamente degradata dopo un nuovo test di benchmark sulle allucinazioni. Il post, diventato virale, ha suscitato aspre critiche per la metodologia errata.

L'affermazione ha scatenato un ampio dibattito sulla possibilità che le aziende di intelligenza artificiale stiano silenziosamente declassando i modelli a pagamento per ridurre i costi.

BridgeMind afferma che si è registrato un aumento del 98% delle allucinazioni.

BridgeMind, il team che ha creato il benchmark di programmazione BridgeBench, ha pubblicato un post in cui afferma che Claude Opus 4.6 è sceso dal secondo al decimo posto nella sua classifica dei giochi più complessi. L'accuratezza, a quanto pare, è calata dall'83,3% al 68,3%.

"CLAUDE OPUS 4.6 È STATO DEPOTENZIATO. BridgeBench lo ha appena dimostrato. La scorsa settimana Claude Opus 4.6 si è classificato al secondo posto nel benchmark Hallucination con una precisione dell'83,3%. Oggi Claude Opus 4.6 è stato testato nuovamente ed è sceso al decimo posto della classifica con una precisione di solo il 68,3%", hanno scritto .

Il post presentava questo dato come prova di "livelli di ragionamento ridotti". Tuttavia, un'analisi più approfondita dei dati sottostanti racconta una storia diversa.

Secondo i critici, il paragone è fondamentalmente errato.

Secondo l'informatico Paul Calcraft, l'affermazione è "incredibilmente errata dal punto di vista scientifico", evidenziando un problema critico nella metodologia.

"Scienza incredibilmente scadente. Oggi avete testato Opus su 30 attività, mentre il punteggio precedente era basato solo su *6* attività. Risultati per 6 attività in comune: punteggio dell'85,4% oggi contro l'87,6% precedente. La differenza è dovuta principalmente a una *singola* produzione senza ripetizioni – facilmente rumore statistico", ha commentato Calcraft.

Il punteggio più alto originale era stato ottenuto con sole sei prove di riferimento. Il nuovo test ha ampliato il set di prove a 30.

Nei sei compiti sovrapposti, le prestazioni sono risultate pressoché identiche, diminuendo solo dall'87,6% all'85,4%.

Una spregevole ricerca di popolarità. Oggi hanno testato Opus su 30 attività, mentre il precedente punteggio di Opus 4.6 era basato su sole *6* attività. UN BENCHMARK DIVERSO.

6 compiti in risultati comuni: punteggio dell'85,4% oggi contro l'87,6% precedente. La variazione è dovuta principalmente a una *singola* fabbricazione senza ripetizioni – facilmente rumore statistico https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) 12 aprile 2026

Quella piccola variazione è derivata principalmente da una singola fabbricazione aggiuntiva in una delle attività. Non essendoci state ripetizioni, questo rientra ampiamente nella normale varianza statistica per i modelli di intelligenza artificiale.

I modelli linguistici di grandi dimensioni non sono deterministici e un singolo risultato errato su un piccolo campione può alterare significativamente i risultati finali.

Frustrazioni più ampie alimentano la narrazione

Tuttavia, il post ha toccato un nervo scoperto. Dal suo lancio nel febbraio 2026, Claude Opus 4.6 è stato oggetto di continue lamentele riguardo a un presunto calo di qualità.

Gli sviluppatori segnalano tempi di risposta più brevi, una minore capacità di seguire le istruzioni e una ridotta profondità di ragionamento durante le ore di punta.

Alcuni di questi cambiamenti sono riconducibili a modifiche deliberate del prodotto. Anthropic ha introdotto controlli di pensiero adattivo che consentono al modello di autoregolare il proprio budget di ragionamento. Il livello di sforzo predefinito è stato successivamente impostato su medio, privilegiando l'efficienza rispetto alla massima profondità.

Novità dell'API: offriamo agli sviluppatori un maggiore controllo sullo sforzo richiesto al modello e maggiore flessibilità per gli agenti in esecuzione da lungo tempo.

Il pensiero adattivo permette a Claude di calibrare la profondità del suo ragionamento in base al compito, e la compattazione del contesto impedisce che i compiti di lunga durata raggiungano i limiti.
— Claude (@claudeai) 5 febbraio 2026

Un'analisi indipendente di oltre 6.800 sessioni del Codice Claude ha rilevato che la profondità del ragionamento è diminuita di circa il 67% entro la fine di febbraio.

Il rapporto tra file letti dal modello prima della modifica del codice è sceso da 6,6 a 2,0. Ciò suggerisce che ha tentato di apportare correzioni su codice che aveva a malapena esaminato .

Cosa significa questo per gli utenti dell'IA

Ciò riflette una tensione crescente nel settore dell'IA. Le aziende ottimizzano i modelli in termini di costi e scalabilità dopo il lancio, mentre gli utenti più esigenti si aspettano prestazioni di picco costanti. Il divario tra queste priorità erode la fiducia.

In base alle prove disponibili, i dati di BridgeBench non dimostrano un declassamento deliberato. Il confronto tra i benchmark era improprio e i risultati sovrapposti erano pressoché identici.

Tuttavia, la frustrazione di fondo non è del tutto infondata. I controlli di calcolo adattivi e le ottimizzazioni a livello di servizio hanno modificato il comportamento pratico di Claude Opus 4.6. Per gli sviluppatori che si affidano a risultati coerenti, questi cambiamenti sono importanti.

Al 13 aprile, Anthropic non ha rilasciato alcuna dichiarazione pubblica in merito alle specifiche affermazioni relative a BridgeBench.

L'articolo " Un post virale su BridgeBench afferma che Claude Opus 4.6 è stato 'depotenziato', i critici lo definiscono una cattiva scienza" è apparso per la prima volta su BeInCrypto .