I ricercatori affermano che la “patatina” dell’IA sta distorcendo la scienza e spingono per una divulgazione obbligatoria

Gli scienziati che lavorano nel mondo della ricerca sull'intelligenza artificiale si trovano ad affrontare un problema di credibilità che non possono più ignorare.

Le principali conferenze incentrate sulla ricerca sull'intelligenza artificiale hanno reagito dopo che i sistemi di revisione si sono intasati di proposte deboli.

Gli organizzatori hanno riscontrato un forte aumento di articoli e revisioni tra pari prodotte con scarso impegno umano. La preoccupazione non è lo stile. La preoccupazione è l'accuratezza. Gli errori si stanno insinuando dove un tempo la precisione contava.

Le conferenze si intensificano perché i documenti di bassa qualità sopraffanno i revisori

I ricercatori avevano già avvertito che l'uso incontrollato di strumenti di scrittura automatizzati avrebbe potuto danneggiare il settore. Inioluwa Deborah Raji, ricercatrice di intelligenza artificiale presso l'Università della California, Berkeley, ha affermato che la situazione è rapidamente precipitata.

"C'è un po' di ironia nel fatto che ci sia tanto entusiasmo per l'intelligenza artificiale che sta plasmando altri campi, quando in realtà è il nostro campo ad aver attraversato questa esperienza caotica a causa dell'uso diffuso dell'intelligenza artificiale", ha affermato.

Dati concreti mostrano quanto sia diffuso il problema. Uno studio della Stanford University pubblicato ad agosto ha rilevato che fino al 22% degli articoli di informatica mostrava segni di un ampio utilizzo di modelli linguistici.

Pangram, una start-up specializzata nell'analisi testuale, ha esaminato i contributi presentati e le revisioni tra pari alla Conferenza Internazionale sulle Rappresentazioni dell'Apprendimento del 2025. Ha stimato che il 21% delle revisioni fosse interamente generato dall'intelligenza artificiale, mentre più della metà la utilizzava per attività come l'editing. Pangram ha anche scoperto che il 9% degli articoli presentati aveva più della metà del contenuto prodotto in questo modo.

La questione ha raggiunto un punto critico a novembre. I revisori dell'ICLR hanno segnalato un articolo sospettato di essere stato generato dall'intelligenza artificiale, che si è comunque classificato tra i primi 17 percento in base ai punteggi dei revisori. A gennaio, la società di rilevamento GPTZero ha segnalato oltre 100 errori automatici in 50 articoli presentati al NeurIPS, ampiamente considerato il principale luogo di ricerca avanzata nel settore.

Con l'aumentare delle preoccupazioni, l'ICLR ha aggiornato le sue regole d'uso prima della conferenza. Gli articoli che non rivelano l'uso estensivo di modelli linguistici ora vengono respinti. I revisori che inviano valutazioni di bassa qualità create con l'automazione rischiano sanzioni, incluso il rifiuto dei propri articoli.

Hany Farid, professore di informatica all'Università della California, Berkeley, ha affermato: "Se pubblichiamo articoli di qualità davvero scadente, semplicemente sbagliati, perché la società dovrebbe fidarsi di noi scienziati?"

I volumi di carta aumentano mentre il rilevamento fatica a tenere il passo

Secondo il rapporto, NeurIPS ha ricevuto 21.575 articoli nel 2025, rispetto ai 17.491 del 2024 e ai 9.467 del 2020. Un autore ha presentato più di 100 articoli in un solo anno, ben oltre la media di un singolo ricercatore.

Thomas G. Dieterich, professore emerito presso l'Oregon State University e presidente della sezione informatica di arXiv, ha affermato che anche i caricamenti sul repository aperto sono aumentati notevolmente.

Tuttavia, i ricercatori affermano che la causa non è semplice. Alcuni sostengono che l'aumento derivi dal fatto che più persone si sono dedicate al settore. Altri sostengono che l'uso intensivo di strumenti di intelligenza artificiale giochi un ruolo importante. Il rilevamento rimane difficile perché non esiste uno standard condiviso per l'identificazione del testo automatizzato. Dieterich ha affermato che segnali di allarme comuni includono riferimenti inventati e cifre errate. Gli autori sorpresi a farlo possono essere temporaneamente esclusi da arXiv.

Anche la pressione commerciale è sullo sfondo. Prove di alto profilo, stipendi alle stelle e una concorrenza aggressiva hanno spinto alcuni settori a concentrarsi sulla quantità. Raji ha affermato che i momenti di entusiasmo attraggono chi è esterno alla ricerca di risultati rapidi.

Allo stesso tempo, i ricercatori affermano che alcuni usi sono legittimi. Dieterich ha osservato che la qualità della scrittura negli articoli provenienti dalla Cina è migliorata, probabilmente perché gli strumenti linguistici aiutano a riscrivere l'inglese in modo più chiaro.

La questione ora si estende oltre l'editoria. Aziende come Google, Anthropic e OpenAI promuovono i loro modelli come partner di ricerca in grado di accelerare la scoperta in settori come le scienze della vita. Questi sistemi sono addestrati su testi accademici.

Farid ha avvertito che se i dati di addestramento includono troppo materiale sintetico, le prestazioni del modello possono peggiorare. Studi precedenti dimostrano che modelli linguistici di grandi dimensioni possono collassare in un nonsenso se alimentati con dati automatizzati non curati.

Farid ha affermato che le aziende che raccolgono dati dalla ricerca sono fortemente incentivate a sapere quali articoli sono stati scritti da esseri umani. Kevin Weil, responsabile scientifico di OpenAI, ha affermato che gli strumenti richiedono ancora controlli umani. "Può essere un enorme acceleratore", ha affermato. "Ma bisogna verificarlo. Non esime dal rigore".

Affina la tua strategia con tutoraggio + idee quotidiane – 30 giorni di accesso gratuito al nostro programma di trading