Le aziende di intelligenza artificiale si affidano a editori premium per i dati di addestramento, secondo una nuova ricerca

Le principali aziende tecnologiche, tra cui OpenAI, Google, Meta e Anthropic, si affidano a materiale protetto da copyright di alta qualità di importanti editori per addestrare i loro modelli linguistici di grandi dimensioni (LLM).

Questo è quanto emerge da uno studio condotto da Ziff Davis, la società madre di CNET, IGN e Mashable, che mostra il ruolo essenziale che i contenuti di alta qualità svolgono nella formazione di questi modelli di intelligenza artificiale. Lo studio mostra che per l’addestramento dei set di dati nelle aziende di intelligenza artificiale si preferiscono fonti autorevoli per migliorare le prestazioni del modello, ma il contributo di queste fonti viene spesso trascurato.

Nella ricerca, l'avvocato specializzato in intelligenza artificiale di Ziff Davis, George Wukoson, e il Chief Technology Officer Joey Fortuna hanno affermato che le società di intelligenza artificiale scelgono i dati di formazione in base al posizionamento di siti Web autorevoli con un elevato posizionamento nei motori di ricerca. Per migliorare i modelli sono stati scelti siti Web popolari e di alta qualità poiché godono di una buona reputazione. Una strategia che, secondo lo studio, consente agli sviluppatori di intelligenza artificiale di mettere a punto il modello linguistico.

Ziff Davis ha sottolineato che fornitori di contenuti di alto livello come Axel Springer, Future PLC, Hearst, News Corp e The New York Times, tra gli altri, hanno contribuito allo sviluppo di set di dati di addestramento. In particolare, è stato identificato che il 12,04% di OpenWebText2, utilizzato per la creazione di GPT-3 di OpenAI, proveniva da questi editori affidabili.

Mark Zuckerberg è intervenuto anche sul dibattito in corso sull’uso dei contenuti nella formazione sull’intelligenza artificiale. In una recente intervista con The Verge, Zuckerberg ha riconosciuto che il data scraping per l'intelligenza artificiale è impegnativo, ma ha anche sottolineato che i contenuti dei singoli creatori o editori potrebbero non avere un impatto così significativo. Ha affermato : "Penso che i singoli creatori o editori tendano a sopravvalutare il valore del loro contenuto specifico nel grande schema di questo."

Gli editori intentano azioni legali contro le società di intelligenza artificiale

La segretezza attorno alle fonti di dati di formazione ha sollevato preoccupazioni sia tra gli editori che tra i consumatori. Il New York Times e il Wall Street Journal hanno recentemente intentato causa contro le società di intelligenza artificiale, affermando che hanno violato le leggi sul copyright utilizzando i loro contenuti.

Mentre OpenAI ha compiuto sforzi per ottenere licenze di contenuti da organizzazioni mediatiche come Financial Times e DotDash Meredith, diverse aziende di intelligenza artificiale lavorano ancora senza licenze adeguate. Il rapporto afferma inoltre che “i principali sviluppatori LLM non divulgano più i propri dati di formazione come facevano una volta”.

Mentre il valore delle società di intelligenza artificiale aumenta, il divario tra i titani della tecnologia e le società di media convenzionali rimane ampio. I giganti della tecnologia come Google e Meta, che hanno un valore stimato rispettivamente di 2,2 trilioni di dollari e 1,5 trilioni di dollari, rimangono in prima linea nell’intelligenza artificiale generativa, mentre startup come OpenAI e Anthropic sono valutate rispettivamente a 157 miliardi di dollari e 40 miliardi di dollari.

D’altro canto, gli editori sono ancora alle prese con licenziamenti e ristrutturazioni, il che dimostra la pressione finanziaria derivante dall’adeguamento a un ambiente sempre più definito dall’intelligenza artificiale. A causa della concorrenza con i contenuti generati dagli utenti e basati sull’intelligenza artificiale, numerosi editori devono affrontare sfide in termini di riduzione dei costi e del personale.