Viene intrapresa un’azione legale contro i giganti dell’intelligenza artificiale per violazione del copyright

Il New York Times ha intentato una causa globale per violazione del copyright contro OpenAI e Microsoft in un recente sviluppo legale che ha inviato onde d'urto nella comunità dell'intelligenza artificiale.

La causa sostiene che i loro Large Language Models (LLM), in particolare GPT-4 e prodotti correlati, hanno un modello di business basato sulla violazione di massa del copyright. Questa causa ha evidenziato le preoccupazioni etiche relative all’approvvigionamento di dati di formazione per modelli di intelligenza artificiale generativa.

Accuse di violazione del copyright

Il nocciolo della causa ruota attorno all'affermazione secondo cui OpenAI e Microsoft hanno utilizzato testi protetti da copyright e altri contenuti, inclusi contenuti del New York Times, senza un'adeguata autorizzazione per formare i loro LLM. La causa sostiene che questi LLM hanno ripetutamente riprodotto fedelmente il contenuto del New York Times e di varie altre fonti.

La causa sottolinea una crescente preoccupazione nella comunità dell’intelligenza artificiale e non solo per quanto riguarda l’approvvigionamento etico dei dati di formazione per i LLM. Solleva dubbi sull’origine dei dati di addestramento, se includano proprietà intellettuale rubata e come ciò influisca sui creatori e sulle industrie che fanno affidamento sui contenuti originali.

Impatto sul giornalismo e sulla creazione di contenuti

La causa sottolinea le conseguenze potenzialmente devastanti della violazione del copyright dell’IA per i creatori di contenuti e il giornalismo. Sostiene che quando piattaforme di intelligenza artificiale come Google e Bing incorporano idee ed espressioni prese dai fornitori di contenuti senza autorizzazione, ciò mina la capacità di questi fornitori di monetizzare i propri contenuti. Ciò, a sua volta, mette a repentaglio la sostenibilità finanziaria delle testate giornalistiche e la loro capacità di finanziare il giornalismo di qualità.

La causa afferma: “La protezione della proprietà intellettuale del Times è fondamentale per la sua continua capacità di finanziare il giornalismo di livello mondiale nell'interesse pubblico. Se il Times e i suoi colleghi non riescono a controllare l’uso dei loro contenuti, la loro capacità di monetizzare tali contenuti sarà danneggiata.

Con meno entrate, le testate giornalistiche avranno meno giornalisti in grado di dedicare tempo e risorse a storie importanti e approfondite, il che crea il rischio che quelle storie non vengano raccontate. Verrà prodotto meno giornalismo e il costo per la società sarà enorme”.

Risposta dei modelli di intelligenza artificiale ai contenuti protetti da copyright

La causa evidenzia che i LLM spesso rispondono in modo incoerente alle richieste e in alcuni casi possono produrre testo letterale protetto da copyright, mentre in altri possono parafrasare il contenuto. Tuttavia, solleva una domanda fondamentale: l’utilizzo di materiali protetti da copyright per addestrare il software di intelligenza artificiale è un atto di violazione?

Il New York Times sostiene che l'atto stesso di formare LLM costituisce una violazione del copyright, indipendentemente dal fatto che i modelli ripetano frasi del materiale originale. Questa prospettiva è stata ripresa in un'azione legale collettiva da parte degli autori Sarah Silverman, Christopher Golden e Richard Kadrey, che sostengono che i LLM violano le opere derivate perché non possono funzionare senza le informazioni espressive estratte da opere protette da copyright.

Il dibattito in corso sull’etica dell’IA

L’azione legale intrapresa dal New York Times ha acceso un dibattito più ampio sulle considerazioni etiche che circondano l’intelligenza artificiale e sulla responsabilità delle aziende tecnologiche di garantire che i loro modelli di intelligenza artificiale siano basati su dati di provenienza etica.

Man mano che l’intelligenza artificiale avanza e svolge un ruolo sempre più importante in vari settori, le domande sull’utilizzo dei dati, sui diritti di proprietà intellettuale e sull’etica nella generazione di contenuti stanno diventando sempre più urgenti.