OpenAI e Microsoft affrontano una nuova causa da parte di CIR

OpenAI e Microsoft stanno affrontando una nuova causa da parte del Center for Investigative Reporting (CIR). Il CIR afferma che OpenAI ha utilizzato i contenuti pubblicati dai siti Web Mother Jones e Reveal per addestrare le versioni precedenti di ChatGPT.

Leggi anche: OpenAI elimina la voce ChatGPT dopo la controversia su Scarlett Johansson 

Il CIR sostiene che OpenAI ha utilizzato i suoi contenuti senza permesso né promessa di compenso. CIR, fondata nel 1977, gestisce la rivista americana no-profit Mother Jones e il podcast Reveal.

CIR fa causa a OpenAI e Microsoft per violazione del copyright

Giovedì il Center for Investigative Reporting (CIR) ha intentato causa presso il tribunale federale di New York. L'organizzazione no-profit ha accusato OpenAI e Microsoft di utilizzare i loro contenuti senza autorizzazione o compenso. Il CIR afferma che OpenAI ha violato le leggi sul copyright utilizzando i suoi contenuti per addestrare ChatGPT.

L'amministratore delegato di CIR Monika Bauerlein ha dichiarato: “Questo comportamento di free rider non è solo ingiusto, ma è una violazione del diritto d'autore. Il lavoro dei giornalisti, al CIR e ovunque, è prezioso e OpenAI e Microsoft lo sanno”.

Nella denuncia ufficiale, il querelante ha assunto un data scientist per analizzare il database OpenWebText . OpenWebText è un'approssimazione di WebText , che è un corpus di pagine Web raschiate create da OpenAI. Lo scienziato dei dati ha scoperto che il set di dati contiene 17.434 URL di Mother Jones e 415 di Reveal. OpenWebText e WebText hanno numeri leggermente diversi di articoli di Mother Jones perché il processo di scraping è avvenuto in giorni diversi.

Il querelante ha affermato nella denuncia ufficiale:

“Quando popolavano i loro set di formazione con opere di giornalismo, gli imputati avevano una scelta: rispettare le opere di giornalismo oppure no. Gli imputati hanno scelto quest’ultima”

Leggi anche: Il capo scienziato di OpenAI, Ilya Sutskever, dice addio

OpenAI ha utilizzato due algoritmi, Dragnet e Newspaper, per costruire il database WebText. Dragnet è progettato per separare il contenuto principale dell'articolo da altre parti del sito Web, come l'intestazione, il piè di pagina, il titolo, il nome dell'autore e gli avvisi sul copyright. Quando OpenAI ha cancellato il sito web di Mother Jones, ha rimosso qualsiasi cosa nel piè di pagina e nell'intestazione. Inoltre, il creatore di ChatGPT ha rimosso l'avviso di copyright e le informazioni sui termini di utilizzo come da reclamo .

Inoltre, il querelante afferma che Microsoft sapeva che gli URL raschiati avevano contenuti giornalistici senza nomi di autori, titoli e avvisi di copyright, facilitando la violazione del copyright da parte di Bing AI e ChatGPT.

Il CIR chiede profitti a OpenAI e Microsoft e danni effettivi o legali. L'importo indicato è un minimo di 750 dollari per opera violata e di 2.500 dollari per violazione del DMCA.

OpenAI deve affrontare azioni legali da altre pubblicazioni

Questa non è la prima causa intentata contro OpenAI per violazione del copyright. Dal rilascio di ChatGPT alla fine del 2022, OpenAI e Microsoft hanno dovuto affrontare numerose cause legali da parte di grandi nomi come il New York Times, The Intercept, il New York Daily News e il Chicago Tribune.

Leggi anche: I dipendenti affermano che OpenAI e Google DeepMind nascondono i rischi dell'IA

Nel frattempo, alcuni importanti editori e giganti di Internet hanno firmato accordi di licenza con OpenAI, dandole accesso ai loro archivi. Questi includono TIME Magazine, News Corp, Financial Times, Vox Media, Associated Press, The Atlantic, Stack Overflow e Reddit.


Reportage criptopolita di Randa Moses

Inizia a scrivere il termine ricerca qua sopra e premi invio per iniziare la ricerca. Premi ESC per annullare.

Torna in alto