Meta piattaforme coinvolte in una causa sul copyright sulle pratiche di formazione sull’intelligenza artificiale

Meta Platforms, la società madre di Facebook e Instagram, sta attualmente affrontando una significativa battaglia legale. Alcuni autori, tra cui la comica Sarah Silverman e il vincitore del Premio Pulitzer Michael Chabon, hanno consolidato le loro cause legali contro Meta, sostenendo l'uso non autorizzato delle loro opere protette da copyright. Questi autori affermano che Meta ha utilizzato i loro libri senza permesso per addestrare il suo modello linguistico di intelligenza artificiale, Llama.

Dettagli della causa

La causa, depositata l'11 dicembre, intensifica il controllo sulle pratiche di Meta nello sviluppo di tecnologie di intelligenza artificiale. Una componente fondamentale della causa è l'inclusione dei registri delle chat di un ricercatore affiliato a Meta. Questi registri, discussi in un server Discord, suggeriscono che Meta fosse consapevole che il suo utilizzo dei libri avrebbe potuto violare la legge sul copyright degli Stati Uniti. Il ricercatore Tim Dettmers, dottorando presso l’Università di Washington, è citato in questi registri mentre discute le implicazioni legali dell’utilizzo di materiali protetti da copyright come dati di addestramento per i modelli di intelligenza artificiale.

Nel 2021, Dettmers ha menzionato le discussioni con l'ufficio legale di Meta riguardo alla legalità dell'utilizzo di file di libri per la formazione. I registri rivelano che gli avvocati di Meta avevano espresso preoccupazione sull'utilizzo di tali dati, indicando una potenziale consapevolezza dei rischi legali coinvolti.

Impatto sul settore dell’intelligenza artificiale

Questa causa si inserisce nel mezzo di un numero crescente di sfide legali affrontate dalle aziende tecnologiche sull’uso di contenuti protetti da copyright per addestrare modelli di intelligenza artificiale generativa. Questi modelli, che hanno attirato l’attenzione globale e stimolato ingenti investimenti, vengono esaminati attentamente per le loro pratiche di acquisizione dei dati. L’esito di questi casi potrebbe influenzare in modo significativo il panorama dell’intelligenza artificiale generativa, aumentando potenzialmente i costi di sviluppo di modelli di intelligenza artificiale richiedendo un compenso per i creatori di contenuti.

Inoltre, le normative emergenti sull’IA in Europa potrebbero obbligare le aziende a divulgare i propri dati di formazione, esponendole ulteriormente a rischi legali. Questo contesto legale sta diventando sempre più una preoccupazione per gli sviluppatori di intelligenza artificiale e l’industria tecnologica.

Modelli Llama di Meta e divulgazione dei dati di addestramento

Meta ha rilasciato la prima versione del suo modello linguistico Llama a febbraio, descrivendo in dettaglio i set di dati utilizzati per la sua formazione, che includevano la "sezione Books3 di ThePile". Secondo quanto riferito, questo set di dati contiene 196.640 libri. Tuttavia, per la sua ultima versione, Llama 2, rilasciata per uso commerciale in estate, Meta non ha divulgato i dati di allenamento utilizzati.

Llama 2, offerto gratuitamente alle aziende con meno di 700 milioni di utenti attivi mensili, è stato visto come un potenziale disgregatore nel mercato del software di intelligenza artificiale generativa. Rappresenta una sfida per attori affermati come OpenAI e Google, che fanno pagare per l’utilizzo dei loro modelli.

La causa contro Meta Platforms evidenzia le complesse questioni legali ed etiche che circondano lo sviluppo dell'intelligenza artificiale. Man mano che le tecnologie di intelligenza artificiale diventano sempre più avanzate e integrate in vari settori, l’importanza di approvvigionare in modo responsabile i dati di formazione sta diventando sempre più evidente. L’esito di questa causa potrebbe costituire un precedente significativo sul modo in cui vengono formati i modelli di intelligenza artificiale e sull’equilibrio tra innovazione e protezione del copyright.

La risposta di Meta a queste accuse e le decisioni legali che ne seguiranno saranno attentamente osservate sia dalla comunità tecnologica che dai creatori di contenuti. Questo caso sottolinea la necessità di quadri giuridici chiari e linee guida etiche nel campo in rapida evoluzione dell’intelligenza artificiale.