NVIDIA è sotto esame per presunto scraping di dati senza licenza per modelli di intelligenza artificiale

I documenti trapelati ottenuti da 404 Media suggeriscono che NVIDIA si sia impegnata nello scraping di dati senza licenza, utilizzando filmati e filmati di giochi provenienti da Internet per addestrare i suoi prodotti di intelligenza artificiale.

I documenti trapelati rivelano che stavano cercando di scaricare film completi da vari canali, incluso Netflix, e il loro interesse principale erano i video di YouTube. Dalle email ottenute da 404 Media, i project manager intendevano impiegare tra le 20 e le 30 macchine virtuali su Amazon Web Services per ottenere 80 anni di video in un giorno.

NVIDIA difende le proprie azioni e invoca disposizioni sul fair use

Il data scraping è la pratica di estrarre contenuti video, testuali e audio da Internet senza il permesso dei proprietari dei contenuti per addestrare modelli di intelligenza artificiale. Questa pratica potrebbe essere vista come l’uso di contenuti provenienti da piattaforme di social media che contengono contenuti protetti da copyright.

NVIDIA ha affermato di non aver violato alcuna legge sul copyright durante il processo di scraping dei dati. La società ha inoltre affermato che le sue attività rientrano nella dottrina del fair use perché utilizza materiale protetto da copyright per la formazione sull'intelligenza artificiale.

I documenti ottenuti dalle comunicazioni interne di 404 Media indicano che alcuni dipendenti NVIDIA hanno espresso preoccupazione per queste attività di raccolta dei dati. Tuttavia, i project manager avrebbero minimizzato le preoccupazioni, affermando che le questioni legali, ad esempio le violazioni dei Termini di servizio di YouTube, sarebbero state trattate in seguito.

Un dipendente ha sottolineato che gli ingegneri AI di NVIDIA hanno cercato di ottenere il maggior numero possibile di clip di gioco per arricchire il corpus di formazione. Ciò ha comportato lo streaming del gameplay sul servizio cloud GeForceNow di NVIDIA per registrare video di gameplay in alta definizione. Jim Fan, analista di ricerca senior, nei messaggi interni ha anche sottolineato l'importanza di tali filmati come input per l'addestramento del modello AI.

L'azienda adotta misure per gestire la percezione pubblica delle pratiche relative ai dati

I documenti descrivono inoltre in dettaglio i tentativi di NVIDIA di limitare i danni sulle ripercussioni di tali pratiche. Secondo le e-mail trapelate, il vicepresidente della ricerca Ming-Yu Liu ha raccomandato alla società di evitare di pubblicare documenti relativi alle tecniche di raschiamento dei dati per evitare reazioni pubbliche. Ha inoltre creato un proprio set di strumenti di raccolta dati di YouTube e account API per facilitare il processo di raccolta dei dati.

La posizione giuridica relativa alle norme che regolano l’uso dell’intelligenza artificiale nello scraping dei dati non è ancora molto chiara. Secondo Robert Mahari del MIT, può essere piuttosto complicato stabilire se sia effettivamente avvenuto lo scraping dei dati. Le organizzazioni potrebbero trarre vantaggio dal non rivelare le fonti dei propri dati di formazione poiché diventa difficile dimostrare un abuso in assenza di prove tangibili.

Un'altra piattaforma, Suno, una piattaforma di generazione musicale basata sull'intelligenza artificiale, è recentemente finita sotto i riflettori per aver ammesso l'uso del data scraping per addestrare modelli di intelligenza artificiale. Come riportato in precedenza da Cryptopolitan, il CEO di Reddit Steve Huffman ha dichiarato che la società continuerà a vietare a Microsoft e ad altre aziende di intelligenza artificiale di utilizzare lo scraping dei dati fino a quando non verrà effettuato il pagamento e il controllo su come vengono utilizzati i dati verrà acquisito dalla piattaforma. Ha affermato che Reddit non consentirà lo scraping dei dati da utilizzare nell'addestramento di modelli di intelligenza artificiale senza la licenza adeguata.