Che si tratti del lavoro di OpenAI , Google e Meta, l’intelligenza artificiale che finanzia il settore industriale, che comprende vari mezzi come la raccolta o l’accumulo di enormi volumi di dati digitali in diversi modi creativi ma controversi, è chiaro che le capacità e le capacità di automazione stanno aumentando. In particolare, gli sforzi che comportano azioni come l’adozione delle misure sopra delineate (ovvero, la presa in considerazione dei limiti legali e delle politiche aziendali) equivalgono alla notevole quantità di dati utilizzati per addestrare i sistemi di intelligenza artificiale.
L'iniziativa Whisper di OpenAI: estrarre le conversazioni su YouTube
La nostra storia su Whisper è iniziata proprio l'anno scorso. C’è un’enorme carenza di testi inglesi di prim’ordine che causa ritardi nell’erogazione dell’istruzione. Whisper è stato il passo successivo di Google. Comprendeva l'oceano di dialoghi di YouTube ed è stato sviluppato come testo, un'applicazione di sintesi vocale. Lo stesso strumento basato sull'intelligenza artificiale, costituito da oltre un milione di ore di video di YouTube controllati dall'intelligenza artificiale per generare nuovi testi (essenzialmente, una nuova conversazione), è stato utilizzato per addestrare modelli di intelligenza artificiale prodotti dallo stato dell'arte fino a GPT-4, l'ultima versione del chatbot ChatGPT.
Anche se alcuni dipendenti sostenevano che i filmati Microsoft di OpenAI avrebbero plagiato YouTube a tutti i livelli, l'etica del plagio era ancora discutibile; inoltre, alcuni lavoratori hanno ammesso che sarebbe impossibile allinearsi esattamente alle intenzioni di YouTube. Allo stesso modo, l'acquisizione di obiezioni nell'elaborazione algoritmica dei video per estrarre i contenuti testuali per alimentare i modelli di intelligenza artificiale potrebbe essere stata considerata una minaccia al copyright dei creatori di video, suscitando indignazione.
Anche Meta, la società madre di Facebook e Instagram, era preoccupata per l’utilizzo di elementi protetti da copyright di case editrici come Simon & Schuster, tra le altre. Allo stesso tempo, si è discusso anche dell'acquisizione dei contenuti web generali, con il rischio di rimanere coinvolti in violazioni del diritto d'autore.
La crisi dei dati: promuovere approcci non convenzionali
La raccolta di dati piena di concorrenza aiuta a notare la posizione cruciale dei dati e a identificarla nello sviluppo della tecnologia AI. Il linguaggio in un'intelligenza artificiale comanda sempre più set di dati di addestramento, incluso il Commonwealth, che oggi vengono manipolati fino a Wikipedia e Reddit dall'esterno di queste fonti. Per le aziende tecnologiche, in particolare quelle che hanno difficoltà a raggiungere fonti di dati molto comuni come gli archivi dati tradizionali, la creazione di modelli basati sull’intelligenza artificiale può essere una soluzione alternativa che potrebbe essere abbastanza desiderabile in questi casi.
Le aziende del settore tecnologico indicano che la raccolta dei dati è necessaria per la formazione sull'intelligenza artificiale, mentre lo stesso processo è legalmente messo in discussione in tribunale. In loro difesa, OpenAI e Microsoft hanno vinto contro di loro un'accusa di utilizzo illegale di materiale protetto da copyright. Tuttavia, hanno affermato che le loro azioni rientravano nel principio legale del fair use. Negli ultimi anni, il numero di domande presentate all’Ufficio del copyright degli Stati Uniti dai detentori del copyright ha superato la cifra di 10.000, il che dimostra chiaramente che la legge sul copyright nell’era dell’intelligenza artificiale è unica e nuova di zecca. Di conseguenza, i principali attori affrontano sempre i pericoli legati alla violazione di molte opere con il pretesto che non esistono scopi di licenza per i modelli che utilizzano l'IA su questa base.
L’imperativo per set di dati di grandi dimensioni
Nel complesso, il lavoro di Kaipan de Jared, scienziato su vasta scala, è stato involontariamente epico nello sviluppo dell'intelligenza artificiale. Il contenuto basato sui dati è uno dei componenti dell'intelligenza artificiale necessari per il processo di formazione, ma non può funzionare bene senza i modelli che sono stati ben addestrati e funzionano in modo efficace. Con l’incremento della tecnologia dell’intelligenza artificiale, la richiesta di dati per avere successo sul mercato aumenta a un ritmo elevato, lasciando le aziende con questioni legate alla legge, all’etica e alla privacy. Pertanto, gli algoritmi di intelligenza artificiale devono utilizzare questi set di dati per avere successo sul mercato.
Il comportamento di raccolta dati dei V.IP viene sfigurato per i miglioramenti dell'intelligenza artificiale ; il tipico giuramento metodologico viene ingrossato. Attraverso uno dei loro discorsi su YouTube o la creazione di dati sintetici generativi, queste aziende sono leader in una missione per scoprire quali sono veramente i problemi di legge, etica e privacy.
Potrebbero diventare uno scherzo sul mare più tardi. A causa della comparsa di enormi quantità di dati necessari per guidare il processo di innovazione, i leader della società sono tenuti a partecipare attivamente a un dialogo costruttivo per sviluppare regole e standard in cui gli sforzi di innovazione siano bilanciati con i principi etici dei diritti di proprietà intellettuale e della privacy.
Storia originale da: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html