Quando si discute del recente dibattito su come Open e Google adattano i propri dati al modello, si noterà che due termini dominano maggiormente il dibattito: open e Google. Gli articoli pubblicati recentemente sul Wall Street Journal e sul NY Times illustrano che il modo in cui le aziende legate all’intelligenza artificiale raccolgono dati non era all’altezza e ha creato grattacapi su quali dati siano veri e quale angolo etico sia stato utilizzato nella creazione del sistema relativo all’intelligenza artificiale. .
Le discutibili tattiche di OpenAI
Tuttavia, al suo apice, il New York Times ha sottolineato i risultati più grandi dell’Open AI ottenuti con Whisper. Questo modello di trascrizione da audio a testo è avanzato come complemento alla tecnologia LP-4 del processore linguistico di Open AI. In effetti, l’auto a guida autonoma di OpenAI non riguarda la raccolta di informazioni, che è una questione impegnativa che l’azienda contatta; piuttosto, quest'ultimo entra in gioco in tali condizioni.
Sebbene la popolarità iniziale degli atti di raccolta dati fosse legata a considerazioni sul copyright sul fair use, quest'ultimo divenne anche una base legale per questi atti. Come ha affermato Brockman, uno dei membri fondatori e CEO di OpenAI ha fornito alcune informazioni necessarie per la trascrizione. Tuttavia, prosegue affermando che anche lo storico ha contribuito alla trascrizione.
Tuttavia, Google Corporation è al centro dell'attenzione anche per queste piccole questioni per iniziative più grandi come questa, ovvero una funzione di raccolta dati come OpenAI è un'organizzazione più piccola e impegnata in progetti orientati al gigante del settore, e l'utente è stato solo avvisato e non è stato detto chi dovesse essere incolpato da YouTube.
Oltre a questo approccio, Facebook ha anche rispettato i termini di conformità dei TOS e ha vietato azioni non autorizzate, in particolare il cosiddetto data scraping. Nel caso di John Conly (portavoce di YouTube), dopo aver raccolto i dati dei creatori di contenuti ha risposto alla domanda se i modelli fossero utilizzati per la formazione sull'intelligenza artificiale basata sui contenuti.
Anzi. Così come le macchine per l'allenamento, da che parte Meta è un problema attuale che ne rende irrealizzabile. Il gruppo AI dell'azienda, che ha avuto successo con la rivalità OpenAI, ha ritenuto che entrambi i team abbiano utilizzato tutti i mezzi disponibili per lavorare su un risultato migliore per le loro aziende, compreso il pensiero originale senza prestare attenzione ad alcuna questione a favore della parte respinta.
Meta sembra aver preparato tipologie di domande che miravano ad avere una risposta su quale lavoro delegato verrà svolto, chi sarà incaricato di acquistare libri da quali editori specializzati in settori specifici. Sebbene l'esperienza utente della rete sia estremamente sorprendente, la politica governativa consolidata ha preso l'iniziativa di interferire con la privacy individuale, cosa che è stata evidenziata nel 2018 dall'affare Cambridge Analytica.
Il panorama più ampio della formazione sull’intelligenza artificiale si trova di fronte a un dilemma urgente: da un lato, la questione della carenza di dati è diventata più acuta negli ultimi due anni, dall’altro. Sebbene la connessione tra i due rimanga, i ricercatori insistono sempre per disporre di dati adeguati per una maggiore precisione e un aumento delle prestazioni.
Suscita entusiasmo anche la previsione del Wall Street Journal, che prevede incrementi oltre tutti gli obiettivi rispetto al 2020 precedente e attraversa la fine dell'anno con il punto di mercato più alto. Questo metodo si basa su due fattori: fare affidamento sui modelli, che possono essere sintetici per indicare una matrice esterna, e un curriculum del processo decisionale, in cui i modelli apprendono dalle loro decisioni. Non aspettarti che producano risultati, ma permetti loro di essere osservabili.
Implicazioni giuridiche ed etiche
L'assenza della regola sulla pirateria potrebbe creare problemi perché nulla può consentire agli utenti di accedere agli elementi protetti da copyright e potrebbe sorgere una comprensione della missione in merito a legge, etica, ecc. I dati diventano una proprietà intangibile e la base per sapere e dichiarare cosa è tuo e cosa? non lo è, in quali dati e utenti si sa che sono la fonte dell'attività quando l'uso di tali dati è ingiustificato? Questo rischio potrebbe far sì che i responsabili del programma del team di ricerca e sviluppo si concentrino sulla loro revisione e sull'elaborazione delle risposte.
La relazione nello scopo delle campagne di class action implicherebbe che la privacy e l'utilizzo dei dati siano risposte che l'organizzazione non conosce abbastanza per rendere legittime le proprie operazioni. In effetti, le sfide (come le questioni etiche riguardanti il processo di data mining utilizzato per la ricerca e lo sviluppo dell’IA) diventano complicate perché dobbiamo considerare le restrizioni normative e la privacy dei dati (poiché la natura dei dati rientra nel contesto di come i dati vengono elaborati e utilizzati).
La competizione più dura del futuro per l’intelligenza artificiale risiede nell’identificazione dei dati migliori per la formazione dei sistemi di intelligenza artificiale e, ancora di più, nella questione se tali dati saranno sottoposti a quadri normativi etici o legali comuni. Tutto ciò che riguarda l’intelligenza artificiale, per sua stessa natura, enfatizza e amplia concetti come innovazione e implementazione tramite filtri di set di dati per le aziende.
Essere un'intelligenza artificiale tecnologica non è mai statico, quindi il problema principale sarà sempre l'utilizzo dei dati, e continuerà ad essere una delle priorità dei membri della community che prendono forma attraverso l'utilizzo dell'intelligenza artificiale, i migliori.
Storia originale da: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb