L’Università di Harvard, in collaborazione con Google, ha rilasciato un set di dati di un milione di libri di pubblico dominio per addestrare la prossima generazione di IA.
I libri abbracciano generi, lingue e autori come Dickens, Dante e Shakespeare che non sono più protetti da copyright a causa della loro età. La nuova iniziativa di set di dati arriva perché i dati di formazione sull’intelligenza artificiale sono naturalmente costosi e più adatti per le aziende tecnologiche con tasche profonde.
Harvard ha ottenuto il sostegno finanziario dei giganti della tecnologia
Secondo un articolo di TechCrunch, l'iniziativa è guidata dall'Institutional Data Initiative (IDI) di Harvard. Questa iniziativa contiene libri derivati dal progetto di scansione di libri di lunga data di Google, Google Libri .
Altri libri contenuti nel set di dati includono libri di testo di matematica ceca e dizionari tascabili gallesi.
L’università ha preso in giro l’IDI a marzo, affermando chiaramente i suoi piani per creare un “condotto affidabile per i dati legali per l’intelligenza artificiale”. Da allora, non se ne è saputo molto fino al lancio formale di giovedì e i giganti della tecnologia Microsoft e OpenAI hanno finanziato il progetto.
Il set di dati non è appannaggio esclusivo della Silicon Valley, ma IDI lo ha aperto a chiunque, dai laboratori di ricerca alle startup di intelligenza artificiale che vogliono addestrare i loro grandi modelli linguistici.
Aprendo il set di dati a chiunque, il direttore esecutivo dell’IDI Greg Leppert, ha affermato che il set di dati ha lo scopo di livellare il campo di gioco, in un momento in cui il costo della formazione dell’intelligenza artificiale rimane elevato e proibitivo per le aziende più piccole e riservato a quelle con budget enormi.
Leppert ha aggiunto che il set di dati è "rigorosamente rivisto", il che secondo Fudzilla significa presumibilmente che qualcuno ha controllato per assicurarsi che Bard fosse davvero scomparso.
Il set di dati di Harvard avrà bisogno di più risorse
Secondo Leppert, che ha paragonato il potenziale del dataset a Linux, il sistema operativo open source, il successo del dataset di Harvard dipenderà da una serie di variabili. Leppert ha affermato che il suo successo richiederà più risorse, competenze e un “pizzo di magia” da parte di quelle stesse corporazioni dalle tasche profonde che l’iniziativa è progettata per sfidare.
Il milione di libri contenuti nel set di dati sono stati scansionati nell'ambito del programma Google Libri. Fudzilla descrive l'iniziativa come una capsula del tempo digitale da quando le ambizioni di Google di scansionare ogni libro sembravano bizzarre piuttosto che distopiche.
Tuttavia, Leppert è ottimista riguardo ai potenziali usi del progetto, suggerendo inoltre che potrebbe rappresentare un tesoro per aiutare ad addestrare modelli di intelligenza artificiale per tutti, dalle startup di garage ai conglomerati aziendali.
Mentre alcuni hanno elogiato l'iniziativa come un passo avanti rivoluzionario nella democratizzazione dell'intelligenza artificiale, Fudzilla ritiene che alcuni potrebbero vederlo come un mezzo sottile per garantire che qualsiasi ambizioso parvenu con pochi terabyte di spazio sul server possa ora competere in una corsa per sviluppare il prossimo ChatGPT. .
Tuttavia, avranno bisogno di più risorse per competere e incidere sul mercato. ChatGPT è stato lanciato nel novembre 2022 ottenendo un successo immediato, che ha stimolato la corsa ai modelli di intelligenza artificiale generativa in tutto il mondo. Tuttavia, lo sviluppo di questi modelli ha creato una sete di dati per perfezionarli e questo desiderio di avere più dati ha causato problemi su quante informazioni si possono ottenere, senza rubarle.
Ad oggi, editori come il Wall Street Journal e il New York Times hanno citato in giudizio OpenAI e Perplexity per aver utilizzato i loro dati senza autorizzazione.
Un sistema passo dopo passo per avviare la tua carriera Web3 e ottenere lavori ben pagati nel settore delle criptovalute in 90 giorni.