I costi nascosti dei modelli di addestramento dell’IA

Costruire e supportare moderni modelli di intelligenza artificiale richiede investimenti significativi, che possono superare le centinaia di milioni di dollari. Le stime indicano che questi costi potrebbero raggiungere il miliardo di dollari nel prossimo futuro.

Questa spesa è dovuta principalmente alla potenza di calcolo in cui vengono utilizzate entità come le GPU Nvidia, che possono costare circa $ 30.000 ciascuna e potrebbero richiederne altre migliaia per essere efficienti. I ricercatori hanno affermato che la qualità e la quantità del set di dati di addestramento utilizzati nello sviluppo di tali modelli sono molto importanti.

I leader del settore rivelano costi sconcertanti per lo sviluppo dell’intelligenza artificiale

Secondo James Betker di OpenAI, le prestazioni di un modello sono una funzione dei dati di addestramento piuttosto che della progettazione o dell'architettura del modello. La sua affermazione è che i modelli addestrati su set di big data raggiungeranno gli stessi risultati. Pertanto, i dati sono la chiave per il progresso della tecnologia AI.

Dario Amodei, CEO della società di intelligenza artificiale Anthropic AI, ha condiviso le sue opinioni sugli aspetti finanziari di queste sfide nel podcast In Good Company. Ha affermato che si stima che la formazione dei modelli attuali, come ChatGPT-4, costerà circa 100 milioni di dollari e che la formazione per i modelli futuri potrebbe richiedere 10-100 miliardi di dollari nei prossimi anni.

I modelli di intelligenza artificiale generativa, e quelli creati dalle grandi aziende, sono, nella loro essenza, modelli statistici. Pertanto, utilizzano molti esempi per prevedere i risultati più probabili. Kyle Lo dell'Allen Institute for AI (AI2) afferma che il miglioramento delle prestazioni può essere attribuito principalmente ai dati, soprattutto quando l'ambiente di allenamento è coerente.

La centralizzazione dei dati solleva preoccupazioni etiche e di accessibilità

Il costo elevato per ottenere dati di buona qualità sta rendendo lo sviluppo dell’intelligenza artificiale appannaggio di poche grandi aziende nel mondo sviluppato. Questa aggregazione di risorse è anche fonte di preoccupazione per quanto riguarda la disponibilità della tecnologia IA e la possibilità di un uso improprio.

La sola OpenAI ha speso centinaia di milioni di dollari in licenze dati e Meta ha preso in considerazione l’acquisto di editori per l’accesso ai dati. Si prevede che il mercato dei dati di formazione sull’intelligenza artificiale si espanderà e i broker di dati probabilmente trarranno vantaggio da questa opportunità.

I problemi derivano da pratiche di acquisizione dati discutibili. Secondo i rapporti, molte aziende hanno catturato grandi volumi di contenuti senza l'autorizzazione dei proprietari di tali contenuti, e alcune aziende sfruttano dati da diverse piattaforme e non remunerano gli utenti. Come riportato in precedenza, OpenAI ha utilizzato il suo modello di trascrizione audio Whisper per trascrivere più di un milione di ore di video di YouTube per ottimizzare GPT-4.

Le organizzazioni lavorano per creare set di dati di formazione sull'intelligenza artificiale ad accesso aperto

Poiché la corsa all’acquisizione dei dati presenta alcuni problemi, sono necessari alcuni sforzi da parte di soggetti indipendenti per rendere apertamente disponibili i set di dati di addestramento. Alcune organizzazioni, come EleutherAI e Hugging Face, stanno creando grandi set di dati disponibili al pubblico per lo sviluppo dell'intelligenza artificiale.

Il Wall Street Journal ha recentemente evidenziato due potenziali strategie per risolvere i problemi di acquisizione dei dati: la generazione generativa di dati e l’apprendimento del curriculum. I dati sintetici vengono creati utilizzando gli stessi modelli di intelligenza artificiale, mentre l’apprendimento del curriculum cerca di fornire ai modelli dati di alta qualità in modo strutturato in modo che possano stabilire connessioni anche con meno dati. Tuttavia, entrambi i metodi sono ancora in fase di sviluppo e la loro efficacia non è stata ancora testata.