La formazione di modelli linguistici di grandi dimensioni (LLM) come GPT-4, GPT-NeoX, PaLM, OPT e Macaw presenta sfide formidabili. Queste scoperte nel machine learning hanno guadagnato una notevole attenzione, con GPT-4 di OpenAI sotto i riflettori. Il percorso verso lo sviluppo di tali modelli comporta il superamento di ostacoli legati a dati, hardware e aspetti legali, che spesso richiedono le risorse di grandi organizzazioni.
Presentazione dell'architettura LLM
Gli LLM, costruiti prevalentemente su architetture di trasformatori con potenzialmente miliardi di parametri, vengono sottoposti a pre-addestramento utilizzando dati testuali auto-supervisionati. L'allineamento dei modelli con le preferenze umane implica l'apprendimento per rinforzo con feedback umano (RLHF). Questi modelli mostrano notevoli capacità in diverse attività come la generazione di contenuti, la codifica, la traduzione e il riepilogo. Tuttavia, i limiti persistono. Roland Meertens, uno scienziato dell'apprendimento automatico, sottolinea che mentre ChatGPT completa automaticamente il testo, non è un motore di conoscenza.
Gli LLM occasionalmente "allucinano" o inventano fatti, portando a imprecisioni ed errori di ragionamento. OpenAI riconosce questo fenomeno e sottolinea un uso attento in contesti ad alto rischio. Il protocollo esatto, come la revisione umana, il grounding contestuale o l'evitamento di applicazioni critiche, dovrebbe essere allineato a casi d'uso specifici.
**Le complessità della formazione LLM**
La formazione di LLM da zero comporta un processo complesso. Le entità aziendali con dati abbondanti possono scegliere di mantenere la formazione interna. Tuttavia, questo sforzo richiede risorse significative, rendendolo fattibile per i principali attori come giganti della tecnologia o domini con ambiti limitati. L'accesso ai dati si rivela fondamentale, ma ottenere l'accesso a vasti set di dati simili a Google e Facebook è una sfida. Le preoccupazioni etiche circondano le fonti di dati pubbliche, che richiedono una pulizia meticolosa a causa di contenuti espliciti.
Requisiti hardware e di calcolo
La formazione degli LLM richiede l'accesso a hardware ad alte prestazioni e acceleratori specializzati come GPU o TPU. I guasti hardware durante l'addestramento sono comuni e richiedono riavvii manuali o automatici. Le tecniche di parallelismo suddividono i modelli in segmenti che si adattano alla memoria del dispositivo, utilizzando in modo efficiente il calcolo. L'elevata larghezza di banda di comunicazione è vitale per lo spostamento dei dati, aumentando i costi di formazione. La formazione richiede molto tempo e i costi possono raggiungere milioni di dollari.
Impatto ambientale ed efficienza energetica
L'impronta ambientale dei LLM di formazione è sostanziale, con il consumo energetico stimato e le emissioni di carbonio che raggiungono livelli significativi. La maggiore efficienza dell'hardware aiuta a mitigare l'impronta di carbonio. Man mano che l'hardware si evolve, l'efficienza energetica migliora, spingendo i professionisti a prendere in considerazione opzioni più ecologiche. L'architettura del software tenendo presente la sostenibilità è fondamentale per ridurre al minimo il consumo di energia.
Dilemmi legali e problemi di copyright
Gli LLM sollevano problemi legali, comprese controversie sul copyright sulla formazione su materiale protetto da copyright. Le incertezze legali in questo campo nascente rendono ambigui i modelli di business e le regole. Le cause legali relative all'uso della proprietà intellettuale dei dati di formazione sono all'orizzonte. Aziende come OpenAI e Google potrebbero dover affrontare sfide legali, con implicazioni per il futuro del settore.
Le leggi sulla privacy pongono ulteriori sfide, richiedendo alle applicazioni LLM di aderire a normative come GDPR, California Consumer Privacy Act e altre. Garantire che i chatbot e i sistemi di apprendimento automatico dimentichino le informazioni apprese rimane una questione complessa, soggetta a interpretazioni in evoluzione della legislazione esistente.
Impatto delle misure regolamentari
La regolamentazione è pronta a plasmare il panorama LLM. I severi requisiti dell'EU AI Act per i modelli di base potrebbero avere implicazioni di vasta portata, con un impatto sia sui modelli proprietari che su quelli open source. Gli sforzi di Sam Altman per sostenere la regolamentazione dell'IA mirano a stabilire un fossato legislativo, favorendo potenzialmente le grandi aziende rispetto ai giocatori più piccoli.
Dato l'impatto ambientale, i costi, le complessità tecniche e le preoccupazioni etiche, optare per LLM open source esistenti o API commerciali è una strategia prudente. Queste opzioni forniscono valide alternative all'intraprendere l'intricato viaggio della formazione di un LLM da zero.
La formazione degli LLM è uno sforzo multiforme, che richiede decisioni strategiche e una comprensione completa di dati, hardware, considerazioni etiche, legali e ambientali. Man mano che il panorama si evolve, le parti interessate devono soppesare i vantaggi rispetto alle complessità e fare scelte informate in linea con gli obiettivi e i valori delle loro organizzazioni.