In un’era segnata dalla rapida evoluzione della tecnologia AI, il dominio di giganti come ChatGPT viene messo in discussione mentre i chatbot specializzati nell’intelligenza artificiale guadagnano terreno. Questo cambiamento promette di rendere i chatbot basati sull’intelligenza artificiale più utili per settori e regioni specifici, ma solleva anche domande cruciali sui dati, sui dati sintetici e sul futuro dello sviluppo dell’intelligenza artificiale.
La specializzazione dei chatbot AI
Con l’evoluzione del panorama dell’intelligenza artificiale, i chatbot AI stanno diventando meno generici e più specializzati. La chiave della loro maggiore utilità risiede nei dati su cui vengono addestrati. I modelli di intelligenza artificiale tradizionali come ChatGPT gettano una vasta rete, assorbendo grandi quantità di dati da libri, pagine web e altro ancora. Tuttavia, questo approccio ampio sta gradualmente lasciando il posto a una selezione più mirata di dati di formazione adattati a settori o regioni specifici.
Questa tendenza alla specializzazione offre vantaggi significativi. I chatbot AI addestrati su set di dati mirati possono fornire risposte più accurate e pertinenti agli utenti. Ad esempio, un chatbot AI progettato per il settore sanitario può offrire consulenza medica specializzata, mentre uno focalizzato su una regione specifica può fornire informazioni e approfondimenti localizzati.
Il valore mutevole dei dati
Per comprendere l’evoluzione del panorama dell’intelligenza artificiale, è fondamentale comprendere il valore in evoluzione dei dati. Aziende come Meta e Google traggono da tempo profitto dai dati degli utenti vendendo pubblicità mirate. Tuttavia, il valore dei dati per organizzazioni come OpenAI, lo sviluppatore di ChatGPT, è leggermente diverso. Considerano i dati come un mezzo per insegnare ai sistemi di intelligenza artificiale a costruire un linguaggio simile a quello umano.
Considera un semplice tweet: "Il gatto si è seduto sul tappetino". Anche se questo tweet potrebbe non essere particolarmente prezioso per gli inserzionisti, costituisce un prezioso esempio di costruzione del linguaggio umano per gli sviluppatori di intelligenza artificiale. I modelli linguistici di grandi dimensioni (LLM) come GPT-4 sono costruiti utilizzando miliardi di punti dati provenienti da piattaforme come Twitter, Reddit e Wikipedia.
Questo cambiamento nel valore dei dati sta cambiando anche i modelli di business delle organizzazioni ricche di dati. Piattaforme come X e Reddit ora addebitano a terze parti l'accesso API ai dati di recupero, con conseguente aumento dei costi per l'acquisizione dei dati.
L'emergere di dati sintetici
Con l’aumento dei costi di acquisizione dei dati, la comunità dell’intelligenza artificiale sta esplorando i dati sintetici come soluzione. I dati sintetici vengono generati da zero dai sistemi di intelligenza artificiale per addestrare modelli di intelligenza artificiale avanzati. Imita i dati di allenamento reali ma è creato da algoritmi AI.
Tuttavia, i dati sintetici presentano sfide. Deve raggiungere un delicato equilibrio: essere abbastanza diverso da insegnare ai modelli qualcosa di nuovo pur rimanendo abbastanza simile da essere accurato. Se i dati sintetici si limitano a replicare le informazioni esistenti, possono ostacolare la creatività e perpetuare i pregiudizi.
Un'altra preoccupazione è il cosiddetto problema dell'intelligenza artificiale asburgica. L’addestramento dell’IA su dati sintetici potrebbe portare a un calo dell’efficacia del sistema, simile alla consanguineità nella famiglia reale degli Asburgo. Alcuni studi suggeriscono che ciò sta già accadendo con sistemi di intelligenza artificiale come ChatGPT.
L’importanza del feedback umano
Uno dei motivi del successo di ChatGPT è l'uso dell'apprendimento per rinforzo con feedback umano (RLHF), in cui valutatori umani valutano l'accuratezza dei suoi risultati. Poiché i sistemi di intelligenza artificiale si affidano sempre più a dati sintetici, è probabile che cresca la richiesta di feedback umano per correggere le imprecisioni.
Tuttavia, valutare l’accuratezza fattuale, soprattutto in ambiti specialistici o tecnici, può essere difficile. Le imprecisioni in argomenti specialistici potrebbero passare inosservate da RLHF, con un potenziale impatto sulla qualità dei LLM di carattere generale.
Il futuro dell’intelligenza artificiale: piccoli modelli linguistici specializzati
Queste sfide nel panorama dell’intelligenza artificiale stanno guidando le tendenze emergenti. Gli ingegneri di Google hanno indicato che terze parti possono ricreare LLM come GPT-3 o LaMDA AI. Molte organizzazioni stanno ora costruendo i propri sistemi di intelligenza artificiale interna utilizzando dati specializzati, adattati ai loro obiettivi specifici.
Ad esempio, il governo giapponese sta valutando la possibilità di sviluppare una versione di ChatGPT incentrata sul Giappone per rappresentare meglio la propria regione. Aziende come SAP offrono funzionalità di sviluppo dell'intelligenza artificiale alle organizzazioni per creare versioni su misura di ChatGPT. Società di consulenza come McKinsey e KPMG stanno esplorando modelli di intelligenza artificiale per scopi specifici ed esistono già sistemi open source come GPT4All.
Le potenzialità dei piccoli modelli linguistici
Alla luce delle sfide di sviluppo e dei potenziali ostacoli normativi per i LLM generici, il futuro dell’intelligenza artificiale potrebbe essere caratterizzato da molti “piccoli” modelli linguistici specializzati. Questi modelli potrebbero avere meno dati rispetto a sistemi come GPT-4 ma potrebbero trarre vantaggio da un feedback RLHF mirato.
I dipendenti con una conoscenza approfondita degli obiettivi della propria organizzazione possono fornire un feedback prezioso ai sistemi di intelligenza artificiale specializzati, compensando gli svantaggi di avere meno dati. Questi sviluppi indicano uno spostamento verso soluzioni di intelligenza artificiale altamente personalizzate che si rivolgono a settori, regioni e scopi specifici.
Il panorama dell’intelligenza artificiale sta subendo una trasformazione segnata dall’ascesa di chatbot specializzati nell’intelligenza artificiale e dalle sfide poste dai dati sintetici. Mentre giganti come ChatGPT continuano a dominare, il futuro dell’intelligenza artificiale potrebbe effettivamente essere caratterizzato da molti modelli linguistici più piccoli e appositamente progettati per eccellere in domini specifici. Man mano che questa evoluzione si sviluppa, trovare il giusto equilibrio tra dati, dati sintetici e feedback umano sarà fondamentale per garantire il continuo progresso della tecnologia AI.