In che modo i ricercatori diligenti colmano il divario linguistico dell’IA in Africa e oltre

Gli strumenti basati sull'intelligenza artificiale, come ChatGPT e Google Translate, offrono incredibili opportunità per coloro che parlano lingue supportate da queste tecnologie. Tuttavia, miliardi di persone nel Sud del mondo, inclusa l'Africa, non possono beneficiare di questi progressi a causa della mancanza di supporto per le loro lingue native. Questo divario linguistico riguarda non solo l'intelligenza artificiale generativa e i servizi di traduzione, ma anche altri strumenti come il completamento automatico, i servizi di trascrizione, gli assistenti vocali e la moderazione dei contenuti sui social media. La scarsità di dati di addestramento è la ragione principale alla base della funzionalità limitata degli strumenti di intelligenza artificiale in molte lingue, in particolare nelle lingue con poche risorse.

La sfida delle lingue a basso contenuto di risorse

Gli strumenti di intelligenza artificiale operano su grandi quantità di dati di addestramento e il set di dati Common Crawl, che consiste di miliardi di pagine Web, è una fonte cruciale per l'addestramento dei modelli linguistici. Tuttavia, questo set di dati è fortemente dominato da alcune lingue, con l'inglese che è il più importante. Di conseguenza, lingue come l'amarico e altre lingue africane, americane e oceaniche costituiscono meno dello 0,1% del Common Crawl. Questa scarsità di dati ostacola l'efficacia degli strumenti di intelligenza artificiale per i parlanti di lingue con poche risorse, comprese le lingue principali come l'hindi, l'arabo e il bengalese.

La disparità è evidente nella rappresentazione di lingue diverse nei set di dati di addestramento AI. Ad esempio, l'olandese, parlato da circa 20 milioni di persone, ha molti più dati nel Common Crawl rispetto all'amarico, anche se entrambe le lingue hanno madrelingua simili. Questa tendenza non si limita all'olandese ma si estende a varie lingue europee, che sono sovrarappresentate rispetto alla maggior parte delle lingue asiatiche e africane.

Superare la scarsità di dati

Per far fronte alla mancanza di dati per le lingue a basso contenuto di risorse, i ricercatori e le startup stanno prendendo in mano la situazione. Un esempio è Lesan, una startup focalizzata sulla creazione di traduzione automatica e tecnologia vocale per lingue etiopi come l'amarico e il tigrino. Invece di affidarsi a vaste risorse online, il team di Lesan collabora direttamente con la comunità, sfruttando l'entusiasmo di studenti e amanti delle lingue per raccogliere dati. Il processo prevede l'identificazione di set di dati di alta qualità, la loro digitalizzazione e traduzione e l'allineamento delle versioni originali e tradotte per l'addestramento al machine learning.

Le startup africane abbracciano la tecnologia AI

L'approccio di Lesan riflette una tendenza in crescita tra le startup africane che sviluppano strumenti basati sull'intelligenza artificiale per le loro lingue native. Questi progetti dimostrano che è possibile costruire modelli utili con set di dati piccoli e curati, sfidando l'idea che un unico modello gigantesco sia l'unico modo per avere successo. Le iniziative intraprese da ricercatori e imprenditori africani promuovono la proprietà della tecnologia, assicurando che i benefici finanziari rimangano all'interno delle loro comunità.

Sforzi globali per l'inclusione linguistica

Al di là dell'Africa, i ricercatori di tutto il mondo lavorano su lingue con impronte digitali minori, come il patois giamaicano, il catalano, il sudanese e il māori. Il supporto di Ethnologue per le risorse linguistiche vitali indica che gli strumenti di traduzione automatica, i controlli ortografici e l'elaborazione vocale sono disponibili per lingue come l'amarico. Tuttavia, molte lingue con milioni di parlanti mancano ancora di un supporto digitale sufficiente, lasciando milioni di persone senza strumenti basati sull'intelligenza artificiale.

Sforzi come il Distributed AI Research Institute (DAIR), GhanaNLP, Masakhane e il collettivo Hugging Face AI dimostrano il potere della collaborazione e della condivisione di intuizioni. I ricercatori stanno lavorando insieme per creare soluzioni per le loro lingue, rendendo la tecnologia AI accessibile a una gamma più ampia di comunità linguistiche. A differenza di alcuni giganti della tecnologia, queste iniziative promuovono la trasparenza condividendo liberamente modelli e conoscenze di intelligenza artificiale, consentendo ai ricercatori di creare soluzioni specifiche per lingua.

Il divario linguistico negli strumenti di intelligenza artificiale rappresenta una sfida significativa per miliardi di persone, in particolare quelle del Sud del mondo. La scarsità di dati nei linguaggi con poche risorse ostacola la funzionalità degli strumenti basati sull'intelligenza artificiale, impedendo a molti di beneficiare di queste tecnologie. Tuttavia, attraverso approcci innovativi, collaborazione e condivisione di approfondimenti, ricercatori e startup dall'Africa e da tutto il mondo stanno facendo passi da gigante nel colmare il divario linguistico e nel potenziare le comunità linguistiche con i progressi dell'IA. Dando la priorità all'inclusione linguistica e supportando lingue diverse, l'IA può diventare una forza di trasformazione per tutti, indipendentemente dalla loro lingua.