Ricercatori di intelligenza artificiale mirano a creare chatbot per le lingue africane

Ricercatori di intelligenza artificiale mirano a creare chatbot per le lingue africane

Il campo dell'elaborazione del linguaggio naturale (PNL) è avanzato maggiormente nelle lingue più utilizzate come l'inglese e il russo. Ma un corpo di ricerca emergente si concentra sulla formazione di modelli di intelligenza artificiale che utilizzano lingue africane.

Grazie a tali sforzi, il sogno di un chatbot in lingua africana si sta avvicinando alla realtà.

Ricerca sui chatbot dominata dalla lingua inglese

L'elaborazione del linguaggio naturale e i modelli di linguaggio di grandi dimensioni che alimentano chatbot come ChatGPT sono ancora tecnologie relativamente nuove. E fino ad oggi, la ricerca e lo sviluppo si sono concentrati sulle lingue più parlate.

Ad esempio, ChatGPT è disponibile in inglese, spagnolo, francese, tedesco, portoghese, italiano, olandese, russo, arabo e cinese.

La tendenza al predominio linguistico nella ricerca sull'intelligenza artificiale è in gran parte guidata dalla disponibilità dei dati.

Si stima che oltre la metà di tutti i contenuti scritti disponibili online sia in inglese. Di conseguenza, dei set di dati necessari per addestrare i modelli linguistici, i più grandi e facilmente disponibili sono in inglese, seguiti dalle altre lingue più popolari.

Le lingue africane rappresentano una sfida per i ricercatori di intelligenza artificiale

Attualmente, le più grandi aziende di intelligenza artificiale del mondo si stanno battendo per creare i chatbot più avanzati per una manciata di lingue. Ma un altro ambito di ricerca sta cercando di sviluppare strumenti di intelligenza artificiale per le lingue meno popolari.

Per le lingue africane, la limitata disponibilità di dati sulla formazione rappresenta una sfida significativa per gli sviluppatori di intelligenza artificiale .

La diversità linguistica di molti paesi africani complica ulteriormente le cose. Ad esempio, il Sudafrica ha 11 lingue parlate ufficiali e ci sono trentacinque lingue autoctone del paese. Con circa 2000 lingue in uso nel continente, accumulare vaste librerie di contenuti digitali su scala equivalente all'inglese sarebbe quasi impossibile

Lingue parlate in Africa Chatbot Research
Rappresentazione della diversità linguistica africana (Fonte: ACL Anthology )

Inoltre, uno studio recente ha identificato la mancanza di strumenti linguistici digitali di base come un fattore che inibisce la creazione di contenuti. Come hanno osservato gli autori:

"La creazione di contenuti digitali nelle lingue africane è frustrante a causa della mancanza di strumenti di base come dizionari, correttori ortografici e tastiere".

Ciononostante, sono in corso sforzi per aumentare la disponibilità di dati sulle lingue africane, ad esempio digitalizzando archivi linguistici e rendendo liberamente accessibili più set di dati. Anche il lavoro di creatori di contenuti, curatori e traduttori è fondamentale.

I modelli multilingue potrebbero trasformare in realtà i chatbot in lingua africana

Sebbene la mancanza di dati sulla formazione abbia certamente frenato la ricerca sulla PNL in lingua africana, i modelli linguistici pre-addestrati multilingue (mPLM) potrebbero aiutare i ricercatori a superare questa sfida.

I modelli pre-addestrati possono essere considerati gli elementi costitutivi di chatbot ad alto funzionamento. Tuttavia, richiedono ancora una messa a punto specifica dell'attività per fornire output conversazionali.

Acquisendo informazioni linguistiche generalizzabili durante il pretraining, i modelli multilingue sono in grado di interpretare la struttura di base e lo schema delle lingue correlate senza gli enormi set di dati di training normalmente richiesti.

Non sorprende che uno studio recente abbia dimostrato che la somiglianza linguistica migliora le prestazioni del modello. Proprio come i parlanti di lingue correlate possono spesso capirsi, i modelli addestrati con una lingua possono interpretare accuratamente lingue simili.

Usando questo approccio, i ricercatori hanno sviluppato un mPLM che hanno chiamato SERENGETI, che copre 517 lingue e varietà linguistiche africane.

Ciò rappresenta un importante balzo in avanti tecnologico e un miglioramento significativo rispetto alle 31 lingue africane precedentemente coperte.

Il post Ricercatori di intelligenza artificiale mirano a creare chatbot per le lingue africane è apparso per la prima volta su BeInCrypto .

Inizia a scrivere il termine ricerca qua sopra e premi invio per iniziare la ricerca. Premi ESC per annullare.

Torna in alto