Mercoledì OpenAI ha rilasciato una nuova generazione di modelli vocali nella sua API, fornendo agli sviluppatori strumenti per creare app in grado di ragionare sulle richieste vocali, tradurre in oltre 70 lingue e trascrivere il parlato in tempo reale.
I tre modelli si chiamano GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper. Essi portano le interfacce vocali basate sull'IA oltre i semplici scambi di domande e risposte, in un territorio in cui un agente IA può ascoltare, pensare e agire durante una conversazione.
GPT-Realtime-2 offre un ragionamento più preciso per la voce
GPT-Realtime-2 è il modello di punta. OpenAI afferma che offre capacità di ragionamento di livello GPT-5, un notevole passo avanti rispetto al suo predecessore, GPT-Realtime-1.5.
Il modello ha ottenuto un punteggio superiore del 15,2% su Big Bench Audio, un benchmark per l'intelligenza audio , e del 13,8% su Audio MultiChallenge, che testa la capacità di seguire le istruzioni in dialoghi parlati a più turni.
Gli aggiornamenti pratici sono rivolti agli sviluppatori che creano agenti vocali per la produzione. Il modello ora supporta una finestra di contesto di 128.000 caratteri, quadruplicata rispetto al precedente limite di 32.000 caratteri, e offre cinque livelli di sforzo di ragionamento regolabili, da "minimo" ad "altissimo".
Può richiamare più strumenti contemporaneamente, recuperare dagli errori con conferme vocali e produrre brevi frasi di collegamento come "fammi controllare" durante l'elaborazione di una richiesta.
GPT-Realtime-Translate gestisce la traduzione vocale in tempo reale. Accetta più di 70 lingue di input e produce output in 13, progettato per tenere il passo con chi parla in tempo reale.
GPT-Realtime-Whisper offre la conversione in testo del parlato (STT) in streaming, trascrivendo le parole man mano che vengono pronunciate anziché attendere il completamento dell'enunciato.
Zillow e Deutsche Telekom testano i modelli in produzione
Diverse aziende hanno ottenuto l'accesso anticipato. Zillow sta sviluppando un assistente vocale in grado di elaborare complesse richieste immobiliari, gestire le chiamate agli strumenti per la ricerca di annunci e rispettare le normative in materia di parità di accesso agli alloggi.
L'azienda ha riportato un miglioramento di 26 punti percentuali nel tasso di successo delle chiamate sul suo benchmark più difficile, in seguito a una rapida ottimizzazione con GPT-Realtime-2, raggiungendo il 95% rispetto al 69% precedente.
Deutsche Telekom sta testando la traduzione in tempo reale per l'assistenza clienti, consentendo agli utenti di parlare nella propria lingua preferita mentre il modello gestisce la traduzione automatica da entrambe le parti.
Priceline sta valutando la possibilità di sviluppare un assistente di viaggio a comando vocale in grado di gestire, in un'unica sessione, la ricerca di voli, le modifiche alle prenotazioni alberghiere e le traduzioni in loco.
I modelli si rivolgono ad aziende che desiderano ampliare le proprie capacità di assistenza clienti, ma hanno anche evidenziato potenziali applicazioni in settori quali istruzione, media, eventi e piattaforme per creatori di contenuti.
OpenAI ha dichiarato di aver integrato la moderazione dei contenuti nei nuovi modelli, con meccanismi di interruzione delle conversazioni che violano le linee guida sui contenuti dannosi. L'azienda ha presentato questi meccanismi come una protezione contro spam, frodi e altre forme di abuso.
Per quanto riguarda i prezzi, i modelli Translate e Whisper fatturano al minuto. GPT-Realtime-2 fattura in base al consumo di token. Tutti e tre sono disponibili tramite l'API Realtime di OpenAI, accessibile tramite connessioni WebRTC, WebSocket e SIP.
Esiste una via di mezzo tra lasciare i soldi in banca e tentare la fortuna con le criptovalute. Inizia con questo video gratuito sulla finanza decentralizzata .